发明名称 基于可变边界支持向量机的重要信息获取方法
摘要 本发明公开了一种基于可变边界支持向量机的重要信息获取方法,主要克服现有技术中忽视对式样本重要度差异性信息的不足。其实施步骤为:针对待评价信息对象,通过smart搜索引擎,搜集需求信息,并将这些信息进行预处理,得到原始训练集;在原始训练集上,构造新的训练集,引入可变边界因子,这个因子为原始训练集中两两样本的样本标识之差的绝对值;输入新训练集,将这个因子作为支持向量机每个约束中的边界,对信息评价模型进行训练,得到信息评价函数;输入待评价信息的样本特征矢量,根据这些特征矢量的函数值大小,就可以获得重要信息。本发明具有获取重要信息的平均准确率高的优点,可用于信息重要度评级,产品质量评价。
申请公布号 CN101710392B 申请公布日期 2011.09.21
申请号 CN200910219450.9 申请日期 2009.12.11
申请人 西安电子科技大学 发明人 张莉;郑小皇;王婷;冯骁;焦李成
分类号 G06N5/00(2006.01)I;G06F17/30(2006.01)I 主分类号 G06N5/00(2006.01)I
代理机构 陕西电子工业专利中心 61205 代理人 王品华;朱红星
主权项 1.一种基于可变边界支撑向量机的重要信息获取方法,包括:搜集需求信息步骤;针对待评价信息对象,通过smart搜索引擎,按照查询需求,将需收集的信息提取成一个文本集合;信息预处理步骤:利用文本集合的词频和逆向文件频率的t维原始特征t>44,对文本集合进行特征提取,将这些提取的特征转换为45维数值特征向量,对这些特征向量进行降维,得到样本集(x<sub>i</sub>,y<sub>i</sub>),i=1.......n,x<sub>1</sub>,…x<sub>n</sub>是二维样本特征矢量,y<sub>i</sub>为样本重要度标识,n为样本数;信息评价模型的训练步骤:将上步得到的样本集中的r个样本作为原始训练集r<n,在原始训练集((x<sub>1</sub>,y<sub>1</sub>),…,(x<sub>r</sub>,y<sub>r</sub>))中,由任意两个二维样本特征矢量形成对式样本<img file="FSB00000490070800011.GIF" wi="212" he="85" />若第一样本特征矢量<img file="FSB00000490070800012.GIF" wi="59" he="65" />的重要度标识大于第二样本特征矢量<img file="FSB00000490070800013.GIF" wi="63" he="66" />的重要度标识,则将对式样本<img file="FSB00000490070800014.GIF" wi="187" he="84" />标识为z<sub>i</sub>=1,反之z<sub>i</sub>=-1,构造出新的训练集:<img file="FSB00000490070800015.GIF" wi="382" he="84" />i=1,2,…m,m=O(n<sup>2</sup>),m为新训练集样本数,<img file="FSB00000490070800016.GIF" wi="407" he="115" />为可变边界因子,体现了对式样本信息重要度的差异;利用<u>如下</u>可变边界的支持向量机信息评价方法,对新的训练集进行训练,得到信息评价函数f(x)=w·x,w为训练得到的权值参数,x为输入的二维样本特征矢量:首先,输入训练样本集<img file="FSB00000490070800017.GIF" wi="364" he="83" />i=1,2,…m;然后,根据支持向量机理论,通过下式计算输入训练集的权值参数w:<maths num="0001"><![CDATA[<math><mrow><mi>w</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>d</mi><mi>i</mi></msub><msub><mi>z</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>式中,z<sub>i</sub>为第i个样本的标识,d<sub>i</sub>为可变边界因子,α<sub>i</sub>为未知的拉格朗日因子,0≤α<sub>i</sub>≤C,该拉格朗日因子通过如下二次规划公式求解:<maths num="0002"><![CDATA[<math><mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>d</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>j</mi></msub><msub><mi>z</mi><mi>i</mi></msub><msub><mi>z</mi><mi>j</mi></msub><mo>&lt;</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mi>j</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>j</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>></mo></mrow></math>]]></maths><img file="FSB00000490070800022.GIF" wi="58" he="64" />为第i个对式样本的第一样本特征矢量,<img file="FSB00000490070800023.GIF" wi="64" he="64" />为第i个对式样本的第二样本特征矢量,<img file="FSB00000490070800024.GIF" wi="59" he="72" />为第j个对式样本的第一样本特征矢量,<img file="FSB00000490070800025.GIF" wi="64" he="72" />为第j个对式样本的第二样本特征矢量,z<sub>j</sub>为第j个样本的标识;重要信息的获取步骤:在信息评价函数f(x)=w·x中输入待评价信息的样本特征矢量,按照这些特征矢量的函数值大小,进行降序排列,将排在前面的样本,作为要获取的重要信息。
地址 710071 陕西省西安市太白南路2号