基于可变边界支持向量机的重要信息获取方法,申请号CN200910219450.9-传众专利搜索

发明名称	基于可变边界支持向量机的重要信息获取方法
摘要	本发明公开了一种基于可变边界支持向量机的重要信息获取方法，主要克服现有技术中忽视对式样本重要度差异性信息的不足。其实施步骤为：针对待评价信息对象，通过smart搜索引擎，搜集需求信息，并将这些信息进行预处理，得到原始训练集；在原始训练集上，构造新的训练集，引入可变边界因子，这个因子为原始训练集中两两样本的样本标识之差的绝对值；输入新训练集，将这个因子作为支持向量机每个约束中的边界，对信息评价模型进行训练，得到信息评价函数；输入待评价信息的样本特征矢量，根据这些特征矢量的函数值大小，就可以获得重要信息。本发明具有获取重要信息的平均准确率高的优点，可用于信息重要度评级，产品质量评价。
申请公布号	CN101710392B	申请公布日期	2011.09.21
申请号	CN200910219450.9	申请日期	2009.12.11
申请人	西安电子科技大学	发明人	张莉;郑小皇;王婷;冯骁;焦李成
分类号	G06N5/00(2006.01)I;G06F17/30(2006.01)I	主分类号	G06N5/00(2006.01)I
代理机构	陕西电子工业专利中心 61205	代理人	王品华;朱红星
主权项	1.一种基于可变边界支撑向量机的重要信息获取方法，包括：搜集需求信息步骤；针对待评价信息对象，通过smart搜索引擎，按照查询需求，将需收集的信息提取成一个文本集合；信息预处理步骤：利用文本集合的词频和逆向文件频率的t维原始特征t＞44，对文本集合进行特征提取，将这些提取的特征转换为45维数值特征向量，对这些特征向量进行降维，得到样本集(x<sub>i</sub>，y<sub>i</sub>)，i＝1.......n，x<sub>1</sub>，…x<sub>n</sub>是二维样本特征矢量，y<sub>i</sub>为样本重要度标识，n为样本数；信息评价模型的训练步骤：将上步得到的样本集中的r个样本作为原始训练集r＜n，在原始训练集((x<sub>1</sub>，y<sub>1</sub>)，…，(x<sub>r</sub>，y<sub>r</sub>))中，由任意两个二维样本特征矢量形成对式样本<img file="FSB00000490070800011.GIF" wi="212" he="85" />若第一样本特征矢量<img file="FSB00000490070800012.GIF" wi="59" he="65" />的重要度标识大于第二样本特征矢量<img file="FSB00000490070800013.GIF" wi="63" he="66" />的重要度标识，则将对式样本<img file="FSB00000490070800014.GIF" wi="187" he="84" />标识为z<sub>i</sub>＝1，反之z<sub>i</sub>＝-1，构造出新的训练集：<img file="FSB00000490070800015.GIF" wi="382" he="84" />i＝1，2，…m，m＝O(n<sup>2</sup>)，m为新训练集样本数，<img file="FSB00000490070800016.GIF" wi="407" he="115" />为可变边界因子，体现了对式样本信息重要度的差异；利用<u>如下</u>可变边界的支持向量机信息评价方法，对新的训练集进行训练，得到信息评价函数f(x)＝w·x，w为训练得到的权值参数，x为输入的二维样本特征矢量：首先，输入训练样本集<img file="FSB00000490070800017.GIF" wi="364" he="83" />i＝1，2，…m；然后，根据支持向量机理论，通过下式计算输入训练集的权值参数w：<maths num="0001"><![CDATA[<math><mrow><mi>w</mi><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>d</mi><mi>i</mi></msub><msub><mi>z</mi><mi>i</mi></msub><msub><mi>α</mi><mi>i</mi></msub><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>式中，z<sub>i</sub>为第i个样本的标识，d<sub>i</sub>为可变边界因子，α<sub>i</sub>为未知的拉格朗日因子，0≤α<sub>i</sub>≤C，该拉格朗日因子通过如下二次规划公式求解：<maths num="0002"><![CDATA[<math><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>d</mi><mi>i</mi></msub><msub><mi>α</mi><mi>i</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><munderover><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>α</mi><mi>j</mi></msub><msub><mi>z</mi><mi>i</mi></msub><msub><mi>z</mi><mi>j</mi></msub><mo><</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>i</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>x</mi><mi>j</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>-</mo><msubsup><mi>x</mi><mi>j</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>></mo></mrow></math>]]></maths><img file="FSB00000490070800022.GIF" wi="58" he="64" />为第i个对式样本的第一样本特征矢量，<img file="FSB00000490070800023.GIF" wi="64" he="64" />为第i个对式样本的第二样本特征矢量，<img file="FSB00000490070800024.GIF" wi="59" he="72" />为第j个对式样本的第一样本特征矢量，<img file="FSB00000490070800025.GIF" wi="64" he="72" />为第j个对式样本的第二样本特征矢量，z<sub>j</sub>为第j个样本的标识；重要信息的获取步骤：在信息评价函数f(x)＝w·x中输入待评价信息的样本特征矢量，按照这些特征矢量的函数值大小，进行降序排列，将排在前面的样本，作为要获取的重要信息。
地址	710071 陕西省西安市太白南路2号