发明名称 舆情垂直搜索分析系统及方法
摘要 本发明涉及网络信息处理技术,公开了一种舆情垂直搜索分析系统,该系统应用于基于文本的网络舆情搜索分析,包括垂直搜索引擎爬虫模块、基于模板的信息抽取模块、基于短语抽取的文本倾向性分析模块、基于词汇统计模式的文本倾向性分析模块;与现有技术相比,本发明采用的基于短语模式和词汇统计模式的信息情感倾向性的算法准确率较现有技术对比,提高了5个百分点左右,算法改进的效果比较明显步骤;同时,多线程的方法设计提高了处理的执行效率,因此,对于舆情搜索分析达成了更快,更准确的搜索分析效果。
申请公布号 CN102609427A 申请公布日期 2012.07.25
申请号 CN201110354973.1 申请日期 2011.11.10
申请人 天津大学 发明人 饶国政;贾彪;冯志勇
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 李素兰
主权项 一种舆情垂直搜索分析系统,该系统应用于基于文本的网络舆情搜索分析,其特征在于,该系统包括垂直搜索引擎爬虫模块、基于模板的信息抽取模块、基于短语抽取的文本倾向性分析模块、基于词汇统计模式的文本倾向性分析模块,其中:垂直搜索引擎爬虫模块,利用爬虫算法通过基于网络拓扑和网页内容关键字的过滤技术及广度优先搜索的网页爬取,有选择的搜索并下载与舆情主题相关的互联网网页;基于模板的信息抽取模块,从网页源代码信息中抽取出结构化的数据,并以所需的固定形式存储到数据库中;基于短语抽取的文本倾向性分析模块,基于短语抽取模式得到结构化信息,并分别对结构化信息文本语料进行倾向性分析,得到文本语料的最终倾向度Sensibility(Text);该模块的处理包括:词汇A与词汇B的情感倾向权值,记为Sensibility(A)或Sensibility(B);判断词汇A与词汇B是否存在于“程度副词”及“否定副词”词表中:若词汇A与词汇B均不在,则该短语的情感倾向权值为Sensibility(A+B)=Sensiblilty(A)+Sensibility(B);若词汇A存在于“否定副词”词表中,则短语中心词为词汇B,计算词汇B的情感权值为Sensibility(B),则该短语的情感权值Sensibility(A+B)=(‑1)×Sensibility(B);反之,若词汇B存在于“否定副词”词表中,则该短语中心词为词汇A,该短语的情感权值Sensibility(A+B)=(‑1)×Sensibility(A);若词汇A存在于“程度副词”词表中,则短语中心词为词汇B,用level(A)表示作为程度副词的词汇A的程度倍数,该短语的情感权值Sensibility(A+B)=level(A)×Sensibility(B);反之,用level(B)表示作为程度副词的词汇B的程度倍数,该短语的情感权值Sensibility(A+B)=level(B)×Sensibility(A);分别计算所有褒义倾向与贬义词倾向的短语权值和,用Positive(words)与 Negative(words)分别表示有褒义倾向与贬义词倾向的短语权值:将所有短语情感权值求和,所得结果小于0的作为贬义词倾向的短语权值 <mrow> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mi>Sensibility</mi> <msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> </mrow> <mi>i</mi> </msub> <mo>,</mo> <mi>if</mi> <mrow> <mo>(</mo> <mi>Sensibility</mi> <msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> </mrow> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>0</mn> <mo>;</mo> </mrow>将所有短语情感权值求和,所得结果大于或等于0的作为褒义词倾向和中性短语权值 <mrow> <mi>Positive</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mi>Sensibility</mi> <msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> </mrow> <mi>j</mi> </msub> <mo>,</mo> <mi>if</mi> <mrow> <mo>(</mo> <mi>Sensibility</mi> <msub> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> </mrow> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>></mo> <mo>=</mo> <mn>0</mn> <mo>;</mo> </mrow>文本语料的最终倾向度用Sensibility(Text)表示,则 <mrow> <mi>Sensibility</mi> <mrow> <mo>(</mo> <mi>Text</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>Positive</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Positvie</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>words</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>若Sensibility(Text)<0,则表示该文本为贬义倾向文本;若Sensibility(Text)>=0则表示该文本为褒义倾向或中性文本;基于词汇统计模式的文本倾向性分析模块,完成系统的信息来源及负面倾向性分析,得到文本Text情感倾向性值,该模块的具体处理包括:读入文本Text,将文本Text按标点进行分句,标记为S1,S2,ΛΛ Sn;搜索S1所有具有明确语义倾向的态度词,这里所搜索的态度词的词性为形容词、副词、名词、动词及成语等,利用词汇情感计算模块计算各态度词情感权值,并将S1中所有态度词的权值进行叠加,得到该分句的所有态度词权值总和V1;搜索S1所有包含在程度副词词典中的程度词数量,当包含程度词时,将态度权值V1乘以程度副词在程度词典中的程度倍数level(),即level()×V1;S1计算完毕,搜索Text的下一分句S2重复前面三个步骤,计算得到该分句S2的所有态度词权值总和V2;直到计算出最后一分句的所有态度词权值总和Vn后,分别计算正面Vi权值总和Positive(Sentences),与负面Vi权值总和Negative(Sentences) <mrow> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>a</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>N</mi> <mn>0</mn> </msub> </munderover> <msub> <mi>Vi</mi> <mi>i</mi> </msub> <mi>if</mi> <mrow> <mo>(</mo> <mi>Vi</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>0</mn> <mo>;</mo> </mrow> <mrow> <mi>Positive</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>a</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>N</mi> <mn>0</mn> </msub> </munderover> <msub> <mi>Vj</mi> <mi>j</mi> </msub> <mi>if</mi> <mrow> <mo>(</mo> <mi>Vj</mi> <mo>)</mo> </mrow> <mo>></mo> <mo>=</mo> <mn>0</mn> <mo>;</mo> </mrow>最后计算最终文本倾向度为: <mrow> <mi>Sensibility</mi> <mrow> <mo>(</mo> <mi>Text</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>Positive</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Positive</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>Negative</mi> <mrow> <mo>(</mo> <mi>Sentences</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>
地址 300072 天津市南开区卫津路92号