发明名称 一种面向博客群的主题倾向性处理方法及系统
摘要 本发明涉及一种面向博客群的主题倾向性处理方法及系统。该方法包括:步骤1,计算目标文本T中每个中文字Ci符倾向性权重SCi,如果SCi的绝对值小于或等于中性中文字符倾向性阈值,则将SCi置零;步骤2,如果Ncount<ThLongText,计算目标文本的倾向性;如果Ncount≥ThLongText,则查询预先设置的倾向性案例知识库中的倾向性案例,如果存在相似的倾向性案例,则复用该相似的倾向性案例的倾向性;如果不存在相似的倾向性案例,则计算目标文本的倾向性;Ncount和ThLongText分别为字符总数量和篇幅长度阈值。本发明有效实现了网络虚拟社会环境中不同层次评论人群对于某确定主题事件的倾向挖掘,为进一步网络舆情分类检索提供良好的语义参考解决方案。
申请公布号 CN102073646A 申请公布日期 2011.05.25
申请号 CN200910223523.1 申请日期 2009.11.23
申请人 北京科技大学 发明人 胡长军;赵冲冲;翁彧;赵立永
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汇信合知识产权代理有限公司 11335 代理人 王秀丽
主权项 一种面向博客群的主题倾向性处理方法,其特征在于,包括:步骤1,计算目标文本T中每个中文字Ci符倾向性权重SCi;SCi=PCi‑NCi; <mrow> <msub> <mi>P</mi> <mi>ci</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>fp</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>fp</mi> <mi>cj</mi> </msub> </mrow> <mrow> <msub> <mi>fp</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>fp</mi> <mi>cj</mi> </msub> <mo>+</mo> <msub> <mi>fn</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>fn</mi> <mi>cj</mi> </msub> </mrow> </mfrac> <mo>;</mo> </mrow> <mrow> <msub> <mi>N</mi> <mi>ci</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>fn</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>fn</mi> <mi>cj</mi> </msub> </mrow> <mrow> <msub> <mi>fp</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>fp</mi> <mi>cj</mi> </msub> <mo>+</mo> <msub> <mi>fn</mi> <mi>ci</mi> </msub> <mo>/</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>fn</mi> <mi>cj</mi> </msub> </mrow> </mfrac> <mo>;</mo> </mrow>如果SCi的绝对值小于或等于ThNeutralChar,则将SCi置零;步骤2,如果Ncount<ThLongText,计算目标文本的倾向性 <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>count</mi> </msub> </munderover> <msub> <mi>S</mi> <mi>ci</mi> </msub> <mo>;</mo> </mrow>如果Ncount≥ThLongText,则查询预先设置的倾向性案例知识库中的倾向性案例,如果存在相似的倾向性案例,则复用该相似的倾向性案例的倾向性;如果不存在相似的倾向性案例,则计算目标文本的倾向性 <mrow> <mi>S</mi> <mrow> <mo>(</mo> <mi>T</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>+</mo> </msubsup> <mo>|</mo> <mo>|</mo> </mrow> </munderover> <msubsup> <mi>S</mi> <mi>cj</mi> <mo>+</mo> </msubsup> <mo>&CenterDot;</mo> <mi>Distrib</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>+</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>-</mo> </msubsup> <mo>|</mo> <mo>|</mo> </mrow> </munderover> <msubsup> <mi>S</mi> <mi>cj</mi> <mo>-</mo> </msubsup> <mo>&CenterDot;</mo> <mi>Distrib</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow> <mrow> <mi>Distrib</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>+</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>RList</mi> <mi>Cluster</mi> </msub> <mo>[</mo> <mi>PositionList</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>+</mo> </msubsup> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mrow> <msub> <mi>N</mi> <mi>count</mi> </msub> <mo>/</mo> <mn>2</mn> </mrow> </mfrac> <mo>;</mo> </mrow> <mrow> <mi>Distrib</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>RList</mi> <mi>Cluster</mi> </msub> <mo>[</mo> <mi>PositionList</mi> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mi>c</mi> <mo>-</mo> </msubsup> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mrow> <msub> <mi>N</mi> <mi>count</mi> </msub> <mo>/</mo> <mn>2</mn> </mrow> </mfrac> <mo>;</mo> </mrow>其中,Ci表示T中第i个中文字符,Ncount表示目标文本T中中文字符总数量,ThLongText为目标文本篇幅长度阈值,ThNeutralChar为中性中文字符倾向性阈值,m和n分别代表褒义测试集和贬义测试集中的中文字符总数,fpci和fnci分别表示中字符Ci在褒义词集和贬义词集里出现的频率;PostionList(S+C)为目标文本中褒义中文字符位置链表,k表示聚类输出的子类数量,PostionList(S‑C)为目标文本中贬义中文字符位置链表,k表示聚类输出的子类数量,RListCluster为聚类半径列表,||S+C||为目标文本中所包含的褒义中文字符数量,||S+C||为目标文本中所包含的贬义中文字符数量。
地址 100083 北京市海淀区学院路30号