发明名称 一种针对不良信息的基于情感倾向性分析的文本过滤方法
摘要 本发明涉及一种针对不良信息的基于情感倾向性分析的文本过滤方法,属于计算机应用技术领域,适用于内容过滤防火墙、内容过滤网关等。该方法在基于文本内容分析的基础上,加入文本情感分析方法,根据文本的主题和情感倾向性判断文本是否为不良信息文本,从而提高不良信息文本过滤的准确性。
申请公布号 CN101639824A 申请公布日期 2010.02.03
申请号 CN200910091747.1 申请日期 2009.08.27
申请人 北京理工大学 发明人 胡昌振;姚淑萍;芦锦辉;张欣
分类号 G06F17/21(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京理工大学专利中心 代理人 张利萍
主权项 1.一种针对不良信息的基于情感倾向性分析的文本过滤方法,其特征在于:首先,建立情感词典;然后,在建立好情感词典的基础上,针对不良信息文本进行过滤,其具体实现步骤如下:步骤一、文本预处理首先,对文本进行预处理,包括对中文进行分词处理、去除停用词和计算特征权值,得到文本的特征向量;步骤二、基于内容的文本分析在步骤一的基础上对文本进行基于内容的分析,包括过滤模型的训练,提取文本主题特征和对主题特征进行匹配,获得分析结果;步骤三、基于情感倾向性的文本分析在步骤一的基础上,采用基于情感词加权的方法对文本进行情感分析;具体操作步骤为:第1步:提取文本情感特征;根据建立的情感特征词典,从文本特征向量中提取文本情感特征,并且记录每个情感特征的权值和情感分量值;第2步:确定“情感阈值”;在“情感阈值”范围内,表示不含有情感倾向性;否则,表示具有情感倾向性;第3步:计算文本情感倾向;根据每个情感特征词的权值和从情感词典中获取的该词情感倾向分值来计算文本的情感倾向,根据事先定义的“情感阈值”来确定文本的情感倾向性;文本的情感倾向性的计算公式为:<maths id="math0001" num="0001" ><math><![CDATA[ <mrow> <mi>Orientation</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>v</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow>]]></math></maths>其中,Orientation(d)表示文本d的情感倾向值,wi表示情感特征词的权值,vi表示情感特征的情感倾向分值;Orientation(d)大于“情感阈值”,则认为文本情感倾向是肯定的、正面的;Orientation(d)小于“情感阈值”,则认为其情感倾向是否定的、负面的;步骤四、综合判断在步骤二和步骤三的基础上,进行综合判断,即根据内容分析结果和情感分析结果确定一篇文本是否为需要过滤掉的文本;其具体判断标准为:如果步骤二的基于内容的文本分析的结果认为是需要过滤的文本,并且步骤三的情感分析的结果认为其情感倾向是否定的、负面的,则认为该文本为不良信息文本,加以过滤;否则,不过滤。
地址 100081北京市海淀区中关村南大街5号