发明名称 基于证据理论的中文微博可信度评估方法
摘要 本发明属于信息检索与评估领域,具体涉及基于证据理论的中文微博可信度评估方法。本发明从中文微博的固有特点入手,兼顾了这些特点的可测量性和实际任务,系统地梳理了中文微博信息的可信度测量指标,并将其归属为文本信息、信息来源与信息传播三个高层维度。考虑到人类认知的模糊性本质,提出一个基于多维证据的微博可信度评估方法用于融合上述三个异构维度。与现有的仅针对网络文本或互连关系的单一特征评估方法比较,基于证据理论的中文微博可信度评估方法考虑更全面、合理,在同样的查询条件下,可以优选哪些来源可靠,传播广泛的信息。
申请公布号 CN103927297B 申请公布日期 2017.02.15
申请号 CN201410149429.7 申请日期 2014.04.13
申请人 北京工业大学 发明人 高明霞
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 张慧
主权项 基于证据理论的中文微博可信度评估方法,其特征在于步骤如下:步骤1:预处理,将从各微博平台获取的Json格式微博,通过格式解析形成有效数据,然后借助现有的自然语言处理工具,对有效数据中的微博文本进行分词、词性标注、图标检测、错误词检测、重复标点检测、正/负性词检测六项预处理工作,并统计相关数据;步骤2:文本信息的可信度测量,信息本身的可信度可以从客观和主观两个方面入手考察,客观因素主要包括句法、语法、语气和语义四个层面,前两个层面,考虑了文本长度S<sub>length</sub>和拼写错误S<sub>spelling</sub>两个指标,由于考虑的和语气相关的三个因素分别是:图标S<sub>emoticons</sub>、重复标点S<sub>punc</sub>以及正性词/负性词S<sub>posi/neg</sub>,将语义因素归结到任务相关领域,信息本身的可信度测量不涉及,影响文本信息可信度的主观因素反映的是其他用户对该文本质量的主观看法,通过分析主流中文微博平台数据,发现针对单个文本的可直接测量的主观因素有直接转贴数S<sub>reposts</sub>和用户评论数S<sub>comments</sub>;采用均值模式来分别融合客观因素和主观因素,然后再通过一个介于[0,1]之间的权重λ来控制客观和主观因素的相对权重,将各个影响因素的得分进行min‑max标准化,计算方法如下:<maths num="0001"><math><![CDATA[<mrow><msup><mi>v</mi><mo>&prime;</mo></msup><mo>=</mo><mfrac><mrow><mi>v</mi><mo>-</mo><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>m</mi><mi>a</mi><mi>x</mi><mo>-</mo><mi>m</mi><mi>i</mi><mi>n</mi></mrow></mfrac><mo>&times;</mo><mrow><mo>(</mo><msup><mi>max</mi><mo>&prime;</mo></msup><mo>-</mo><msup><mi>min</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001151434180000011.GIF" wi="590" he="119" /></maths>其中v是需要标准化的值,min与max是某一影响因素得分的最小值与最大值,min'与max'是标准化区间的最小最大值;所述主观和客观综合可信度值的加权融合计算方法如下:<maths num="0002"><math><![CDATA[<mrow><msub><mi>C</mi><mrow><mi>p</mi><mi>o</mi><mi>s</mi><mi>t</mi></mrow></msub><mo>=</mo><mi>&lambda;</mi><mo>&lsqb;</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>S</mi><mi>i</mi><mrow><mi>e</mi><mi>x</mi><mi>t</mi></mrow></msubsup><mrow><mo>(</mo><mi>p</mi><mi>o</mi><mi>s</mi><mi>t</mi><mo>)</mo></mrow><mo>&rsqb;</mo><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>&lambda;</mi><mo>)</mo></mrow><mo>&lsqb;</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>S</mi><mi>i</mi><mrow><mi>s</mi><mi>u</mi><mi>b</mi></mrow></msubsup><mrow><mo>(</mo><mi>p</mi><mi>o</mi><mi>s</mi><mi>t</mi><mo>)</mo></mrow><mo>&rsqb;</mo></mrow>]]></math><img file="FDA0001151434180000012.GIF" wi="1030" he="119" /></maths>由于客观因素更重要,设定λ=0.7,<img file="FDA0001151434180000013.GIF" wi="478" he="63" />分别表示各客观影响因素和各主观影响因素的标准化取值,具体计算方式如下:第一个客观因素文本长度:S<sub>length</sub>(post)=log(|post|),其中|post|是文本信息中包含的词个数;第二个客观因素拼写错误:<img file="FDA0001151434180000014.GIF" wi="710" he="127" />其中n(error,post)表示文本信息中包含的拼写错误或不能识别的词的个数;第三个客观因素图标:<img file="FDA0001151434180000021.GIF" wi="718" he="126" />其中n(emo,post)表示文本信息中包含的图标的个数;第四个客观因素重复标点:<img file="FDA0001151434180000022.GIF" wi="675" he="127" />其中n(punc,post)表示文本信息中包含的问号,感叹号,省略号这三种重复符号的总数目;第五个客观因素正/负性词:<img file="FDA0001151434180000023.GIF" wi="806" he="126" />其中n(pos/neg,post)表示文本信息中包含的正性词和负性词的总个数;第一个主观因素直接转贴数:S<sub>reposts</sub>(post)=log(|reposts|),其中|reposts|是文本信息被转发的个数;第二个主观因素用户评论数:S<sub>comments</sub>(post)=log(|comments|),其中|comments|是文本信息的评论个数;步骤3:信息来源的可信度测量,任何微博最初都是由人产生的,因此信息来源就是文本信息作者,微博用户可信度由他的客观日常行为和主观外部评价累积形成,可测量客观日常行为包括是否做过实名认证Φ,发布的文本信息总数S<sub>posts</sub>,以及发布的高可信文本信息总数S<sub>Hposts</sub>,而微博用户可测量外部评价包括追随者数目S<sub>fellows</sub>,文本信息反馈情况S<sub>comments</sub>,上述指标中,对作者影响最大的是是否实名认证,将实名认证这一指标定义为一个二值函数[0,1],信息总数和高可信信息总数是两个关联指标,作者可信度的加权综合融合方式计算方法如下:<maths num="0003"><math><![CDATA[<mrow><msub><mi>C</mi><mrow><mi>a</mi><mi>u</mi><mi>t</mi><mi>h</mi><mi>o</mi><mi>r</mi></mrow></msub><mo>=</mo><msub><mi>w</mi><mrow><mi>a</mi><mi>u</mi><mi>t</mi></mrow></msub><mo>&times;</mo><mi>&Phi;</mi><mo>+</mo><msub><mi>w</mi><mrow><mi>e</mi><mi>x</mi><mi>t</mi></mrow></msub><mo>&times;</mo><mfrac><msub><mi>S</mi><mrow><mi>H</mi><mi>p</mi><mi>o</mi><mi>s</mi><mi>t</mi><mi>s</mi></mrow></msub><msub><mi>S</mi><mrow><mi>p</mi><mi>o</mi><mi>s</mi><mi>t</mi><mi>s</mi></mrow></msub></mfrac><mo>+</mo><msub><mi>w</mi><mrow><mi>s</mi><mi>u</mi><mi>b</mi></mrow></msub><mo>&times;</mo><mo>&lsqb;</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mi>S</mi><mi>i</mi><mrow><mi>s</mi><mi>u</mi><mi>b</mi></mrow></msubsup><mrow><mo>(</mo><mi>a</mi><mi>u</mi><mi>t</mi><mi>h</mi><mi>o</mi><mi>r</mi><mo>)</mo></mrow><mo>&rsqb;</mo></mrow>]]></math><img file="FDA0001151434180000024.GIF" wi="1190" he="143" /></maths>其中,w<sub>aut</sub>、w<sub>ext</sub>和w<sub>sub</sub>分别是认证因素、客观因素和主观因素的权重,为突出认证的重要性,权重比例设定w<sub>aut</sub>:w<sub>ext</sub>:w<sub>sub</sub>=5:3:2;<img file="FDA0001151434180000031.GIF" wi="263" he="63" />是主观影响因素的min‑max标准化取值,具体计算方式如下:第一个客观因素高质量信息数和信息总数的比值:<img file="FDA0001151434180000032.GIF" wi="542" he="183" />其中post是文本信息,C<sub>post</sub>表示文本信息post的可信度,w是区别质量的最少阈值;第一个主观因素追随者总数:S<sub>fellows</sub>(author)=logn(fellows,author),n(fellows,author)表示作者的追随者总数;第二个主观因素文本信息反馈情况:<img file="FDA0001151434180000033.GIF" wi="1075" he="159" />其中n(comm,post)表示文本信息post获得的评论数;步骤4:信息传播的可信度测量,影响信息传播可信度的因素包括两项,一是时效,二是传播媒介,将时效因素也归结到了任务相关领域,传播媒介对文本信息可信度的影响方式通过两种情况递增:一种是传播媒介中包含可信度高的名人;另外一种是传播媒介中节点数目庞大,这种提升趋向于一个确定的阈值,依据可信度递增规律,定义了用于具体计算传播媒介对微博文本可信度的影响,计算方法如下:<maths num="0004"><math><![CDATA[<mrow><msub><mi>C</mi><mrow><mi>p</mi><mi>t</mi><mi>r</mi><mi>e</mi><mi>e</mi></mrow></msub><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msup><mi>&mu;</mi><mi>i</mi></msup><mo>&times;</mo><msub><mi>C</mi><mrow><msub><mi>author</mi><mi>i</mi></msub></mrow></msub></mrow>]]></math><img file="FDA0001151434180000034.GIF" wi="438" he="122" /></maths>其中<img file="FDA0001151434180000035.GIF" wi="118" he="70" />是用户根据可信度值递减排序后得到的第i个传播者的可信度,μ<1是递减因子;步骤5:基于多维证据理论的可信度融合评估,对三个维度可信度检测结果进行合成,得到综合微博可信度的过程将采用改进的D‑S证据理论方法对多个维度的基本概率分配函数进行合成,计算方法如下:<maths num="0005"><math><![CDATA[<mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>m</mi><mrow><mo>(</mo><mi>&phi;</mi><mo>)</mo></mrow><mo>=</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mi>m</mi><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Pi;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>m</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow><mo>+</mo><mi>k</mi><mi>q</mi><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>m</mi><mrow><mo>(</mo><mover><mi>h</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><mi>m</mi><mrow><mo>(</mo><mi>h</mi><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mrow><mi>m</mi><mrow><mo>(</mo><mi>&Theta;</mi><mo>)</mo></mrow><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced>]]></math><img file="FDA0001151434180000041.GIF" wi="516" he="343" /></maths>其中,辨识框架<img file="FDA0001151434180000042.GIF" wi="214" he="63" />φ表示不可能事件“微博信息既可信又不可信”,h表示“微博信息可信”,<img file="FDA0001151434180000043.GIF" wi="26" he="55" />表示“微博信息不可信”,Θ表示“微博信息可信度无法评估”,n=3表示文本信息、作者和传播三个维度,m<sub>i</sub>(h)=C<sub>i</sub>(h);<img file="FDA0001151434180000044.GIF" wi="342" he="70" /><img file="FDA0001151434180000045.GIF" wi="1005" he="127" />
地址 100124 北京市朝阳区平乐园100号