发明名称 网络论坛中舆论领袖分析方法
摘要 本发明提供了一种网络论坛中舆论领袖分析方法,首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,产生了基于对话链的阶梯式计算次数,称为阶梯式评价方法;其次计算对话链中任一个发帖人在整个对话链中的影响力;对于发帖人i在该话题的多个对话链及总的影响力评价指标的计算;基于参与者统计属性特征:帖子的支持率、发帖数、回帖数和网龄;刻画网民在论坛中基本行为的统计数据;综合计算舆论领袖值。网络舆论领袖的分析是在网络论坛特定的板块中,限定在某一话题内或领域内,根据此话题或领域内网民统计属性特征及网民的发帖语料两个方面进行评价,再按合理的权值计算出每一位网民的得分,得分高者即为此话题或此领域内舆论领袖。
申请公布号 CN102314489A 申请公布日期 2012.01.11
申请号 CN201110232191.0 申请日期 2011.08.15
申请人 哈尔滨工业大学 发明人 张宏莉;张伟哲;张玥;李东;陈琳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种网络论坛中舆论领袖分析方法,其特征在于,一、基于论坛语料的影响力计算对于某话题,由a1,a2,a3,…,an组成的回复对话链关系中,设w1,w2,w3,…,wn分别为a1,a2,a3,…,an发帖人所发帖子的词汇集合,i1,i2,i3,…,in分别为此对话链中a1,a2,a3,…,an发帖人对其它人的影响力指标,则对于简单语料IDM模型计算方法改进为如下规则:(1)首先计算任意两个发帖人之间的影响力,采用两两比较的方法计算,产生了基于对话链的阶梯式计算次数,称为阶梯式评价方法;Cx、Cy表示网民x、y的发帖内容,Wx、Wy表示帖子文本词语集合,如果y回复x,则认为x影响y,影响力通过对话链由Cx传递给Cy,将Cx对Cy的影响用符号ix,y表示;影响力ix,y通过计算x的帖子内容Cx与y的帖子内容Cy得到;首先分别对Cx与Cy进行分词,然后计算两分词集合的相似程度,找出词语交集。Cx对Cy的影响力表示为Cx与Cy中词语的交集占Cy词语总数的比例; <mrow> <msub> <mi>C</mi> <mi>y</mi> </msub> <mo>&RightArrow;</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>:</mo> <msub> <mi>i</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>&cap;</mo> <msub> <mi>w</mi> <mi>y</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>y</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>假设Cy回复Cx,Cz回复Cy,那么,Cx对Cz的影响力用ix,z表示,即Cx、Cy与Cz中词语的交集占Cz中词语总数的比例与Cx对Cy的影响力ix,y的乘积; <mrow> <msub> <mi>C</mi> <mi>z</mi> </msub> <mo>&RightArrow;</mo> <msub> <mi>C</mi> <mi>y</mi> </msub> <mo>&RightArrow;</mo> <msub> <mi>C</mi> <mi>x</mi> </msub> <mo>:</mo> <msub> <mi>i</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>z</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>x</mi> </msub> <mo>&cap;</mo> <msub> <mi>w</mi> <mi>y</mi> </msub> <mo>&cap;</mo> <msub> <mi>w</mi> <mi>z</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>z</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>i</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>C1为主帖,C2、C3分别回复C1,C4回复C2;C1包含A、B、C三个词,C2包含A、C、D三个词,C3包含B、F两个词,C4包含C、F两个词;C1、C2词语交集为A、C,C1对C2影响力为2/3;C1与C3词语交集为B,C1对C3影响力为1/2;C1、C3、C4词交集为C,C1对C4影响力为1/2×2/3;多级回复关系中任一帖子对回复关系链中任一回复的影响力计算公式为:设Ci为起始帖,ξi,z表示从Ci开始到Cz结束的对话关系链,则ξi,z={Ci,Cj,Ck,…Cq,Cr,…Cy,Cz,其中i<j<k…q<r…y<z}用ii,r来表示Ci对Cr影响力; <mrow> <msub> <mi>i</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>r</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>&cap;</mo> <msub> <mi>w</mi> <mi>j</mi> </msub> <mo>&cap;</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>&cap;</mo> <msub> <mi>w</mi> <mi>r</mi> </msub> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <msub> <mi>w</mi> <mi>r</mi> </msub> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>i</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>q</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>(2)其次计算对话链中任一个发帖人在整个对话链中的影响力;方法为计算对话链中此发帖人对其它发帖人的影响力的总和;其中,ii为发帖人i在对话链中的影响力,ii,i+1,ii,i+2,…,ii,n分别为i对其后的每一个回复的影响力指标;Ii=ii,i+1+ii,i+2+…+ii,n           (1‑4)(3)对于发帖人i在该话题的多个对话链及总的影响力评价指标的计算,用Dci来表示Ci所引发的Pi个对话关系链中总的影响力,Pi个对话链中总的影响力; <mrow> <msub> <mi>D</mi> <msub> <mi>C</mi> <mi>i</mi> </msub> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow> </munder> <mi>I</mi> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>论坛发帖者x基于语料的论坛总的影响力Dx.; <mrow> <msub> <mi>D</mi> <mi>x</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&Element;</mo> <msub> <mi>k</mi> <mi>x</mi> </msub> </mrow> </munder> <msub> <mi>D</mi> <msub> <mi>c</mi> <mi>i</mi> </msub> </msub> </mrow>其中,Kx为x在论坛中的所有帖子集合        (1‑6)二、基于网络统计属性的影响力计算(1)基于参与者统计属性特征:帖子的支持率、发帖数、回帖数和网龄;刻画网民在论坛中基本行为的统计数据;设A={a1,a2,…,an}为论坛中某个话题的网民的集合,Xi为某个统计属性,X={xij}为属性矩阵,xij是第i个网民的第j个属性,属性值函数用fj表示,则xij=fj(ai),其中i=1,2,…,n;j=1,2,…,m;ai的属性值xij作如下定义:ai1:表示ai的活跃程度,通过发帖数量来计算;ai2:表示ai的被认同度,通过支持帖数和反对帖数之差来计算;ai3:表示ai的说服力,通过帖子的长短来计算;ai4:表示ai的感染力,通过关注数与粉丝数之和来计算;ai5:表示ai认知力,通过社区积分等来计算;ai6:表示ai知名度,通过职位、职业、学历、网年与专业等来计算;(2)属性值的归一化处理,设变换后的属性矩阵为Z={zij},其中i=1,2,…,n;j=1,2,…,m,xjmin和xjmax分别为属性矩阵中第j列属性的最小值和最大值; <mrow> <msub> <mi>z</mi> <mi>ij</mi> </msub> <mo>=</mo> <msub> <mi>f</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>x</mi> <mi>ij</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>min</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>max</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>min</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>(3)确定参与者属性特征权重;采用矩阵专家法和Saaty的10级重要性等级量表,通过比较任意两个属性间的重要程度来确定权重;以前面定义的六个属性活跃程度、被认同度、说服力、感染力、认知力和知名度为例,经过经验分析认为,活跃程度与被认同度介于同等重要和略微重要之间,b12=2;说服力与活跃程度相比略微重要,则可取b13=3;活跃程度与感染力相比明显重要,b14=7;说服力与被认同程度相比同等重要,则可取b23=1,被认同程度与感染力相比比较重要,则可取b24=5;说服力与感染力相比比较重要,则可取b34=5,其余各项权值依次取值; <mrow> <mi>B</mi> <mo>=</mo> <mfenced open='[' close=']'> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mn>2</mn> </mtd> <mtd> <mn>3</mn> </mtd> <mtd> <mn>7</mn> </mtd> <mtd> <mn>7</mn> </mtd> <mtd> <mn>3</mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>5</mn> </mtd> <mtd> <mn>5</mn> </mtd> <mtd> <mn>7</mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>5</mn> </mtd> <mtd> <mn>9</mn> </mtd> <mtd> <mn>6</mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn>1</mn> <mn>7</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>5</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>5</mn> </mfrac> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>2</mn> </mtd> <mtd> <mn>3</mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn>1</mn> <mn>7</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>5</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>9</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> <mtr> <mtd> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>7</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>6</mn> </mfrac> </mtd> <mtd> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> </mtd> <mtd> <mn>1</mn> </mtd> <mtd> <mn>1</mn> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>利用计算绝对值最大的特征值的乘幂法计算,由权值矩阵B可以计算出其权值特征向量Wij,通过取n维异于0的初始向量v0=(x0(0),x1(0)…xn‑1(0))T对k=0,1,…;直到满足|||uk||2‑||uk‑1||2|<ε为止,求得权值矩阵的权值向量Wij;uk=Bvk‑1                      (1‑9) <mrow> <msub> <mi>v</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>u</mi> <mi>k</mi> </msub> <msub> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> <mn>2</mn> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>wij=[w1,w2,…wm]            (1‑11)(4)利用加权平均算法计算基于参与者统计属性特征的舆论领袖评价指标;根据决策理论的方法描述假设可知,通过加权平均算法来计算,得分越高者与参与者是舆论领袖的可能性比重加大相一致;A={a1,a2,…,an}为话题参与者的集合,设ai属性的加权平均值为Ei,aj属性的加权平均值为Ej,若Ei≥Ej,则:是舆论领袖的可能性:ai≥aj;反之,则:ai≤aj,加权平均的计算公式如1‑12所示,wij为绝对值最大的特征向量,zij为归一化后的属性矩阵; <mrow> <msub> <mi>E</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>w</mi> <mi>ij</mi> </msub> <msub> <mi>z</mi> <mi>ij</mi> </msub> <mo>,</mo> </mrow>i=1,2,…n        (1‑12)三、综合计算舆论领袖值根据Di和Ei的计算过程及上述分析可知,两者之和越大,舆论领袖的作用越突出;λ是参数;设Qi为舆论领袖的综合评价指标;Qi=Di+λEi i=1,2,…,n        (1‑13)。
地址 150001 黑龙江省哈尔滨市南岗区西大直街92号