发明名称 面向话题的多微博时序文摘方法
摘要 本发明公开一种面向话题的多微博时序文摘方法,包括如下步骤:1)以时间点为横轴、相应时间点对应的微博更新速度为纵轴,进行面向话题的微博文本流热度信号建模;2)采用小波降噪对步骤1)的初始信号降噪,按一定时间粒度,选取其中的信号极大值点,依据对应更新速度进行排序,以检测重要时间点;3)融合微博流热度信号瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;4)采用最大边缘相关技术选择摘要句,建立MMR微博摘要句选择模型。该方法通过小波去噪的方法检测出特定话题下微博序列中的重要时间点,并在此基础上,利用一类改进的基于图的随机游走算法对多微博进行摘要,输出结果准确度高。
申请公布号 CN105740448A 申请公布日期 2016.07.06
申请号 CN201610075130.0 申请日期 2016.02.03
申请人 天津大学 发明人 贺瑞芳;于广川;党建武;胡清华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津才智专利商标代理有限公司 12108 代理人 刘美甜
主权项 一种面向话题的多微博时序文摘方法,其特征在于包括如下步骤:1)面向话题的微博文本流热度信号建模记某一时间点为t<sub>i</sub>,在t<sub>i</sub>时间点包含关键词K的微博的更新速度为<img file="FDA0000921548300000011.GIF" wi="74" he="56" /><maths num="0001"><math><![CDATA[<mrow><msub><mi>v</mi><msub><mi>t</mi><mi>i</mi></msub></msub><mo>=</mo><mfrac><msub><mi>M</mi><msub><mi>t</mi><mi>i</mi></msub></msub><mrow><mi>&Delta;</mi><mi>t</mi></mrow></mfrac><mo>*</mo><mfrac><mn>1</mn><mrow><msub><mi>All</mi><msub><mi>t</mi><mi>i</mi></msub></msub></mrow></mfrac></mrow>]]></math><img file="FDA0000921548300000012.GIF" wi="311" he="131" /></maths>其中,<img file="FDA0000921548300000013.GIF" wi="73" he="71" />表示时间段[t<sub>i</sub>,t<sub>i</sub>+Δt]中发布的包含关键词K的微博条数,<img file="FDA0000921548300000014.GIF" wi="98" he="70" />表示[t<sub>i</sub>,t<sub>i</sub>+Δt]中发布的所有微博条数;给定关键词K和时间段[t<sub>start</sub>,t<sub>end</sub>],以此为基础抽取出此时间段内包含K的微博实验数据集,选定单位时长Δt,沿时间轴计算各点的微博更新速度<img file="FDA0000921548300000015.GIF" wi="74" he="53" />得到一个一维向量<img file="FDA0000921548300000016.GIF" wi="400" he="81" />作为初始热度信号;2)重要时间点检测建模采用小波分析和小波降噪的原理对步骤1)得到的初始热度信号进行降噪;按一定的时间粒度选取其中的信号极大值点,依据对应更新速度<img file="FDA0000921548300000017.GIF" wi="58" he="58" />的大小进行排序,并依次以其对应的时间点为重要时间点,记为imp={imp<sub>1</sub>,imp<sub>2</sub>,…,imp<sub>l</sub>};3)融合微博流瞬时时序特性和社会网络用户社交权威性建立反映微博重要性的文本排序模型T2ST;T2ST模型将包含关键词K的每条微博作为图的节点,根据余弦相似度sim(d<sub>i</sub>,d<sub>j</sub>)计算代表第i,j条微博的节点d<sub>i</sub>和d<sub>j</sub>之间边的权值以及转移概率矩阵M,M中的每个元素m<sub>i,j</sub>表示为:<maths num="0002"><math><![CDATA[<mrow><msub><mi>m</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mfrac><mrow><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>A</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>*</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mi>j</mi></msub><mo>,</mo><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>*</mo><mi>A</mi><mrow><mo>(</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>*</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow></mtd><mtd><mrow><munder><mo>&Sigma;</mo><msup><mi>j</mi><mo>&prime;</mo></msup></munder><mi>s</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>i</mi></msub><mo>,</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>*</mo><mi>A</mi><mrow><mo>(</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>*</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>d</mi><msup><mi>j</mi><mo>&prime;</mo></msup></msub><mo>)</mo></mrow><mo>&NotEqual;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>o</mi><mi>t</mi><mi>h</mi><mi>e</mi><mi>r</mi><mi>w</mi><mi>i</mi><mi>s</mi><mi>e</mi></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000921548300000018.GIF" wi="1531" he="214" /></maths>其中,<maths num="0003"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>v</mi><mrow><mo>(</mo><mi>p</mi><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>;</mo><mi>A</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>a</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></msup></mrow></mfrac><mo>;</mo><mi>a</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>f</mi><mi>o</mi><mi>l</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>f</mi><mi>r</mi><mi>i</mi><mrow><mo>(</mo><msub><mi>d</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000921548300000019.GIF" wi="1399" he="171" /></maths>式中:j’表示所有和i邻接的节点;H(d<sub>j</sub>)为微博d<sub>j</sub>的热度,p(d<sub>j</sub>)为微博d<sub>j</sub>被发布的时间,p(d<sub>j</sub>)的时间粒度要小于步骤2)中的时间粒度;a(d<sub>j</sub>)为用户权威度;fol(d<sub>j</sub>)表示微博d<sub>j</sub>发布用户的粉丝数,fri(d<sub>j</sub>)表示微博d<sub>j</sub>发布用户的关注数;H(d<sub>j</sub>)和A(d<sub>j</sub>)应用Logistic函数分别将热度信号值和用户权威度分别映射到[0,1]区间内;接着,采用图模型的迭代方式进行求解,进而得出每条微博的重要性;4)MMR微博摘要句选择模型采用最大边缘相关技术选择摘要句,以D={d<sub>1</sub>,d<sub>2</sub>,...,d<sub>n</sub>}表示所有候选微博的集合,S={s<sub>1</sub>,s<sub>2</sub>,…,s<sub>n</sub>}表示最终得出微博摘要的集合;开始选择摘要句时S为空集,将步骤3)得到的重要性最高的微博d<sub>top</sub>从D中选出,加入S,并从D中删除;然后重复从D中选出其中重要性最高的微博d<sub>top</sub>,比对其与S中各微博的相似度,若都小于设定的阈值,则将d<sub>top</sub>放入S中,否则从D中重新选择d<sub>top</sub>,如此循环得到S。
地址 300072 天津市南开区卫津路92号天津大学26楼E座