一种基于动态摘要技术的微博流信息提取方法,申请号CN201310688854.9-传众专利搜索

发明名称	一种基于动态摘要技术的微博流信息提取方法
摘要	本发明公开了一种基于动态摘要技术的微博流信息提取方法，该发明首先设计了一种基于微博流的增量聚类方法，并提出一种新的微博类向量的数据结构，以维护类的聚集信息。同时，结合金字塔型时间帧结构，保存历史时刻的信息快照，从而支持对任意时间段进行摘要。利用聚类方法得到的信息，提出高层次摘要算法，选取最具有代表性的微博作为摘要。在此基础上，通过检测摘要内容的变化，设计一种话题演变检测方法，自动地生成时间轴。本发明设计的方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡，既使得用户在知识获取过程中更加的便利，同时也支持诸如实时报道、历史综述等数据分析工作。
申请公布号	CN103699611B	申请公布日期	2017.01.11
申请号	CN201310688854.9	申请日期	2013.12.16
申请人	浙江大学	发明人	胡天磊;寿黎但;陈珂;陈刚;王振华
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州求是专利事务所有限公司 33200	代理人	周烽
主权项	一种基于动态摘要技术的微博流信息提取方法，其特征在于，该方法的步骤如下：(1)首先建立微博流中微博的数据模型，一条微博由三部分组成：文本内容、时间戳和权重；(2)对微博流数据进行流聚类：通过对每一条最新接收的微博采用增量聚类的方法，维护并更新微博类的向量的数据结构，从而将源源不断的海量数据流提炼为动态更新的微博类；(3)在步骤(2)的过程中，每隔一定时间T，将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构；(4)基于微博的时效性特点，周期性地检查当前维护的微博类的集合中，是否含有过期的微博类，并将之删除，以此保证当前内存中维护的微博类的新鲜度；(5)为防止微博类的数量过多导致方法效率降低以及内存消耗过大的问题，当微博类的数量达到限制数量N后，进行微博类的合并操作；(6)基于步骤(2)和步骤(3)所维护的微博类的信息，为实时摘要和历史摘要获取不同的输入内容；实时摘要可直接提取当前内存中维护的微博类的信息，而历史摘要则需要通过时间段的两个端点，从金字塔型时间帧中获取对应时间所存储的微博类的信息，并进行相减操作来得到；(7)基于步骤(6)中得到的微博类的信息，进行高层次摘要；首先对微博类的信息中包含的微博计算分数，然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序，依次选取微博加入摘要；(8)通过步骤(7)可得到任意一段时间内连续的时间间隔T’的摘要，然后根据摘要内容的变化幅度，来检测话题的演变情况，并动态地生成时间轴；所述步骤(1)中，文本内容基于空间向量模型，每个维度上的数值是某个词的TF‑IDF值；时间戳即该微博发布的时间；权重即该微博发布者的社会化影响力，其计算方法为：先利用社交关系建立一个用户矩阵，然后在该矩阵上计算每个用户的PageRank值，以这个值来衡量用户的影响力，并作为其发布的微博的权重；所述步骤(2)具体为：首先积累微博并采用K‑means聚类方法产生初始的类，并初始化相应的微博类的向量；微博类的向量维护了属于某个类的微博的六种聚集信息，包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和ts1、时间戳平方和ts2、包含的微博数量n以及焦点微博集合ft_set；焦点微博集合是指与当前微博类的向量中心最为相似的m条微博，微博类的向量中心可以通过wsum_v/n来得到，相似度计算采用Cosine相似度，m值的选取范围为[10,100]，其数值的增大会导致微博类的向量的存储开销增大；在初始化完成后，对于每一条最新接收的微博，采用增量聚类的方法：计算各个微博类的向量中心与该微博文本向量的Cosine相似度，从而找出与该微博最相似的类；如果它们之间的相似度大于<img file="FDA0000987865690000022.GIF" wi="251" he="71" />则将该微博加入这个类当中，并更新其微博类的向量；否则，就将该微博升级为一个新建的微博类；该判断条件中，β∈(0,1)，β越小则越不容易创建新的微博类，微博类数量的增长就越慢，β越大则越容易创建新的微博类，微博类数量的增长就越快；<img file="FDA0000987865690000023.GIF" wi="181" he="67" />表示属于该微博类的微博与微博类的向量中心的平均Cosine相似度，c表示微博类的向量中心，t表示属于该微博类的某条微博，<img file="FDA0000987865690000024.GIF" wi="179" he="71" />可根据以下公式计算得到：<maths num="0001"><math><![CDATA[<mrow><mover><mrow><mi>S</mi><mi>i</mi><mi>m</mi><mrow><mo>(</mo><mi>c</mi><mo>,</mo><mi>t</mi><mo>)</mo></mrow></mrow><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mrow><mi>w</mi><mi>s</mi><mi>u</mi><mi>m</mi><mo>_</mo><mi>v</mi><mo>·</mo><mi>s</mi><mi>u</mi><mi>m</mi><mo>_</mo><mi>v</mi></mrow><mrow><mi>n</mi><mo>·</mo><mo>\|</mo><mo>\|</mo><mi>w</mi><mi>s</mi><mi>u</mi><mi>m</mi><mo>_</mo><mi>v</mi><mo>\|</mo><mo>\|</mo></mrow></mfrac></mrow>]]></math><img file="FDA0000987865690000021.GIF" wi="717" he="135" /></maths>通过这种方式，可以将源源不断的海量微博流提炼为动态更新的微博类，在保存微博信息的基础上提高处理效率。
地址	310058 浙江省杭州市西湖区余杭塘路866号