发明名称 基于特征信息的Blog自动摘要方法
摘要 本发明在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。
申请公布号 CN103246687B 申请公布日期 2016.08.17
申请号 CN201210193883.3 申请日期 2012.06.13
申请人 苏州大学 发明人 赵朋朋;鲜学丰;陈明;刘全;崔志明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 曹毅
主权项 基于特征信息的Blog自动摘要方法,其特征在于,包括以下步骤:步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;(a)词条特征信息得分利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词,将预处理后得到的词条集合记为<img file="390072dest_path_image001.GIF" wi="295" he="26" />;然后综合考虑博文词频、图的描述信息、标题和标签因素对WS中的词条进行打分,词条的综合得分公式如下:<img file="166267dest_path_image002.GIF" wi="276" he="36" />;(b)语句特征信息得分所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;在综合考虑句子的特征以及其所包含的词条信息的基础上,利用公式计算句子的权重得分,公式如下:<img file="867376dest_path_image003.GIF" wi="447" he="97" />;步骤2)基于潜在语义的评论关注得分(a)找出原文中的每个句子被哪些评论所关注以及关注的程度;(b)根据每个句子所得到的评论关注程度和评论价值,来确定该句子被关注的权重得分;步骤3)摘要复选与合并(a)初次摘要生成经过上述两步处理后,每条语句最终的得分由特征得分和评论关注得分两部分组成,记为<img file="121639dest_path_image004.GIF" wi="80" he="26" />,并计算权值;在得到博文内每条语句的权值后,首先依据压缩比例和博文总的句子数量计算出所需抽取出的摘要句子数n,然后将博文内的句子按权值进行排名,取出排名前n位的句子,即为初次生成的摘要,记为FA;(b)二次摘要的抽取把没有包含摘要句的自然段落提取出来,组成候选自然段落集合CPS:<img file="63575dest_path_image005.GIF" wi="219" he="38" />;假定CPS中某个自然段落<img file="10671dest_path_image006.GIF" wi="28" he="23" />,其前面包含摘要句的最相邻自然段落内的摘要句集合为PAS,其后面包含摘要句的最相邻自然段落内的摘要句集合为NAS,分别计算<img file="854868dest_path_image006.GIF" wi="27" he="24" />和这两个集合的相似度,直接以余弦相似度来衡量<img file="181332dest_path_image007.GIF" wi="149" he="26" />;<img file="974845dest_path_image008.GIF" wi="302" he="72" /><img file="92842dest_path_image009.GIF" wi="21" he="22" />和<img file="971805dest_path_image010.GIF" wi="23" he="24" />为利用TF‑IDF将PAS和<img file="824662dest_path_image011.GIF" wi="21" he="24" />量化后对应的向量;以同样的方式计算出NAS和<img file="472681dest_path_image006.GIF" wi="27" he="23" />的相似度<img file="433684dest_path_image012.GIF" wi="132" he="23" />;如果<img file="799943dest_path_image013.GIF" wi="132" he="28" />和<img file="202630dest_path_image012.GIF" wi="131" he="22" />中任意一个超过预先设定的阈值,则认为已经通过上下文的摘要句得到表达,将其从CPS中移除;否则认为该段落是独立表达某个主题,需要进行二次摘要抽取;若某个候选自然段落<img file="970735dest_path_image014.GIF" wi="25" he="22" />需要进行二次摘要抽取,设r为抽取比例,<img file="758431dest_path_image015.GIF" wi="48" he="24" />为段落内的语句数,则抽取数量可表示为<img file="284090dest_path_image016.GIF" wi="147" he="27" />;因为这里需要抽取能够体现该段落主题的句子,故对于词频信息得分进行改进后重新给每个语句打分:<img file="756047dest_path_image017.GIF" wi="371" he="38" />其中<img file="552227dest_path_image018.GIF" wi="73" he="26" />为<img file="917350dest_path_image019.GIF" wi="27" he="17" />在该段落中出现的频率,PN为博文内的段落数目,<img file="586097dest_path_image020.GIF" wi="75" he="24" />为包含词条<img file="325994dest_path_image019.GIF" wi="27" he="17" />的段落数目;将段落内的句子按得分排名,并取出前n位的句子,得到其对应段落的二次摘要句集合,记为<img file="396587dest_path_image021.GIF" wi="40" he="25" />;对CPS中的所有自然段落都进行如上一系列处理,将得到的所有段落的二次摘要句集合合并在一起,记为<img file="935540dest_path_image022.GIF" wi="226" he="26" />;将在原文中连在一起的,并为表达同一主题服务的段落进行合并处理,得到最终的二次摘要句集合SA:<img file="91584dest_path_image023.GIF" wi="245" he="26" />;(c)合并摘要句记二次摘要句集合SA中子集合的数量为w,同时用<img file="498819dest_path_image024.GIF" wi="48" he="23" />表示对FA中删除语句的数量并初始化为0,则具体处理算法可描述如下:1) 计算FA中句子和句子之间的两两相似度,构造摘要句之间的相似度矩阵,该矩阵为一对称矩阵,记为:<img file="407607dest_path_image025.GIF" wi="271" he="136" />2) 扫描相似度矩阵,找到矩阵中最大的值:<img file="773254dest_path_image026.GIF" wi="282" he="27" />,其表示<img file="744490dest_path_image027.GIF" wi="18" he="17" />和<img file="412539dest_path_image028.GIF" wi="21" he="19" />为摘要句集合中最为相似的两句,保留权值较大的句子,将权值较小的句子从FA和矩阵中删除,同时删除句子数加1,即:<img file="723303dest_path_image029.GIF" wi="157" he="25" />;3) 不断循环第二步,直到<img file="525430dest_path_image030.GIF" wi="97" he="24" />,即删除的句子数量满足大于等于<img file="265853dest_path_image031.GIF" wi="18" he="14" />;4) 检查矩阵中相似度最大的值看其是否已经满足小于指定的相似度阈值<img file="811629dest_path_image032.GIF" wi="20" he="15" />,若没有则一直进行上述步骤直到满足此条件,否则终止,最终得到删除的句子数为<img file="242479dest_path_image033.GIF" wi="47" he="19" />(<img file="684349dest_path_image034.GIF" wi="76" he="24" />),以及删除后的初次摘要集合FA;5) 从SA中选择<img file="302281dest_path_image035.GIF" wi="44" he="22" />句补充进FA,将SA中每个子集合中得分最高的一句加入FA,以保证每个主题都有代表句被选入最终的摘要中;对剩下的数量<img file="662917dest_path_image036.GIF" wi="92" he="20" />,则按SA内各子集合的摘要句数量比进行分配,并按得分高低从每个子集合取出对应数量的句子加入到FA中;步骤4)经过如上处理后,FA即为本发明最终所得到的摘要句集合;所述的基于特征信息的Blog自动摘要方法,步骤2的具体方法为,假定语句<img file="682694dest_path_image037.GIF" wi="22" he="19" />衍生出的评论集合为CS,则语句<img file="29886dest_path_image037.GIF" wi="21" he="18" />的评论关注得分用下式进行衡量,<img file="197431dest_path_image038.GIF" wi="123" he="28" />为相似度,<img file="225955dest_path_image039.GIF" wi="121" he="25" />为评论<img file="896976dest_path_image040.GIF" wi="24" he="18" />的价值得分;<img file="274125dest_path_image041.GIF" wi="334" he="53" />接下来确定<img file="945277dest_path_image042.GIF" wi="104" he="30" />的值;将博文和其对应的评论内容看成文档,并进行相应预处理,然后在分类后的每一子类中进行SVD分解,从而构造每个分类下潜在的词‑文档语义空间<img file="890407dest_path_image043.GIF" wi="23" he="22" />;计算评论和句子相似度时,在对应的类别的语义空间中,首先将待处理的评论和句子根据词频信息表示成对应的评论向量和句子向量,接着将其在k维语义空间中映射成对应的语义向量;经过映射处理后,对于某条评论<img file="556880dest_path_image044.GIF" wi="24" he="23" />和某个语句<img file="790415dest_path_image045.GIF" wi="23" he="23" />的相似度则用其语义余弦相似度来衡量,表示如下:<img file="542340dest_path_image046.GIF" wi="486" he="82" />在上式中,<img file="568458dest_path_image047.GIF" wi="22" he="19" />和<img file="761542dest_path_image048.GIF" wi="18" he="18" />为语句<img file="683755dest_path_image049.GIF" wi="17" he="20" />与评论<img file="126237dest_path_image050.GIF" wi="19" he="21" />各自映射后的语义向量,k为语义空间的维数,<img file="235008dest_path_image051.GIF" wi="18" he="20" />和<img file="269216dest_path_image052.GIF" wi="17" he="19" />为各自语义向量中第t维的权值;确定<img file="93822dest_path_image053.GIF" wi="140" he="24" />的值,从而得到每个语句的评论关注得分;步骤1(a)中所述因素包括博文词频得分、图的描述信息、标题和标签;所述博文词频得分:词频信息对于词条权重的贡献采用TF‑IDF的方式来判定,计算方法如式:<img file="961284dest_path_image054.GIF" wi="425" he="26" />;所述图片的描述信息:把这些描述信息作为一种有价值的信息引入进来,对于在这些描述信息里出现过的词条会给定一个加权系数<img file="13027dest_path_image055.GIF" wi="28" he="21" />;所述标题:标题信息往往是全文的概括,所以如果某个词条出现在标题里则意味着该词条具有很高的主题相关性,为其设定加权系数<img file="243020dest_path_image056.GIF" wi="22" he="21" />;所述标签:如果某个词条出现在标签中,则应该具有一个较高的权重,设为<img file="303773dest_path_image057.GIF" wi="31" he="26" />;对于以上的加权信息,取值分别为1.1,1.2,1.2,考虑以上的各个因素之后则词条的综合得分为:<img file="127373dest_path_image058.GIF" wi="272" he="32" />;步骤1(b)中所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;所述位置信息:位于段首或者段尾的句子通常会用来概括整段的内容,所以对于位置信息采用加权规则,设定加权系数<img file="374683dest_path_image059.GIF" wi="42" he="23" />;所述格式信息:对于一些重要的信息,或者想提示给读者的信息,往往会被用特殊的字体,或者不同的颜色表示出来,这里设定加权系数<img file="117905dest_path_image060.GIF" wi="54" he="25" />;所述提示词:在进行主题或者内容概括时,往往会用一些提示词来引出,对于包含这些词的句子,设定加权系数<img file="894100dest_path_image061.GIF" wi="56" he="29" />;在综合考虑句子的特征以及其所包含的词条信息的基础上,利用公式计算句子的权重得分,公式如下:<img file="64050dest_path_image062.GIF" wi="455" he="79" />其中,<img file="318314dest_path_image063.GIF" wi="143" he="38" />为该语句中包含的词条信息得分和,<img file="384883dest_path_image059.GIF" wi="41" he="25" />、<img file="722193dest_path_image060.GIF" wi="47" he="24" />、<img file="229704dest_path_image061.GIF" wi="53" he="28" />为相应的加权系数,这里位置信息权值设为1.1,格式信息权值设为1.2,提示词权值设为1.1,<img file="756501dest_path_image064.GIF" wi="66" he="33" />为句子的长度;步骤3(a)中,所述<img file="dest_path_image065.GIF" wi="74" he="28" />的计算如下式,其中<img file="395686dest_path_image066.GIF" wi="21" he="16" />为权重参数用来调节两者对总得分的贡献比:<img file="dest_path_image067.GIF" wi="330" he="46" />。
地址 215000 江苏省苏州市工业园区仁爱路199号