发明名称 一种基于频繁项集的多文档自动摘要方法
摘要 本发明公开了一种基于频繁项集的多文档自动摘要方法,该方法引入了关联规则中频繁项集挖掘的思想,利用关联算法挖掘有效词集的频繁项集作为子主题,不经过句子相似度计算而直接将句子聚类到不同的子主题,并基于SFI方法进行多文档自动摘要。该方法不需要经过句子相似度计算而直接将句子聚类到不同的子主题,具有高简易性、清晰性、实用性等特点。
申请公布号 CN102043851A 申请公布日期 2011.05.04
申请号 CN201010599944.7 申请日期 2010.12.22
申请人 四川大学 发明人 章毅;彭德中;张蕾;吕建成;张海仙;桑永胜;杜芳
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 1.一种基于频繁项集的多文档自动摘要方法, 其特征在于,包括以下步骤:步骤1   SFI子主题划分<img file="768941DEST_PATH_IMAGE001.GIF" wi="16" he="21" />定义令<i>I={i</i><sub><i>1</i></sub><i>, i</i><sub><i>2</i></sub><i>,…, i</i><sub><i>d</i></sub><i>}</i>是购物篮数据中所有项的集合,而<i>T={t</i><sub><i>1</i></sub><i>, t</i><sub><i>2</i></sub><i>,…, t</i><sub><i>n</i></sub><i>}</i>是所有事务的集合,每个事务<i>t</i><sub><i>i</i></sub>包含的项集都是<i>I</i>的子集,在关联分析中,包含0个或多个项的集合被称为项集,如果一个项集包含<i>k</i>个项,则称它为<i>k</i>-项集,关联规则是形如<img file="161877DEST_PATH_IMAGE002.GIF" wi="35" he="42" />的蕴涵表达式,其中<i>X</i>和<i>Y</i>是不相交的项集,即<img file="61699DEST_PATH_IMAGE003.GIF" wi="74" he="21" />,关联规则的强度用它的支持度和置信度度量,支持度和置信度这两种度量的形式定义如下:<img file="562563DEST_PATH_IMAGE004.GIF" wi="129" he="38" /><img file="598653DEST_PATH_IMAGE005.GIF" wi="129" he="38" /><i> </i>支持度确定规则用于给定数据集的频繁程度,而置信度确定<i>Y</i>在包含<i>X</i>的事务中出现的频繁程度,关联分析中频繁项集挖掘目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集;<img file="162489DEST_PATH_IMAGE006.GIF" wi="16" he="21" />多文档预处理令<i>D={d</i><sub><i>1</i></sub><i>, d</i><sub><i>2</i></sub><i>…, d</i><sub><i>n</i></sub><i>}</i>代表多文档集合,其中,<i>d</i><sub><i>i</i></sub>表示单个文档,对<i>D</i>中的所有文档进行分句,令<i>T={s</i><sub><i>1</i></sub><i>, s</i><sub><i>2</i></sub><i>,…, s</i><sub><i>n</i></sub><i>}</i>为分句后的所有句子集合,其中<i>s</i><sub><i>i</i></sub>表示单个句子,对<i>T</i>中的所有句子进行分词并去除停用词,令<i>I</i>表示得到的有效词集合;设X为频繁项集,若句子s包含X中的所有项,则称句子s支持频繁项集X,句子s支持的频繁项集的个数称为句子对频繁项集的支持度;<img file="221712DEST_PATH_IMAGE007.GIF" wi="16" he="21" />基于频繁项集子主题划分使用关联规则进行频繁项集挖掘,设<i>F</i>为生成的所有频繁项集的集合,<img file="325934DEST_PATH_IMAGE008.GIF" wi="115" he="42" />,其中,每个<i>f</i><sub><i>i</i></sub>表示一个频繁项集,知<img file="685371DEST_PATH_IMAGE009.GIF" wi="39" he="42" />,在SFI方法中,一个频繁项集就代表一个子主题;若句子<i>s</i>支持频繁项集<i>f</i><sub><i>i</i></sub>,即句子<i>s</i>包含<i>f</i><sub><i>i</i></sub>中所有的有效词,则将句子<i>s</i>归类于此频繁项集所代表的子主题,直到所有句子都被归类于频繁项集所代表的子主题;但是,句子对频繁项集的支持度并非都为1,使得一个句子会同时出现在多个子主题中,将句子最终归属于单一子主题的处理过程称为子主题去重;<img file="482426DEST_PATH_IMAGE010.GIF" wi="16" he="21" />子主题去重子主题去重需要遵循两个原则:首先,频繁项集的子集也一定是频繁的,则支持<i>k</i>阶频繁项集的文本同时也支持该频繁项集的所有子集;其次,由于初始子主题是由其频繁项集的项来描述的,一个频繁项集中的项数越多,对子主题的描述能力就越强;根据这两个原则,在对子主题去重时,从支持最大同阶频繁项集的子主题句子集合开始处理,将它们从所有低阶频繁项集所代表的子主题中删除,实现一部分句子的唯一归属;对于支持同阶频繁项集的子主题句子集合,通过计算频繁项集中所有项出现的频率然后进行加权,得到各频繁项集的重要度,将句子归属于重要度最高的频繁项集所代表的子主题,若出现重要度相同的情况,则将句子随机归类于某一相同重要度的子主题中;步骤2  摘要生成<img file="763366DEST_PATH_IMAGE001.GIF" wi="16" he="21" />子主题排序通常认为一个子主题中包含的句子个数越多,并且句子分布在不同文档的数量越大,该子主题就越重要,子主题打分排序如下:<img file="936858DEST_PATH_IMAGE011.GIF" wi="179" he="44" /><i> </i>其中,<i>k</i>表示代表第<i>i</i>子主题的频繁项集是<i>k</i>阶的,<i>Num</i><sub><i>i</i></sub><i>(sen)</i>表示第<i>i</i>个子主题包含的句子数,<i>Num</i><sub><i>i</i></sub><i>(doc)</i>表示该子主题中的句子分别所属原始文档的个数,<i>Num(sen)</i>表示多文档集合包含的句子总数,<i>Num(doc)</i>表示多文档集合包含的文档总数,从上述公式计算出子主题和中心主题的相关程度,从而对每个子主题进行排序,确定子主题的抽取顺序;<img file="885223DEST_PATH_IMAGE006.GIF" wi="16" he="21" />文摘句抽取子主题中文摘句抽取的准则是:使将要选择的句子所包含的有效词和已经选择的句子所包含的有效词的组合相对于原来多文档集合有效词所占的比例达到最大,如下式所示:<img file="790862DEST_PATH_IMAGE012.GIF" wi="188" he="45" /><i> </i>其中,<i>s</i><sub><i>ij</i></sub>表示第<i>i</i>个子主题中的第<i>j</i>个句子,<i>sumWords</i>表示已经选择的文摘句的有效词总个数,<i>s</i><sub><i>ij</i></sub><i>Words</i>表示句子<i>s</i><sub><i>ij</i></sub>中包含的有效词个数,<i>Words</i>表示原来多文档集合包含的有效词总数;<img file="886994DEST_PATH_IMAGE007.GIF" wi="16" he="21" />文摘句去冗余针对信息的重复出现问题,本文在抽取文摘句的同时进行文摘句去冗余处理,当待抽取句子所包含有效词和已抽取出的文摘句中句子所包含有效词相似率达到一定程度,则认为待抽取句子已是文摘句,不能再反复抽取;步骤3 将最终抽取出来的文摘句组合在一起,就构成了原来多文档集合的文摘。
地址 610065 四川省成都市一环路南一段24号