发明名称 |
基于非监督关键二元词串提取的微博文本自动摘要方法 |
摘要 |
一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF‑IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。 |
申请公布号 |
CN104216875B |
申请公布日期 |
2017.05.03 |
申请号 |
CN201410502810.7 |
申请日期 |
2014.09.26 |
申请人 |
中国科学院自动化研究所 |
发明人 |
徐博;吴玉芳;张恒;郝红卫;刘成林 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
中科专利商标代理有限责任公司 11021 |
代理人 |
宋焰琴 |
主权项 |
一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括以下步骤:步骤1:采用正则表达式,去除微博文本中的噪声信息,以及去掉冗余的标点和过分连续重复的词组;将每条微博切分成句子,然后分词、去停用词;步骤2:将每个句子中相邻的两个词语组合成一个二元词串,由此每个句子由一串二元词串序列表示;步骤3:利用基于混合TF‑IDF、TextRank和/或LDA的非监督关键二元词串抽取技术,提取若干个能准确反映话题微博集合某个子主题的二元词串作为关键二元词串,得到一个关键二元词串集合;步骤4:基于上述关键二元词串集合,利用交集相似度和/或互信息策略,对由一串二元词串序列表示的所述句子打分排序;步骤5:在引进相似度阈值以防止冗余的基础上,从排名靠前的所述句子中提取M个满足相似度条件的句子作为摘要句,其中M为正整数;步骤6:将所述提取的摘要句组合成摘要,并输出。 |
地址 |
100190 北京市海淀区中关村东路95号 |