发明名称 |
一种时间敏感和自适应的子话题在线检测方法及系统 |
摘要 |
本发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。 |
申请公布号 |
CN105488092A |
申请公布日期 |
2016.04.13 |
申请号 |
CN201510408490.3 |
申请日期 |
2015.07.13 |
申请人 |
中国科学院信息工程研究所;国家计算机网络与信息安全管理中心 |
发明人 |
李思旭;李锐;包秀国;马宏远;杨文静;邱泳钦;程工;刘春阳;庞琳;王斌 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06K9/62(2006.01)I;G06Q50/00(2012.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
冯艺东 |
主权项 |
一种时间敏感和自适应的子话题在线检测方法,其特征在于,包括如下步骤:1)对文档流中的每篇文档进行向量化表示;2)对向量化表示后的文档进行增量式聚类,若文档属于某个子话题,则将该文档加入到该子话题中,并根据随时间衰减的文档权重调整该子话题的中心权重;若文档不属于任何一个子话题,则建立一个新子话题,并同样根据随时间衰减的文档权重调整该新子话题的中心权重;3)当增量式聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要,并输出展示。 |
地址 |
100093 北京市海淀区闵庄路甲89号 |