发明名称 |
一种自动计算互联网上主题演化趋势的方法及系统 |
摘要 |
本发明涉及一种自动计算互联网上主题演化趋势的方法及系统。现有技术只能简单地从文档集中分析出主题(或事件),给出主题包含的文档信息。事实上,每个主题随着时间的变化而不断变化,主题在时间维度上不断演化。本发明以现有主题检测系统为基础,定期计算当前时间段内主题与前一时间段内主题之间的关系,并保存这些关系。系统根据用户输入的时间范围取出多个时间段对应的主题信息以及主题之间的关系,在客户端以图形化方式可视化地展现主题随着时间的演化趋势。采用本发明所述的方法,能够给用户提供更加立体的主题分析结果,加深用户对主题的理解和认识,从而辅助用户决策。本方法可广泛应用于智能信息处理。 |
申请公布号 |
CN101231640B |
申请公布日期 |
2010.09.22 |
申请号 |
CN200710062943.7 |
申请日期 |
2007.01.22 |
申请人 |
北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司 |
发明人 |
万小军;冯涛;黄小江;杨霙;杨建武;吴於茜;路斌 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同达信恒知识产权代理有限公司 11291 |
代理人 |
李欣 |
主权项 |
一种自动计算互联网上主题演化趋势的方法,包括以下步骤:(1)采集互联网文本信息并对其进行预处理,获得网页的文本内容以及时间标记;(2)检测主题事件,并将当前的事件数量与预设的事件窗口进行比较,若事件数量大于事件窗口,则对主题进行淘汰和排序;(3)定期计算当前时间段内主题与前一时间段内主题之间的主题关系,得到与当前时间段内每个主题相同的主题以及与当前时间段每个主题相关的主题,并保存当前时间段内主题信息以及每一主题相应的相同主题标识和相关主题标识;(4)根据给定的时间范围取出多个时间段的主题信息,并根据主题之间的关系得出主题演化趋势。 |
地址 |
100871 北京市海淀区成府路298号中关村方正大厦513 |