发明名称 基于网络拓扑的主题信息采集方法
摘要 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。
申请公布号 CN101441662A 申请公布日期 2009.05.27
申请号 CN200810227582.1 申请日期 2008.11.28
申请人 北京交通大学 发明人 刘云;熊菲;李勇;沈波;张振江;贾凡;程辉;张立;张彦超;司夏萌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京正理专利代理有限公司 代理人 王德桢
主权项 1. 基于网络拓扑的主题信息采集方法,其特征在于包括如下步骤:a、从搜索引擎获取种子网页集合;b、对种子网页集合中的每篇网页根据主题词进行分词,表示为向量集合,提取出URL,初始化未访问URL队列;c、选择未访问URL队列,采集相应网页,计算采集网页与种子网页集合的相似性;d、把采集网页与种子网页集合的相似性与设定的阈值进行比较。
地址 100044北京市海淀区上园村3号