基于网络拓扑的主题信息采集方法,申请号CN200810227582.1-传众专利搜索

发明名称	基于网络拓扑的主题信息采集方法
摘要	本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集，经净化、分词和去停止词后，表示成向量集合，使用向量空间模型计算文本相似性。利用网络结构，对抽取出的URL先进行链接分析，通过URL的目录层次过滤链接，再根据网络的无标度性，修正URL的权值，进行优先吸附选择。同时反馈不相关的主题区域，并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度，以此选择主题获取其新的回复。
申请公布号	CN101441662A	申请公布日期	2009.05.27
申请号	CN200810227582.1	申请日期	2008.11.28
申请人	北京交通大学	发明人	刘云;熊菲;李勇;沈波;张振江;贾凡;程辉;张立;张彦超;司夏萌
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京正理专利代理有限公司	代理人	王德桢
主权项	1. 基于网络拓扑的主题信息采集方法，其特征在于包括如下步骤：a、从搜索引擎获取种子网页集合；b、对种子网页集合中的每篇网页根据主题词进行分词，表示为向量集合，提取出URL，初始化未访问URL队列；c、选择未访问URL队列，采集相应网页，计算采集网页与种子网页集合的相似性；d、把采集网页与种子网页集合的相似性与设定的阈值进行比较。
地址	100044北京市海淀区上园村3号