发明名称 基于网络拓扑的主题信息采集方法
摘要 本发明涉及一种基于网络拓扑的主题信息采集方法。它是从搜索引擎获取初始网页集,经净化、分词和去停止词后,表示成向量集合,使用向量空间模型计算文本相似性。利用网络结构,对抽取出的URL先进行链接分析,通过URL的目录层次过滤链接,再根据网络的无标度性,修正URL的权值,进行优先吸附选择。同时反馈不相关的主题区域,并通过URL与种子集合的距离设置不相关URL的缓冲区长度。对采集到的主题计算其热度,以此选择主题获取其新的回复。
申请公布号 CN101441662B 申请公布日期 2010.12.22
申请号 CN200810227582.1 申请日期 2008.11.28
申请人 北京交通大学 发明人 刘云;熊菲;李勇;沈波;张振江;贾凡;程辉;张立;张彦超;司夏萌
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京正理专利代理有限公司 11257 代理人 王德桢
主权项 1.基于网络拓扑的主题信息采集方法,其特征在于包括如下步骤:a、从搜索引擎获取种子网页集合;b、对种子网页集合中的每篇网页根据主题词进行分词,表示为向量集合,提取出URL,初始化未访问URL队列;c、选择未访问URL队列,采集相应网页,计算采集网页与种子网页集合的相似性;d、把采集网页与种子网页集合的相似性与设定的阈值进行比较;所述c步骤中采集网页与种子网页集合的相似性为该网页与种子网页集合所有网页相似性的平均值<img file="FSB00000207842400011.GIF" wi="605" he="125" />其中采集网页为V,种子网页集合D=&lt;D<sub>1</sub>,D<sub>2</sub>,D<sub>3</sub>...D<sub>m</sub>&gt;,文档D<sub>i</sub>对应的n维词条向量为&lt;w<sub>i1</sub>,w<sub>i2</sub>,w<sub>i3</sub>...w<sub>in</sub>&gt;,其中w<sub>ij</sub>为文档中词条j的权重,因此任意两文档D<sub>i</sub>、D<sub>j</sub>相似性为<img file="FSB00000207842400012.GIF" wi="1341" he="261" />所述的步骤d具体包括:如果相似性大于设定的阈值,1)从网页中解析出URL,去重后插入未访问URL队列,比较父URL与子URL的路径关系,给子URL分配不同的权值;2)计算子URL的链接权,子网页i对父网页j的链接加权系数为:link<sub>ji</sub>=path<sub>ji</sub>+freq<sub>i</sub>,其中,path<sub>ji</sub>为不同的URL路径权值,freq<sub>i</sub>为归一化的锚文本关键词频率;3)对子URL的加权值修正,修正后的权值如下:<img file="FSB00000207842400021.GIF" wi="707" he="152" />其中,n为网页i的入度,sim(V<sub>t</sub>,D)是父网页与种子集合的相关性,link<sub>ti</sub>是网页i对父网页的链接加权系数,<img file="FSB00000207842400022.GIF" wi="326" he="172" />为主题网页的偏向概率,k<sub>t</sub>为父网页引用的有效链接数;sim(V<sub>t</sub>,D)的定义同以上所述的步骤c中的sim&lt;V,D&gt;,V<sub>t</sub>为父网页文档,D=&lt;D<sub>1</sub>,D<sub>2</sub>,D<sub>3</sub>...D<sub>m</sub>&gt;为包含m篇网页的种子网页集合,若D<sub>k</sub>为D中任一网页文档,V<sub>t</sub>与D<sub>k</sub>的相似性为:<img file="FSB00000207842400023.GIF" wi="560" he="125" />因此,父网页与种子集合的相似性<img file="FSB00000207842400024.GIF" wi="620" he="121" />如果相似性不大于设定的阈值,根据URL与种子集合的距离计算隧道长度,隧道长度为<img file="FSB00000207842400025.GIF" wi="433" he="160" />floor是向下取整,σ为初始深度参数常量,n(i)为种子集合至网页i的链接深度;若URL的隧道长度大于0,子URL处理方法与相似性大于阈值的情况相同,反之,减少所有子URL权值;所述的给子URL分配不同的链接权重具体包括为:1)子URL包含父URL,则子网页处于父网页的下级目录中,子网页的主题是父网页主题的扩展和延伸,子URL分配的权值为t;2)子URL与父URL具有相似的路径,子网页与父网页目录深度和文件夹长度相同,新主题是前期或跟踪报道,子URL分配的权值为t;3)子URL为背景插图、广告等冗余链接,子URL分配的权值为<img file="FSB00000207842400026.GIF" wi="71" he="71" />其中0.4<t<0.6。
地址 100044 北京市海淀区上园村3号