一种基于用户本体的初始URLs选择方法,申请号CN201110436136.3-传众专利搜索

发明名称	一种基于用户本体的初始URLs选择方法
摘要	本发明公开了基于用户本体的初始URLs选择方法包括以下步骤：第一步：提交用户关键词给搜索引擎，获得用户日志；第二步：处理用户特征文件，提取特征词汇，并向量化；第三步：构建用户本体，利用提取的特征词并结合WordNet来构建用户本体；第四步：得到根集、候选页面；第五步：得到语义化的页面向量；第六步：计算第二步得到的用户兴趣特征向量和语义化的页面向量的相似度，排序，选择相似度高的加入根集得到基础集；第七步：获取二分图；第八步：得到完全二分图；第九步：选取完全二分图中的URLs作为初始URLs。本发明提出的方法在较少迭代数的情况下，使用本发明提出的方法可以下载更多与用户兴趣主题相关的网页。
申请公布号	CN102591926A	申请公布日期	2012.07.18
申请号	CN201110436136.3	申请日期	2011.12.23
申请人	西华大学	发明人	杜亚军;李曦;王玉婷;韩保川
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种基于用户本体的初始URLs选择方法，其特征在于，包括以下步骤：第一步：提交用户关键词给搜索引擎，获得用户日志；该用户日志主要用来构建用户本体和用户兴趣特征向量。第二步：处理用户特征文件，提取特征词汇，并向量化；第三步：构建用户本体，利用提取的特征词并结合WordNet来构建用户本体；第四步：用户提交关键词到Google，并得到搜索结果，通过HITS算法，可以得到根集，包含了权威网页和中心网页集合，从而，得到候选页面；第五步：用户关键词提交给用户本体，进行加权扩展，得到扩展的特征向量，结合候选页面，得到语义化的页面向量；第六步：计算第二步得到的用户兴趣特征向量和语义化的页面向量的相似度，排序，选择相似度高的加入根集得到基础集；第七步：对得到的基础集，通过改进的HITS算法，获取二分图；第八步：针对于二分图，采用完全二分有向图获取算法得到完全二分图；第九步：通过选取完全二分图中的URLs作为初始URLs，具体实现步骤：D1、通过第八步从二分图中提取完全二分图，得到权威网页集和中心网页集两个集合；D2、从中心网页集合中选择一个网页作为爬行虫的一个初始URL；D3、使用中心网页和权威网页存在链接，发现完全二分图的其他部分，作为初始URLs加入到结果集中；D4、把发现的中心网页和权威网页分别从两个集合中删除，更新集合中权威网页和中心网页的权威值和中心值；D5、如果初始URLs结果集的数量不够，再次返回步骤1；否则，结束。
地址	610039 四川省成都市金周路999号