发明名称 一种基于内容相似度计算的自动搜索引擎构建方法
摘要 本发明公开了一种基于内容相似度计算的自动搜索引擎构建方法,本发明在现有技术搜索引擎基础上,采用“最大熵和”、“最小熵差”来计算网页内容差异度,为每个网页建立相似内容索引,搜索引擎可自动搜索相似内容网页。当用户输入关键词后,不仅搜索出包含关键词的网页,同时还为每个搜索出的网页,再自动搜索相似内容网页并进行聚类显示;当用户在搜索结果中点击链接浏览时,自动搜索相似内容网页并进行信息推送;自动跟踪用户浏览网页、搜索相似内容网页进行信息推送。用本发明构建的搜索引擎,实现了智能化主动搜索,使用户更容易找到相关内容网页,提高了搜索引擎的自动化、智能化水平。
申请公布号 CN103793523B 申请公布日期 2017.02.08
申请号 CN201410059196.1 申请日期 2014.02.20
申请人 刘峰 发明人 刘峰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 代理人 俞鲁江
主权项 一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词,其特征在于:(1)用词频数TF除以所有爬取网页中包含该词的网页数D<sub>t</sub>为词权重W<sup>j</sup>,W<sup>j</sup>=TF/D<sub>t</sub>;(2)从每个网页P<sub>i</sub>的标题和正文中,选出前m个词权重W<sup>j</sup>最大的词,作为每个网页P<sub>i</sub>的代表词组PW<sub>i</sub>,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;(3)计算每个网页P<sub>i</sub>的代表词组PW<sub>i</sub>与其它网页P<sub>k</sub>代表词组PW<sub>k</sub>之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;(4)在计算两个网页P<sub>i</sub>与P<sub>k</sub>内容差异度Dif(k,i)之前,先求两个网页代表词组PW<sub>i</sub>与PW<sub>k</sub>的交集PW<sub>k∩i</sub>=PW<sub>k</sub>∩PW<sub>i</sub>,当交集为空<img file="FDA0001121280620000011.GIF" wi="221" he="69" />时,直接判定两网页内容不相似,结束计算;(5)如果两个网页代表词组PW<sub>i</sub>与PW<sub>k</sub>的交集PW<sub>k∩i</sub>=PW<sub>k</sub>∩PW<sub>i</sub>不为空<img file="FDA0001121280620000012.GIF" wi="246" he="70" />计算交集PW<sub>k∩i</sub>中的词在两个网页代表词组PW<sub>k</sub>与PW<sub>i</sub>中的词权重W<sup>j</sup>之差的绝对值的和为内容差异度<img file="FDA0001121280620000013.GIF" wi="546" he="135" />其中W<sub>i</sub><sup>j</sup>为交集PW<sub>k∩i</sub>中的第j个词在PW<sub>i</sub>中的词权重W<sup>j</sup>,<img file="FDA0001121280620000014.GIF" wi="69" he="63" />为交集PW<sub>k∩i</sub>中的第j个词在PW<sub>k</sub>中的词权重W<sup>j</sup>,f为交集PW<sub>k∩i</sub>中的元素数量;(6)当Dif(k,i)=0且f=m时,直接判定两网页P<sub>i</sub>与P<sub>k</sub>的内容没有差异,结束计算;(7)当Dif(k,i)≠0、f≠m时,<img file="FDA0001121280620000015.GIF" wi="663" he="127" />其中PW<sub>i‑k</sub>为网页P<sub>k</sub>的代表词组PW<sub>k</sub>在网页P<sub>i</sub>的代表词组PW<sub>i</sub>中的相对补集<img file="FDA0001121280620000016.GIF" wi="836" he="55" /><img file="FDA0001121280620000017.GIF" wi="179" he="134" />为相对补集PW<sub>i‑k</sub>中的词在网页P<sub>i</sub>代表词组PW<sub>i</sub>中的词权重W<sup>j</sup>之和,t为相对补集PW<sub>i‑k</sub>中的元素数量。
地址 110001 辽宁省沈阳市和平区北六马路7号