主权项 |
一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词,其特征在于:(1)用词频数TF除以所有爬取网页中包含该词的网页数D<sub>t</sub>为词权重W<sup>j</sup>,W<sup>j</sup>=TF/D<sub>t</sub>;(2)从每个网页P<sub>i</sub>的标题和正文中,选出前m个词权重W<sup>j</sup>最大的词,作为每个网页P<sub>i</sub>的代表词组PW<sub>i</sub>,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;(3)计算每个网页P<sub>i</sub>的代表词组PW<sub>i</sub>与其它网页P<sub>k</sub>代表词组PW<sub>k</sub>之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;(4)在计算两个网页P<sub>i</sub>与P<sub>k</sub>内容差异度Dif(k,i)之前,先求两个网页代表词组PW<sub>i</sub>与PW<sub>k</sub>的交集PW<sub>k∩i</sub>=PW<sub>k</sub>∩PW<sub>i</sub>,当交集为空<img file="FDA0001121280620000011.GIF" wi="221" he="69" />时,直接判定两网页内容不相似,结束计算;(5)如果两个网页代表词组PW<sub>i</sub>与PW<sub>k</sub>的交集PW<sub>k∩i</sub>=PW<sub>k</sub>∩PW<sub>i</sub>不为空<img file="FDA0001121280620000012.GIF" wi="246" he="70" />计算交集PW<sub>k∩i</sub>中的词在两个网页代表词组PW<sub>k</sub>与PW<sub>i</sub>中的词权重W<sup>j</sup>之差的绝对值的和为内容差异度<img file="FDA0001121280620000013.GIF" wi="546" he="135" />其中W<sub>i</sub><sup>j</sup>为交集PW<sub>k∩i</sub>中的第j个词在PW<sub>i</sub>中的词权重W<sup>j</sup>,<img file="FDA0001121280620000014.GIF" wi="69" he="63" />为交集PW<sub>k∩i</sub>中的第j个词在PW<sub>k</sub>中的词权重W<sup>j</sup>,f为交集PW<sub>k∩i</sub>中的元素数量;(6)当Dif(k,i)=0且f=m时,直接判定两网页P<sub>i</sub>与P<sub>k</sub>的内容没有差异,结束计算;(7)当Dif(k,i)≠0、f≠m时,<img file="FDA0001121280620000015.GIF" wi="663" he="127" />其中PW<sub>i‑k</sub>为网页P<sub>k</sub>的代表词组PW<sub>k</sub>在网页P<sub>i</sub>的代表词组PW<sub>i</sub>中的相对补集<img file="FDA0001121280620000016.GIF" wi="836" he="55" /><img file="FDA0001121280620000017.GIF" wi="179" he="134" />为相对补集PW<sub>i‑k</sub>中的词在网页P<sub>i</sub>代表词组PW<sub>i</sub>中的词权重W<sup>j</sup>之和,t为相对补集PW<sub>i‑k</sub>中的元素数量。 |