发明名称 一种基于内容相似性的Web主题排序方法
摘要 一种基于内容相似性的Web主题排序方法,属于网络信息处理技术领域。通过网页分析检测筛选出包含相关Web主题的网页,并进行一次排序;对包含该主题的网页内容进行相似性分析,并按照各内容的相似性进行相关排序,完成二次排序。本发明方法可以为用户提供更加清晰明了的层次性的检索结果,同时,能满足用户对该主题某一确定方面内容的需求。由此可见,基于内容相似性的Web主题排序的方法可以为用户提供更优质高效的检索需求。
申请公布号 CN103646106A 申请公布日期 2014.03.19
申请号 CN201310719507.8 申请日期 2013.12.23
申请人 山东大学 发明人 袁东风;段秋丹;朱丽娜
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南金迪知识产权代理有限公司 37219 代理人 许德山
主权项 一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供优质的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:1)确定所要筛选的Web主题对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;2)模糊关键字匹配检测即一次排序2‑1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;2‑2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj;2‑3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;2‑4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;3)各网页内容相似度检测即二次排序3‑1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,如1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;3‑2对步骤3‑1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用Cosine相似度来计算: <mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>&CenterDot;</mo> <mi>y</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <mi>y</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mi>&Sigma;</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mi>&Sigma;</mi> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> </msqrt> <msqrt> <mi>&Sigma;</mi> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> </msqrt> </mrow> </mfrac> </mrow>其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF‑IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;3‑3步骤3‑2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;3‑4重复步骤3‑2、3‑3,直至所有区间的网页内容均完成相似度分析排序;3‑5保持各区间的排序结果,并将各区间按匹配度的大小从大到小进行排序;4)将排序结果展示给用户,供其查询需求。
地址 250061 山东省济南市历下区经十路17923号