主权项 |
一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供优质的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:1)确定所要筛选的Web主题对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;2)模糊关键字匹配检测即一次排序2‑1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;2‑2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度Uj;2‑3设置匹配度阈值U,匹配度Uj大于阈值U的网页即视为该主题的相关网页,并将其筛选出来;2‑4利用优化的网页排序算法即PageRank算法将筛选出来的网页进行一次排序;3)各网页内容相似度检测即二次排序3‑1将步骤2)中筛选得到的各网页按匹配度Uj由大到小划分为若干个区间Tm,其中m为区间的个数,可按需求自由设定,如1>Uj>0.8为区间T1,0.8>Uj>0.6为区间T2,0.6>Uj>0.5为区间T3,0.5>Uj>U为区间T4,其中阈值U<0.5;3‑2对步骤3‑1设定的第n个区间Tn中的网页内容进行相似度检测,其中n≤m,采用Cosine相似度来计算: <mrow> <mi>cos</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>x</mi> <mo>·</mo> <mi>y</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>|</mo> <mo>|</mo> <mo>·</mo> <mo>|</mo> <mo>|</mo> <mi>y</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mi>Σ</mi> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mi>Σ</mi> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> </msqrt> <msqrt> <mi>Σ</mi> <msup> <msub> <mi>y</mi> <mi>i</mi> </msub> <mn>2</mn> </msup> </msqrt> </mrow> </mfrac> </mrow>其中x,y分别代表同一区间Tn中两个不同源的网页内容的向量模型,||x||、||y||分别表示其对应网页的向量模长,运算符号||||表示取模长,x、y向量模型通过TF‑IDF算法计算得出;xi、yi分别表示向量模型x,y中第i个元素;两个向量之间的余弦值越大,说明两个向量之间的夹角越小,即两个向量相似度越高;3‑3步骤3‑2中计算出来的余弦值cos(x,y)越大说明同一区间中,两个网页内容的相似性越高;反之,则相似性越小,将同一区间中各文档按相似度的大小从大到小进行排序;3‑4重复步骤3‑2、3‑3,直至所有区间的网页内容均完成相似度分析排序;3‑5保持各区间的排序结果,并将各区间按匹配度的大小从大到小进行排序;4)将排序结果展示给用户,供其查询需求。 |