主权项 |
一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤:步骤1:对网页文档WP<sub>x</sub>进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ct<sub>x</sub>;步骤2:对网页正文Ct<sub>x</sub>进行中文分词操作,逐一计算其正文文本的所有项w的TF‑IDF值:记为TF‑IDF(w);步骤3:基于特定主题与文档的特点,设置阈值TF‑IDF<sub>thr</sub>,对于词项w而言,如果TF‑IDF(w)>TF‑IDF<sub>thr</sub>,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF‑IDF值排Top N个关键词项w<sub>1</sub>,w<sub>2</sub>,…,w<sub>N</sub>组成关键词项向量<img file="FDA0000979150490000011.GIF" wi="50" he="63" />步骤4:对于任意两篇文档Wp<sub>s</sub>与WP<sub>t</sub>,基于键词项向量<img file="FDA0000979150490000012.GIF" wi="35" he="61" />计算二者之间的相似度TextSim(WP<sub>s</sub>,WP<sub>t</sub>).当TextSim(WP<sub>s</sub>,WP<sub>t</sub>)>TextSim<sub>thr</sub>时,所述的TextSim<sub>thr</sub>是预定的文档相似性阈值;认为文档WP<sub>s</sub>和WP<sub>t</sub>是相互近似的网页文本;否则,web文档Wp<sub>s</sub>与WP<sub>t</sub>不近似;步骤5:在文档WP选取M个概念C<sub>f</sub>(1≤f≤M),对关键概念在正文Ct<sub>x</sub>中的分布位置以及出现次数进行统计,形成位置特征向量Fp<sub>x</sub>,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;步骤6:为了量化文档间结构方面的差异度,选取文档WP<sub>a</sub>与WP<sub>b</sub>,基于二者的位置特征向量Fp<sub>a</sub>和Fp<sub>b</sub>构建表示位置特征向量差异度大小的的距离矩阵<img file="FDA0000979150490000013.GIF" wi="326" he="71" />以此统计两个文档正文中关键概念所处位置的距离分布和差异度;步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵<img file="FDA0000979150490000014.GIF" wi="302" he="79" />统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算;步骤8:以关键词项向量V<sub>x</sub>和位置特征向量Fp<sub>x</sub>作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;步骤9:增量更新索引库INDB,将索引库已有内容与网页WP<sub>x</sub>对应的正文文本Ct<sub>x</sub>执行合并更新。 |