发明名称 基于内容与位置特征的近似web文档检测方法
摘要 本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
申请公布号 CN105975547A 申请公布日期 2016.09.28
申请号 CN201610283628.6 申请日期 2016.04.29
申请人 武汉大学 发明人 李石君;吴岳廷;张健;余伟;李宇轩
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人 张火春
主权项 一种基于内容与位置特征的近似web文档检测方法,其特征在于,包括下列步骤:步骤1:对网页文档WP<sub>x</sub>进行页面内去噪处理,获取网页经过页面内去噪后的正文文本Ct<sub>x</sub>;步骤2:对网页正文Ct<sub>x</sub>进行中文分词操作,逐一计算其正文文本的所有项w的TF‑IDF值:记为TF‑IDF(w);步骤3:基于特定主题与文档的特点,设置阈值TF‑IDF<sub>thr</sub>,对于词项w而言,如果TF‑IDF(w)>TF‑IDF<sub>thr</sub>,则选取其作为关键词项;否则,忽略相应词项w并进行归类;从网页文本WP中选出TF‑IDF值排Top N个关键词项w<sub>1</sub>,w<sub>2</sub>,…,w<sub>N</sub>组成关键词项向量<img file="FDA0000979150490000011.GIF" wi="50" he="63" />步骤4:对于任意两篇文档Wp<sub>s</sub>与WP<sub>t</sub>,基于键词项向量<img file="FDA0000979150490000012.GIF" wi="35" he="61" />计算二者之间的相似度TextSim(WP<sub>s</sub>,WP<sub>t</sub>).当TextSim(WP<sub>s</sub>,WP<sub>t</sub>)>TextSim<sub>thr</sub>时,所述的TextSim<sub>thr</sub>是预定的文档相似性阈值;认为文档WP<sub>s</sub>和WP<sub>t</sub>是相互近似的网页文本;否则,web文档Wp<sub>s</sub>与WP<sub>t</sub>不近似;步骤5:在文档WP选取M个概念C<sub>f</sub>(1≤f≤M),对关键概念在正文Ct<sub>x</sub>中的分布位置以及出现次数进行统计,形成位置特征向量Fp<sub>x</sub>,该向量由M个行向量构成,每个行向量对应相应的关键概念在文档中出现的所有位置;步骤6:为了量化文档间结构方面的差异度,选取文档WP<sub>a</sub>与WP<sub>b</sub>,基于二者的位置特征向量Fp<sub>a</sub>和Fp<sub>b</sub>构建表示位置特征向量差异度大小的的距离矩阵<img file="FDA0000979150490000013.GIF" wi="326" he="71" />以此统计两个文档正文中关键概念所处位置的距离分布和差异度;步骤7:为了对文档间各概念所处位置的差异性均值、波动范围以及不同概念在文档间的分布进行对比分析,基于距离矩阵<img file="FDA0000979150490000014.GIF" wi="302" he="79" />统计两个文档正文中关键概念所处位置的距离分布,并进行差异度计算;步骤8:以关键词项向量V<sub>x</sub>和位置特征向量Fp<sub>x</sub>作为检索参数,查询已建倒排索引库INDB,在与已有索引库记录的文档相似性超出预设阈值,且文档中关键概念的位置距离和差异度均小于设定阈值的情况下,则认定页面是近似网页,否则不是近似网页;步骤9:增量更新索引库INDB,将索引库已有内容与网页WP<sub>x</sub>对应的正文文本Ct<sub>x</sub>执行合并更新。
地址 430072 湖北省武汉市武昌区珞珈山武汉大学