发明名称 一种基于分布式计算的网页分类方法
摘要 本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。
申请公布号 CN103744958B 申请公布日期 2016.10.19
申请号 CN201410004646.7 申请日期 2014.01.06
申请人 同济大学 发明人 蒋昌俊;陈闳中;闫春钢;丁志军;王鹏伟;孙海春;邓晓栋;王昕
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海天协和诚知识产权代理事务所 31216 代理人 叶凤
主权项 一种基于分布式计算的网页分类方法,其特征在于,包括步骤如下:步骤一,分类模型的建立;(11)网页预处理;网页的预处理是对网页正文部分进行切词处理;(12)特征词关联信息;通过在属于同一类别的特征词中增加与不同文档之间的特征词的关联信息,步骤为:首先根据训练集中的文档信息求得类别集合中的特征词之间的关联关系,其关联关系为是否出现在相同文档中,然后在最初的分类器中匹配相应的特征词,取得相应特征词的权值后根据类别集合中的特征词之间的关联信息对特征词进行划分,求得集合中关于文档信息的特征词的子集,最后将数据存入最终的分类器;(13)特征词位置信息;首先根据计算特征词权值得到网页中的高频词,再统计高频词在网页中的位置信息得到不同类别下所处网页中不同位置的特征词对该类别的作用程度,最后根据该作用程度对特征词的权值进行修改,得到更精确的特征词对类别的重要程度;步骤二,网页分类过程;(21)网页预处理;网页的预处理是对网页正文部分进行切词处理;(22)计算网页归属类别;以朴素贝叶斯分类为基础,计算所有类的条件概率进而求得不同类对待分类网页的后验概率,最后取可以得到最大后验概率的类作为该网页的归属类别;类别的条件概率计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>P</mi><mrow><mo>(</mo><mi>d</mi><mo>,</mo><msub><mi>C</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><munder><mo>&Sigma;</mo><mrow><msup><mi>d</mi><mo>&prime;</mo></msup><mo>&Element;</mo><msup><mi>K</mi><mo>&prime;</mo></msup></mrow></munder><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mo>|</mo><mi>d</mi><mo>|</mo></mrow></munderover><mi>log</mi><mrow><mo>(</mo><mfrac><mrow><mi>T</mi><mo>+</mo><mn>1</mn></mrow><mrow><mi>S</mi><mo>+</mo><mi>V</mi></mrow></mfrac><mo>)</mo></mrow><mi>F</mi><mi>i</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0001016507390000011.GIF" wi="1062" he="199" /></maths>其中C<sub>j</sub>表示类;d表示待分类的网页;d’表示特征词子集;K’表示和网页数据进行计算后的前k个的集合;T表示d’中的特征词在分类模型中的权值;S表示所有权值和;V表示所有特征词数量和;Fi表示d中的词频;根据d中的特征词对分类模型中类别C<sub>j</sub>下所有特征词子集进行计算,从分类模型中可以得到T、S和V,再根据特征词词频Fi计算出网页对C<sub>j</sub>中所有子集的匹配结果,这里如公式(1)所示,对网页中i个特征词进行计算后累加得到;再取结果中前k个进行累加作为该类别的条件概率,从而得到类别的后验概率;类别的后验概率越大说明网页对该类别所属程度越大,进而得到网页的归属类别;(23)动态词库;在网页归属类别计算完成后,根据特征词在文档中出现的频率记录高频词,在这些高频词中判断是否有未识别的特征词,若有未识别的特征词,则将信息记录在动态词库中,信息包括文档的类别、未识别的特征词以及频率高的已识别的特征词;在以后的分类过程中将动态词库与分类模型结合使用,首先在分类模型中对特征词进行匹配,若匹配不到则在动态词库中进行寻找,若在动态词库中匹配得到,则根据其频率以及已识别的特征词的权值以及频率求该特征词的权值,为分类过程服务,若在动态词库中没有相应匹配则记录相应信息。
地址 200092 上海市杨浦区四平路1239号