发明名称 一种基于URL的分类识别方法
摘要 本发明涉及一种基于URL的分类识别方法,包括:步骤1,分类器对投放广告的网站网页进行分类,得到该网站所有URL对应网页的类别;步骤2,根据该网站的所有URL生成该网站的URL树;步骤3,根据广告请求的URL匹配所述URL树,返回匹配结果。本发明中描述的基于URL的分类识别方法对广告匹配延迟、URL存储量大、未索引页面不能及时分类等问题都有很好的改善处理。
申请公布号 CN102663022B 申请公布日期 2015.02.11
申请号 CN201210077268.6 申请日期 2012.03.21
申请人 浙江盘石信息技术有限公司 发明人 吴欢琴;田宁;刘崟;谭磊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人 张宇娟
主权项 一种基于URL的分类识别方法,其特征在于,包括:步骤1,利用分类器对投放广告的网站网页进行分类,得到该网站所有URL对应网页的类别;步骤2,根据该网站的所有URL生成该网站的URL分类识别树;步骤3,根据广告请求的URL匹配所述URL分类识别树,返回匹配结果;步骤2包括:步骤21,对URL进行切分得到其表征值;步骤22,根据<img file="FDA0000566676330000011.GIF" wi="462" he="150" />计算所得的最大信息增益率值对应的关键字k作为生成URL分类识别树的下一个节点,其中:IG(k,C)=H(C)‑H(C|k);<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mi>i</mi></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000012.GIF" wi="580" he="111" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>C</mi><mo>|</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mi>v</mi></munder><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><munder><mi>&Sigma;</mi><mi>i</mi></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mi>log</mi><mi> p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>|</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000013.GIF" wi="1068" he="115" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>&Sigma;</mi><mi>v</mi></munder><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mi>log</mi><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000014.GIF" wi="722" he="115" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>&Sigma;</mi><mrow><mi>u</mi><mo>&Element;</mo><msub><mi>c</mi><mi>i</mi></msub></mrow></msub><mi>Imp</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>&Sigma;</mi><mrow><msup><mi>u</mi><mo>&prime;</mo></msup><mo>&Element;</mo><mi>U</mi></mrow></msub><mi>Imp</mi><mrow><mo>(</mo><msup><mi>u</mi><mo>&prime;</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000015.GIF" wi="484" he="176" /></maths><img file="FDA0000566676330000016.GIF" wi="625" he="178" /><img file="FDA0000566676330000017.GIF" wi="768" he="166" />Imp<sup>d</sup>(u)=(1‑α)Imp<sup>d‑1</sup>(u)+αfreq<sup>d</sup>(u)C表示类别,Imp(u)是URL u的访问频率,α表示平滑因子,Imp<sup>d</sup>(u)通过特定日d的访问频率freq<sup>d</sup>(u)和前一天的Imp<sup>d‑1</sup>(u)计算获得,c<sub>i</sub>表示C中的第i个类别,i=1,2,3,...,v表示关键字k对应的值,u(k)表示URL u中关键字k的值,U表示URL集合,u'表示URL集合U中的实例;步骤23,当节点下URL属于同一类,或者节点含有的URL的访问次数小于预先设定的阈值且候选节点分割不具有统计意义,或者没有属性可以再用于分割,则分割停止。
地址 310011 浙江省杭州市拱墅区北部软件园C区祥园路45号