一种基于URL的分类识别方法,申请号CN201210077268.6-传众专利搜索

发明名称	一种基于URL的分类识别方法
摘要	本发明涉及一种基于URL的分类识别方法，包括：步骤1，分类器对投放广告的网站网页进行分类，得到该网站所有URL对应网页的类别；步骤2，根据该网站的所有URL生成该网站的URL树；步骤3，根据广告请求的URL匹配所述URL树，返回匹配结果。本发明中描述的基于URL的分类识别方法对广告匹配延迟、URL存储量大、未索引页面不能及时分类等问题都有很好的改善处理。
申请公布号	CN102663022B	申请公布日期	2015.02.11
申请号	CN201210077268.6	申请日期	2012.03.21
申请人	浙江盘石信息技术有限公司	发明人	吴欢琴;田宁;刘崟;谭磊
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州宇信知识产权代理事务所(普通合伙) 33231	代理人	张宇娟
主权项	一种基于URL的分类识别方法，其特征在于，包括：步骤1，利用分类器对投放广告的网站网页进行分类，得到该网站所有URL对应网页的类别；步骤2，根据该网站的所有URL生成该网站的URL分类识别树；步骤3，根据广告请求的URL匹配所述URL分类识别树，返回匹配结果；步骤2包括：步骤21，对URL进行切分得到其表征值；步骤22，根据<img file="FDA0000566676330000011.GIF" wi="462" he="150" />计算所得的最大信息增益率值对应的关键字k作为生成URL分类识别树的下一个节点，其中：IG(k,C)＝H(C)‑H(C\|k)；<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>Σ</mi><mi>i</mi></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>log</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000012.GIF" wi="580" he="111" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>C</mi><mo>\|</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>Σ</mi><mi>v</mi></munder><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><munder><mi>Σ</mi><mi>i</mi></munder><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>\|</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mi>log</mi><mi> p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>\|</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000013.GIF" wi="1068" he="115" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>H</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mi>Σ</mi><mi>v</mi></munder><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mi>log</mi><mi>p</mi><mrow><mo>(</mo><mi>k</mi><mo>=</mo><mi>v</mi><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000014.GIF" wi="722" he="115" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>Σ</mi><mrow><mi>u</mi><mo>&Element;</mo><msub><mi>c</mi><mi>i</mi></msub></mrow></msub><mi>Imp</mi><mrow><mo>(</mo><mi>u</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>Σ</mi><mrow><msup><mi>u</mi><mo>′</mo></msup><mo>&Element;</mo><mi>U</mi></mrow></msub><mi>Imp</mi><mrow><mo>(</mo><msup><mi>u</mi><mo>′</mo></msup><mo>)</mo></mrow></mrow></mfrac><mo>;</mo></mrow>]]></math><img file="FDA0000566676330000015.GIF" wi="484" he="176" /></maths><img file="FDA0000566676330000016.GIF" wi="625" he="178" /><img file="FDA0000566676330000017.GIF" wi="768" he="166" />Imp<sup>d</sup>(u)＝(1‑α)Imp<sup>d‑1</sup>(u)+αfreq<sup>d</sup>(u)C表示类别，Imp(u)是URL u的访问频率，α表示平滑因子，Imp<sup>d</sup>(u)通过特定日d的访问频率freq<sup>d</sup>(u)和前一天的Imp<sup>d‑1</sup>(u)计算获得，c<sub>i</sub>表示C中的第i个类别，i＝1,2,3,...，v表示关键字k对应的值，u(k)表示URL u中关键字k的值，U表示URL集合,u'表示URL集合U中的实例；步骤23，当节点下URL属于同一类，或者节点含有的URL的访问次数小于预先设定的阈值且候选节点分割不具有统计意义，或者没有属性可以再用于分割，则分割停止。
地址	310011 浙江省杭州市拱墅区北部软件园C区祥园路45号