发明名称 一种识别统一资源定位符主链接的方法及装置
摘要 本发明公开了一种识别统一资源定位符(URL)主链接的方法,包括:利用采集到的指定时长内所有客户端发出的全部超文本传送协议(HTTP)请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发分组;分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;根据合并准则,对从知识库选出指定时间段内所有的关联规则合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对。本发明还同时公开了一种识别URL主链接的装置,采用本发明能提高识别URL主链接的准确性。
申请公布号 CN102932400B 申请公布日期 2015.06.17
申请号 CN201210253957.8 申请日期 2012.07.20
申请人 北京网康科技有限公司 发明人 贾晋康;齐燕博;张永臣
分类号 H04L29/08(2006.01)I;H04L29/06(2006.01)I 主分类号 H04L29/08(2006.01)I
代理机构 北京派特恩知识产权代理有限公司 11270 代理人 张颖玲;任媛
主权项 一种识别统一资源定位符URL主链接的方法,其特征在于,该方法包括:利用采集到的指定时长内所有客户端发出的全部超文本传送协议HTTP请求,根据间隔门限获取各个客户端对应的突发,对突发进行分组获得同主链突发组;分别对同主链突发组运行关联规则的分析算法得到关联规则,将所有关联规则保存在知识库中;根据合并准则,对从知识库选出指定时间段内所有的关联规则进行合并,得到新的关联规则;根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对;其中,所述合并准则,包括:从指定时间段内所有的关联规则中,选出具有相同的前项及后项的关联规则,建立一条新的关联规则,新的关联规则包括前项、后项、支持度和置信度;所述前项及后项与选出的关联规则相同;所述支持度为所有选出的关联规则支持度之和;所述置信度为将每个选出的关联规则的支持度乘以置信度后相加之和、除所有选出的关联规则的支持度之和;所述根据支持度门限、置信度门限及新的关联规则,得到多个URL主链接及其附属链接对,包括:选取支持度高于支持度门限、且置信度高于置信度门限的所有新的关联规则,分别将选取出的各个新的关联规则中的前项作为URL主链接、后项作为该URL主链接的附属连接。
地址 100190 北京市海淀区中关村路66号世纪科贸大厦A座3层