发明名称 用于网页消重的方法和系统
摘要 提供了一种用于网页消重的方法的系统。所述方法包括:通过分析网页的HTML源代码来提取所述网页的内容;获得代表所述网页的内容的字频特征串,其中所述字频特征串包括主字频特征串以及辅特征串;以及对所提取的字频特征串进行相似度计算。
申请公布号 CN106407195A 申请公布日期 2017.02.15
申请号 CN201510449802.5 申请日期 2015.07.28
申请人 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 发明人 杨俊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中原信达知识产权代理有限责任公司 11219 代理人 李宝泉;周亚荣
主权项 一种用于网页消重的方法,包括:通过分析网页的HTML源代码来提取所述网页的内容;获得代表所述网页的内容的字频特征串,其中所述字频特征串包括主字频特征串以及辅特征串;以及对所提取的字频特征串进行相似度计算。
地址 100080 北京市海淀区杏石口路65号西杉创意园四区11C楼东段1-4层西段1-4层