发明名称 | 用于网页消重的方法和系统 | ||
摘要 | 提供了一种用于网页消重的方法的系统。所述方法包括:通过分析网页的HTML源代码来提取所述网页的内容;获得代表所述网页的内容的字频特征串,其中所述字频特征串包括主字频特征串以及辅特征串;以及对所提取的字频特征串进行相似度计算。 | ||
申请公布号 | CN106407195A | 申请公布日期 | 2017.02.15 |
申请号 | CN201510449802.5 | 申请日期 | 2015.07.28 |
申请人 | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 | 发明人 | 杨俊 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 中原信达知识产权代理有限责任公司 11219 | 代理人 | 李宝泉;周亚荣 |
主权项 | 一种用于网页消重的方法,包括:通过分析网页的HTML源代码来提取所述网页的内容;获得代表所述网页的内容的字频特征串,其中所述字频特征串包括主字频特征串以及辅特征串;以及对所提取的字频特征串进行相似度计算。 | ||
地址 | 100080 北京市海淀区杏石口路65号西杉创意园四区11C楼东段1-4层西段1-4层 |