发明名称 |
网页去重方法和设备 |
摘要 |
本发明提供一种网页去重方法和设备。该方法包括在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;将每个所述核心句映射为唯一的数值,组成第一数值集;确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。本发明实施例可以在网页去重处理时提高准确度以及增强抗噪声能力,并且减少计算规模。 |
申请公布号 |
CN102799647A |
申请公布日期 |
2012.11.28 |
申请号 |
CN201210223009.X |
申请日期 |
2012.06.30 |
申请人 |
华为技术有限公司 |
发明人 |
姜南;张辉;万嘉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京同立钧成知识产权代理有限公司 11205 |
代理人 |
刘芳 |
主权项 |
一种网页去重方法,其特征在于,包括:在目标网页中提取出至少一个核心句,所述核心句是指含有网页主要内容信息的句子;将每个所述核心句映射为唯一的数值,组成第一数值集;确定所述第一数值集与每个第二数值集的交集以及每个交集中包含的数值的个数,并确定出所述每个交集中包含的数值的个数的最大值,所述第二数值集为预先确定的备选网页集中每个网页包含的核心句映射得到的数值组成的集合;当所述最大值与所述第一数值集中的数值的总数量的比值大于设定阈值时,则将所述目标网页作为重复网页处理。 |
地址 |
518129 广东省深圳市龙岗区坂田华为总部办公楼 |