发明名称 一种对网页进行分类的方法和系统
摘要 本发明公开了一种对多个网页进行分类的方法及系统,所述多个网页为与一主题相关的网页,所述主题包括至少两个版本,该方法包括如下步骤:获得所述多个网页,并基于所述多个网页,获得数量与所述多个网页一致的多个文档;对所述多个文档中的每个文档进行处理,获得数量与所述多个文档一致的多个特征单元集,所述多个特征单元集中的每个特征单元集都包括有至少一个特征单元,所述至少一个特征单元用来体现对应网页的特征;计算所述每个特征单元集中的每个特征单元的特征值;基于所有所述每个特征单元集中的每个特征单元的特征值,进行文本聚类,将所述多个网页中的每个网页归到所述至少两个版本中的一个版本。
申请公布号 CN102915315A 申请公布日期 2013.02.06
申请号 CN201110224462.8 申请日期 2011.08.05
申请人 中兴通讯股份有限公司 发明人 高燕;傅力;张震玮;张岩;孔亮;黄丛蕊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种对多个网页进行分类的方法,所述多个网页为与一主题相关的网页,所述主题包括至少两个版本,其特征在于,包括如下步骤:获得所述多个网页,并基于所述多个网页,获得数量与所述多个网页一致的多个文档;对所述多个文档中的每个文档进行处理,获得数量与所述多个文档一致的多个特征单元集,所述多个特征单元集中的每个特征单元集都包括有至少一个特征单元,所述至少一个特征单元用来体现对应网页的特征;计算所述每个特征单元集中的每个特征单元的特征值;基于所有所述每个特征单元集中的每个特征单元的特征值,进行文本聚类,将所述多个网页中的每个网页归到所述至少两个版本中的一个版本。
地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部