发明名称 一种网页标题提取方法及装置
摘要 本发明公开了一种网页标题提取方法及装置。该方法包括:构造训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;利用训练集训练分类器;将需要处理的网页解析为多个文本块及其属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合。本发明能够从没有“title”标签或者该标签内为空或难以总结普适性规则的网页集合提取标题,并且准确性高、扩展性好。
申请公布号 CN103218420B 申请公布日期 2016.12.28
申请号 CN201310110854.0 申请日期 2013.04.01
申请人 北京创世泰克科技股份有限公司 发明人 刘桂林;王呈祥;李勋;李振钊;赵威;刘秀磊
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京汇泽知识产权代理有限公司 11228 代理人 亓赢
主权项 一种网页标题提取方法,其特征在于,包括:构造训练集,将训练集中的每个网页解析为文本块及其属性值的序列,标注这些文本块的类别,将属性值序列和对应的类别处理成分类器能够识别的第一属性向量;利用训练集训练分类器;将需要处理的网页解析为多个文本块及其属性值的序列,将这些属性值的序列处理成分类器能够识别的第二属性向量;利用分类器根据训练结果将所述第二属性向量分类,鉴别出该第二属性向量是否为标题类别,得到类别为标题的文本块及其属性值序列的集合;按照属性向量的种类选择正确率最高的分类器进行分类,具体方法为:根据定义的属性值序列构造属性树,使每种属性值序列对应于一个叶子节点;对训练集预测,获得各分类器在各种属性值的正确率,记录在属性树上;对需要预测的属性值序列在属性树上查找预测准确率最高的分类器,用该分类器对其分类;根据定义的属性值序列构造属性树时,如果某个属性值不是离散的而是连续的,对该属性值进行离散化处理;对所述类别为标题的文本块及其属性值序列的集合中的文本块或属性值序列进行二次鉴别,得出最终的网页标题。
地址 100088 北京市海淀区知春路6号(锦秋国际大厦)A区1309、1310、1601室