发明名称 |
一种网页信息的提取方法及装置 |
摘要 |
本发明实施例公开了一种网页信息的提取方法及装置。所述网页信息的提取方法包括:根据目标标签的类别所对应的处理规则对所述目标标签进行预处理,得到预处理文档;根据预设标签符号对所述预处理文档进行截断;根据截断后的预处理文档确定网页正文内容。现有技术中需要针对目标网页进行训练,得到目标网页的提取模型因此网页信息提取的通用性差。本发明实施例根据目标标签的类别所对应的处理规则对所述目标标签进行预处理,由于不需要针对某种网页样本进行训练建立提取模型,因此无需进行训练,降低提取成本。此外,由于标签在HTML文档中具有通用性,因此能够提高网页信息提取的通用性。 |
申请公布号 |
CN106547895A |
申请公布日期 |
2017.03.29 |
申请号 |
CN201610972418.8 |
申请日期 |
2016.11.03 |
申请人 |
北京锐安科技有限公司 |
发明人 |
王江 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
胡彬;邓猛烈 |
主权项 |
一种网页信息的提取方法,其特征在于,包括:根据目标标签的类别所对应的处理规则对所述目标标签进行预处理,得到预处理文档;根据预设标签符号对所述预处理文档进行截断;根据截断后的预处理文档确定网页正文内容。 |
地址 |
100044 北京市海淀区西小口路66号中关村东升科技园北领地B-2号楼七层 |