发明名称 | 一种网页数据结构化解析方法和装置 | ||
摘要 | 本发明提供一种网页数据结构化解析方法,该方法首先根据某种模板网页编写根据规则提取信息的程序,获得训练语料;同时,利用逆向文档频率IDF获取可能的要结构化的项的可能名称;然后利用所述训练语料训练隐马尔科夫模型,确定参数;使用相关算法对待解析网页进行隐马尔科夫模型解码,获得最终结构化数据。本发明还提供一种网页数据结构化解析装置,包括采集模块、获取模块、训练模块和解码模块。该方法和装置,交由模型本身的智能解析和自学的特点来完成,无需领域专家投入太多精力,人工依赖程度低,大大提高了解析的准确率、性能和效率。 | ||
申请公布号 | CN104699797A | 申请公布日期 | 2015.06.10 |
申请号 | CN201510119703.0 | 申请日期 | 2015.03.18 |
申请人 | 浪潮集团有限公司 | 发明人 | 范莹;于治楼;梁华勇 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 济南信达专利事务所有限公司 37100 | 代理人 | 李世喆 |
主权项 | 一种网页数据结构化解析方法,其特征在于,包括步骤:步骤A,采集一领域同一类型的模板网页多个,对采集到的模板网页的数据进行正文提取和按预设规则进行结构化解析,将提取的正文和对应的解析后的数据作为训练语料;步骤B,提取该领域多种类型的模板网页各多个,从中获取结构化项名及其在不同网页中的各种别名;步骤C,根据所述训练语料,训练解析模型;步骤D,对待解析的网页数据进行解析模型解码,并与所述结构化项名及其别名进行比对,获得结构化数据。 | ||
地址 | 250100 山东省济南市高新区浪潮路1036号 |