发明名称 一种用于复杂页面的包装器自动生成方法
摘要 本发明公开了一种用于复杂页面的包装器自动生成方法,包括下列步骤:(1)获取基于同一模板的两个HTML页面文档,生成HTML标记树;(2)获得包含数据记录集合的最小区域DS;(3)从最小区域中获取初始数据记录;(4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录;(5)根据步骤(4)中生成的数据记录在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。本发明能够通过对HTML Tag树的结构关系的分析,从复杂页面中抽取出真正的数据记录规则,从而可以自动构建抽取准确率高的包装器。
申请公布号 CN101515287A 申请公布日期 2009.08.26
申请号 CN200910029561.3 申请日期 2009.03.24
申请人 崔志明;方巍;赵朋朋 发明人 崔志明;方巍;赵朋朋
分类号 G06F17/30(2006.01)I;G06F9/44(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 苏州创元专利商标事务所有限公司 代理人 陶海锋
主权项 1.一种用于复杂页面的包装器自动生成方法,其特征在于:包括下列步骤:(1)获取基于同一模板生成的两个HTML页面文档,利用XML解析器分别解析成具有树形结构的文档对象模型,即HTML标记树;(2)比较步骤(1)获得的两个HTML标记树,去除噪声区,获得包含数据记录集合的最小区域DS;(3)从所述最小区域中获取初始数据记录,其方法是,从HTML标记树中得到DS区的最长公共子串,通过发现DS区中的重复区域来识别出初始的数据记录DR,所述数据记录用一个二元组(D,G)表示,D代表记录属性的集合,G代表属性在Html页面的布局组合关系;(4)根据初始的数据记录DR的布局组合关系,依据特征项的相似度,确定抽取项的聚集关系,并结合领域本体的知识,对同一聚集块中实体进行语义标注,根据实体间语义关系重新组合成新的数据记录DR2;(5)根据步骤(4)中生成的数据记录DR2在HTML标记树中的位置关系,生成每个聚集块的抽取规则,然后构建包装器。
地址 215001江苏省苏州市苏安新村115幢403室