发明名称 生成与维护网页内容抽取模板的方法和设备
摘要 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。
申请公布号 CN102073654A 申请公布日期 2011.05.25
申请号 CN200910226108.1 申请日期 2009.11.20
申请人 富士通株式会社 发明人 夏迎炬;吴科;张姝;于浩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 李春晖;俞波
主权项 一种生成网页内容抽取模板的装置,包括:输入单元,被配置成根据网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元,被配置成使用任何一个输入树作为初始联合树,利用计算出的权重来计算每个所述输入树和所述联合树之间的最大对齐关系;合并单元,被配置成利用计算出的所述最大对齐关系将所述输入树合并到所述联合树上;确定单元,被配置成确定所述联合树中最可能具有期望文本内容的节点;和选择单元,被配置成选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。
地址 日本神奈川县