发明名称 形成用于生成文档模板的合并树的方法以及装置
摘要 本发明涉及一种形成用于生成文档模板的合并树的方法以及装置,所述方法包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树。
申请公布号 CN102375847B 申请公布日期 2014.06.04
申请号 CN201010260747.2 申请日期 2010.08.17
申请人 富士通株式会社 发明人 王新文;夏迎炬;孟遥;于浩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 王萍;许向华
主权项 一种形成用于生成文档模板的合并树的方法,包括以下步骤:相似度计算步骤,用于当从由多个页面解析成的多棵树中每颗树与另一颗树进行比较时计算两颗被比树中位于同一层的子树的相似度,以从两颗被比树中提取相似度大于或等于预定第一阈值的相似子树和该些相似子树的公共根节点,其中从所述多棵树的节点能够提取所需特征;合并步骤,使用提取的所有树的相似子树来形成初始合并树,其中初始合并树的根节点是所有树的相似子树的公共根节点;以及后处理步骤,用于对初始合并树进行后处理,以通过去除初始合并树的无效子树来获得合并树,其中相似度计算步骤和合并步骤包括:把多棵树中的第一树与多棵树中的第二树进行比较,以使用自第一和第二树提取的相似子树和该些相似子树的公共根节点来形成第一合并树;以及把第n树与第n‑2合并树进行比较,以使用自第n树和第n‑2合并树提取的相似子树和该些相似子树的公共根节点来形成第n‑1合并树,其中n是大于等于3的整数。
地址 日本神奈川县