发明名称 自结构化文件提取信息之方法与装置并计算机程序及其存储介质
摘要 一种自结构化文件提取信息之方法,包括如下步骤:将包括标记标识符的部分树标识符赋与所选择部分树,该标记标识符包括对应于所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值;若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树,该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。
申请公布号 CN1469276A 申请公布日期 2004.01.21
申请号 CN03148661.4 申请日期 2003.06.18
申请人 日本电信电话株式会社 发明人 内山匡;宫本胜
分类号 G06F17/00 主分类号 G06F17/00
代理机构 北京三友知识产权代理有限公司 代理人 崔晓光
主权项 1一种自结构化文件提取信息之方法,将结构化文件变换为树结构,以便从被更新的该结构化文件特定出所选择部分,该所选择部分为事先从该结构化文件选择的,该所选择部分对应于所选择部分树,其中,包括如下步骤:将包括标记标识符的部分树标识符赋与上述所选择部分树,该标记标识符包括对应于上述所选择部分树根的标记名、该标记的至少1个文件格式属性名、该至少1个文件格式属性值;若该标记的上述至少1个文件格式属性包括多个文件格式属性,则在上述标记标识符中按给定顺序排列上述文件格式属性名;从更新后树结构文件中所存在的部分树的部分树标识符系列特定出部分树,该部分树具有同上述所选择部分树的部分树标识符一样的部分树标识符。
地址 日本东京