发明名称 | 格式文档中的信息的抽取装置及抽取方法 | ||
摘要 | 格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。由此,能够对于不同类型的格式文档自动地进行信息的抽取。 | ||
申请公布号 | CN1167027C | 申请公布日期 | 2004.09.15 |
申请号 | CN01123845.3 | 申请日期 | 2001.08.03 |
申请人 | 富士通株式会社 | 发明人 | 黄晓宏;徐国伟 |
分类号 | G06F17/21;G06F17/27 | 主分类号 | G06F17/21 |
代理机构 | 北京三友知识产权代理有限公司 | 代理人 | 李强 |
主权项 | 1.格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);在分析结果的基础上,根据相对于周围字符串的特殊排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。 | ||
地址 | 日本神奈川县 |