发明名称 用于搜索电子文档中的日期的系统和方法
摘要 一种数据查询系统处理文档中的自由形式文本,以使用扩展的常规表达匹配来识别和定位文档中的一些或者所有日期,从而捕获各种日期格式。该系统封装每个识别的日期的规范化格式,以支持各种类型的查询,例如特定日期查询、分级日期查询、范围日期查询、包括日期和关键字的邻近查询以及查询类型的任何结合。该系统扫描文档以识别在在文档中出现的各种格式日期,消除最终日期出现的歧义,以及根据一种或者多种预定的格式规范化日期。
申请公布号 CN1955963B 申请公布日期 2010.05.12
申请号 CN200610135748.8 申请日期 2006.10.17
申请人 国际商业机器公司 发明人 马德赫卡尔·R·科拉波卢;斯蒂芬·迪尔
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 张维
主权项 一种在多个电子文档中搜索查询的日期的所有出现的处理器实现方法,该方法包括:扫描所述文档,以得到所述文档中的任何日期格式的所有日期的所有出现;针对所述日期出现来消除歧义,以便提供已消除歧义的日期,所述已消除歧义的日期包括所述日期出现的第一日期以及不能处理为所述日期出现的每个含糊的解释,所述消除歧义包括至少以下之一:从一个或者多个电子文档收集日期格式,并且使用所收集的日期格式来处理所述日期出现;检查所述日期出现部分的范围,以便标识所述日期出现的格式;通过针对所述日期出现进行格式匹配来识别重叠的日期;处理所述日期出现的上标日期;利用在所述电子文档中的相同页面或者不同页面上包含的相关信息,来推断所述日期出现的格式;利用针对所述电子文档中类似日期出现的最新标准来标识所述日期出现的格式;在多个文档中收集多个数据格式信息,以确定日期出现的格式;产生每个已消除歧义的日期出现的规范化格式;封装对应于每个已消除歧义的日期出现的所述多个规范化格式,以作为对所述日期出现进行索引的封装;对日期出现建立索引,将所述含糊的日期出现匹配于解释;以及使用所述封装的规范化格式来输出所述查询的日期的所有出现。
地址 美国纽约阿芒克