发明名称 用于从电子文档提取信息的方法和系统
摘要 本发明涉及一种用于从电子文档提取信息的方法和系统。所述方法包括:从训练语料库学术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;生成在所述训练语料库中找到的否定指示符的列表;在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。
申请公布号 CN103294764B 申请公布日期 2016.11.16
申请号 CN201310059415.1 申请日期 2013.02.26
申请人 国际商业机器公司 发明人 T·F·希达-马穆德;L·基蒂卡留
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市中咨律师事务所 11247 代理人 于静;张亚非
主权项 一种用于从电子文档提取信息的方法,所述方法包括:从训练语料库学习术语和术语变体,其中所述术语和所述术语变体对应于与所述训练语料库相关的专用词典;生成在所述训练语料库中找到的否定指示符的列表;在一组电子文档中执行所述术语和所述术语变体的部分匹配以产生初始匹配结果;以及针对所述初始匹配结果使用所述否定指示符执行否定测试并使用所述术语和所述术语变体执行肯定术语测试,以便从所述初始匹配结果中删除使所述否定测试或所述肯定术语测试失败的匹配,从而产生最终匹配结果。
地址 美国纽约