发明名称 识别文本文档中的有机化学名称的系统和方法
摘要 本发明涉及识别文本文档中的有机化学名称的系统和方法,具体提供了识别技术术语的方法、系统和计算机程序产品。技术术语可以是化学名称,最好是有机化学名称。所述程序产品以计算机可读形式存储指令计算机处理文本文档的指令,包括向在文档中找到的单词分配词类的指令,后者包括进行下述操作的指令:应用规则表达、规则和多典来识别有机化学名称片断,将识别的片断组合为完整的有机化学名称,并对其分配词类。规则表达包括多个各由字符、数字和标点中的至少一个组成的模式。标点可以包括至少一个圆括号、方括号、连字符、冒号和分号,字符可以包括至少一个大写C、O、R、N和H,还可包括小写的xy、ene、ine、yl、ane和oic中的至少一个的串。
申请公布号 CN1601520A 申请公布日期 2005.03.30
申请号 CN200410082401.2 申请日期 2004.09.17
申请人 国际商业机器公司 发明人 安娜·洛萨·科登;詹姆斯·威廉·库珀
分类号 G06F17/21;G06F17/30 主分类号 G06F17/21
代理机构 中国国际贸易促进委员会专利商标事务所 代理人 李德山
主权项 1.一种处理文档的方法,包括:将文档文本分割为多个句子;对于每一个句子,将相应的相关词类分配给单词,其中,该分配操作包括应用多个规则表达、规则和多个词典来识别化学名称片断,将识别的化学名称片断组合为完整的化学名称,并对该完整的化学名称分配一个词类;以及至少部分地根据所分配的词类,将所述句子解析为其组成部分。
地址 美国纽约