发明名称 用于从具有文本段的文档中提取术语的系统
摘要 本发明提供一种用于从具有文本段的文档中提取术语的系统,其按有助于理解文档概要或理解内容的观点来对该提取出的术语进行分类,并将该分类的术语提示给使用者。计算机系统使用第一文本处理信息,从具有文本段的文档数据中提取名词性词语,使用第二文本处理信息,从该文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中提取关于该名词性词语的术语候选,为了决定该名词性词语和该术语候选是属于多个种类中的哪一种类的名词性词语,而利用第三文本处理信息选择对多个种类中的哪个种类给予权重,对该名词性词语和该术语候选分别就上述所选择的种类给予权重,根据上述给予的权重,决定该名词性词语和该术语候选所属的该种类;与所决定的种类关联而输出该名词性词语和该术语候选。
申请公布号 CN102144229B 申请公布日期 2013.09.04
申请号 CN200980134535.5 申请日期 2009.07.30
申请人 国际商业机器公司 发明人 伊川洋平;竹内广宜;根岸紫穗
分类号 G06F17/28(2006.01)I;G06F17/21(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京市金杜律师事务所 11256 代理人 王茂华;孟祥海
主权项 一种计算机系统,用于从具有文本段的文档数据中提取术语,该计算机系统包括:第一提取部,其使用第一文本处理信息来从上述文档数据中提取名词性词语;第二提取部,其使用第二文本处理信息来从上述文档数据或包含以与该文档数据相同的语言记载的文本数据的语料库中提取关于上述提取的名词性词语的术语候选;加权部,其为了决定上述提取出的名词性词语和上述提取出的术语候选是属于多个种类中的哪一种类的名词性词语而利用第三文本处理信息来选择对上述多个种类中的哪个种类给予权重,并就上述所选择的种类来分别对上述提取出的名词性词语和上述提取出的术语候选给予权重,其中上述加权部在上述文档数据或者包含以与该文档数据相同的语言记载的文本数据的语料库中,求出所有格语分别与上述提取出的名词性词语和上述提取出的术语候选相关联的次数,并根据该求出的次数是否在规定的阈值范围内来选择给予权重的种类;决定部,其根据上述给予的权重来决定上述提取出的名词性词语和上述提取出的术语候选所属的上述种类;输出部,其按照上述决定来使上述提取出的名词性词语和上述提取出的术语候选与上述决定的种类相关联而输出。
地址 美国纽约