一种基于机器学的本体实例学方法,申请号CN201210121839.1-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于机器学的本体实例学方法
摘要	本发明属于一种自然语言处理和本体学技术领域，涉及一种基于机器学的本体实例学方法，包括：对文档进行预处理后，进行标注语料；选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征，将语料及待识别的文本转换为特征向量的形式；进行最大熵模型训练，利用标注好的语料训练最大熵模型的参数，得到最大熵分类器；利用最大熵分类器进行实例抽取。本发明可以快速、有效地从大量文本中学本体的实例。
申请公布号	CN102662923A	申请公布日期	2012.09.12
申请号	CN201210121839.1	申请日期	2012.04.23
申请人	天津大学	发明人	张萌;王文俊
分类号	G06F17/21(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/21(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所 12201	代理人	程毓英
主权项	一种基于机器学习的本体实例学习方法，用于从文本中识别出属于本体实例的词语，并对其分类，包括下列步骤：(1)文档预处理：提取正文部分作为后续步骤的输入；(2)文本预处理：对提取出的正文进行分词、分句处理，形成标注了词性的文本集；(3)标注语料：对标注了词性的文本集进行人工标注，在属于本体实例的词语的后面加上类型标签，形成标注文本，即语料；(4)特征选择：选取包括词特征、词性特征、词和词性特征的组合特征在内的各种特征，将语料及待识别的文本转换为特征向量的形式；(5)最大熵模型训练。建立最大熵模型，利用标注好的语料训练最大熵模型的参数，得到最大熵分类器；(6)利用最大熵分类器进行实例抽取：根据选择好的特征，将已经过预处理的文本处理成为分类器能够接受的形式，利用已训练好的最大熵分类器以词为单位进行实例的识别与分类，对于识别出的本体实例，选择概率值最大的类别作为其所属概念类别的最终结果，实现实例抽取。
地址	300072 天津市南开区卫津路92号

您可能感兴趣的专利

人工合成绒面皮革的方法

INTEGRATED CIRCUIT DEVICES

A COMPOSITE POLYESTER FILM

DISPOSABLE SANITARY ARTICLES.

RAISED DEPRESSIBLE PAVEMENT MARKER

BLADDER LUBRICANT COMPOSITION FOR TIRE MOLDING

LASER-LIGHT TRANSMISSION DEVICE.

Wrist support for hand-held devices.

Novel fluorescent label.

Turner blade with internal cooling passage.

An abrasion resistant steel.

Multipackage and method of packaging a plurality of containers.

Method for pyrolyzing silicone rubbers.

INCLINED VENTILATION GRILLE

AQUEOUS FLUID ABSORBENT POLYMER BEADS, PROCESS FOR PREPARING THE SAME AND SUSPENDING AGENT EMPLOYED THEREIN

TORSIONAL VIBRATION DAMPING MECHANISM

METHOD AND APPARATUS FOR NONCONTACT AUTOMATIC FOCUSING

MAGNETIC BRUSH DEVELOPER FOR ELECTROPHOTOGRAPHY

HIGH-PERFORMANCE COMPUTER SYSTEM