发明名称 |
一种中文文本中评价对象的识别方法及装置 |
摘要 |
本申请公开了一种中文文本中评价对象识别方法及装置,方法为:对语料库中的各条原始语料进行分词,并确定分词所得的各个词特征的词性特征,接收用户输入的各个所述词特征的标签,标签标明词特征是否为评价对象或情感词,对各条原始语料进行分句,将原始语料划分为若干子句,筛选出目标子句,所述目标子句中包含标签为情感词的词特征,利用预设的特征模板,从所述目标子句中提取语料特征,组成训练语料,利用所述训练语料对最大熵分类器进行训练,得到训练后的目标最大熵分类器,利用目标最大熵分类器对待测文本进行评价对象的识别。本申请使用了最大熵分类器并结合了多种特征去识别待测文本中是否有评价对象,获得了良好的效果。 |
申请公布号 |
CN104298665A |
申请公布日期 |
2015.01.21 |
申请号 |
CN201410548882.5 |
申请日期 |
2014.10.16 |
申请人 |
苏州大学 |
发明人 |
李寿山;戴敏;周国栋 |
分类号 |
G06F17/28(2006.01)I;G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/28(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
常亮 |
主权项 |
一种中文文本中评价对象的识别方法,其特征在于,包括:对语料库中的各条原始语料进行分词,并确定分词所得的各个词特征的词性特征;接收用户输入的各个所述词特征的标签,所述标签标明词特征是否为评价对象或情感词;对各条原始语料进行分句,将原始语料划分为若干子句;筛选出目标子句,所述目标子句中包含标签为情感词的词特征;利用预设的特征模板,从所述目标子句中提取语料特征,组成训练语料;利用所述训练语料对最大熵分类器进行训练,得到训练后的目标最大熵分类器;利用所述目标最大熵分类器对待测文本进行评价对象的识别。 |
地址 |
215137 江苏省苏州市相城区济学路8号 |