发明名称 基于词语依存关系的观点抽取方法
摘要 本发明公开了一种基于词语依存关系的观点抽取方法,包括如下步骤:采集词语依存关系路径并构建词语依存关系库;采用基于词语依存关系链的匹配算法抽取评价对象和情感特征;通过评价对象和情感特征之间的词语依存关系判断观点极性。该方法能够在不同领域中抽取观点,并且能够实现较高的观点抽取准确率。
申请公布号 CN102866989B 申请公布日期 2016.09.07
申请号 CN201210317183.0 申请日期 2012.08.30
申请人 北京航空航天大学 发明人 刘瑞;安翼;陈君龙;宋浪
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京汲智翼成知识产权代理事务所(普通合伙) 11381 代理人 陈曦;景志
主权项 一种基于词语依存关系的观点抽取方法,其特征在于包括如下步骤:通过句法分析得到每个句子的语法结构,根据所述语法结构将句子词语的语法关系作为词语依存关系组成词语依存关系集合;根据词语依存关系集合找到评价词语和评价对象之间的词语依存关系路径,所述词语依存关系路径指的是两个词语之间依存关系的无向图;采集词语依存关系路径并构建词语依存关系库;所述构建词语依存关系库的步骤包括:对于语料库中的文本进行预处理,获得词语及其词性;将预处理后的文本以标点符号划分为不同的分句;对每个分句进行句法解析,分析句法结构,获得句子成分;根据句子中标注的句子成分,以存在于情感词词典中的词语作为候选评价词语、名词性短语中的名词或代词作为候选评价对象,计算候选评价词语与候选评价对象的最短路径;对训练集合中的所有分句进行处理,并对所获得的词语依存关系路径进行统计,将出现较多的词语依存关系路径加入到词语依存关系库中;采用基于词语依存关系路径的匹配算法抽取评价对象和情感特征;通过评价对象和情感特征之间的词语依存关系判断观点极性。
地址 100191 北京市海淀区学院路37号