发明名称 |
一种面向评价性文本的核心实体识别方法及装置 |
摘要 |
本发明涉及一种面向评价性文本的核心实体识别方法及装置。该方法包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。该装置包括规则匹配模块、模型识别模块和候选实体生成模块。本发明针对多类型混杂的评价性文本,能够准确有效地提取文本中的核心实体,为用户决策判断提供有力依据。 |
申请公布号 |
CN106570179A |
申请公布日期 |
2017.04.19 |
申请号 |
CN201610991857.3 |
申请日期 |
2016.11.10 |
申请人 |
中国科学院信息工程研究所 |
发明人 |
李全刚;柳厅文;王玉斌;李柢颖;时金桥;亚静;郭莉 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
邱晓锋 |
主权项 |
一种面向评价性文本的核心实体识别方法,其特征在于,包括以下步骤:1)输入评价性文本,基于专家规则和行业专有词典识别该评价性文本中的核心实体;2)对步骤1)未识别出核心实体的评价性文本,使用训练好的基于词的双向LSTM模型进行核心实体识别;3)对步骤2)未识别出核心实体的评价性文本,通过对已有实体集的统计并结合文本分词和词性标注,生成候选实体作为核心实体。 |
地址 |
100093 北京市海淀区闵庄路甲89号 |