发明名称 一种基于隐式马尔科夫模型的科技类复合短语识别方法
摘要 本发明公开了一种基于隐式马尔科夫模型的科技类复合短语识别方法。本方法为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的科技类复合短语结果。本发明缓解了角色标注的巨大人工成本代价。
申请公布号 CN106569997A 申请公布日期 2017.04.19
申请号 CN201610912585.3 申请日期 2016.10.19
申请人 中国科学院信息工程研究所 发明人 柳厅文;闫旸;赵佳鹏;李柢颖;张盼盼;李全刚;亚静;时金桥;郭莉
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 司立彬
主权项 一种基于隐式马尔科夫模型的复合短语识别方法,其步骤为:1)采用词性标注工具对输入语料进行词性标注和分词;2)采用隐式马尔科夫模型对步骤1)处理后的语料进行隐状态预测,输出一状态序列;然后对该状态序列进行切分,得到一复合短语集合;3)判断步骤2)得到的复合短语中是否包含特征词集合中的特征词,将含有设定特征词的复合短语作为识别的复合短语。
地址 100093 北京市海淀区闵庄路甲89号