发明名称 | 基于条件随机场的中英文混合命名实体识别方法及系统 | ||
摘要 | 本发明提出了基于条件随机场的中英文混合命名实体识别方法及系统,所述方法包含:步骤101)用于将用户的查询语音转换为文本的步骤;步骤102)用于基于有限状态机将文本信息分离为中文单字和英文单词的步骤;步骤103)用于对分离词汇的文本进行特征提取的步骤;步骤104)用于根据特征提取的结果并采用训练的CRF模型对文本进行实体识别,标记出实体类别;其中,所述CRF模型为线性链结构的条件随机场模型。所述步骤102)进一步包含:步骤102-1)对中英文进行字符分离;步骤102-2)用有限状态机进行英文词串的识别,即合并相邻的英文字母、空格以及英文中的符号;步骤102-3)对英文词串进行分词。 | ||
申请公布号 | CN103309926A | 申请公布日期 | 2013.09.18 |
申请号 | CN201310078204.2 | 申请日期 | 2013.03.12 |
申请人 | 中国科学院声学研究所;北京中科信利技术有限公司 | 发明人 | 张艳;李艳玲;徐为群;颜永红 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京法思腾知识产权代理有限公司 11318 | 代理人 | 杨小蓉;杨青 |
主权项 | 一种基于条件随机场的中英文混合命名实体识别方法,所述方法包含:步骤101)用于将用户的查询语音信息转换为文本信息的步骤;步骤102)用于基于有限状态机将文本信息分离为中文单字和英文单词的步骤;步骤103)用于对分离词汇的文本进行特征提取的步骤;步骤104)用于根据特征提取的结果并采用训练的CRF模型对分离的单字或单词进行实体识别,标记出实体类别;其中,所述CRF模型为线性链结构的条件随机场模型。 | ||
地址 | 100190 北京市海淀区北四环西路21号 |