发明名称 基于条件随机场的旅游领域命名实体识别方法
摘要 本发明涉及一种旅游领域命名实体识别方法,属人工智能领域。公开了人工进行了语料的收集、标注及文本预处理。在此基础上,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法,该方法包含两层,在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,并通过制定有效的特征模板,实现简单旅游命名实体的识别;其识别结果传递到高层模型,在高层以词为切分粒度,结合复杂特征模板,实现嵌套景点、特产风味、地点的识别。在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点。相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。
申请公布号 CN101477518A 申请公布日期 2009.07.08
申请号 CN200910094029.X 申请日期 2009.01.09
申请人 昆明理工大学 发明人 郭剑毅;薛征山;余正涛;张志坤;毛存礼;万舟
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 昆明今威专利代理有限公司 代理人 赛晓刚
主权项 1. 一种基于条件随机场的旅游领域命名实体识别方法,其特征在于该方法包括下列步骤:(1)人工收集旅游领域文本作为训练语料和测试语料;(2)通过网络下载及人工收集景点常用后缀、组织机构常用后缀、地名常用后缀、风味小吃常用后缀并编撰其词典;(3)文本的一次处理包括:使用步骤(2)收集的词典,将语料以字为单位,进行标注;(4)制定符合简单命名实体识别的特征模板,并将经过步骤(3)处理后的文本进行训练,得到低层条件随机场识别模型,用来识别简单景点、组织机构、地名及风味小吃的识别;(5)将原始语料进行分词,并将在第一层条件随机场识别出的实体标注为相对应的类型;(6)利用简单特征模板与复合特征模板,采用迭代梯度算法,即根据一定的规则迭代地更新模型参数,逐步精化联合或条件模型分布的方法。训练高层条件随机场模型,并在云南旅游领域进行命名实体识别实验验证。
地址 650093云南省昆明市五华区学府路253号(昆明理工大学)