发明名称 基于互信息和条件随机场模型的中文领域术语识别方法
摘要 本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下:(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串<img file="2012105287348100004DEST_PATH_IMAGE002.GIF" wi="20" he="20" />,计算字串<img file="224658DEST_PATH_IMAGE002.GIF" wi="20" he="20" />的互信息值;(3)计算字串<img file="320790DEST_PATH_IMAGE002.GIF" wi="20" he="20" />左右信息熵;(4)定义字串<img file="32394DEST_PATH_IMAGE002.GIF" wi="20" he="20" />评价函数,设置评价函数<img file="2012105287348100004DEST_PATH_IMAGE004.GIF" wi="62" he="22" />阈值,计算各字串的评价函数值,确定字串<img file="163161DEST_PATH_IMAGE002.GIF" wi="20" he="20" />为词,依次比较该字串<img file="115067DEST_PATH_IMAGE002.GIF" wi="20" he="20" />中前一字<img file="DEST_PATH_IMAGE006.GIF" wi="16" he="16" />的评价函数值与后一字<img file="DEST_PATH_IMAGE008.GIF" wi="29" he="16" />评价函数值相比较,逐一对字义字串<img file="432916DEST_PATH_IMAGE002.GIF" wi="20" he="20" />分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
申请公布号 CN103049501A 申请公布日期 2013.04.17
申请号 CN201210528734.8 申请日期 2012.12.11
申请人 上海大学 发明人 彭琳;刘宗田;杨林楠;张立敏
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海上大专利事务所(普通合伙) 31205 代理人 陆聪明
主权项 1.一种基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下:(1)、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)、设置字串<img file="649353DEST_PATH_IMAGE001.GIF" wi="20" he="20" />,计算字串<img file="95378DEST_PATH_IMAGE001.GIF" wi="20" he="20" />的互信息值;(3)、计算字串<img file="288462DEST_PATH_IMAGE001.GIF" wi="20" he="20" />左右信息熵;(4)、定义字串<img file="427319DEST_PATH_IMAGE001.GIF" wi="20" he="20" />评价函数,设置评价函数<img file="10747DEST_PATH_IMAGE002.GIF" wi="62" he="22" />阈值,计算各字串的评价函数值,确定字串<img file="73513DEST_PATH_IMAGE001.GIF" wi="20" he="20" />为词,依次比较该字串<img file="58786DEST_PATH_IMAGE001.GIF" wi="20" he="20" />中前一字<img file="368545DEST_PATH_IMAGE003.GIF" wi="20" he="25" />的评价函数值与后一字<img file="501586DEST_PATH_IMAGE004.GIF" wi="29" he="25" />评价函数值相比较,得到各字串<img file="554992DEST_PATH_IMAGE001.GIF" wi="20" he="20" />中对应的比值,其比值再与评价函数<img file="394772DEST_PATH_IMAGE002.GIF" wi="62" he="22" />阈值比较,逐一对字义字串<img file="688482DEST_PATH_IMAGE001.GIF" wi="20" he="20" />分词;(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。
地址 200444 上海市宝山区上大路99号