发明名称 一种基于导航信息检索的中文分词方法
摘要 一种基于导航信息检索的中文分词方法,其特征在于:分词系统的实现步骤:加载词典,文本编码转换;断句处理,把源字符串分隔成多个稍微简单一点的短句;原子分词,是指该短句中不可分割的最小语素单位;逐词遍历匹配法实现成词全匹配;筛选匹配结果生成若干最佳结果;人名、地名和专有名词处理;修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;最终合并各个短句处理的结果,输出。本发明的优点:通过中文分词技术可以把用户输入的内容做成词处理,可以优化速度,并且以词为基础可以进行错别字矫正,可以提供更符合的结果。中文分词技术可以提高信息检索引擎对语义的理解,充分对提供的结果集进行较好的调整。
申请公布号 CN103678684A 申请公布日期 2014.03.26
申请号 CN201310731944.1 申请日期 2013.12.25
申请人 沈阳美行科技有限公司 发明人 李潍希;于航;解威;朱小莹
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳晨创科技专利代理有限责任公司 21001 代理人 任玉龙
主权项 一种基于导航信息检索的中文分词方法,其特征在于:分词系统的实现步骤:加载词典,词典包含机器训练所有成词的导航设施信息内容;文本编码转换,统一为国标码即GBK编码形式表示文本;断句处理,就是根据分隔符、回车换行符等语句的分隔标志,把源字符串分隔成多个稍微简单一点的短句;原子分词,所谓原子,是指该短句中不可分割的最小语素单位;一个汉字、短句前后的开始结束标识字段、全角标点符号、连在一起的数字字母单字节字符等;逐词遍历匹配法实现成词全匹配;此方法是把原子切分的词按由短到长的顺序,逐个搜索匹配整个词典,直到把所有的词都切分出来为止;筛选匹配结果生成若干最佳结果,通过最短路径方法,评价每条路径,生成若干最佳结果;前后词匹配,这步功能实现主要是根据前后两个词的一个关联度做整个句子的评价;通过计算一个句子的整体的置信度来评价句子切分的好坏,经过筛选出较优的结果;词性标注,对于“词性标注”这个应用领域来说即对“确定的切词结果”找到背后的各个词的“词性”;人名、地名和专有名词处理,通过对标注好的短句进行人名、地名和一些专有名词的处理,由于基于导航的地理位置信息的特点,制 作特有的专有名词词典,矫正短句当中语义成分;未登录词处理,由于字典是有限的,在分词的过程中很容易出现一些未登录词,词表里未出现的词,通过对未登录词进行评价,来判断未登录词是否为一个新词,此过程为未登录词的学习过程:学习过程的任务是要完成对地理信息数据中产生新词的抽取和判定;把识别出来的新词补充到分词词典当中;修正词典,主要通过对未登录词的新词添加和对已有词的属性改善;最终合并各个短句处理的结果,输出。
地址 110004 辽宁省沈阳市浑南新区远航西路3号1T国际202室