发明名称 一种求解中文分词中新词的遗传模拟退火方法
摘要 本发明公开了一种求解中文分词中新词的遗传模拟退火方法,首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,并针对舆情监测系统进行相关设计应用。本发明解决了中文信息处理领域中自动分词问题;针对随着社会和互联网发展不断出现的新词,组合遗传算法和模拟退火算法的求解策略,提高了分词的准确率,有效地解决了自动分词结果中出现的散串及分词错误问题,为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
申请公布号 CN105740227A 申请公布日期 2016.07.06
申请号 CN201610039870.9 申请日期 2016.01.21
申请人 云南大学 发明人 康雁
分类号 G06F17/27(2006.01)I;G06N3/12(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 合肥顺超知识产权代理事务所(特殊普通合伙) 34120 代理人 俞强
主权项 一种求解中文分词中新词的遗传模拟退火方法,其特征在于,所述求解中文分词中新词的遗传模拟退火方法首先采用爬虫程序,对互联网信息进行了采集和智能搜索,完成数据准备;然后采用专有词库,对采集到的数据进行中文分词,即发现舆情;利用遗传算法的并行操作和全局收敛性的特性,结合模拟退火算法的局部收敛性,提出了遗传模拟退火算法,包括相关编码及生存策略、动态交叉和变异因子、多次升温及记忆函数控制策略,并针对舆情监测系统进行相关设计应用。
地址 650091 云南省昆明市翠湖北路2号云南大学科学馆524