发明名称 |
一种基于篇章文档的自适应输入法 |
摘要 |
本发明提出了一种基于用户本地篇章文档的自适应输入法,与传统的输入法不同,本发明基于用户本地文档,自动感知用户当前的知识领域。首先,系统自动建立一个基础数据集,不同的知识领域建立相应的领域数据集,系统会根据用户已输入文字信息感知到相应的领域并自动切换到当前的领域数据集,通过调整领域数据集和基础数据集之间的权值关系,提高领域数据集的比重,实现不同知识领域之间的自动感知和参数调整;随着输入信息的增加,相应的领域数据集也会不断的更新,同时提取领域数据集中的高频字串动态填充基础数据集信息。本输入法更加智能的理解用户要输入的信息,减少选择次数,提高首次选择的准确率,同时也显著降低了重码率。 |
申请公布号 |
CN103970910B |
申请公布日期 |
2017.02.15 |
申请号 |
CN201410229623.6 |
申请日期 |
2014.05.27 |
申请人 |
南京大学 |
发明人 |
戴新宇;杨理想;陈家骏;黄书剑;李斌 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
江苏圣典律师事务所 32237 |
代理人 |
胡建华 |
主权项 |
一种基于篇章文档的自适应输入法,其特征在于,包括以下步骤:步骤一,建立基础数据集Base;步骤二,建立领域数据集Dset:步骤三,根据用户已经输入信息以及领域数据集和基础数据集之间的权重关系调整得到当前输入字的概率;步骤四,音字转换输出:切分用户输入的拼音串、结合步骤三当前输入字的概率,利用隐马尔科夫模型HMM,计算得出字串的概率,并按照字串概率值的大小排序输出;步骤五,领域数据集实时更新:输入法根据用户的输入得出可能的字串,再根据用户选定的字串添加到相应的领域数据集中实时更新信息;步骤六,基础数据集更新:提取领域数据集中出现频率大于设定阈值的字串添加到基础数据集中,不断更新基础数据集。 |
地址 |
210023 江苏省南京市栖霞区仙林大道163号南京大学 |