发明名称 一种改进的中文自动分词算法
摘要 一种改进的中文自动分词算法,将待分词句子和已经初始化成功的语料库中的词进行对比匹配,根据概率统计学,将待分词句子拆分为网状结构,将网状结构的每条边都赋予一定的权值,其中权值最大的路径便是最终的分词结果,最后将验证分词结果的准确率和召回率。本发明中中文预处理的速度较基于分词词典的方法快;较基于分词词典的方法精度更高;较基于统计学方法有更好的准确度;实用性更大,更符合经验值;为后续自然语言处理技术提供了极大的应用价值。
申请公布号 CN106610936A 申请公布日期 2017.05.03
申请号 CN201610814785.5 申请日期 2016.09.12
申请人 四川用联信息技术有限公司 发明人 金平艳;胡成华
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种改进的中文自动分词算法,本发明涉及中文语义网络技术领域,具体涉及一种改进的中文自动分词算法,其特征是,包括如下步骤:步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为<img file="487224dest_path_image001.GIF" wi="148" he="19" />步骤4:利用统计学概念理论知识,给上述网状结构每条边赋予一定的权值步骤5:找到权值最大的一条路径,即为待分词句子的分词结果步骤6:验证此分词结果的准确率和召回率。
地址 610054 四川省成都市成华区电子信息产业大厦1101室