发明名称 中文分词方法及系统
摘要 本发明公开了一种中文分词方法,包括:对中文文本按词语语义进行分词,并切分歧义字段,输出以词为单元的第一文本串;识别并合并所述第一文本串中的中文人名,生成以词为单元的第二文本串,在切分歧义时,采用词典规则方法和统计结合方法实现,统计方法中采用字本位和最大熵模型进行歧义字段切分及人名识别。还公开了一种中文分词系统,包括:分词模块和人名识别模块等。本发明提高了分词效率和分词的准确率。
申请公布号 CN101950284A 申请公布日期 2011.01.19
申请号 CN201010293427.7 申请日期 2010.09.27
申请人 北京新媒传信科技有限公司 发明人 牟小峰;杨正
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京路浩知识产权代理有限公司 11002 代理人 王莹
主权项 一种中文分词方法,其特征在于,包括以下步骤:S1:对中文文本按词语语义进行分词,并切分歧义字段,输出以词为单元的第一文本串;S2:识别并合并所述第一文本串中的中文人名,生成以词为单元的第二文本串。
地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层