发明名称 |
中文分词方法及系统 |
摘要 |
本发明公开了一种中文分词方法,包括:对中文文本按词语语义进行分词,并切分歧义字段,输出以词为单元的第一文本串;识别并合并所述第一文本串中的中文人名,生成以词为单元的第二文本串,在切分歧义时,采用词典规则方法和统计结合方法实现,统计方法中采用字本位和最大熵模型进行歧义字段切分及人名识别。还公开了一种中文分词系统,包括:分词模块和人名识别模块等。本发明提高了分词效率和分词的准确率。 |
申请公布号 |
CN101950284A |
申请公布日期 |
2011.01.19 |
申请号 |
CN201010293427.7 |
申请日期 |
2010.09.27 |
申请人 |
北京新媒传信科技有限公司 |
发明人 |
牟小峰;杨正 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京路浩知识产权代理有限公司 11002 |
代理人 |
王莹 |
主权项 |
一种中文分词方法,其特征在于,包括以下步骤:S1:对中文文本按词语语义进行分词,并切分歧义字段,输出以词为单元的第一文本串;S2:识别并合并所述第一文本串中的中文人名,生成以词为单元的第二文本串。 |
地址 |
100089 北京市海淀区万泉庄路28号万柳新贵大厦A座5层 |