发明名称 |
中文分词方法及装置 |
摘要 |
本发明公开了一种中文分词方法,包括:为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。本发明还公开一种中文分词装置。上述方法或装置降低了分词的复杂度。 |
申请公布号 |
CN101071421A |
申请公布日期 |
2007.11.14 |
申请号 |
CN200710102082.0 |
申请日期 |
2007.05.14 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
王启明 |
分类号 |
G06F17/28(2006.01) |
主分类号 |
G06F17/28(2006.01) |
代理机构 |
北京集佳知识产权代理有限公司 |
代理人 |
逯长明 |
主权项 |
1、一种中文分词方法,其特征在于,包括:为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;其中,所述在前分词为所述当前分词的所有在前分词中到句尾的距离最短的在前分词;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。 |
地址 |
518044广东省深圳市福田区振兴路赛格科技园2栋东410室 |