发明名称 |
一种切分索引分词的方法及系统 |
摘要 |
本发明公开了一种切分索引分词的方法,包括以下步骤:读取字符流;识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;将英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;按所述排序后的分词和所述英文字符串或者数字串排序的顺序划分所述字符流。本发明还公开切分索引分词的系统。本发明提供一种切分索引分词的方法及系统,能够同时解决分词准确、一定量的冗余词以及单字分词的问题,增强用户体验。 |
申请公布号 |
CN100476800C |
申请公布日期 |
2009.04.08 |
申请号 |
CN200710123051.3 |
申请日期 |
2007.06.22 |
申请人 |
腾讯科技(深圳)有限公司 |
发明人 |
王启明 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 |
代理人 |
逯长明 |
主权项 |
1、一种切分索引分词的方法,其特征在于,包括以下步骤:读取字符流;识别所述字符流,确定汉字、英文字符或数字以及不可识别字符;将已经确定的汉字、英文字符或数字与预先建立的词典树比较,确定匹配的分词;将所述英文字符或数字进行ASCII码通用模糊匹配,确定英文字符串或者数字串的分词;将上述匹配的分词和所述英文字符串或者数字串的分词以及不可识别字符,按所述字符流顺序进行排序;按所述排序后的分词的顺序以及所述每个分词和上述不可识别字符的长度划分所述字符流。 |
地址 |
518044广东省深圳市福田区振兴路赛格科技园2栋东410室 |