发明名称 |
一种中文文本处理方法及装置 |
摘要 |
本发明公开了一种中文文本处理方法及装置,该方法包括:获取待分割中文文本,使用中文分词方法对待分割中文文本进行分割,得到N<sub>0</sub>个初始文本片段;对所述N<sub>0</sub>个初始文本片段进行M级聚合处理,得到N<sub>M</sub>个第M级文本片段;其中,N<sub>0</sub>、N<sub>M</sub>、M分别为不小于1的整数。该方法及装置能够降低检索结果的误报概率。 |
申请公布号 |
CN101576872A |
申请公布日期 |
2009.11.11 |
申请号 |
CN200910086633.8 |
申请日期 |
2009.06.16 |
申请人 |
北京系统工程研究所 |
发明人 |
邹涛;许博义;黄敏桓;刘丽;赵刚 |
分类号 |
G06F17/21(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/21(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 |
代理人 |
逯长明;王宝筠 |
主权项 |
1、一种中文文本处理方法,其特征在于,包括:获取待分割中文文本,使用中文分词方法对待分割中文文本进行分割,得到N0个初始文本片段;对所述N0个初始文本片段进行M级聚合处理,得到NM个第M级文本片段;其中,N0、NM、M分别为不小于1的整数。 |
地址 |
100101北京市朝阳区安翔北里10号院 |