发明名称 |
分词处理方法及全文检索方法 |
摘要 |
本发明提供了一种分词处理方法及其在数据库全文检索中的一种应用,包括:创建基于数据库特征项的新分词系统,并将所述数据库特征项添加到所述新分词系统中;以及将用户提交的查询词以所述数据库特征项作为词表进行分词处理以生成分词结果集。根据本发明提出的方法选定数据库中字段作为特征项进行分词,利用了数据库特征项与数据库内文本的关联关系,有效地改善了一元、二元、预置词表等传统分词方法的分词准确度。 |
申请公布号 |
CN101561818B |
申请公布日期 |
2011.12.07 |
申请号 |
CN200910083775.9 |
申请日期 |
2009.05.13 |
申请人 |
北京伟库电子商务科技有限公司 |
发明人 |
刘哲 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京友联知识产权代理事务所(普通合伙) 11343 |
代理人 |
尚志峰;梁朝玉 |
主权项 |
一种分词处理方法,其特征在于,包括:创建基于数据库特征项的新分词系统,并将所述数据库特征项添加到所述新分词系统中;以及将用户提交的查询词以所述新分词系统中的所述数据库特征项作为词表进行分词处理,以生成分词结果集;基于所述数据库特征项,将所生成的所述分词结果集分成包含所述数据库特征项的第一分词结果子集和不包含所述数据库特征项的第二分词结果子集;对所述第二分词结果子集使用不同于所述新分词系统的其他分词系统进行分词处理以生成第三分词结果子集;以及将所述第一分词结果子集与所述第三分词结果子集合并得到新分词结果集,其中,所述其他分词系统包括:一元分词系统、二元分词系统或预置词表分词系统。 |
地址 |
100094 北京市海淀区北清路68号 |