学中文新词的方法与装置,申请号CN200310118454.0-传众专利搜索

发明名称	学中文新词的方法与装置
摘要	本发明公开了学中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理，将单个汉字及含有非汉语成分的查询词删除，并将剩余的查询词按查询次数排序，设置阙值，将查询次数低于阙值的查询词删除；对于余下的查询词，则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词，若包含的汉字个数大于4，则从首字开始，每次取4个字，逐次加一字，直至取完该查询词的最后一个字，然后按上述4字查询词分词方法进行分词；过滤模块对新词按出现的频率排序，设置新阙值，将低于新阙值的新词删除后将剩余的新词通过输出模块输出。本发明学新词的效率、准确率高；能够及时地学到最近出现的新词。
申请公布号	CN1629836A	申请公布日期	2005.06.22
申请号	CN200310118454.0	申请日期	2003.12.17
申请人	北京大学	发明人	龚笔宏;冯是聪
分类号	G06F17/27	主分类号	G06F17/27
代理机构	北京君尚知识产权代理事务所	代理人	邵可声
主权项	1.一种学习中文新词的方法，其特征在于，该方法是从互联网络的搜索引擎日志中学习新的中文词汇，包括以下步骤：将互联网络的搜索引擎日志通过输入模块输入；分词处理模块对输入的日志进行处理，将单个汉字及含有非汉语成分的查询词删除，并将剩余的查询词按查询次数排序，设置阙值，将查询次数低于阙值的查询词删除；对于余下的查询词，则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词，若包含的汉字个数大于4，则从首字开始，每次取4个字，逐次加一字，直至取完该查询词的最后一个字，然后按上述4字查询词分词方法进行分词；组合提取模块根据上述的分词结果进行处理具体如下：2字或3字的查询词，若分词结果为一个已有词汇，则直接删除，若为其他，则将该查询词作为一个新词输入到过滤模块；4字的查询词，若分词结果为一个已有词汇，则直接删除，若分词结果为2部分或4部分，则将其整体作为一个新词输入到过滤模块；若分词结果为3部分，则依次将前两词组合、后两词组合及整个查询词作为新词输入到过滤模块；多于4字的查询词，按4字查询词进行分词并按前述4字的查询词组合方法输入到过滤模块；过滤模块对新词按出现的频率排序，设置新阙值，将低于新阙值的新词删除后将剩余的新词通过输出模块输出。
地址	100871北京市海淀区颐和园路5号