发明名称 学中文新词的方法与装置
摘要 本发明公开了学中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查询词,则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词,若包含的汉字个数大于4,则从首字开始,每次取4个字,逐次加一字,直至取完该查询词的最后一个字,然后按上述4字查询词分词方法进行分词;过滤模块对新词按出现的频率排序,设置新阙值,将低于新阙值的新词删除后将剩余的新词通过输出模块输出。本发明学新词的效率、准确率高;能够及时地学到最近出现的新词。
申请公布号 CN1629836A 申请公布日期 2005.06.22
申请号 CN200310118454.0 申请日期 2003.12.17
申请人 北京大学 发明人 龚笔宏;冯是聪
分类号 G06F17/27 主分类号 G06F17/27
代理机构 北京君尚知识产权代理事务所 代理人 邵可声
主权项 1.一种学习中文新词的方法,其特征在于,该方法是从互联网络的搜索引擎日志中学习新的中文词汇,包括以下步骤:将互联网络的搜索引擎日志通过输入模块输入;分词处理模块对输入的日志进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查询词,则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词,若包含的汉字个数大于4,则从首字开始,每次取4个字,逐次加一字,直至取完该查询词的最后一个字,然后按上述4字查询词分词方法进行分词;组合提取模块根据上述的分词结果进行处理具体如下:2字或3字的查询词,若分词结果为一个已有词汇,则直接删除,若为其他,则将该查询词作为一个新词输入到过滤模块;4字的查询词,若分词结果为一个已有词汇,则直接删除,若分词结果为2部分或4部分,则将其整体作为一个新词输入到过滤模块;若分词结果为3部分,则依次将前两词组合、后两词组合及整个查询词作为新词输入到过滤模块;多于4字的查询词,按4字查询词进行分词并按前述4字的查询词组合方法输入到过滤模块;过滤模块对新词按出现的频率排序,设置新阙值,将低于新阙值的新词删除后将剩余的新词通过输出模块输出。
地址 100871北京市海淀区颐和园路5号
您可能感兴趣的专利