主权项 |
1.一种学习中文新词的方法,其特征在于,该方法是从互联网络的搜索引擎日志中学习新的中文词汇,包括以下步骤:将互联网络的搜索引擎日志通过输入模块输入;分词处理模块对输入的日志进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查询词,则分词处理模块将包含的汉字个数小于等于4的查询词以词库中现有的词汇为基础进行分词,若包含的汉字个数大于4,则从首字开始,每次取4个字,逐次加一字,直至取完该查询词的最后一个字,然后按上述4字查询词分词方法进行分词;组合提取模块根据上述的分词结果进行处理具体如下:2字或3字的查询词,若分词结果为一个已有词汇,则直接删除,若为其他,则将该查询词作为一个新词输入到过滤模块;4字的查询词,若分词结果为一个已有词汇,则直接删除,若分词结果为2部分或4部分,则将其整体作为一个新词输入到过滤模块;若分词结果为3部分,则依次将前两词组合、后两词组合及整个查询词作为新词输入到过滤模块;多于4字的查询词,按4字查询词进行分词并按前述4字的查询词组合方法输入到过滤模块;过滤模块对新词按出现的频率排序,设置新阙值,将低于新阙值的新词删除后将剩余的新词通过输出模块输出。 |