发明名称 用于单词拆分的新词收集方法和系统
摘要 本发明提供一种用于收集新词,添加到粘着性语言所用的词库的方法,计算机可读的媒体和系统。在本方法中,获得提交到搜索引擎的查询日志。把该查询日志进行分类以获得分类查询。然后使用多重探试性标准将分类查询进行过滤,以获得新词的候选列表。然后把新词候选列表上的单词添加到词库。
申请公布号 CN1664818B 申请公布日期 2015.08.05
申请号 CN200510053170.7 申请日期 2005.03.03
申请人 微软公司 发明人 奧村薰
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 钱慰民
主权项 一种收集新词以添加到粘着性语言的词库的方法,当搜索引擎处理粘着性语言文本输入时,所述词库用于单词拆分,所述方法包括:获得提交至搜索引擎的查询日志;将查询日志分类,获得分类的查询;使用多重探试性标准过滤分类的查询,获得新词的候选列表,该过滤步骤包括:从候选列表淘汰已经被单词拆分器分析认为是单字的查询;以及添加新词候选列表上的单词至所述词库作为新词以供以后在单词拆分中使用。
地址 美国华盛顿州