发明名称 一种获取口语词条的方法、装置以及一种输入法系统
摘要 本发明提供了一种获取口语词条的方法,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。首先,本发明能够自动实现从互联网语料库中抽取大量的口语词条,效率较高而且成本较低,可以适应口语词汇变化更新速度比较快的特性。其次,本发明通过对口语模板的迭代优化,可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板;进而,利用这样的口语模板进行智能组词,可以不受限于词库中所收录的口语词条实例;以及,利用这样的口语模板进行分词,可以得到对原始语料的合理切分。
申请公布号 CN101114298A 申请公布日期 2008.01.30
申请号 CN200710121247.9 申请日期 2007.08.31
申请人 北京搜狗科技发展有限公司 发明人 张扬;郭奇
分类号 G06F17/30(2006.01);G06F17/27(2006.01);G06F17/28(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京集佳知识产权代理有限公司 代理人 逯长明
主权项 1.一种获取口语词条的方法,其特征在于,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。
地址 100084北京市海淀区中关村东路1号院搜狐网络大厦9层01房间