发明名称 |
一种获取口语词条的方法、装置以及一种输入法系统 |
摘要 |
本发明提供了一种获取口语词条的方法,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。首先,本发明能够自动实现从互联网语料库中抽取大量的口语词条,效率较高而且成本较低,可以适应口语词汇变化更新速度比较快的特性。其次,本发明通过对口语模板的迭代优化,可以得到非常贴近实际情况、准确率和覆盖率较高的口语模板;进而,利用这样的口语模板进行智能组词,可以不受限于词库中所收录的口语词条实例;以及,利用这样的口语模板进行分词,可以得到对原始语料的合理切分。 |
申请公布号 |
CN101114298A |
申请公布日期 |
2008.01.30 |
申请号 |
CN200710121247.9 |
申请日期 |
2007.08.31 |
申请人 |
北京搜狗科技发展有限公司 |
发明人 |
张扬;郭奇 |
分类号 |
G06F17/30(2006.01);G06F17/27(2006.01);G06F17/28(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京集佳知识产权代理有限公司 |
代理人 |
逯长明 |
主权项 |
1.一种获取口语词条的方法,其特征在于,包括:定向获取所需的互联网语料,形成语料库;按照预置策略,从所述语料库中抽取符合条件的词条;所述预置策略与口语词条的各种特征相关;针对抽取得到的词条进行过滤,得到所需的口语词条。 |
地址 |
100084北京市海淀区中关村东路1号院搜狐网络大厦9层01房间 |