发明名称 一种基于大规模语料提词方法和装置
摘要 本发明提供一种基于大规模语料的提词方法及装置,包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。在中文没有标准词定义和划分的情况下,实现了计算机系统在大规模语料中有效识别并提取词。
申请公布号 CN106126495A 申请公布日期 2016.11.16
申请号 CN201610429967.0 申请日期 2016.06.16
申请人 北京捷通华声科技股份有限公司 发明人 曹骥;王富田;李健;张连毅;武卫东
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京润泽恒知识产权代理有限公司 11319 代理人 苏培华
主权项 一种基于大规模语料的提词方法,其特征在于包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。
地址 100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101