发明名称 |
一种基于大规模语料提词方法和装置 |
摘要 |
本发明提供一种基于大规模语料的提词方法及装置,包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。在中文没有标准词定义和划分的情况下,实现了计算机系统在大规模语料中有效识别并提取词。 |
申请公布号 |
CN106126495A |
申请公布日期 |
2016.11.16 |
申请号 |
CN201610429967.0 |
申请日期 |
2016.06.16 |
申请人 |
北京捷通华声科技股份有限公司 |
发明人 |
曹骥;王富田;李健;张连毅;武卫东 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京润泽恒知识产权代理有限公司 11319 |
代理人 |
苏培华 |
主权项 |
一种基于大规模语料的提词方法,其特征在于包括步骤:从收集的语料中统计候选词的凝合度及候选词的自由度;将所述候选词的凝合度与候选词的自由度的乘积获得成词得分;提取所述成词得分超过预先设定阈值的候选词。 |
地址 |
100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101 |