发明名称 分词训练集的生成方法和装置
摘要 本发明提出一种分词训练集的生成方法和装置,该分词训练集的生成方法包括获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。该方法能够降低分词训练集生成的时间和花费,实现成本降低及效果提高。
申请公布号 CN104866472A 申请公布日期 2015.08.26
申请号 CN201510329109.4 申请日期 2015.06.15
申请人 百度在线网络技术(北京)有限公司 发明人 白洁;李秀林;肖朔
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人 宋合成
主权项 一种分词训练集的生成方法,其特征在于,包括:获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
地址 100085 北京市海淀区上地十街10号百度大厦三层