发明名称 一种建立分词模型的方法、分词的方法及其装置
摘要 本发明提供一种建立分词模型的方法、分词的方法及其装置,所述建立分词模型的方法包括:A1.对训练语料标注各词条及各词条的词性;B1.确定各词条在对应词性下的词类;C1.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率;D1.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型。通过使用上述分词模型进行分词,能够提高分词的精度,同时可以在分词的同时完成词性标注的工作。
申请公布号 CN102929870B 申请公布日期 2016.06.29
申请号 CN201110223843.4 申请日期 2011.08.05
申请人 北京百度网讯科技有限公司 发明人 何径舟;吴中勤
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种建立分词模型的方法,其特征在于,所述方法包括:A1.对训练语料标注各词条及各词条的词性;B1.确定各词条在对应词性下的词类;C1.利用标注好的训练语料统计各词条在对应词类下的生成概率和各词类间的转移概率,其中所述词条在对应词类下的生成概率为:在所述训练语料中一个词条以对应词类出现的概率,所述词类间的转移概率为:在所述训练语料中前一个词类出现的条件下后一个词类相邻出现的概率;D1.利用所述各词条在对应词类下的生成概率得到基础词典,利用所述各词类间的转移概率得到转移词典,并将所述基础词典与所述转移词典添加到分词模型;其中,所述步骤B1包括以下方式中的S1,或者,S1与S2的组合且S2的执行优先级高于S1:S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
地址 100085 北京市海淀区上地十街10号百度大厦2层