发明名称 一种建立多粒度词典的方法、分词的方法及其装置
摘要 本发明提供了一种建立多粒度词典的方法、分词的方法及其装置,其中建立多粒度词典的方法包括:A.收集原始词表;B.从原始词表中识别出基本词及词组词,分别形成基本词表和词组词表;C.确定与各词组词分别对应的从属词及子词组词,以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分;D.将基本词及词组词存为词典词条,并将与各词组词相关联的内部成分存为对应词典词条的内部成分,得到多粒度词典。通过上述方式,能够建立统一的分词词典,以为各种应用提供支持。
申请公布号 CN103324626B 申请公布日期 2016.06.29
申请号 CN201210076434.0 申请日期 2012.03.21
申请人 北京百度网讯科技有限公司 发明人 何径舟;王丽杰
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 袁媛
主权项 一种建立多粒度词典的方法,包括:A.收集原始词表;B.从原始词表中识别出基本词及词组词,分别形成基本词表和词组词表,其中基本词是仅包含一个表意单位的词,词组词是至少包含两个表意单位的词;C.确定与各词组词分别对应的从属词及子词组词,以将各词组词分别对应的从属词及子词组词作为与该词组词相关联的内部成分,其中从属词是与基本词表中的词相匹配的词,子词组词是由多个从属词构成、且与词组词表中的词相匹配的词;D.将基本词及词组词存为词典词条,并将与各词组词相关联的内部成分存为对应词典词条的内部成分,得到多粒度词典。
地址 100085 北京市海淀区上地十街10号百度大厦2层