发明名称 一种从文档集中自动发现新词的方法及装置
摘要 本发明公开了一种从文档集中自动发现新词的方法及装置,其中,模板获取单元获取一个或多个模板;词语提取单元从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;候选模板集合加入单元从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;候选词集合加入单元从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;新词集合加入单元基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。与现有技术相比,本发明提供的方法和装置可以有效地发现新词。
申请公布号 CN103955453A 申请公布日期 2014.07.30
申请号 CN201410220317.6 申请日期 2014.05.23
申请人 清华大学 发明人 黄民烈;朱小燕
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京汉昊知识产权代理事务所(普通合伙) 11370 代理人 朱海波
主权项 一种从文档集中自动发现新词的方法(1),包括:获取一个或多个模板(101);从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(102);从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(103);从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(104);基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合(105)。
地址 100084 北京市海淀区清华园1号清华大学