发明名称 |
一种从文档集中挖掘特征词的系统和方法 |
摘要 |
本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。 |
申请公布号 |
CN104573027A |
申请公布日期 |
2015.04.29 |
申请号 |
CN201510017522.7 |
申请日期 |
2015.01.13 |
申请人 |
清华大学 |
发明人 |
屠守中;黄民烈;朱小燕 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京汉昊知识产权代理事务所(普通合伙) 11370 |
代理人 |
朱海波 |
主权项 |
一种从文档集中挖掘特征词的方法,包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。 |
地址 |
100084 北京市海淀区清华园1号清华大学 |