发明名称 |
词语联想方法及装置 |
摘要 |
本发明是有关一种词语联想方法及装置,涉及信息处理领域,方法包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;计算除所述目标词语外其他词语的TF-IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。本发明公开基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。 |
申请公布号 |
CN105677633A |
申请公布日期 |
2016.06.15 |
申请号 |
CN201410673771.7 |
申请日期 |
2014.11.21 |
申请人 |
科大讯飞股份有限公司 |
发明人 |
易中华;徐波;汪磊 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京市维诗律师事务所 11393 |
代理人 |
杨安进 |
主权项 |
一种词语联想方法,其特征在于,包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF‑IDF;计算除所述目标词语外其他词语的TF‑IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。 |
地址 |
230088 安徽省合肥市高新开发区望江西路666号 |