发明名称 词语联想方法及装置
摘要 本发明是有关一种词语联想方法及装置,涉及信息处理领域,方法包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;计算除所述目标词语外其他词语的TF-IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。本发明公开基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
申请公布号 CN105677633A 申请公布日期 2016.06.15
申请号 CN201410673771.7 申请日期 2014.11.21
申请人 科大讯飞股份有限公司 发明人 易中华;徐波;汪磊
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 北京市维诗律师事务所 11393 代理人 杨安进
主权项 一种词语联想方法,其特征在于,包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF‑IDF;计算除所述目标词语外其他词语的TF‑IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
地址 230088 安徽省合肥市高新开发区望江西路666号