发明名称 |
基于TF-IDF特征的短文本聚类以及热点主题提取方法 |
摘要 |
本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题,与此同时本方法还借助可视化技术来对聚类结果进行可视化分析,最后进行热点主题的提取和分析。 |
申请公布号 |
CN104142918A |
申请公布日期 |
2014.11.12 |
申请号 |
CN201410378785.6 |
申请日期 |
2014.07.31 |
申请人 |
天津大学 |
发明人 |
郑岩;孟昭鹏;徐超;张亚男 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
天津市北洋有限责任专利代理事务所 12201 |
代理人 |
李素兰 |
主权项 |
一种基于TF‑IDF特征的短文本聚类以及热点主题提取方法,其特征在于,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF‑IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k‑means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。 |
地址 |
300072 天津市南开区卫津路92号 |