基于TF-IDF特征的短文本聚类以及热点主题提取方法,申请号CN201410378785.6-传众专利搜索

发明名称	基于TF-IDF特征的短文本聚类以及热点主题提取方法
摘要	本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤：首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k-means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题，与此同时本方法还借助可视化技术来对聚类结果进行可视化分析，最后进行热点主题的提取和分析。
申请公布号	CN104142918A	申请公布日期	2014.11.12
申请号	CN201410378785.6	申请日期	2014.07.31
申请人	天津大学	发明人	郑岩;孟昭鹏;徐超;张亚男
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所 12201	代理人	李素兰
主权项	一种基于TF‑IDF特征的短文本聚类以及热点主题提取方法,其特征在于，该方法包括以下步骤：首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF‑IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k‑means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
地址	300072 天津市南开区卫津路92号