发明名称 基于TF-IDF特征的短文本聚类以及热点主题提取方法
摘要 本发明公开了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。本发明能够很好的处理短文本的特征选择问题、样本控件维度约减问题以及聚类问题,与此同时本方法还借助可视化技术来对聚类结果进行可视化分析,最后进行热点主题的提取和分析。
申请公布号 CN104142918A 申请公布日期 2014.11.12
申请号 CN201410378785.6 申请日期 2014.07.31
申请人 天津大学 发明人 郑岩;孟昭鹏;徐超;张亚男
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 李素兰
主权项 一种基于TF‑IDF特征的短文本聚类以及热点主题提取方法,其特征在于,该方法包括以下步骤:首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF‑IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k‑means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
地址 300072 天津市南开区卫津路92号