发明名称 基于微博数据分析的热点新闻预测方法及系统
摘要 本发明公开了一种基于微博数据分析的热点新闻预测方法及系统,所述方法包括:从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息;对微博文本进行分词和词频统计,计算词的TF-IDF值,并转换为使用向量空间描述一个微博话题;对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个热度指标;采用多元线性回归算法对样本数据进行学,建立热点新闻预测模型,并判断之后的新闻是否会成为热点;所述系统包括数据采集模块、文本分析处理模块、数据统计分析模块和热点新闻预测模块。本发明对媒体报道的新闻在微博话题中的趋势进行全面分析,预测新闻是否会成为舆情热点,能够很好地解决热点新闻早期预测问题。
申请公布号 CN105224608A 申请公布日期 2016.01.06
申请号 CN201510562298.X 申请日期 2015.09.06
申请人 华南理工大学 发明人 陈健;韩超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 罗观祥
主权项 基于微博数据分析的热点新闻预测方法,其特征在于:所述方法包括以下步骤:S1、从主流新闻网站采集新闻报道及其在微博上引起的微博用户反应信息;S2、对微博文本进行分词和词频统计,计算词的TF‑IDF值,并转换为使用向量空间描述一个微博话题;S3、对微博话题进行分类,并统计描述微博话题的各个量化指标,计算新闻的各个热度指标;S4、采用多元线性回归算法对样本数据进行学习,建立热点新闻预测模型,并根据热点新闻预测模型判断之后的新闻是否会成为热点。
地址 510640 广东省广州市天河区五山路381号