发明名称 一种基于微博分析电视节目收视情况的方法
摘要 一种基于微博分析电视节目收视情况的方法,包括以下步骤:(1)构建词库;(2)建立微博‑电视节目映射;(3)数据分析;(4)可视化结果展现:通过报表形式和图形形式将步骤(3)分析的结果展现出来。本发明具有以下优点:(1)分析范围广;(2)分析内容全面;(3)分析过程灵活;(4)分析效率高。
申请公布号 CN103425755B 申请公布日期 2016.09.28
申请号 CN201310328471.0 申请日期 2013.07.31
申请人 王永恒 发明人 王永恒;杜凯;王乐;袁志坚;付伟;陈颖文
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 深圳市兴科达知识产权代理有限公司 44260 代理人 王翀
主权项 一种基于微博分析电视节目收视情况的方法,其特征在于,包括以下步骤:(1)构建词库:从搜狗细胞词库下载词库,将下载的词库组合在一起构成电视领域基本词库,并定期更新;(2)建立微博‑电视节目映射:首先建立节目样本库,根据样本特征词提取每日微博,对获取的微博进行过滤,采用数据分析开源工具中的文本处理包进行文本分类,由于文本处理包不支持中文,先把中文分词加入空格,“模拟”英文来实现分类;(3)数据分析:对步骤(2)建立的微博‑电视节目映射分别进行每日分析和多维分析,所述每日分析包括情感分析、词语特征分析和主题分析、每日基本统计以及网络特征分析;(4)可视化结果展现:通过报表形式和图形形式将步骤(3)分析的结果展现出来;步骤(2)中,所述建立节目样本库的方法,首先根据节目关键词,使用微博的搜索接口进行搜索,获取初始节目样本库;然后采用人工的方式,对初始节目样本库进行过滤,将过滤出的微博标注为“相关”和“不相关”两类,并将“相关”和“不相关”两类微博建立节目样本库微博,每个节目的样本库中要求“相关”的微博不少于2万条,“不相关”的微博不少于5000条;所述提取每日微博的方法,首先使用开源工具数据分析开源工具中的中文分词工具包对电视节目样本库中的每条微博进行中文分词处理;然后使用数据分析开源工具中的挖掘频繁项集工具包从分词后的微博获取频繁词集,忽略长度为1的项集,并去掉支持度小于α的词集,α是一个能调的参数,能控制最终频繁词集的大小,通过调整α使最终频繁词集不超过200个项;然后使用节 目关键词及获取的频繁词集,利用微博的搜索接口获取每日微博内容,同时获取微博的作者的地域、性别、年龄和发布时间;所述微博过滤的方法,首先对样本和待分类的微博分别进行分词处理,然后合并到同一个文本文件;然后使用文本分析工具创建文本词频特征矩阵;然后使用文本处理包训练模型。
地址 410008 湖南省长沙市开福区湘江世纪城望江苑6栋1102号