发明名称 微博话题标签自动化描述方法
摘要 本发明提供一种微博话题标签自动化描述方法,该方法包括:从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据所述相似度对全部话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据所述同一聚类的话题标签的关注点对所述同一聚类的各话题标签进行自动化描述。本发明的微博话题标签自动化描述方法,通过微博话题标签的相似度获取话题标签的关注点,进而快速、准确的对话题标签进行自动化描述。
申请公布号 CN102890698B 申请公布日期 2015.06.24
申请号 CN201210209327.0 申请日期 2012.06.20
申请人 杜小勇 发明人 杜小勇;刘红岩;何军;江璇;祝锐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同立钧成知识产权代理有限公司 11205 代理人 刘芳
主权项 一种微博话题标签自动化描述方法,其特征在于,包括:从多个微博信息中提取话题标签,保存所述话题标签与提取所述话题标签的微博信息的对应关系;获取任意两个话题标签的相似度,并根据所述相似度对所有话题标签进行聚类;根据每一聚类的话题标签,获取同一聚类的话题标签的关注点;根据所述同一聚类的话题标签的关注点对所述同一聚类中的各话题标签进行自动化描述;所述根据每一聚类的话题标签,获取同一聚类的话题标签的关注点包括:获取同一聚类中的各话题标签对应的微博信息数量随微博发布时间变化的微博时间分布集合,所述微博时间分布集合中的各元素分别为在预设周期内的各统计时间段发布的所述各话题标签对应的微博信息的数量;获取所述微博时间分布集合的香农小波能量的归一化值;根据所述的香农小波能量的归一化值获取所述微博时间分布集合的归一化分布;根据所述微博时间分布集合的归一化分布获取所述同一聚类的话题标签的关注点。
地址 100872 北京市海淀区中关村大街59号中国人民大学信息学院