发明名称 一种垂直领域热门微博的提取方法及其装置
摘要 本发明公开一种垂直领域热门微博的提取方法及其装置,其中,所述垂直领域热门微博的提取方法包括步骤1、实时采集微博信息,步骤2、标签化微博信息,步骤3、根据标签将签化微博信息进行分流,步骤4、找出每一个垂直领域内的热门词组,步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博,步骤6、过滤热门微博中含广告的微博;根据自己定义的标签将微博信息进行标签化,根据标签将微博信息分成各个垂直领域,然后在垂直领域内对提取热门微博,只需更新定义标签可以满足不同区域和领域网络内的热门微博的需求,因而,可以适应使用者差异化的需求。
申请公布号 CN103580997A 申请公布日期 2014.02.12
申请号 CN201310581666.6 申请日期 2013.11.19
申请人 湖南蚁坊软件有限公司 发明人 李威
分类号 H04L12/58(2006.01)I;H04L29/06(2006.01)I;G06F17/30(2006.01)I 主分类号 H04L12/58(2006.01)I
代理机构 代理人
主权项 一种垂直领域热门微博的提取方法,其特征在于,其包括以下步骤:步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。
地址 410000 湖南省长沙市高新开发区文轩路27号麓谷钰园A4栋N单元6层605号房