主权项 |
一种垂直领域热门微博的提取方法,其特征在于,其包括以下步骤:步骤1、实时采集微博信息:通过某一门户微博指定的开放接口实时采集该门户的微博信息,其中,微博信息主要包括微博内容和转发次数;步骤2、标签化微博信息:定义标签A={a1,a2,…,an},B={b1,b2,…,bn},…,M={m1,m2,…mn},将每一微博信息与每一标签进行求交集,如果交集不为空集即微博信息中包含标签的元素,则,为该微博信息标上该标签;步骤3、根据标签将标签化的微博信息进行分流:根据标签将标签化的微博信息分成多个垂直领域,每个垂直领域由含有相同标签的多个微博信息集合而成;步骤4、找出每一个垂直领域内的热门词组:周期性地对每一个垂直领域内的微博信息进行分析提取热门词组;步骤5、根据热门词组和转发次数找到热门微博:搜索包括热门词组的微博信息,在这些微博信息中选取转发次数最高的那一条作为垂直领域的一条热门微博;步骤6、过滤热门微博中含广告的微博:采用广告过滤模块去除热门微博中含广告的热门微博。 |