发明名称 一种面向事件的微博搜索方法
摘要 本发明公开了一种面向事件的微博搜索方法,包括微博的索引策略和对最后搜索结果的排名。微博索引策略是指对满足什么条件的微博进行搜因和怎样对这些微博进行索引,索引策略直接影响索引和查询的效率。本发明采用部分索引策略,只对和事件相关的微博进行索引,仅仅对包含主题标签或者命名实体的微博进行索引;索引结构则是采用的是简单的单倒排索引。对搜索结果的排名是指对搜索结果按照一定的策略进行排名,从而将最符合用户需求的结果呈现给用户。本发明的排名机制将用户的重要性和微博本身的特性进行线性组合:用户的重要性是考虑到微博中用户的关注的数量和被关注的数量,微博本身的特性则涉及到某条微博的被转发次数和评论次数。
申请公布号 CN106021450A 申请公布日期 2016.10.12
申请号 CN201610325193.7 申请日期 2016.05.17
申请人 华中科技大学 发明人 赵峰;朱亚军;王沛;金海
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 华中科技大学专利中心 42201 代理人 曹葆青
主权项 一种面向事件的微博搜索方法,其特征在于,包括以下步骤:(1)对原始的微博数据集进行预处理:除去微博中的噪音,利用词袋模型将微博中的单词转化存储,以方便索引;(2)对微博按照部分索引的策略进行单倒排索引,并将不相关的微博写入到日志文件;(3)用户输入关键字,搜索和关键字相关的微博,并等待搜索方法返回结果;(4)系统接受关键字并在索引结构中查找和关键字相关的微博,并保存查询到的微博;(5)对查询到的微博按照排名函数进行打分,将每条微博按照打分的降序进行排名,将搜索结果返回给用户。
地址 430074 湖北省武汉市洪山区珞喻路1037号