发明名称 一种面向领域主题的Web新闻动态聚合方法
摘要 本发明适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和Web新闻网页识别得到新闻网页搜索记录列表;根据Web信息抽取方法,从新闻网页搜索记录列表获得结构化新闻列表;根据领域模型对结构化新闻列表进行排序,得到有序的结构化新闻列表并作为动态聚合结果返回给用户。本发明根据用户提供的领域和主题,实时获取多源相关的Web新闻集合,并根据Web新闻的受欢迎程度决定其排序的一种互动机制,其目的在于提供一种方便、高效的互联网信息的获取和共享方式。
申请公布号 CN105022827A 申请公布日期 2015.11.04
申请号 CN201510444109.9 申请日期 2015.07.23
申请人 合肥工业大学 发明人 吴共庆;胡骏;刘鹏程;王钊;胡东辉;李磊;胡学钢;吴信东
分类号 G06F17/30(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 安徽合肥华信知识产权代理有限公司 34112 代理人 余成俊
主权项 一种面向领域主题的Web新闻动态聚合方法,其特征在于:包括以下步骤:(1)、用户或应用程序通过用户终端将主题信息发送给服务器;(2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表;(3)、服务器获取元搜索引擎的搜索结果页面;(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表进行去重,得到去重后的搜索记录列表;(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表;(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表;(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结果发送到用户终端。
地址 230009 安徽省合肥市屯溪路193号