发明名称 基于云平台的水利信息垂直搜索方法
摘要 本发明公开了一种基于云平台的水利信息垂直搜索方法,包括如下步骤:构建种子站点列表;利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;为网页的结构化数据建立倒排索引,将索引结果存储于索引库;根据用户提交的搜索请求搜索索引库并返回搜索结果。本发明对水利网页进行质量优化,提高检索质量;实现分布式搜索,提高检索效率。
申请公布号 CN102799686A 申请公布日期 2012.11.28
申请号 CN201210266995.7 申请日期 2012.07.30
申请人 河海大学 发明人 叶枫;高依旻;彭顺风;周远超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 夏雪
主权项 一种基于云平台的水利信息垂直搜索方法,包括如下步骤:步骤1:构建种子站点列表;步骤2:利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;步骤3:构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;步骤5:为网页的结构化数据建立倒排索引,将索引结果存储于索引库;步骤6:根据用户提交的搜索请求搜索索引库并返回搜索结果。
地址 210098 江苏省南京市鼓楼区西康路1号
您可能感兴趣的专利