发明名称 | 基于云平台的水利信息垂直搜索方法 | ||
摘要 | 本发明公开了一种基于云平台的水利信息垂直搜索方法,包括如下步骤:构建种子站点列表;利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;为网页的结构化数据建立倒排索引,将索引结果存储于索引库;根据用户提交的搜索请求搜索索引库并返回搜索结果。本发明对水利网页进行质量优化,提高检索质量;实现分布式搜索,提高检索效率。 | ||
申请公布号 | CN102799686A | 申请公布日期 | 2012.11.28 |
申请号 | CN201210266995.7 | 申请日期 | 2012.07.30 |
申请人 | 河海大学 | 发明人 | 叶枫;高依旻;彭顺风;周远超 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人 | 夏雪 |
主权项 | 一种基于云平台的水利信息垂直搜索方法,包括如下步骤:步骤1:构建种子站点列表;步骤2:利用网络爬虫抓取种子站点的水利网页并保存到本地网页库;步骤3:构建水利术语标准集,将标准集中出现的所有水利术语组织成水利领域词典;步骤4:对本地网页库中的网页进行解析和文本抽取,将网页的半结构化数据抽取成便于存储和索引的结构化数据;步骤5:为网页的结构化数据建立倒排索引,将索引结果存储于索引库;步骤6:根据用户提交的搜索请求搜索索引库并返回搜索结果。 | ||
地址 | 210098 江苏省南京市鼓楼区西康路1号 |