发明名称 |
基于可配置规则的网站数据搜索方法 |
摘要 |
本发明涉及垂直搜索领域,具体说是基于可配置规则的网站数据搜索方法,其按以下步骤进行:为待搜索的网站配置入口规则、链接规则和详情规则;解析入口规则,得到网站的入口url、与入口规则关联的链接规则及访问该网站时的参数;解析上述与入口规则关联的链接规则,得到链接规则语法及与该链接规则相关联的详情规则;解析上述与链接规则相关联的详情规则,得到详情规则语法,从而采集页面上的内容。本发明可以把开发人员从编写爬虫系统中解放出来,开发人员只需要编写针对不同站点的配置规则便可以实现对一个网站的数据采集,而编写站点规则相比较于直接编写爬虫系统简单得多,同时维护也方便很多,可以为企业大大的节省开发成本和维护成本。 |
申请公布号 |
CN105760545A |
申请公布日期 |
2016.07.13 |
申请号 |
CN201610152001.7 |
申请日期 |
2016.03.17 |
申请人 |
湖南中周至尚信息技术有限公司 |
发明人 |
赵海兵 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
广州凯东知识产权代理有限公司 44259 |
代理人 |
李勤辉 |
主权项 |
基于可配置规则的网站数据搜索方法,其按以下步骤进行:(1)为待搜索的网站配置入口规则、链接规则和详情规则;(2)解析入口规则,得到网站的入口url、与入口规则关联的链接规则及访问该网站时的参数;(3)解析上述与入口规则关联的链接规则,得到一个用于解析该网站页面的链接规则语法及与该链接规则相关联的详情规则;(4)解析上述与链接规则相关联的详情规则,得到若干个用于采集该网站页面上内容的详情规则语法,从而采集页面上的内容。 |
地址 |
410000 湖南省长沙市芙蓉区晚报大道267号长沙晚报报业集团新闻大楼2楼201室 |