发明名称 一种网络机器人方法
摘要 本发明公开了一种网络机器人方法,包括如下步骤:设计网络机器人规范、设计深度优先搜索策略或者广度优先搜索策略、设计预防网络陷阱对策、设计均衡访问策略、超链接提取和设计提高采集效率技术;所述设计提高采集效率的方法包括采用多线程技术、采用链长比技术、限制查询跳转和限制文档的长度;本发明提供的一种网络机器人方法,采用网络机器人技术爬取网页或采集数据覆盖范围广,采集迅速,省时省力,这种技术能够有效的避免因网络上的超链接构成的环路而导致的网络陷阱,而且采用均衡访问技术,不会产生因为占用大量网络资源而加重WWW服务器的负载负担。
申请公布号 CN103838791A 申请公布日期 2014.06.04
申请号 CN201210491376.8 申请日期 2012.11.27
申请人 大连灵动科技发展有限公司 发明人 刘立堂;苏晓华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 大连东方专利代理有限责任公司 21212 代理人 曲永祚
主权项 一种网络机器人方法,其特征在于包括如下步骤:A、设计网络机器人规范;A1、制定机器人不包括的项目标准:在服务器上创建一个机器人文本文件,该文本文件中说明网站不能访问的链接和网站拒绝访问的机器人;A2、制定机器人META标签;网站管理员和个人用户通过META标签限制机器人程序对网页的访问权限;B、设计深度优先搜索策略或者广度优先搜索策略;根据机器人对URL列表存取的方式决定搜索策略,且当将待搜索队列看成队列时,新的超链接从尾加入从头取出构成广度优先遍历;当将待搜索队列看成堆栈时,新的超链接从头加入从头取出则构成深度优先遍历;C、设计预防网络陷阱对策;在访问新URL前与待搜索和已搜索URL对列列表中的URL进行比较,该比较为URL对象间的比较,将URL对列列表中不包含的URL添加到待搜索的URL列表,以避免掉进网络陷阱;D、设计均衡访问策略;设定访问一个Web服务器的线程最大数并采用等待方式限制机器人程序或进程对特定服务器和网段的访问频率;每当机器人程序或进程从一个Web站点取得一个文档后,该机器人程序或进程将等待一定的间隔再对该Web站点进行新的访问,根据站点处理能力和网络通讯能力确定等待时间的长短,将下一次访问该Web站点的时间T1为当前时间T2加上访问该Web站点所需的时间,访问该Web站点所需的时间取值为网络传输时间T3乘以已设定系数;E、超链接提取;获取HTML文档的超链接URL地址后,根据网页超链接URL的绝对地址与相对地址区别,对其中的相对URL地址在送交待搜索队列前结合当前网页地址将其转化为绝对地址;机器人程序在获取URL链接的同时,对得到的URL链接所对应的Web源文档进行数据采集以便获取Web链接和数据,并将TCP协议传输的字节流转换为字符流;F、设计提高采集效率技术;F1、采用多线程技术;F2、采用链长比技术;设定链长比为超链接数与文档长度的比值;提取链长比小于某一门限值的页面,并且忽略页面中的目录页采集其中的内容页;F3、限制查询跳转;当查找到新URL时判断该URL的主机地址是否与当前正在搜索的主机地址相同,若相同则将该URL加入到当前待搜索队列中,否则将其加入到主待搜索队列中;若当前待搜索队列为空则从主待搜索队列中取出一个新URL加入到当前待搜索队列中;F4、限制文档的长度;设定文档最小长度的阈值,对大于该阈值的文档进行数据采集,放弃低于文档长度低于该阈值的文档。
地址 116023 辽宁省大连市高新区火炬路1号506室