发明名称 一种BitTorrent种子文件爬取方法
摘要 本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。
申请公布号 CN101826110A 申请公布日期 2010.09.08
申请号 CN201010147527.9 申请日期 2010.04.13
申请人 北京大学 发明人 宋维佳;马皓;张建宇;张缘;杨加;张蓓;周渊
分类号 G06F17/30(2006.01)I;H04L29/08(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京君尚知识产权代理事务所(普通合伙) 11200 代理人 冯艺东
主权项 一种BitTorrent种子文件爬取方法,其步骤为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。
地址 100871 北京市海淀区颐和园路5号北京大学