发明名称 |
一种BitTorrent种子文件爬取方法 |
摘要 |
本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。 |
申请公布号 |
CN101826110A |
申请公布日期 |
2010.09.08 |
申请号 |
CN201010147527.9 |
申请日期 |
2010.04.13 |
申请人 |
北京大学 |
发明人 |
宋维佳;马皓;张建宇;张缘;杨加;张蓓;周渊 |
分类号 |
G06F17/30(2006.01)I;H04L29/08(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
冯艺东 |
主权项 |
一种BitTorrent种子文件爬取方法,其步骤为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。 |
地址 |
100871 北京市海淀区颐和园路5号北京大学 |