发明名称 |
一种爬取路径规划方法及装置 |
摘要 |
本发明实施例公开了一种爬取路径规划方法及装置,方法包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面对应网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。应用本发明实施例,既能提高路径规划的效率,也能减少爬取负担。 |
申请公布号 |
CN106547824A |
申请公布日期 |
2017.03.29 |
申请号 |
CN201610867888.8 |
申请日期 |
2016.09.29 |
申请人 |
北京奇艺世纪科技有限公司 |
发明人 |
张煜苒;帅伟良 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京柏杉松知识产权代理事务所(普通合伙) 11413 |
代理人 |
项京;马敬 |
主权项 |
一种爬取路径规划方法,其特征在于,包括:根据预设爬取策略,从预设入口页面开始,爬取所述预设入口页面所属网站的页面;采集各个所爬取的页面的页面特征,记录从所述预设入口页面到达各个所爬取的页面的路径实例;根据记录的路径实例及各个所爬取的页面的页面特征,挑选出到达与预设目标页面相似的页面的路径实例;根据所挑选的路径实例及所挑选的路径实例中各页面的页面特征进行路径规划,生成路径规划结果。 |
地址 |
100080 北京市海淀区北一街2号鸿城拓展大厦10、11层 |