发明名称 |
一种非结构化网页信息的自动采集方法 |
摘要 |
本发明涉及一种非结构化网页信息的自动采集方法,包括以下步骤:1)蜘蛛采集计算机系统从数据存储装置中读取网址链接表;2)检测网址链接表中是否有待采集的网址,若否,则采集结束;3)若步骤2的检测结果为是,则选择对应于待采集的网址的分解规则;4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2。与现有技术相比,本发明将非结构化的信息从各种网站来源页面中抽取出来保存到结构化的数据库中的系统,通过本发明的方法,可以在信息收集整合方面节约大量的人力与资金。 |
申请公布号 |
CN101441629A |
申请公布日期 |
2009.05.27 |
申请号 |
CN200710170601.7 |
申请日期 |
2007.11.19 |
申请人 |
上海新纳广告传媒有限公司 |
发明人 |
金骏;戴斌华 |
分类号 |
G06F17/30(2006.01)I;H04L29/06(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
上海科盛知识产权代理有限公司 |
代理人 |
赵志远 |
主权项 |
1. 一种非结构化网页信息的自动采集方法,其特征在于,包括以下步骤:1)蜘蛛采集计算机系统从数据存储装置中读取网址链接表;2)检测网址链接表中是否有待采集的网址,若否,则采集结束;3)若步骤2)的检测结果为是,则选择对应于待采集的网址的分解规则;4)创建至少一个线程,该至少一个线程通过所选的分解规则分解当前网址的页面;5)分解完成后,将需保存的网页信息及采集状态信息保存到数据存储装置,并返回步骤2)。 |
地址 |
200050上海市长宁路1027号42F |