发明名称 |
在web爬取过程期间给网站排优先级的系统和方法 |
摘要 |
一种用于给网页的读取顺序排优先级的系统和方法。所述方法包括:由web爬取器提取要爬取的候选网页集合。所述候选网页集合中的每个网页关联于计算机网络中的网站。确定所述网站的第一网站分数是否在网站分数数据库中。如果所述第一网站分数存在于所述网站分数数据库中,则把所述第一网站分数关联于所述候选网页集合中的网页。相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级。从所述候选网页集合检索内容。从所述内容提取超链接。把所述超链接存储在存储器单元中。 |
申请公布号 |
CN100547593C |
申请公布日期 |
2009.10.07 |
申请号 |
CN200710091563.6 |
申请日期 |
2007.03.28 |
申请人 |
国际商业机器公司 |
发明人 |
A·马库斯;I·E·冈萨雷斯;D·N·梅雷迪思;S·迪尔;D·L·布莱克曼;M·青;L·A·L·源 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市中咨律师事务所 |
代理人 |
于 静;李 峥 |
主权项 |
1.一种排优先级方法,包括:由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。 |
地址 |
美国纽约 |