发明名称 基于情形的爬行
摘要 可以在爬行虫和网站之间建立交互会话。爬行虫可以定义表示用于与一个或多个网站交互的用户状态的会话状态、条件集合以及要基于该条件集合是否被满足而选择性激活的情形集合。爬行虫可以在交互会话期间从网站接收内容。爬行虫可以解析来自网站的内容并且可以将所解析的内容与之前定义的项目集合进行匹配来确定内容匹配条件是否被满足。如果内容匹配条件被满足且如果状态条件被满足,则所述爬行虫激活由所述爬行虫定义的情形,所述情形在内容匹配条件和状态条件未被满足的情况下不被爬行虫激活。
申请公布号 CN104025089A 申请公布日期 2014.09.03
申请号 CN201280064952.9 申请日期 2012.11.21
申请人 国际商业机器公司 发明人 I.克赖克曼;O.特里普;A.萨金
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市柳沈律师事务所 11105 代理人 邸万奎
主权项 一种方法,包括:经由执行存储在至少一个存储装置上的程序指令的至少一个处理器在爬行虫和网站之间建立交互会话,其中,所述爬行虫定义表示用于与一个或多个网站交互的用户状态的会话状态、条件集合以及要基于所述条件集合是否被满足而选择性地激活的情形集合,其中所述条件集合包括用于所述用户状态是否等于预配置值的状态条件,并且其中所述状态集合包括内容匹配条件;所述爬行虫经由执行在至少一个存储装置上存储的所述爬行虫的程序指令的至少一个处理器而在所述交互会话期间从所述网站接收内容;所述爬行虫经由执行在至少一个存储装置上存储的所述爬行虫的程序指令的至少一个处理器而解析来自所述网站的内容,并且将所解析的内容与之前定义的项目集合进行匹配,以确定所述内容匹配条件是否被满足;并且如果所述内容匹配条件被满足且如果所述状态条件被满足,则所述爬行虫经由执行在至少一个存储装置上存储的所述爬行虫的程序指令的至少一个处理器而激活由所述爬行虫定义的情形中的一个情形,所述一个情形在所述内容匹配条件和状态条件未被满足时不被所述爬行虫激活。
地址 美国纽约阿芒克