发明名称 网页抽取准确性计算方法及系统
摘要 一种网页抽取准确性计算方法,包括以下步骤:获取浏览器对网页解析的结果;获取待测网页抽取模块对网页解析的结果;计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度。采用上述方法,以浏览器解析网页的结果为网页抽取标准的结果,计算得到的相似度可有效反映待测网页抽取模块进行网页抽取的准确性,该方法不需要人工参与,能够自动的对批量网页进行测试。此外,还提供了一种网页抽取准确性计算系统。
申请公布号 CN102654861A 申请公布日期 2012.09.05
申请号 CN201110048960.1 申请日期 2011.03.01
申请人 腾讯科技(深圳)有限公司 发明人 朱靖君;林世飞;张立明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 何平;曾旻辉
主权项 一种网页抽取准确性计算方法,包括以下步骤:获取浏览器对网页解析的结果;获取待测网页抽取模块对网页解析的结果;计算所述待测网页抽取模块解析的结果与浏览器解析的结果的相似度,相似度越大,则所述待测网页抽取模块进行网页抽取的准确性越高。
地址 518044 广东省深圳市福田区振兴路赛格科技园2栋东403室