发明名称 一种企业专利公告信息抓取与管理的方法
摘要 一种企业专利公告信息抓取与管理的方法。本发明公开了一种基于专利公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。
申请公布号 CN105205588A 申请公布日期 2015.12.30
申请号 CN201510539921.X 申请日期 2015.08.31
申请人 佛山市恒南微科技有限公司 发明人 黄庆梅;陈少娜;其他发明人请求不公开姓名
分类号 G06Q10/06(2012.01)I;G06Q50/18(2012.01)I;G06F17/30(2006.01)I 主分类号 G06Q10/06(2012.01)I
代理机构 代理人
主权项 一种企业专利公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:步骤S102,在企业信息库中读出企业名称的待查数据;步骤S103,将步骤S102所读出的企业名称通过函数转为UTF8编码方式进行数据编码;步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“sop‑totalCount”,结束标记为“</span>]”;当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;步骤S108,生成第三信息码:第二信息码不为空时,第三信息码通过第二信息码去杂质后剩下数字获得;步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第三信息码的信息,以及相应的辅助数据对应存贮在拥有专利申请的企业信息库中;将所有数据执行步骤S110存入专利企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
地址 528000 广东省佛山市禅城区张槎三路35号德晖花园4号楼502室