发明名称 一种从网页中自动提取网站拥有者行政属地信息的方法
摘要 本发明涉及一种从网页中自动提取网站拥有者行政属地信息的方法,首先建立行政区划数据库,然后访问给定的网站,链接该网站的网页,提取网页的信息并与所建立的行政区划数据库中的信息进行匹配,直到获得该网页包含的行政属地信息;本方法对于在互联网上提供全面的“WHOIS查询”服务有重要作用;同时,也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。
申请公布号 CN101127050A 申请公布日期 2008.02.20
申请号 CN200710142991.7 申请日期 2007.08.14
申请人 北京大学 发明人 罗英伟;汪小林;许卓群
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京君尚知识产权代理事务所 代理人 余长江
主权项 1.一种从网页中自动提取网站拥有者行政属地信息的方法,其步骤包括:1)建立行政区划数据库,该数据库存储下列信息:省、自治区、直辖市全称和简称;与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称;与市一级行政区划匹配的电话区号;与市一级行政区划匹配的邮政编码;2)访问给定的网站,链接该网站的网页;3)分别按照下述方式提取网页的信息,与数据库中的行政区划信息进行匹配,直到获得该网页包含的行政属地信息:提取该网页的标题信息;以提示邮政编码信息的关键词检索该网页源文件,提取关键词后的连续6个数字信息;以提示直接地址信息的关键词检索该网页源文件,提取关键词后的汉字内容;以提示电话区号信息的关键词检索该网页源文件,提取关键词后的电话号码信息;以提示版权信息的关键词检索该网页源文件,提取关键词前后的汉字内容;以提示营业执照信息的关键词检索该网页源文件,提取关键词前的一个汉字内容;根据该网页的URL提取地址信息。
地址 100871北京市海淀区颐和园路5号