发明名称 一种在线更新兴趣信息的采集方法
摘要 本发明涉及一种在线更新兴趣信息的采集方法,主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成;兴趣点挖掘中采用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容。本发明使订阅者在不进行海量网址搜索的情况下,实时掌握感兴趣的WEB信息,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。
申请公布号 CN102890704A 申请公布日期 2013.01.23
申请号 CN201210266647.X 申请日期 2012.07.31
申请人 万金朋 发明人 万金朋
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:步骤1,建立兴趣信息网址库;步骤2,兴趣点挖掘:通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;3)通过网页内容的编码分类处理获取网页源代码(S5)网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码4)网页源代码的过滤(S6)过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比(S8)判断是否为第一次获取网页源代码(S7):若不是第一次获取,利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9);若是第一次获取网页源代码,则网页的全部汉字内容(S10)。6)在新增内容中查找客户感兴趣的关键词(S11);步骤3,信息发布:将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。
地址 400030 重庆市沙坪坝区沙坪坝正街174号