发明名称 一种从互联网海量信息中发现热点的方法
摘要 本发明提供一种从互联网海量信息中发现热点的方法,其特征在于:通过以XML方式解析由网络服务器抓取的一系列RSS种子,或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标、信息在其链出网页中的位置、发布时间与点击数等参数计算网页的热点程度,并进行排序和推荐。本发明可以帮助用户在互联网的海量信息中发现热点,使得用户对自己感兴趣的信息通过互联网获取的效率显著提升。
申请公布号 CN101477556B 申请公布日期 2010.09.15
申请号 CN200910028939.8 申请日期 2009.01.22
申请人 苏州智讯科技有限公司 发明人 胡仁胜;董兆正;陆铭
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏科专利代理有限责任公司 32102 代理人 陈忠辉
主权项 1.一种从互联网海量信息中发现热点的方法,其特征在于:通过XML解析由网络服务器抓取的一系列RSS种子,或通过信息抽取算法分析由爬虫技术抓取的网页的超文本链接标示语言,得到网页的结构化字段信息,设置针对不同网站的更新频率,并根据网站自身的更新速度、权威性指标a、信息在其链出网页中的位置b、发布时间t<sub>0</sub>与点击数d参数计算网页的热点程度为<img file="FSB00000104966000011.GIF" wi="1042" he="139" />并进行排序和推荐;式中网站的权威性指标a根据其在Alexa世界排名的名次确定,即:<img file="FSB00000104966000012.GIF" wi="481" he="208" />其中r为信息来源网站的实时排名;信息在其链出网页中的位置b以取值范围在0~1之间固定参数表示;k<sub>1</sub>、k<sub>2</sub>为a、b两个参数的加权系数,其值根据数学中的综合评价方法确定,t为当前的时间,hl为半衰期参数。
地址 215021 江苏省苏州市工业园区金鸡湖大道1355号国际科技园4期A0508