发明名称 一种基于大数据挖掘的互联网资源质量评估方法及系统
摘要 本发明提供了一种基于大数据挖掘的互联网资源质量评估方法及系统,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K‑Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数;步骤104)依据互联网资源质量评估的相关指标,确定互联网资源的质量评估模型;步骤105)基于得到的各指标的分数和质量评估模型,确定互联网资源质量的评估结果。本发明的技术方案可以为网络运营商和ICP运营商提高用户感知质量提供数据决策支持完善和健全的质量评分模型,使得最终数据的质量分数更加准确。
申请公布号 CN103530347B 申请公布日期 2016.09.14
申请号 CN201310467352.3 申请日期 2013.10.09
申请人 北京东方网信科技股份有限公司 发明人 刘岩松;徐信信
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京法思腾知识产权代理有限公司 11318 代理人 杨小蓉;杨青
主权项 一种基于大数据挖掘的互联网资源质量评估方法,所述方法包含:步骤101)采集互联网数据,采用抽样或随机的方式得到海量样本数据;步骤102)通过数据挖掘去除样本数据的噪声点,使样本数据具有平滑性;步骤103)使用K‑Means算法得出样本数据的及格值和刻度,从而确定样本数据的若干指标的分数,所述指标包含:DNS解析时间、TCP建链时间、第一字节时间和剩余时间;其中,所述步骤103)进一步包含:步骤103‑1)从n个数据对象中,任意选择k个对象作为初始聚类中心;而对于所剩下其它数据对象,根据剩余数据对象与这些初始聚类中心的相似度,分别将剩余数据对象中的每一个数据对象分配至与数据对象最相似的某个初始聚类中心中;步骤103‑2)计算每个所获新聚类的聚类中心,不断重复这一过程直到标准测度函数开始收敛为止,得到及格值和刻度值,所述及格值为标准测度函数开始收敛为止所对应的聚类中心的重心点,所述刻度值为标准测度函数开始收敛为止所对应的聚类中心的半径与某一设定值的商,所述设定值的取值范围为:0‑100;步骤103‑3)基于得到的及格值和刻度值得到各指标的分数,公式为:各指标的分数=阈值‑(指标项‑及格值)/刻度;其中,指标项的取值为对互联网资源进行质量评估而采集的实际的各指标项的数值大小,该指标项的数值大小是由专门的互联网资源质量探测系统采集获得,所述指标项包含:DNS解析时间、TCP建链时间、第一字节时间和剩余时间;所述阈值的大小与计算指标分数时采用的分制相关,具体为该阈值为满分的百分之六十,即当采用百分制时该处的阈值为60,当采用150分值时该处固定值为90步骤104)依据得到的及格值和刻度进行网络资源质量评估;其中,所述DNS解析时间、TCP建链时间、第一字节时间以及剩余时间均以秒为单位。
地址 100190 北京市海淀区成府路270号中科科仪大厦1号楼3层