发明名称 一种抽样分析方法、系统和设备
摘要 本申请公开了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,该方法包括:根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集;计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。通过本申请的实施例,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户查询需求和市场动态信息,提高服务质量。
申请公布号 CN101477542B 申请公布日期 2013.02.13
申请号 CN200910001117.0 申请日期 2009.01.22
申请人 阿里巴巴集团控股有限公司 发明人 张俊林;孙健;侯磊;张勤
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京挺立专利事务所(普通合伙) 11265 代理人 叶树明
主权项 一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,其特征在于,包括:根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集,其中,将所述PV值相同的查询关键词归为一个查询关键词子集;计算所述查询关键词子集的抽样数目;所述计算所述查询关键词子集的抽样数目之前,还包括:确定该次抽样分析所要抽取的查询关键词数目;所述计算所述查询关键词子集的抽样数目包括:计算所述查询关键词子集的抽取概率;根据所述确定抽取的查询关键词数目和所述抽取概率计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。
地址 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱