发明名称 可缩放的群集方法和系统
摘要 描述了可缩放群集系统。在一个实施例中,群集系统可用于极大规模的应用,其中具有数千万的特征的数百万的项被群集。在一个实施例中,群集系统使用对数据集中的不确定性进行建模的概率群集模型,其中数据集可以是例如订阅关键词的广告、包含文本关键词的文本文档、具有相关联的特征的图像或其他项。在一个实施例中,群集系统被用于生成附加特征用于与给定项相关联。例如,建议广告者可能想订阅的附加关键词。在某些实施例中,所生成的附加特征具有可用于对那些特征进行排序的相关联的概率值。在某些示例中,用户对所生成的特征的返回被接收,并且用于修订特征生成过程。
申请公布号 CN102388382B 申请公布日期 2015.11.25
申请号 CN201080016627.6 申请日期 2010.04.01
申请人 微软技术许可有限责任公司 发明人 A·施瓦格夫;J·Q·坎德拉;T·博彻特;T·格雷佩;R·赫布里希
分类号 G06F17/00(2006.01)I;G06F9/06(2006.01)I;G06F9/44(2006.01)I;G06F17/21(2006.01)I;G06F15/16(2006.01)I 主分类号 G06F17/00(2006.01)I
代理机构 上海专利商标事务所有限公司 31100 代理人 蔡悦
主权项 一种群集项的计算机实现的方法,每一项具有至少一个相关联的特征,所述方法包括:将数据结构存储在存储器中,所述数据结构保留:多个群集(201);对于每一项,一个或多个相关联的特征(202);对于每一群集,与表示相信所述项中的任一个是否为该群集的成员的先验概率分布有关的至少一个群集成员资格参数(200);对于每一群集和特征组合,与表示相信该群集中的项中的任一个与该特征相关联的先验概率分布有关的至少一个特征参数(203);接收并存储包括具有观察到的相关联的特征的受观察项的输入(302);在所接收的输入的基础上使用贝叶斯更新过程来更新(304)所述数据结构中的参数;标识对所有群集具有相似特征参数的特征,以及使用那些特征参数的相同的默认值,其中所述相似特征参数包括相似概率分布;以及迭代所述接收和更新多个这样的输入的步骤。
地址 美国华盛顿州
您可能感兴趣的专利