发明名称 | 一种用户行为的机器学模型的训练方法及装置 | ||
摘要 | 本发明公开了一种用户行为的机器学模型的训练方法及装置,无需特征降维即可解决数据稀疏问题,提高用户行为预测的准确性。该方法包括:收集用户的历史访问数据;将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;计算每一样本对应的用户行为统计信息,用户行为统计信息包括用户流量数;当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离;选择距离小于距离阈值的其他样本作为当前样本的邻近样本;将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;使用新样本训练预先建立的机器学模型,机器学模型用于根据特征集在各维度下的特征值预测用户行为。 | ||
申请公布号 | CN104239351A | 申请公布日期 | 2014.12.24 |
申请号 | CN201310247161.6 | 申请日期 | 2013.06.20 |
申请人 | 阿里巴巴集团控股有限公司 | 发明人 | 何宪;殷维栋;孟晓楠 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京安信方达知识产权代理有限公司 11262 | 代理人 | 解婷婷;栗若木 |
主权项 | 一种用户行为的机器学习模型的训练方法,其特征在于,包括:收集用户的历史访问数据;将用户的历史访问数据按照包含有一个或多个维度的特征集进行分类聚合,形成多个样本;计算每一样本对应的用户行为统计信息,所述用户行为统计信息包括用户流量数;当当前样本对应的用户流量数小于流量数第一阈值时,计算当前样本与其他样本的距离,所述距离由当前样本对应特征集在各维度下的特征值与其他样本对应特征集在各维度下的特征值确定;选择距离小于距离阈值的其他样本作为当前样本的邻近样本;将当前样本的用户行为统计信息与邻近样本的用户行为统计信息合并生成新样本;使用新样本训练预先建立的机器学习模型,所述机器学习模型用于根据所述特征集在各维度下的特征值预测用户行为。 | ||
地址 | 英属开曼群岛大开曼资本大厦一座四层847号邮箱 |