发明名称 |
一种训练数据的处理方法及装置 |
摘要 |
本发明公开了一种训练数据的处理方法及装置,其中该方法包括:获取训练数据,并确定训练数据的原始特征空间,原始特征空间为训练数据原始的特征数据存储结构;对原始特征空间进行扫描统计,并根据统计结果建立全局索引;根据全局索引将训练数据映射到实际特征空间,实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际特征空间的训练数据进行模型训练。本发明实施例通过全局索引将训练数据做一次映射,将稀疏的存储结构转换为稠密的存储结构,不仅大大的减少了存储空间的消耗,还提升了模型的网络传输速度和模型训练更新的速度。 |
申请公布号 |
CN105005588A |
申请公布日期 |
2015.10.28 |
申请号 |
CN201510362416.2 |
申请日期 |
2015.06.26 |
申请人 |
深圳市腾讯计算机系统有限公司 |
发明人 |
李超 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳翼盛智成知识产权事务所(普通合伙) 44300 |
代理人 |
黄威 |
主权项 |
一种训练数据的处理方法,其特征在于,包括:获取训练数据,并确定所述训练数据的原始特征空间,所述原始特征空间为训练数据原始的特征数据存储结构;对所述原始特征空间进行扫描统计,并根据统计结果建立全局索引;根据所述全局索引将所述训练数据映射到实际特征空间,所述实际特征空间为根据在原始特征空间内实际存储有特征数据的位置而构成的存储结构;利用实际特征空间的训练数据进行模型训练。 |
地址 |
518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼 |