发明名称 |
一种采用多核集群的LDA模型的训练方法及系统 |
摘要 |
本发明实施例涉及一种采用多核集群的LDA模型的训练方法、系统。方法包括:多核产生多个进程,每个进程均启动多个线程,用于分担处理多个训练文档;每个进程中的多个线程共同处理该进程负责处理的文档,每个线程给出其负责处理的文档的主题-词矩阵,该进程依据其所有线程给出的主题-矩阵得到该进程负责处理的文档的主题-词矩阵;根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵,并用该主题-词矩阵更新所述的LDA模型。本发明实施例采用多核并行处理,提高了主题-词矩阵的计算速度,有利于更快地更新LDA模型。 |
申请公布号 |
CN103020258A |
申请公布日期 |
2013.04.03 |
申请号 |
CN201210564600.1 |
申请日期 |
2012.12.21 |
申请人 |
中国科学院计算机网络信息中心 |
发明人 |
陆忠华;王珏;周莼葆;郎显宇;聂宁明 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京亿腾知识产权代理事务所 11309 |
代理人 |
陈霁 |
主权项 |
一种采用多核集群的LDA模型的训练方法,其特征在于,所述方法包括:所述多核产生多个进程,每个进程均启动多个线程,用于分担处理多个训练文档;每个进程中的多个线程共同处理该进程负责处理的文档,每个线程给出其负责处理的文档的主题‑词矩阵,该进程依据其所有线程给出的主题‑词矩阵得到该进程负责处理的文档的主题‑词矩阵;根据所有的进程提供的主题‑词矩阵得到所述多个训练文档的主题‑词矩阵,并用该主题‑词矩阵更新所述的LDA模型。 |
地址 |
100190 北京市海淀区中关村南四街四号软件园2号楼 |