发明名称 一种采用多核集群的LDA模型的训练方法及系统
摘要 本发明实施例涉及一种采用多核集群的LDA模型的训练方法、系统。方法包括:多核产生多个进程,每个进程均启动多个线程,用于分担处理多个训练文档;每个进程中的多个线程共同处理该进程负责处理的文档,每个线程给出其负责处理的文档的主题-词矩阵,该进程依据其所有线程给出的主题-矩阵得到该进程负责处理的文档的主题-词矩阵;根据所有的进程提供的主题-词矩阵得到所述多个训练文档的主题-词矩阵,并用该主题-词矩阵更新所述的LDA模型。本发明实施例采用多核并行处理,提高了主题-词矩阵的计算速度,有利于更快地更新LDA模型。
申请公布号 CN103020258A 申请公布日期 2013.04.03
申请号 CN201210564600.1 申请日期 2012.12.21
申请人 中国科学院计算机网络信息中心 发明人 陆忠华;王珏;周莼葆;郎显宇;聂宁明
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京亿腾知识产权代理事务所 11309 代理人 陈霁
主权项 一种采用多核集群的LDA模型的训练方法,其特征在于,所述方法包括:所述多核产生多个进程,每个进程均启动多个线程,用于分担处理多个训练文档;每个进程中的多个线程共同处理该进程负责处理的文档,每个线程给出其负责处理的文档的主题‑词矩阵,该进程依据其所有线程给出的主题‑词矩阵得到该进程负责处理的文档的主题‑词矩阵;根据所有的进程提供的主题‑词矩阵得到所述多个训练文档的主题‑词矩阵,并用该主题‑词矩阵更新所述的LDA模型。
地址 100190 北京市海淀区中关村南四街四号软件园2号楼