发明名称 一种文本聚类的处理方法、服务器及系统
摘要 一种文本聚类的处理方法、服务器及系统,该方法包括:从主题集合中为预处理后的文本集合中各文本中每一个词随机分配一个主题,将分配主题后的文本集合中各文本分配到多个第二服务器,建立该多个第二服务器分配的文本中的每一个词的初始映射关系,根据第二服务器反馈的第二服务器分配的文本的每一个词更新后的主题确定文本集合中各文本的聚类结果,每一个词更新后的主题由第二服务器基于改进的吉布斯采样算法,根据第二服务器上的词的初始映射关系进行采样计算得到的。通过确定词的映射关系及使用稠密数据结构的矩阵及使用改进后的吉布斯采样算法,能够有效的降低第二服务器处理的数据量及降低内存消耗,且能够避免出现网络瓶颈。
申请公布号 CN106156142A 申请公布日期 2016.11.23
申请号 CN201510172296.X 申请日期 2015.04.13
申请人 深圳市腾讯计算机系统有限公司 发明人 邓雪娇;陆中振
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海波拓知识产权代理有限公司 31264 代理人 杨波
主权项 一种文本聚类的处理方法,其特征在于,包括:第一服务器从主题集合中为预处理后的文本集合中各文本中每一个词随机分配一个主题,将分配主题后的所述文本集合中各文本分配到多个第二服务器;建立多个所述第二服务器分配的文本中的每一个词的初始映射关系,并分别发送给多个所述第二服务器,所述初始映射关系包括:词与第一矩阵之间的映射关系及所述词的主题与第二矩阵之间的映射关系,所述第一矩阵为所述文本集合中属于主题集合中各主题的所述词的个数构成的矩阵,所述第二矩阵为所述文本集合中属于所述词的主题的所有词的个数构成的矩阵,所述第一矩阵为稠密数据结构的矩阵;根据所述第二服务器反馈的所述第二服务器分配的文本的每一个词更新后的主题确定所述文本集合中各文本的聚类结果,所述每一个词更新后的主题由所述第二服务器基于改进的吉布斯采样算法,根据所述第二服务器上的词的所述初始映射关系进行采样计算得到的。
地址 518000 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼