发明名称 具有增减量功能的海量微博数据分布式分类装置及方法
摘要 本发明一种具有增减量功能的海量微博数据分布式分类装置及方法,属于数据挖掘技术领域,本发明克服了以往的利用极限学机技术仅能分布式地处理海量微博数据而不能有效地处理微博数据更新的缺陷,良好地解决了针对海量微博数据中数据频繁更新的问题,充分利用了海量微博数据的效用,起到了更好的为应用服务的效果。
申请公布号 CN103729431A 申请公布日期 2014.04.16
申请号 CN201310732005.9 申请日期 2013.12.26
申请人 东北大学 发明人 王国仁;信俊昌;聂铁铮;赵相国;丁琳琳
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 沈阳东大专利代理有限公司 21109 代理人 梁焱
主权项 一种具有增减量功能的海量微博数据分布式分类装置,其特征在于,包括多个从控制机和一个主控制机,所述的从控制机包括向量器、剥离器、转换器、后项计算器和前项计算器;所述的主控制机包括前项缓存器、后项缓存器、更新前项累加器、更新后项累加器、前项整合器、后项整合器、参数生成器和分类生成器;其中,向量器:用于将标注后的文本字段进行特征提取,并将提取的特征和标注类型表示成向量形式,并将该向量发送至剥离器;剥离器:用于对向量化后的文本字段进行剥离,获得所有文本字段的特征矩阵和分类结果矩阵,并将文本字段的特征矩阵发送至转换器,将分类结果矩阵发送至后项计算器;转换器:用于将特征矩阵中的元素进行归一化处理,并在极限学习机选择一个激励函数,将归一化处理后的特征矩阵中的元素代入所选择的激励函数中,获得极限学习机的隐层输出矩阵,并将隐层输出矩阵发送至后项计算器和前项计算器;前项计算器:用于根据获得的隐层输出矩阵,获得第一中间结果,所述的第一中间结果为隐层输出矩阵的转置矩阵与自身的乘积,当采集原始微博数据时,将获得的第一中间结果发送至前项缓存器,当采集更新微博数据时,将获得的第一中间结果发送至更新前项累加器;后项计算器:用于根据获得的隐层输出矩阵和微博数据训练集的分类结果矩阵,获得第二中间结果,所述的第二中间结果为隐层输出矩阵的转置矩阵与分类结果矩阵的乘积,当采集原始微博数据时,将获得的第二中间结果发送至后项缓存器,当采集更新微博数据时,将获得的第二中间结果发送至更新后项累加器;前项缓存器:用于计算并存储所有从控制机发送的第一中间结果的总和,并把总和发送至前项整合器;后项缓存器:用于计算并存储所有从控制机发送的第二中间结果的总和,并把总和发送至后项整合器;更新前项累加器:用于计算并存储所有从控制机发送的更新微博数据第一中间结果的总和,并把总和发送至前项整合器;更新后项累加器:用于计算并存储所有从控制机发送的更新微博数据第二中间结果的总和,并把总和发送至后项整合器;前项整合器:当微博数据量发生变化时,用于将前项缓存器存储的原始数据的第一中间结果和更新前项累加器存储的更新微博数据的第一中间结果进行合并,获得汇总微博数据的第一中间结果并发送至参数生成器;当微博数据量未发生变化时,用于直接将前项缓存器存储的第一中间结果发送至参数生成器;后项整合器:当微博数据量发生变化时,用于将后项缓存器存储的原始微博数据的第二中间结果和更新后项累加器存储的更新微博数据的第二中间结果,获得汇总微博数据的第二中间结果并发送至参数生成器;当微博数据量未发生变化时,用于直接将后项缓存器存储的第二中间结果发送至参数生成器;参数生成器:用于根据获得的汇总微博数据的第一中间结果和汇总微博数据的第二中间结果,计算获得极限学习机输出节点的权重向量参数并发送至分类生成器;分类生成器:当建立分类器时,用于根据获得的输出节点的权重向量参数和待分类微博数据的隐层输出向量,确定微博数据分类函数,即完成微博数据分类器的构建;当对被测微博数据进行分类检测时,用于根据微博数据分类函数和被测微博数据隐层输出向量,确定该被测微博数据的类型。
地址 110819 辽宁省沈阳市和平区文化路3号巷11号