发明名称 |
一种基于已知标签的大数据常态模式提取方法及系统 |
摘要 |
本发明公开了一种基于已知标签的大数据常态模式提取方法。本方法为:1)服务器从各终端采集的总样本数据集中抽取若干样本,得到一抽样样本集合,抽样样本集合中的样本已分类并按照类别标签进行标注;2)根据选取的属性降维指标计算抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性四项指标;3)根据计算结果对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的四项指标,然后选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式。本发明计算复杂度低,结果确定性高,增强了在实际应用中的可信度。 |
申请公布号 |
CN104102730A |
申请公布日期 |
2014.10.15 |
申请号 |
CN201410355680.9 |
申请日期 |
2014.07.24 |
申请人 |
中国软件与技术服务股份有限公司 |
发明人 |
王电;陈庆彬;黄煜可 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京君尚知识产权代理事务所(普通合伙) 11200 |
代理人 |
余长江 |
主权项 |
一种基于已知标签的大数据常态模式提取方法,其步骤为:1)中央服务器从各终端服务器采集的总样本数据集中抽取若干样本,得到一抽样样本集合,所述抽样样本集合中的样本已分类并按照类别标签进行标注;2)根据选取的属性降维指标计算所述抽样样本集合中已标注样本每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性;3)分别根据属性值辨识度、属性辨识度和或属性值重要性、属性重要性对属性进行排序,选取若干属性作为大数据降维后保留的属性;4)根据选取的属性划分指标计算属性降维后的全体样本数据每一属性的属性值辨识度、属性辨识度和或属性值重要性、属性重要性,然后对计算结果进行排序选取若干属性特征对该总样本数据集进行划分,将划分结果作为常态模式;其中,属性值辨识度的计算方法为:选取样本一属性i的一属性值a,计算具有该属性值a的样本属于标签j的条件概率值,以及未增加该属性值条件时样本属于该标签j的概率值;将所述条件概率值与所述概率值的差值作为该属性值a对于该标签j的属性值辨识度;将该属性值a对于所有标签的属性值辨识度的平方平均数作为该属性值a的属性值辨识度;属性辨识度的计算方法为:根据属性i所有属性值辨识度计算该属性i的属性辨识度;属性值重要性的计算方法为:将样本属性i取属性值a时属于标签j的样本量乘以该属性值a对于该标签j的属性辨识度,得到该属性值a对于该标签j的属性值重要性;将该属性值a对于所有标签的属性值重要性的平方平均数作为该属性值a的属性值重要性;属性重要性的计算方法为:根据属性i所有属性值重要性计算该属性i的属性重要性。 |
地址 |
100081 北京市海淀区学院南路55号(中软大厦) |