发明名称 数据重排序方法和系统
摘要 一种数据重排序方法,首先根据数据集合建立节点集合,得到数据集合中每个数据与节点集合中节点的映射关系,获取节点集合中各节点的第一节点值,将第一节点值小于或等于第一预设值的节点对应的数据作为噪声去除,对数据集合进行全局去噪,提高数据检索精度。提取去噪数据集合中标定数据对应的标定正样本作为查询样本集合,获取查询样本集合中各标定正样本的第二节点值,提取去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类,将主导数据类中的数据作为最终的标定数据对去噪数据集合进行重排序,提高了标定数据的准确度,进一步提高数据的检索精度。此外,本发明还提供一种数据重排序系统。
申请公布号 CN103064939B 申请公布日期 2015.09.30
申请号 CN201210572274.9 申请日期 2012.12.25
申请人 深圳先进技术研究院 发明人 陈世峰;曹琛
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州华进联合专利商标代理有限公司 44224 代理人 吴平
主权项 一种数据重排序方法,其特征在于,包括以下步骤:获取数据集合,所述数据集合中包含多个标定数据;根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本;获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合;提取所述去噪数据集合中标定数据对应的标定正样本建立查询样本集合;获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类;根据所述主导数据类对所述去噪数据集合进行重排序;所述根据数据特征建立节点集合,得到所述数据集合中的数据与所述节点集合中节点的映射关系,所述节点集合包含与所述标定数据对应的标定正样本的步骤具体包括:获取所述数据集合中每个数据的多个特征值,多个所述特征值构成所述数据特征;构建每个数据对应的节点,所述节点为多维向量且所述节点的一个维度表示一种所述特征值;根据所述节点建立所述节点集合;具体为:χ={x<sub>1</sub>,…,x<sub>m</sub>,x<sub>m+1</sub>,…,x<sub>n</sub>}其中,χ为所述节点集合,x<sub>1</sub>,…,x<sub>m</sub>为所述标定正样本,与所述标定数据对应;所述获取所述节点集合中各节点的第一节点值,所述第一节点值表示节点是实际正样本的概率,去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到去噪数据集合的步骤具体包括:对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:w<sub>ij</sub>=exp(‑||x<sub>i</sub>‑x<sub>j</sub>||<sup>2</sup>/2σ<sup>2</sup>),i≠j其中,w<sub>ij</sub>为所述边权重矩阵W的表达式,且w<sub>ii</sub>=0,σ<sup>2</sup>为预设参数;根据所述边权重矩阵得到归一化图矩阵;具体为:S=D<sup>‑1/2</sup>WD<sup>‑1/2</sup>其中,S为所述归一化图矩阵,对角矩阵D的对角元素<img file="FDA0000732629860000021.GIF" wi="309" he="99" />根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:L=I‑S其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;根据所述归一化图拉普拉斯矩阵对所述节点集合进行第一类扭曲变换,得到第一类数据特征和第一类维度权重对角矩阵;具体为:<img file="FDA0000732629860000022.GIF" wi="729" he="82" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>h</mi><mi>ii</mi></msub><mo>=</mo><mn>1</mn><mo>/</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>&Psi;</mi><mn>1</mn></msub><msub><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>j</mi></msub></mrow>]]></math><img file="FDA0000732629860000023.GIF" wi="428" he="91" /></maths>其中,R<sup>n</sup>表示n维向量集合,通过所述第一类扭曲变换,将节点x<sub>i</sub>映射到维度等于节点个数的特征空间,得到所述第一类数据特征Ψ<sub>1</sub>(x<sub>i</sub>)=L<sup>‑1</sup>(i,·)<sup>T</sup>,L<sup>‑1</sup>(i,·)表示所述归一化图拉普拉斯矩阵L逆矩阵的第i行向量;h<sub>ii</sub>为所述第一类维度权重对角矩阵H<sub>1</sub>的表达式;对所述节点集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:f(x;w)=&lt;w,Ψ(x)&gt;其中,判别函数f(x;w)表示节点x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,&lt;w,Ψ(x)&gt;表示所述数据特征Ψ(x)和所述参数向量w内积;根据所述判别函数建立第一学习模型;具体为:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><munder><mi>min</mi><mi>w</mi></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mo>|</mo><mo>|</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>;</mo><mi>w</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>&mu;</mi><mo>&lt;</mo><mi>h</mi><mo>,</mo><mi>w</mi><mo>&CenterDot;</mo><mi>w</mi><mo>></mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000732629860000024.GIF" wi="847" he="133" /></maths>其中,x<sub>i</sub>为所述标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;简化所述第一学习模型,得到所述参数向量的第一表达式;具体为:w<sup>*</sup>=(X<sup>T</sup>X+μH)<sup>‑1</sup>X<sup>T</sup>y<sub>n</sub>H=diag(h)其中,w<sup>*</sup>为所述参数向量的第一表达式,矩阵X=[Ψ(x<sub>1</sub>),…,Ψ(x<sub>n</sub>)]<sup>T</sup>,维度权重对角矩阵H中元素h<sub>ii</sub>为所述权重向量h的第i维元素,y<sub>n</sub>为节点x<sub>n</sub>的查询样本向量;根据所述第一类数据特征和第一类维度权重对角矩阵,由所述判别函数得出所述节点集合中各节点的第一节点值;去除所述数据集合中对应节点的第一节点值小于或等于第一预设值的数据,得到所述去噪数据集合;所述获取所述查询样本集合中各标定正样本的第二节点值,所述第二节点值表示标定正样本是实际正样本的概率,提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到主导数据类的步骤具体包括:对所述节点集合中各节点两两之间建立边,得到边权重矩阵;具体为:w<sub>ij</sub>=exp(‑||x<sub>i</sub>‑x<sub>j</sub>||<sup>2</sup>/2σ<sup>2</sup>),i≠j其中,w<sub>ij</sub>为所述边权重矩阵W的表达式,且w<sub>ii</sub>=0,σ<sup>2</sup>为预设参数;根据所述边权重矩阵得到归一化图矩阵;具体为:S=D<sup>‑1/2</sup>WD<sup>‑1/2</sup>其中,S为所述归一化图矩阵,对角矩阵D的对角元素<img file="FDA0000732629860000031.GIF" wi="312" he="104" />根据所述归一化图矩阵得到归一化图拉普拉斯矩阵;具体为:L=I‑S其中,L为所述归一化图拉普拉斯矩阵,I为单位矩阵;根据所述归一化图拉普拉斯矩阵对所述查询样本集合进行第二类扭曲变换,得到第二类数据特征和第二类维度权重对角矩阵;具体为:<img file="FDA0000732629860000032.GIF" wi="776" he="106" />h<sub>ii</sub>=λ<sub>i</sub>其中,R<sup>k</sup>表示k维向量集合,通过所述第二类扭曲变换,得到第二类数据特征Ψ<sub>2</sub>(x<sub>j</sub>)=U<sub>k</sub>(j,·)<sup>T</sup>,U<sub>k</sub>(j,·)<sup>T</sup>表示特征向量矩阵U<sub>k</sub>=[v<sub>1</sub>,v<sub>2</sub>,…,v<sub>k</sub>]的逆矩阵的第j行向量,所述特征向量矩阵U<sub>k</sub>由所述归一化图拉普拉斯矩阵L的前k个特征向量v组成,k为预设参数;h<sub>ii</sub>为所述第二类维度权重对角矩阵H<sub>2</sub>的表达式,λ<sub>i</sub>为所述归一化图拉普拉斯矩阵L的特征值;对所述查询样本集合建立判别函数,所述判别函数由所述数据特征及与所述数据特征维度相同的参数向量内积得到;具体为:f(x;w)=&lt;w,Ψ(x)&gt;其中,判别函数f(x;w)表示所述查询样本集合中标定正样本x为实际正样本的概率;w为所述参数向量,Ψ(x)为所述数据特征,&lt;w,Ψ(x)&gt;表示所述数据特征Ψ(x)和所述参数向量w内积;根据所述判别函数建立第二学习模型;具体为:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><munder><mi>min</mi><mi>w</mi></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><mrow><mo>(</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mo>|</mo><mo>|</mo><mi>f</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>;</mo><mi>w</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn><msup><mrow><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>&mu;</mi><mo>&lt;</mo><mi>h</mi><mo>,</mo><mi>w</mi><mo>&CenterDot;</mo><mi>w</mi><mo>></mo><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000732629860000041.GIF" wi="848" he="146" /></maths>其中,x<sub>i</sub>为所述查询样本集合中的标定正样本,h是权重向量,·是点乘算子,μ是平衡因子;简化所述第二学习模型,得到所述参数向量的第二表达式;具体为:w<sup>*</sup>=(X<sup>T</sup>X+μH)<sup>‑1</sup>X<sup>T</sup>y<sub>l</sub>其中,w<sup>*</sup>为所述参数向量的第二表达式,矩阵X=[Ψ(x<sub>1</sub>),…,Ψ(x<sub>l</sub>)]<sup>T</sup>,维度权重对角矩阵H中元素h<sub>ii</sub>为所述权重向量h的第i维元素,y<sub>l</sub>为所述查询样本集合中标定正样本x<sub>l</sub>的查询样本向量;根据所述第二类数据特征和第二类维度权重对角矩阵,由所述判别函数得出所述查询样本集合中各标定正样本的第二节点值;提取所述去噪数据集合中对应标定正样本的第二节点值大于或等于第二预设值的标定数据,得到所述主导数据类。
地址 518055 广东省深圳市南山区西丽大学城学苑大道1068号