发明名称 基于模糊优先级的二阶段实例层数据集成方法
摘要 本发明公开了一种基于模糊优先级的二阶段实例层数据集成方法,属于数据集成技术领域。所述二阶段实例层数据集成方法首先确定待集成记录所属分布式存储节点的优先级指标及每个指标的权重,并采用三角模糊数来表示模糊优先级;数据集成时,根据投票机制区分出实例层的强弱冲突;若为弱冲突,则采用多数一致属性值作为集成后的结果;若为强冲突,则通过构建去模糊化的融合决策矩阵,计算每条记录与正理想解的隶属度来决定集成所采用的属性值。本发明解决了在海量数据集成中集成效率低或集成结果精度低等问题。
申请公布号 CN103164531B 申请公布日期 2016.03.23
申请号 CN201310116388.7 申请日期 2013.04.03
申请人 河海大学 发明人 冯钧;盛震宇;唐志贤;李士进;朱跃龙;万定生;徐黎明;冯读庆;许潇;姜康;陈焕霖;刘子源;朱康康;史涯晴
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种基于模糊优先级的二阶段实例层数据集成方法,其特征在于,包括模糊优先级模型建立和二阶段实例层数据集成,其中:所述模糊优先级模型建立包括分布式存储节点优先级指标的设置、优先级指标的模糊化表示;所述二阶段实例层数据集成包括利用投票机制的强弱冲突判断、弱冲突解决以及强冲突解决;实现步骤如下:步骤1,为分布式存储节点进行优先级指标定性判断,然后采用三角模糊数对优先级指标进行表示,同时为各个优先级指标根据应用需求赋以权值;步骤2,对于发生实例层冲突的记录项,按照集成准确度的需求选用三分之二投票制或半数投票制的方法区分出强弱冲突;若冲突为弱冲突,则转向步骤3;否则,转向步骤4;步骤3,对于弱冲突情况,采用多数属性值一致的记录作为集成后的输出结果,转向步骤5;步骤4,对于强冲突情况,根据记录所来源的分布式存储节点优先级指标进行集成,包括获取融合矩阵、规格化、构建融合决策矩阵、去模糊化、计算每条记录与正理想解和负理想解的距离、综合评估步骤,执行完毕后转向步骤5;步骤5,若存在记录未集成,则重复步骤2;否则,集成完毕;所述步骤4的具体实施步骤如下:步骤4‑1,将n条来自不同分布式存储节点的待集成记录,按照它们所属节点的优先级指标建立融合矩阵;步骤4‑2,根据步骤4‑1所得到的融合矩阵中三角模糊数的值情况,进行成本型指标或收益型指标的规格化;步骤4‑3,通过步骤1所获得的优先级指标权值与步骤4‑2获得的规格化融合矩阵构建融合决策矩阵;步骤4‑4,对步骤4‑3获得的融合决策矩阵去模糊化处理;步骤4‑5,对步骤4‑4获得的去模糊化后的融合决策矩阵,计算每条记录与正理想解和负理想解的距离;步骤4‑6,按照步骤4‑5的处理结果,计算每条记录与正理想解的隶属度,并按照隶属度排序,隶属度最大的记录所存储的属性即为集成后的结果,结束步骤4;所述分布式存储节点优先级包括置信度、可用性、出错性三个指标;置信度指标描述了分布式存储节点所提供数据的准确度及权威性;可用性指标描述了分布式存储节点上的数据在某一时段的可用程度;出错性指标描述了分布式存储节点运行的稳定性及发生故障的可能性;所述优先级指标从其影响关系上可以分为两类:成本型指标和收益型指标;成本型指标值越大,表明其成本越低,优先级越高;反之,收益型的指标值越大,表明其收益越高,优先级越高;所述优先级指标在优先级模型中存在权重关系,描述了各个指标在优先级中的作用程度,用权重向量w=(w<sub>1</sub>,w<sub>2</sub>,w<sub>3</sub>)表示;其中w<sub>j</sub>表示分布式存储节点的第j个优先级指标权值,且<img file="FDA0000840478440000021.GIF" wi="263" he="95" />所述优先级指标的模糊化指的是对分布式存储节点的优先级指标采用三角模糊数进行描述;三角模糊数用M=(m<sub>l</sub>,m,m<sub>r</sub>)来表示,其中m<sub>l</sub>表示M所支撑的上界,m<sub>r</sub>表示M所支撑的下界,m表示M的中值;去模糊化的计算公式如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>v</mi><mi>M</mi></msub><mo>=</mo><mfrac><mrow><msub><mi>m</mi><mn>1</mn></msub><mo>+</mo><mn>2</mn><mi>m</mi><mo>+</mo><msub><mi>m</mi><mi>r</mi></msub></mrow><mn>4</mn></mfrac></mrow>]]></math><img file="FDA0000840478440000022.GIF" wi="372" he="140" /></maths>  公式1v<sub>M</sub>表示三角模糊数M去模糊化后的数值;所述二阶段实例层数据集成指的是用投票机制将实例层冲突区分为强冲突与弱冲突;对于弱冲突采用简化的集成方式进行处理;对于强冲突采用依据分布式节点优先级的关系进行处理;即对于任何实例层数据的集成均分为冲突判断与冲突解决两个阶段进行;所述投票机制分为三分之二投票制与半数投票制两种;三分之二投票制指的是在现有的记录里满足:有不低于三分之二的记录对于发生冲突的属性它们的属性值是一致的;半数投票制指的是在现有记录里满足:指代现实世界同一对象的记录超过2条,且发生了属性值的冲突,同时,它们中有不低于一半的记录属性值是一致的;所述弱冲突指数据集成过程中,实例层的冲突现象满足三分之二投票制或半数投票制的情况;所述强冲突指数据集成过程中,实例层的冲突现象不满足三分之二投票制与半数投票制的情况;所述弱冲突解决方法为:在三分之二投票制中,有不低于三分之二的记录,对于发生冲突的属性它们的属性值是一致的,则此时将以这些一致的属性值作为集成后的数据对外显示;在半数投票制中,有不低于一半的记录,对于发生冲突的属性它们的属性值是一致的,则将以这些一致的属性值作为集成后的数据对外显示;所述融合矩阵为F<sub>n×3</sub>=(f<sub>ij</sub>)<sub>n×3</sub>,其中n表示有n条来自不同分布式节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;f<sub>ij</sub>表示第i条记录所属的分布式节点的第j个优先级指标;所述规格化是为了便于数据的评估和比较,将分布式存储节点优先级指标规格化至一个统一的量纲;对于f<sub>ij</sub>=(a<sub>ij</sub>,b<sub>ij</sub>,c<sub>ij</sub>),成本型指标的值规格方式如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>r</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mrow><mo>(</mo><mfrac><munder><mrow><msub><mi>mina</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><msub><mi>c</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mfrac><mo>,</mo><mfrac><munder><mrow><msub><mi>minb</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><msub><mi>b</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mfrac><mo>,</mo><mfrac><munder><mrow><msub><mi>minc</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mfrac><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000840478440000031.GIF" wi="1078" he="167" /></maths>  公式2收益型指标的值规格方式如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>r</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mrow><mo>(</mo><mfrac><msub><mi>a</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><munder><mrow><msub><mi>minc</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder></mfrac><mo>,</mo><mfrac><msub><mi>b</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><munder><mrow><msub><mi>minb</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder></mfrac><mo>,</mo><mfrac><msub><mi>c</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><munder><mrow><msub><mi>mina</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder></mfrac><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000840478440000032.GIF" wi="1077" he="167" /></maths>  公式3其中,r<sub>ij</sub>表示第i条记录所属的分布式存储节点的第j个优先级指标规格化后的模糊数,n表示有n条来自不同分布式存储节点的记录待集成;3表示每个分布式存储节点的3个优先级指标;所述构建融合决策矩阵是指将优先级指标权值加入融合矩阵;若权重向量w=(w<sub>1</sub>,w<sub>2</sub>,w<sub>3</sub>),规格化后的r<sub>ij</sub>=(a<sub>ij</sub>,b<sub>ij</sub>,c<sub>ij</sub>),则融合决策矩阵如下:d<sub>ij</sub>=(a′<sub>ij</sub>,b′<sub>ij</sub>,c′<sub>ij</sub>)=w<sub>j</sub>(a<sub>ij</sub>,b<sub>ij</sub>,c<sub>ij</sub>),(1≤i≤n,1≤j≤3)  公式4其中,d<sub>ij</sub>表示融合决策矩阵中的每一个元素;所述计算与正理想解和负理想解的距离中,正理想解向量由M<sup>+</sup>表示,定义为<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msup><mi>M</mi><mo>+</mo></msup><mo>=</mo><mrow><mo>(</mo><msubsup><mi>M</mi><mn>1</mn><mo>+</mo></msubsup><mo>,</mo><msubsup><mi>M</mi><mn>2</mn><mo>+</mo></msubsup><mo>,</mo><msubsup><mi>M</mi><mn>3</mn><mo>+</mo></msubsup><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000840478440000033.GIF" wi="461" he="71" /></maths>且<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msubsup><mi>M</mi><mi>j</mi><mo>+</mo></msubsup><mo>=</mo><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000840478440000034.GIF" wi="683" he="87" /></maths>负理想解向量由M<sup>‑</sup>表示,定义为<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msup><mi>M</mi><mo>-</mo></msup><mo>=</mo><mrow><mo>(</mo><msubsup><mi>M</mi><mn>1</mn><mo>-</mo></msubsup><mo>,</mo><msubsup><mi>M</mi><mn>2</mn><mo>-</mo></msubsup><mo>,</mo><msubsup><mi>M</mi><mi>3</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FDA0000840478440000035.GIF" wi="456" he="69" /></maths>且<maths num="0007" id="cmaths0007"><math><![CDATA[<mrow><msubsup><mi>M</mi><mi>j</mi><mo>-</mo></msubsup><mo>=</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi></mrow></munder><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow><mo>;</mo></mrow>]]></math><img file="FDA0000840478440000036.GIF" wi="676" he="87" /></maths>其中v<sub>ij</sub>表示融合决策矩阵中的每一个元素去模糊化后的值;待选记录与正理想解之间的距离定义为:<maths num="0008" id="cmaths0008"><math><![CDATA[<mrow><msubsup><mi>l</mi><mi>i</mi><mo>+</mo></msubsup><mo>=</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mn>3</mn></munderover><msup><mrow><mo>(</mo><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msubsup><mi>M</mi><mi>j</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000840478440000041.GIF" wi="1030" he="198" /></maths>  公式5待选记录与负理想解之间的距离定义为:<maths num="0009" id="cmaths0009"><math><![CDATA[<mrow><msubsup><mi>l</mi><mi>i</mi><mo>-</mo></msubsup><mo>=</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>3</mn></munderover><msup><mrow><mo>(</mo><msub><mi>v</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>-</mo><msubsup><mi>M</mi><mi>j</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>,</mo><mn>1</mn><mo>&le;</mo><mi>j</mi><mo>&le;</mo><mn>3</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000840478440000042.GIF" wi="1062" he="206" /></maths>  公式6所述综合评估指求出每个待选记录项与正理想解的隶属度μ(v<sub>i</sub>),计算公式如下:<maths num="0010" id="cmaths0010"><math><![CDATA[<mrow><mi>&mu;</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><msup><mrow><mo>(</mo><msubsup><mi>l</mi><mi>i</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mrow><msup><mrow><mo>(</mo><msubsup><mi>l</mi><mi>i</mi><mo>+</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>+</mo><msup><mrow><mo>(</mo><msubsup><mi>l</mi><mi>i</mi><mo>-</mo></msubsup><mo>)</mo></mrow><mn>2</mn></msup></mrow></mfrac><mo>,</mo><mrow><mo>(</mo><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>n</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000840478440000043.GIF" wi="822" he="191" /></maths>  公式7然后对待选记录的隶属度排序,隶属度最大的待选记录值就是集成后的数据值。
地址 210098 江苏省南京市鼓楼区西康路1号
您可能感兴趣的专利