发明名称 一种多值定性比较分析数据处理方法
摘要 本发明涉及一种多值定性比较分析数据处理方法,它采用如下的步骤方法:选取想要被分析的解释变量和被解释变量,通过计算N<sub>c</sub>(r<sub>i</sub>)来进行初步筛选候选规则;通过计算C<sub>c</sub>(r<sub>i</sub>)来进行进一步筛选,然后计算Complex及Parsimonious分析结果,再使用反设事实计算,生成初步Intermediate分析结果。随后,fm-QCA会自动计算每条规则的相关覆盖率和一致性,并对其可信度进行印证;得到最终的Intermediate分析结果。它具用支持多值解释变量及被解释变量的数据,实现多值逻辑化简,Intermediate solution自动生成和引入候选项集一致性检测,提高分析精度等优点。
申请公布号 CN105976033A 申请公布日期 2016.09.28
申请号 CN201510106031.X 申请日期 2015.03.11
申请人 武轲;唐世平 发明人 武轲;唐世平;蒲戈光;吴敏
分类号 G06N5/04(2006.01)I 主分类号 G06N5/04(2006.01)I
代理机构 代理人
主权项 一种多值定性比较分析数据处理方法,其特征在于:它采用如下的步骤方法:1)选择解释变量和被解释变量:步骤1:收集相关的需要分析的大量数据;步骤2:针对具体的需分析的情况,从步骤一选择与其相关联的数据;步骤3:分析开始前需要选取想要被分析的解释变量和被解释变量;2)生成候选规则:步骤4:根据步骤三所选取的解释和被解释变量,fm‑QCA自动生成候选规则,通过N<sub>c</sub>(r<sub>i</sub>)来进行初步筛选来实现;该规则被进一步检验后将被用于生成Complex及Parsimonious分析结果;3)计算N<sub>c</sub>(r<sub>i</sub>)来进行初步筛选:步骤5:N<sub>c</sub>(r<sub>i</sub>)是用来筛选候选规则是否有真实案例支撑的一个重要指标,该指标能够筛选出具有相符案例的规则,其计算方法如下:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>ck</mi></msub></munderover><mo>|</mo><msub><mi>e</mi><mi>j</mi></msub><mo>{</mo><msub><mi>v</mi><mi>i</mi></msub><mo>}</mo><mo>-</mo><msub><mi>c</mi><mi>k</mi></msub><mo>{</mo><msub><mi>v</mi><mi>i</mi></msub><mo>}</mo><mo>|</mo><mo>=</mo><mn>0</mn></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>ck</mi></msub></munderover><mo>|</mo><msub><mi>e</mi><mi>j</mi></msub><mo>{</mo><msub><mi>v</mi><mi>i</mi></msub><mo>}</mo><mo>-</mo><msub><mi>c</mi><mi>k</mi></msub><mo>{</mo><msub><mi>v</mi><mi>i</mi></msub><mo>}</mo><mo>|</mo><mo>&NotEqual;</mo><mn>0</mn></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FSA0000114669080000011.GIF" wi="1138" he="415" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>N</mi><mi>c</mi></msub><mrow><mo>(</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow>]]></math><img file="FSA0000114669080000012.GIF" wi="503" he="140" /></maths>步骤6:设定筛选阈值λ,该筛选阈值λ可由人为指定,只有那些真实案例支撑数大于或等于阈值λ的规则才会被用于生成最终结果,形成候选规则A;步骤7:而那些小于该值的候选规则B则会被保留下来,设定为Remainders,并且参与到Intermediate结果生成中;4)计算C<sub>c</sub>(r<sub>i</sub>)来进行进一步筛选:步骤8:根据步骤6,对于真实案例支撑数大于或等于阈值λ的规则的候选规则A,利用C<sub>c</sub>(r<sub>i</sub>)来进一步筛选。该C<sub>c</sub>(r<sub>i</sub>)是候选规则的一致性筛选指标,其计算方法如下:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msubsup><mi>A</mi><mi>O</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>o</mi><mi>k</mi></msub><mo>{</mo><mi>m</mi><mo>}</mo><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><msub><mi>e</mi><mi>j</mi></msub><mo>{</mo><mi>o</mi><mo>}</mo><mo>=</mo><mi>m</mi></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>e</mi><mi>j</mi></msub><mo>{</mo><mi>o</mi><mo>}</mo><mo>&NotEqual;</mo><mi>m</mi></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FSA0000114669080000021.GIF" wi="872" he="203" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><msub><mi>C</mi><mi>C</mi></msub><mrow><mo>(</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><mi>min</mi><mo>{</mo><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><msubsup><mi>A</mi><mi>O</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>o</mi><mi>k</mi></msub><mo>{</mo><mi>m</mi><mo>}</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FSA0000114669080000022.GIF" wi="876" he="264" /></maths>步骤9:在多值情况中,考虑到被解释变量的组合情况,此时可用C′<sub>C</sub>(r<sub>i</sub>)来代替C<sub>c</sub>(r<sub>i</sub>)的计算过程,如下:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msubsup><mi>C</mi><mi>C</mi><mo>&prime;</mo></msubsup><mrow><mo>(</mo><msub><mi>r</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><mi>min</mi><mo>{</mo><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>,</mo><mi>T</mi><mo>}</mo></mrow><mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>c</mi></msub></munderover><msubsup><mi>A</mi><mi>C</mi><mi>E</mi></msubsup><mrow><mo>(</mo><msub><mi>e</mi><mi>j</mi></msub><mo>,</mo><msub><mi>c</mi><mi>k</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math><img file="FSA0000114669080000023.GIF" wi="766" he="325" /></maths>步骤10:设定筛选阈值μ,该筛选阈值μ同样可由用户指定,利用步骤9的计算方法,只有一致性大于或等于μ的规则会被用于生成Intermediate结果,形成候选规则C;步骤11:小于筛选阈值μ的候选规则D则会被丢掉,设定为Drop Rule;5)计算Complex及Parsimonious分析结果,如下:步骤12:生成用于产生Complex及Parsimonious分析结果的规则集合,方法如下(R<sub>scpx</sub> R<sub>spas</sub>):R<sub>cpx</sub>=S(R<sub>a</sub>)R<sub>scpx</sub>={r|r∈R<sub>cpx</sub>∧N<sub>c</sub>(r)>1}<img file="FSA0000114669080000031.GIF" wi="685" he="168" />R′<sub>remainders</sub>={r|r∈R<sub>remainders</sub>∧J(r)=1}R<sub>pas</sub>=S{R<sub>a</sub>∪R′<sub>remainders</sub>}R<sub>spas</sub>={r|r∈R<sub>pas</sub>∧N<sub>c</sub>(r)>1};步骤13:生成Complex及Parsimonious分析结果:Complex分析结果由由上述4)中保留的候选规则C进行逻辑化简而生成的;Parsimonious分析结果由4)中保留的候选规则C及3)中的Remainders共同进行多值逻辑化简而得到;6)反设事实计算:其采如下步骤:步骤14:Intermediate分析结果综合了Complex及Parsimonious两个分析结果;步骤15:根据步骤14,将专家的知识考虑在内,形成最有意义的分析结果;步骤16:在fm‑QCA方法中,利用反设事实技术,该技术能够确定一个Remainder在现实中是否容易出现或很难出现;基于反事实,4)中保留的候选规则C及部分经过反设事实推理而得到的部分Remainders可以归并到一起,并通过多值逻辑化简从而生成Intermediate分析结果,具体如下R<sub>sitm</sub>:<img file="FSA0000114669080000032.GIF" wi="1297" he="160" /><img file="FSA0000114669080000033.GIF" wi="262" he="62" />包含在r<sub>1</sub><img file="FSA0000114669080000041.GIF" wi="1110" he="72" />R′<sub>itm</sub>=S(R<sub>itm</sub>)R<sub>sitm</sub>={r|r∈R′<sub>itm</sub>∧N<sub>c</sub>(r)>1}7)计算覆盖率和一致性,其采用如下步骤:步骤17:生成Intermediate分析结果后,fm‑QCA会自动计算每条规则的相关覆盖率和一致性,并对其可信度进行印证;8)得到最终的Intermediate分析结果,其如下步骤:步骤18:只有覆盖率和一致性达到一定标准的规则才会保留下来成为最终的结果,而不符合的规则将被舍弃,经过这个过程后,Intermediate结果将变为可信任的最终分析结果,该结果能够揭示出我们想要得到的解释变量及被解释变量之间的关系,帮助我们分析结果之间的内在因果关系。
地址 200062 上海市普陀区中山北路3663号