发明名称 一种减少中医主观问卷不一性的机器学方法
摘要 本发明是一种减少中医主观问卷不一性的机器学方法。包括如下步骤:1)向量化主观问卷数据:主观问卷由问题、权重和分值构成,向量化把问卷的结构转化为向量;2)定义问卷组的一致性目标,并表达出来;定义矛盾函数C(x)来表达问卷组之间的一致性,矛盾函数以问卷组的分值经过一个变换之后得到的值作为输入,该过程使用负相关性作为矛盾函数,符合统计学理论;3)对中医使用的主要主观问卷NPQ、MPQ和SF-36进行一致性分析,其中NPQ和MPQ各有一个子问卷,SF-36有8个子问卷,根据第2)步的矛盾函数,定义下列一致性的目标函数:4)对目标函数求解。本发明减低不同中医治疗效果评估问卷的结果之间的不一致性,提高对中医治疗效果的评估的准确性。
申请公布号 CN103294893A 申请公布日期 2013.09.11
申请号 CN201310159736.9 申请日期 2013.05.02
申请人 广东工业大学 发明人 张钢
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 广州粤高专利商标代理有限公司 44102 代理人 林丽明
主权项 1.一种减少中医主观问卷不一性的机器学习方法,其特征在于包括如下步骤:1)向量化主观问卷数据:主观问卷由问题、权重和分值构成,向量化把问卷的结构转化为向量,设主观问卷表示为Q={q<sub>1</sub>,q<sub>2</sub>,…,q<sub>m</sub>},其中q<sub>i</sub>是第i个问卷项的得分;2)定义问卷组的一致性目标,并形式化表达出来;定义矛盾函数C(x)来表达问卷组之间的一致性,矛盾函数以问卷组的分值经过一个变换之后得到的值作为输入,该过程使用负相关性作为矛盾函数,符合统计学习理论;3)对中医使用的主要主观问卷NPQ、MPQ和SF-36进行一致性分析,其中NPQ和MPQ各有一个子问卷,SF-36有8个子问卷,根据第2)步的矛盾函数,定义下列一致性的目标:<maths num="0001"><![CDATA[<math><mrow><munder><mi>max</mi><mi>&Phi;</mi></munder><mi>corr</mi><mrow><mo>(</mo><msub><mi>&phi;</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>NPQ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo><msub><mi>&phi;</mi><mn>2</mn></msub><mrow><mo>(</mo><mi>MPQ</mi><mrow><mo>)</mo><mo>)</mo></mrow></mrow><mo>,</mo><msub><mi>&phi;</mi><mn>3</mn></msub><mrow><mo>(</mo><mi>SF</mi><mo>-</mo><msub><mn>36</mn><mn>1</mn></msub><mo>)</mo></mrow><mo>,</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>&CenterDot;</mo><mo>,</mo><msub><mi>&phi;</mi><mn>10</mn></msub><mrow><mo>(</mo><mi>SF</mi><mo>-</mo><msub><mn>36</mn><mn>8</mn></msub><mo>)</mo></mrow><mo>)</mo></mrow></math>]]></maths>(1)在(1)式中,corr代表相关性的计算函数;4)对(1)式的求解,认为Φ具有如下的线性形式:Φ(x)=w<sup>T</sup>x,由于使用了核映射,所以其结果不会受到基函数的线性组合的限制,使用类似于KCCA的思想对(1)式所示的优化问题进行求解,先推出两组问卷之间一致性最大化的解,然后再推广到多组问卷的情形;以NPQ和MPQ两组问卷为例,设其具有规模l,即NPQ={NPQ<sub>1</sub>,NPQ<sub>2</sub>,…,NPQ<sub>l</sub>}和MPQ={MPQ<sub>1</sub>,MPQ<sub>2</sub>,…,MPQ<sub>l</sub>},设u=M<sub>N</sub>×NPQ,υ=M<sub>M</sub>×MPQ;要使u和υ的相关性最大,等价于求解下列优化问题:<maths num="0002"><![CDATA[<math><mrow><munder><mi>max</mi><mrow><msub><mi>M</mi><mi>N</mi></msub><mo>,</mo><msub><mi>M</mi><mi>M</mi></msub></mrow></munder><mfrac><mrow><mi>E</mi><mo>[</mo><mi>u&upsi;</mi><mo>]</mo></mrow><msqrt><mi>E</mi><mo>[</mo><msup><mi>u</mi><mn>2</mn></msup><mo>]</mo><mi>E</mi><mo>[</mo><msup><mi>&upsi;</mi><mn>2</mn></msup><mo>]</mo></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中E[·]是数学期望,记C<sub>NPQ,MPQ</sub>为协方差矩阵,则(2)可表示为:<maths num="0003"><![CDATA[<math><mrow><munder><mi>max</mi><mrow><msub><mi>M</mi><mi>N</mi></msub><mo>,</mo><msub><mi>M</mi><mi>M</mi></msub></mrow></munder><mfrac><mrow><msubsup><mi>M</mi><mi>N</mi><mi>T</mi></msubsup><msub><mi>C</mi><mrow><mi>N</mi><mo>,</mo><mi>M</mi></mrow></msub><msub><mi>M</mi><mi>M</mi></msub></mrow><msqrt><msubsup><mi>M</mi><mi>N</mi><mi>T</mi></msubsup><msub><mi>C</mi><mrow><mi>N</mi><mo>,</mo><mi>N</mi></mrow></msub><msub><mi>M</mi><mi>N</mi></msub><msubsup><mi>M</mi><mi>M</mi><mi>T</mi></msubsup><msub><mi>C</mi><mrow><mi>M</mi><mo>,</mo><mi>M</mi></mrow></msub><msub><mi>M</mi><mi>M</mi></msub></msqrt></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow></math>]]></maths>根据KCCA理论,在优化目标(3)中考虑u<sup>T</sup>u和υ<sup>T</sup>υ而不是原来的u和υ,有助于引入核函数到优化目标中;引用两个标准化项:<img file="FDA00003136216700023.GIF" wi="350" he="76" />和<img file="FDA00003136216700024.GIF" wi="356" he="75" />它仅为简化计算,并不会影响(3)的优化目标;同时,只要训练的数据点数目比特征空间的维数要大,(3)的最优解<img file="FDA00003136216700028.GIF" wi="91" he="59" />和<img file="FDA00003136216700029.GIF" wi="87" he="63" />一定在集合span{φ(x<sub>1</sub>),φ(x<sub>2</sub>),…,φ(x<sub>n</sub>)}和<img file="FDA000031362167000210.GIF" wi="638" he="75" />中,其中x和y分别是NPQ和MPQ的训练样本点,即<maths num="0004"><![CDATA[<math><mrow><msubsup><mi>M</mi><mi>M</mi><mo>*</mo></msubsup><mo>=</mo><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><msub><mi>&alpha;</mi><mi>i</mi></msub><mi>&phi;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths><img file="FDA00003136216700026.GIF" wi="456" he="76" />使用极大似然的方式控制模型复杂度,增加两个关于α和β的正则化项,得到如下的优化目标表达式:<maths num="0005"><![CDATA[<math><mrow><munder><mi>max</mi><mrow><mi>&alpha;</mi><mo>,</mo><mi>&beta;</mi></mrow></munder><msup><mi>&alpha;</mi><mi>T</mi></msup><msub><mi>K</mi><mi>X</mi></msub><msub><mi>K</mi><mi>Y</mi></msub><mi>&beta;</mi><mo>-</mo><msub><mi>&eta;</mi><mi>&alpha;</mi></msub><msup><mrow><mo>|</mo><mo>|</mo><mi>&alpha;</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>-</mo><msub><mi>&eta;</mi><mi>&beta;</mi></msub><msup><mrow><mo>|</mo><mo>|</mo><mi>&beta;</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow></math>]]></maths>其中K<sub>X</sub>=Σ<sub>i</sub>φ(x<sub>i</sub>)<sup>T</sup>φ(x<sub>i</sub>),<img file="FDA00003136216700031.GIF" wi="492" he="78" />(4)式即为求解目标。
地址 510006 广东省广州市番禺区广州大学城外环西路100号