发明名称 一种基于多元逻辑回归检测ICU患者记录中伪像的方法及系统
摘要 本发明公开了一种基于多元逻辑回归检测ICU患者记录中伪像的方法,其通过多元逻辑回归表达式计算病人的ICU概率,并与设定的阀值比较,从而建立一个二元分类器,实现对ICU病人是否会死亡的判断。基于本发明检测ICU患者记录中伪像的方法不需要预设预测变量服从正态分布的前提条件;并且预测变量既可以是连续的,又可以是离散的。同时,该本发明模型尽可能减少了预测变量数,在保证预测准确率的基础上降低了模型的复杂度。本发明还公开了实现上述方法的系统,能够有效解决现有风险预测模型的非特异性问题;相对现有模型,本发明提高了预测的准确率和特异性。
申请公布号 CN103488889B 申请公布日期 2016.05.18
申请号 CN201310428462.9 申请日期 2013.09.18
申请人 刘华锋;上海杏翔计算机科技有限公司 发明人 刘华锋
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 杭州天勤知识产权代理有限公司 33224 代理人 胡红娟
主权项 一种基于多元逻辑回归检测ICU患者记录中伪像的方法,包括如下步骤:(1)对病人进行生理检测得到测试样本,并对所述的测试样本进行降维处理得到关于病人生理指标特征的观测向量x,即对测试样本依次进行学生t检验、ROC检验、邻域分析、排列检定、单变量逻辑回归分析以及主成分分析,得到关于病人生理指标特征的观测向量x;所述的测试样本为由n个生理指标数据组成的n维向量,n为大于1的自然数;每个生理指标数据采用多次测量后的平均值;所述的学生t检验的具体过程如下:首先,收集对应标识为0和1的两组训练样本集X<sub>0</sub>和X<sub>1</sub>;然后,对于测试样本中的任一生理指标数据,通过t检验判断该生理指标数据在两类标识0和1对应的训练样本集X<sub>0</sub>和X<sub>1</sub>中是否存在明显差异,若检验计算得到的p值大于0.05,则删除该生理指标数据;依此遍历测试样本中每个生理指标数据;所述的ROC检验的具体过程如下:首先,对于学生t检验后测试样本中保留下来的每一生理指标数据,确定对应的ROC阈值;然后,根据所述的ROC阈值,在平面直角坐标系中为每一生理指标数据绘制对应的ROC曲线;最后,对于其中任一生理指标数据,在平面直角坐标系中计算出其对应ROC曲线与斜率为1的直线所围成的面积,若该面积小于给定的面积阈值,则删除该生理指标数据;依此遍历每个生理指标数据;所述的邻域分析的具体过程如下:首先,收集对应标识为0和1的两组训练样本集X<sub>0</sub>和X<sub>1</sub>;然后,对于ROC检验后测试样本中保留下来的任一生理指标数据,根据训练样本集X<sub>0</sub>和X<sub>1</sub>中对应生理指标g的均值和标准差,通过以下算式计算该生理指标g的相关度:p(g)=[μ<sub>0</sub>(g)‑μ<sub>1</sub>(g)]/[σ<sub>0</sub>(g)+σ<sub>1</sub>(g)]其中:p(g)为生理指标g的相关度,μ<sub>0</sub>(g)和σ<sub>0</sub>(g)分别表示生理指标g在训练样本集X<sub>0</sub>中的均值和标准差,μ<sub>1</sub>(g)和σ<sub>1</sub>(g)分别表示生理指标g在训练样本集X<sub>1</sub>中的均值和标准差;若‑r≤p(g)≤r,则删除该生理指标数据,r为阈值半径;依此遍历每个生理指标数据;所述的排列检定的具体过程如下:首先,取m个历史样本组成的n×m维矩阵,所述的历史样本为由n个生理指标数据组成的n维向量;对这m个历史样本,分别用标签1和0来标记重症病例和非重症病例,得到一个标签序列,m为大于1的自然数;对原来的标签序列随机重新排列,得到一组新的邻域;重复上述操作多次,得到邻域内生理指标的数量随邻域半径r的变化曲线,同时得到对应随机排列标签的1%显著性水平曲线;最后,取变化曲线与1%显著性水平曲线的交点为阈值半径,从而确定测试样本中的特征数目;所述的单变量逻辑回归分析的具体过程如下:首先,利用软件进行H‑L检验,把测试样本中的生理指标数据根据预测概率分成10组;根据观测频数和预测频数构造卡方统计量;然后,根据自由度为8的卡方分布计算各生理指标的p值,并对逻辑回归模型进行检验;最后,删除p值大于0.05的生理指标数据;所述的主成分分析的具体过程如下:首先,通过对协方差矩阵或相关矩阵做本征分解,得出测试样本中各生理指标数据的主成分和权值;然后,确定CN的大小,CN由下式计算得到:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>C</mi><mi>N</mi><mo>=</mo><msqrt><mfrac><msub><mi>&lambda;</mi><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow></msub><msub><mi>&lambda;</mi><mi>min</mi></msub></mfrac></msqrt></mrow>]]></math><img file="FDA0000881836910000021.GIF" wi="299" he="188" /></maths>其中,λ<sub>max</sub>和λ<sub>min</sub>分别为主成分本值的最大值和最小值;最后,判断各生理指标数据间是否存在多重共线性:当CN大于15时,需要特别考虑测试样本中各生理指标间多重共线性的影响;当CN大于30时,多重共线性非常严重;另外,使用主成分分析的另一个主要目的是得到测试样本的有效维度:首先,绘制每个生理指标数据在所有生理指标数据总和中的比例,以及随着主成分数量的增加该比例的积累值;然后,当测试样本中前k个特征值的积累比例超过了95%时,取k作为测试样本的维度上限,k为大于1的自然数;(2)建立基于多元逻辑回归的ICU概率模型如下:<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>P</mi><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msub><mi>&beta;</mi><mn>0</mn></msub><mo>+</mo><msub><mi>&beta;</mi><mn>1</mn></msub><mi>x</mi><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><mi>exp</mi><mrow><mo>(</mo><msub><mi>&beta;</mi><mn>0</mn></msub><mo>+</mo><msub><mi>&beta;</mi><mn>1</mn></msub><mi>x</mi><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math><img file="FDA0000881836910000031.GIF" wi="550" he="175" /></maths>其中:P为病人的ICU概率,β<sub>0</sub>和β<sub>1</sub>为给定的系数向量;(3)将观测向量x代入所述的ICU概率模型中,以求解出病人的ICU概率。
地址 310027 浙江省杭州市浙大路38号浙江大学玉泉校区光电系
您可能感兴趣的专利