发明名称 一种环境变化对疾病发病影响的分析预测模型
摘要 本发明通过对门诊量数据与气象变化和环境污染数据的关联情况进行分析,构建基于非参数泊松回归模型的环境变化对疾病发病率的影响程度的定量分析模型,并在此基础上构建基于支持向量回归机的环境变化对门诊量影响的预测模型,对医院各科室的每周门诊量进行预测。使患者能够提前规避致病的不良气象条件和环境污染因素的影响,合理的安排日常活动;医院能够针对高发疾病合理配置各个科室的医疗资源和人手;公共卫生部门能够提前做好应急准备等,对特定人群进行提前干预,从而减少疾病的发病率,提高人类生活质量。
申请公布号 CN104809335A 申请公布日期 2015.07.29
申请号 CN201510170135.7 申请日期 2015.04.10
申请人 上海卫生信息工程技术研究中心有限公司;万达信息股份有限公司 发明人 杨冬艳;马成龙;张敬谊;于广军;李光亚;陈诚
分类号 G06F19/00(2011.01)I 主分类号 G06F19/00(2011.01)I
代理机构 上海申汇专利代理有限公司 31001 代理人 翁若莹
主权项 一种环境变化对疾病发病影响的分析预测模型,其特征在于,包括:输入输出数据模块,该输入输出数据模块的输入数据为:整理好的气象和环境污染因子的时序数据;该输入输出数据模块的输出数据为:各科室的门诊预测量;数据预处理模块,用于:对气象和环境污染因子决策矩阵<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>X</mi><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><msub><mi>x</mi><mn>11</mn></msub></mtd><mtd><msub><mi>x</mi><mn>12</mn></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>1</mn><mi>J</mi></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>x</mi><mn>21</mn></msub></mtd><mtd><msub><mi>x</mi><mn>22</mn></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>x</mi><mrow><mn>2</mn><mi>J</mi></mrow></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><msub><mi>x</mi><mi>ij</mi></msub></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd><msub><mi>x</mi><mrow><mi>I</mi><mn>1</mn></mrow></msub></mtd><mtd><msub><mi>x</mi><mrow><mi>I</mi><mn>2</mn></mrow></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>x</mi><mi>IJ</mi></msub></mtd></mtr></mtable></mfenced></mrow>]]></math><img file="FDA0000697036390000011.GIF" wi="523" he="311" /></maths>进行归一化处理,其中,x<sub>ij</sub>表示第i天的第j项气象和环境污染因子的数据指标;再计算归一化后的决策矩阵X的相关系数矩阵<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>R</mi><mo>=</mo><mfenced open='(' close=')'><mtable><mtr><mtd><msub><mi>r</mi><mn>11</mn></msub></mtd><mtd><msub><mi>r</mi><mn>12</mn></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>r</mi><mrow><mn>1</mn><mi>J</mi></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>r</mi><mn>21</mn></msub></mtd><mtd><msub><mi>r</mi><mn>22</mn></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>r</mi><mrow><mn>2</mn><mi>J</mi></mrow></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd><msub><mi>r</mi><mi>ij</mi></msub></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd><mtd></mtd><mtd></mtd></mtr><mtr><mtd><msub><mi>r</mi><mrow><mi>I</mi><mn>1</mn></mrow></msub></mtd><mtd><msub><mi>r</mi><mrow><mi>I</mi><mn>2</mn></mrow></msub></mtd><mtd><mo>.</mo><mo>.</mo><mo>.</mo></mtd><mtd><msub><mi>r</mi><mi>IJ</mi></msub></mtd></mtr></mtable></mfenced><mo>,</mo></mrow>]]></math><img file="FDA0000697036390000012.GIF" wi="508" he="318" /></maths>其中r<sub>ij</sub>表示第i天的第j项气象和环境污染因子数据指标的相关系数,且r<sub>ij</sub>=r<sub>ji</sub>;同时计算气象和环境污染因子与各科室门诊量的相关系数;非参数泊松回归模型模块,用于:1)构建非参数泊松回归模型,采用三次样条平滑函数拟合非线性自变量,并引入年份和周日亚元变量,消除自变量间自相关性和长期季节趋势的影响,为了得到气象和环境污染因子对门诊量的定量研究结果,将气象因子和环境污染因子作为变量引入模型,分别观察其对门诊量的影响:log[E(Y<sub>i</sub>)]=a+ns[X<sub>i</sub>]+YEAR+DOW+s(meteoro log y,df)+s(environment,df)式中,Y<sub>i</sub>为第i个观察日当天的门诊量;E(Y<sub>i</sub>)为第i个观察日门诊量的期望值;a为截距;X<sub>i</sub>为第i个观察日气象环境污染因子的分指数,DOW为周日亚元变量;s(meteoro log y,df)为气象因子的三次样条平滑函数;s(environment,df)为环境污染因子的三次样条平滑函数;2)脆弱性分析:分析当气象和环境污染因子变化某个单位时,对门诊量的影响程度,根据非参数泊松回归模型计算出各气象和环境污染因子的回归系数β,计算当各气象和环境污染因子变化四分位间距IQR时,门诊量自然对数的相对改变量,公式:[exp(β×IQR)‑1]×100%,并在此基础上计算平均百分比改变的95%的置信区间;3)敏感性分析:分析当气象因子和环境因子变化时,将在多长时间内对门诊量造成影响,采用滞后效应进行研究,选择分析滞后期lag为0~7天的气象和环境污染因子效应。最后,根据非参数泊松回归模型计算出回归系数β,由β计算出不同滞后天数的RR值,根据RR值确定最佳滞后期;降维模块,用于:求取相关系数矩阵R所对应的J个特征根以及特征向量,每个特征根对应一个主成分,并选取累积方差贡献度大于等于指定阀值的主成分,则从J个主成分中筛选出p个主成分及特征向量;计算各个主成分因子在各个变量上的成分得分矩阵,得到p个主成分在每周的得分;数据分区模块,采用交叉验证的方法将输入向量矩阵及输出变量分为训练集和测试集,输入向量矩阵为p+2维,由降维模块中得到的主成分得分与年份亚变量和节假日变量组合构成,输出变量为下周的科室就诊人数平均值;构建支持向量回归机模块,包括如下步骤:第一步、模型参数选择,用于构建支持向量回归机的输入和输出,并且选择支持向量回归机的特征参数,其中,特征参数包括核函数、初始的惩罚因子C和核函数参数δ的试凑范围与步长,以及初始的精度参数ε,通过核函数将数据映射到高维的向量空间中,在约束条件,其中,x<sub>i</sub>为l维空间的输入向量,y<sub>i</sub>为l维空间的输出向量,w为特征空间连接到输出空间的权值参数,φ(x)为x在特征空间的像,b为偏置或者负阀值:<w,φ(x<sub>i</sub>)>+b‑y<sub>i</sub>≤ξ<sub>i</sub><sup>*</sup>+ε,i=1,...,ly<sub>i</sub>‑<w,φ(x<sub>i</sub>)>‑b≤ξ<sub>i</sub>+ε,i=1,...,lξ<sub>i</sub>,ξ<sub>i</sub><sup>*</sup>≥0,i=1,...,l下求解目标函数,其中,C为选定的正参数:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>min</mi><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><mo>|</mo></mrow><mn>2</mn></msup><mo>+</mo><mi>C</mi><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><msub><mi>&lambda;</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>&xi;</mi><mi>i</mi></msub><mo>+</mo><msup><msub><mi>&xi;</mi><mi>i</mi></msub><mo>*</mo></msup><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000697036390000031.GIF" wi="631" he="169" /></maths>该问题的对偶形式为:<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>max</mi><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>x</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>+</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><msub><mi>y</mi><mi>i</mi></msub><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><mi>&epsiv;</mi></mrow>]]></math><img file="FDA0000697036390000032.GIF" wi="1527" he="165" /></maths>其中约束条件为:<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><mo>=</mo><mn>0</mn></mrow>]]></math><img file="FDA0000697036390000033.GIF" wi="364" he="161" /></maths>0≤α<sub>i</sub>,α<sub>i</sub><sup>*</sup>≤λ<sub>i</sub>C,i=1,2,...l从而求解出参数α<sub>i</sub>和α<sub>i</sub><sup>*</sup>;第二步、训练模型,调用训练函数,输入训练集样本,计算出支持向量以及求解对应的参数,得到支持向量回归机:<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>f</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>l</mi></munderover><mrow><mo>(</mo><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>-</mo><msup><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>*</mo></msup><mo>)</mo></mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>x</mi><mo>)</mo></mrow><mo>+</mo><mi>b</mi></mrow>]]></math><img file="FDA0000697036390000034.GIF" wi="650" he="166" /></maths>根据支持向量回归机计算各科室就诊人数的预测值,计算实际输出与期望输出之间的MAE以及模型的拟合优度R<sup>2</sup>作为对模型拟合能力评价指标,判断回归函数f<sub>(x)</sub>是否满足性能要求,若回归函数f<sub>(x)</sub>不满足性能要求,则需要调整支持向量回归机中的核函数和特征参数重新训练模型,并保存最终结果;第三步、根据回归预测分析最佳的参数得到的支持向量回归机计算各科室就诊人数的预测值。
地址 200233 上海市徐汇区桂平路481号20号楼601室