主权项 |
一种面向SNP数据的筛选方法,其特征在于具体操作步骤如下:首先,利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重,具体步骤如下: (1)初始化SNP数据集和SNP的分类权重,将其分别设为N和0; (2)从实验数据集N中选择第i个样本,若i>N就结束,把当前分类权重值当作最终权重值,否则继续; (3)找到i样本的同类别的最近邻样本m和不同类别的最近邻样本n,样本类别只有正常和患病两种状态; (4)计算位点j处i样本和同类别最近邻样本之间的距离和不同类别最近邻样本之间的距离; (5)循环累加计算SNP位点j的分类权重,其中权重计算表达式如下: Wj:=Wj‑mute1(j,Si,m)+mute2(j,Si,n);其中Wj表示SNP位点j的分类权重,mute1(j,Si,m)表示SNP位点j处该样本和同类别最近邻样本之间的距离,mute2(j,Si,n)表示SNP位点j处该样本和不同类别最近邻样本之间的距离; 其次,利用支持向量机筛选单核苷酸多态性位点: (6)利用冒泡排序法对各个SNP的分类权重进行排序,并得到排序表(k1>k2>k3>....>kn); (7)顺序向后选择SNP位点组合Ki={ k1,k2,....ki},开始i=1; (8)利用支持向量机计算分类准确率; (9)判定分类准确率accuracy(Ki)是否大于给定的参数值λ,若大于等于则结束,否则i加1,转向步骤(7); (10)输出与疾病相关的的关键SNP组合; (11)筛选结束。 |