发明名称 一种面向SNP数据的筛选方法
摘要 本发明一种面向SNP数据的筛选方法。本方法操作步骤如下:首先利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重;其次利用支持向量机筛选单核苷酸多态性位点。本发明一种面向SNP数据的筛选方法,不仅考虑了单个SNP的作用,还充分考察了SNP之间的相互作用,提高了与疾病相关SNP筛选的可靠性。
申请公布号 CN102567652A 申请公布日期 2012.07.11
申请号 CN201110413777.7 申请日期 2011.12.13
申请人 上海大学 发明人 吴悦;张文宾;雷州;刘宗田;吴红霞
分类号 G06F19/10(2011.01)I 主分类号 G06F19/10(2011.01)I
代理机构 上海上大专利事务所(普通合伙) 31205 代理人 何文欣
主权项 一种面向SNP数据的筛选方法,其特征在于具体操作步骤如下:首先,利用单个SNP的作用和SNP之间的相互作用计算SNP分类权重,具体步骤如下: (1)初始化SNP数据集和SNP的分类权重,将其分别设为N和0; (2)从实验数据集N中选择第i个样本,若i>N就结束,把当前分类权重值当作最终权重值,否则继续; (3)找到i样本的同类别的最近邻样本m和不同类别的最近邻样本n,样本类别只有正常和患病两种状态; (4)计算位点j处i样本和同类别最近邻样本之间的距离和不同类别最近邻样本之间的距离; (5)循环累加计算SNP位点j的分类权重,其中权重计算表达式如下:    Wj:=Wj‑mute1(j,Si,m)+mute2(j,Si,n);其中Wj表示SNP位点j的分类权重,mute1(j,Si,m)表示SNP位点j处该样本和同类别最近邻样本之间的距离,mute2(j,Si,n)表示SNP位点j处该样本和不同类别最近邻样本之间的距离;  其次,利用支持向量机筛选单核苷酸多态性位点: (6)利用冒泡排序法对各个SNP的分类权重进行排序,并得到排序表(k1>k2>k3>....>kn);  (7)顺序向后选择SNP位点组合Ki={ k1,k2,....ki},开始i=1; (8)利用支持向量机计算分类准确率; (9)判定分类准确率accuracy(Ki)是否大于给定的参数值λ,若大于等于则结束,否则i加1,转向步骤(7); (10)输出与疾病相关的的关键SNP组合; (11)筛选结束。
地址 200444 上海市宝山区上大路99号