发明名称 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法
摘要 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,采用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析,通过研究类群分布规律及各聚类中心之间的距离,统计在各个类群的样本数,计算出各个类群中的人口分布密度;从而对所选区域的人口结构特征作出分析;利用数据库中区域人群mtDNA序列数据,采用遗传算法嵌合K-modes的分析方法,给出定量的mtDNA分子标识的类群结构划分方法,从而分析研究区域人群结构特征,具有较好的聚类效果和稳定性,适用于区域群体大规模mtDNA数据聚类分析。
申请公布号 CN102629255A 申请公布日期 2012.08.08
申请号 CN201210049757.0 申请日期 2012.02.29
申请人 西安交通大学 发明人 张虎勤;刘芳娥;吴晓明;杜建强;夏娟娟;刘晓刚;郭燕
分类号 G06F17/30(2006.01)I;G06N3/12(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 西安智大知识产权代理事务所 61215 代理人 弋才富
主权项 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,其特征在于,包括下列步骤:步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026‑16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100‑200个;步骤二、构建遗传算法的K‑modes聚类嵌合的分析模型:遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K‑modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为: <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munder> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>k</mi> </mrow> </munder> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> </mrow> </munder> <mi>Dist</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Z</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K‑modes嵌合模式的程序设计,对所选择区域人类的mtDNA聚类分析,通过50‑120次迭代使f(s)趋于稳定值,根据各区域通过不同的迭代次数使得适应度函数f(s)趋于稳定值,可以判定各区域人群的mtDNA差异度,使适应度函数f(s)趋于稳定值的迭代次数越多,对应的适应度函数f(s)稳定值越小,表明该区域人群的mtDNA差异度越高;步骤四、聚类分析:依据遗传算法的K‑modes嵌合模型算法,对每个区域内所选的人群mtDNA样本进行聚类分析,得到类群分布规律及各聚类中心之间的距离;步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数占选择的总样本数的百分比从而推算出各个类群中的人口分布密 度,从而对各区域的人口结构作出分析。
地址 710048 陕西省西安市咸宁路28号