发明名称 检测人体肠道宏基因组的细菌群落及丰度的方法
摘要 一种检测人体肠道宏基因组的细菌群落及丰度的方法,属于生物信息鉴定领域。本发明的目的是利用已测序细菌的基因组作为参考基因组,基于支持向量数据描述(SVDD)模型检测肠道宏基因组中未知DNA片段细菌群落的检测人体肠道宏基因组的细菌群落及丰度的方法。本发明利用SVDD模型对已知细菌的DNA序列进行分类训练,然后根据分类训练结果检测肠道宏基因组中包含的DNA片段来自的细菌群落及丰度。本发明优势在于不需要生物实验提取细菌的16sRNA作为物种特征标签,具有快速、方便的特点。
申请公布号 CN105095688A 申请公布日期 2015.11.25
申请号 CN201410431106.7 申请日期 2014.08.28
申请人 吉林大学 发明人 侯涛;刘富;刘云;康冰;张潇
分类号 G06F19/24(2011.01)I;G06F19/22(2011.01)I 主分类号 G06F19/24(2011.01)I
代理机构 吉林长春新纪元专利代理有限责任公司 22100 代理人 白冬冬
主权项 一种检测人体肠道宏基因组的细菌群落及丰度的方法,其特征在于:a、利用SVDD模型对已知细菌的DNA序列进行分类训练:从下载的每个细菌中随机切割出100段长度为1000 bp的不重叠DNA片段,对每一段DNA片段,计算其k‑mer频率与它们的反向互补k‑mer频率之商作为数字特征向量;设每类细菌<i>X</i>能描述为:<img file="2014104311067100001dest_path_image002.GIF" wi="276" he="55" />,其中<img file="2014104311067100001dest_path_image004.GIF" wi="323" he="38" />是从每一段DNA片段中提取的数字特征向量,<i>N</i>是每类细菌的样本数,<i>l</i>是数字特征向量的维数,提取每类细菌<i>X</i>的所有DNA序列片段的数字特征向量之后,利用支持向量数据描述SVDD模型对其进行分类训练,就是在核空间寻求一个包含几乎所有的<img file="dest_path_image006.GIF" wi="29" he="43" />且体积达到最小的超球体,用来对每类细菌<i>X</i>进行数据描述,所求超球可通过解如下所示的凸约束二次规划得到:<img file="dest_path_image008.GIF" wi="457" he="180" />式中:<img file="dest_path_image010.GIF" wi="14" he="16" />为球心,<i>r</i>为半径,<img file="dest_path_image012.GIF" wi="54" he="86" />是2‑范数,<img file="dest_path_image014.GIF" wi="52" he="39" />是对称的非线性映射函数,<img file="dest_path_image016.GIF" wi="81" he="49" />是一个松弛变量;b、根据分类训练结果检测肠道宏基因组中包含的DNA片段来自的细菌群落及丰度:对每个输入的待检测DNA片段,先计算其数字特征向量<i>x</i>,然后用下面的函数来决定所属细菌群落:<img file="dest_path_image018.GIF" wi="505" he="84" />式中<img file="dest_path_image020.GIF" wi="18" he="26" />、<img file="dest_path_image022.GIF" wi="16" he="26" />分别是是所训练的第<i>j</i>个细菌群落的超球球心和半径。
地址 130012 吉林省长春市人民大街5988号