发明名称 |
基于不同尺度tuple词频的微生物高通量测序数据分析协议 |
摘要 |
本发明提供了一种基于不同尺度tuple词频的微生物高通量测序数据分析协议,其包括:步骤1:获取宏基因组样本的2‑10bp的短tuple高通量测序数据,采用插值上下文马尔科夫模型进行建模微生物群落的背景基因组,再采用无监督的聚类方法来比较宏基因组样本,得出宏基因组样本的类别信息;步骤2:基于步骤1)中聚类得出的类别信息,将≥30bp的长tuple作为特征,采用有监督的样本分类方法找出描述宏基因组样本类别的特异性特征长tuple序列。本发明混合不同阶次的马尔科夫模型,由数据本身决定各阶次马尔科夫模型所占的权重,并允许分析上下文不连续的序列之间的关系。 |
申请公布号 |
CN106202999A |
申请公布日期 |
2016.12.07 |
申请号 |
CN201610577084.4 |
申请日期 |
2016.07.21 |
申请人 |
厦门大学 |
发明人 |
王颖;汪顺;刘暾东 |
分类号 |
G06F19/24(2011.01)I |
主分类号 |
G06F19/24(2011.01)I |
代理机构 |
厦门市首创君合专利事务所有限公司 35204 |
代理人 |
张松亭;林燕玲 |
主权项 |
基于不同尺度tuple词频的微生物高通量测序数据分析协议,其特征在于,包括如下步骤:步骤1:获取宏基因组样本的2‑10bp的短tuple高通量测序数据,采用插值上下文马尔科夫模型进行建模微生物群落的背景基因组,再采用无监督的聚类方法来比较宏基因组样本,得出宏基因组样本的类别信息;步骤2:基于步骤1)中聚类得出的类别信息,将≥30bp的长tuple作为特征,采用有监督的样本分类方法找出描述宏基因组样本类别的特异性特征长tuple序列。 |
地址 |
361000 福建省厦门市思明南路422号 |