发明名称 基于基因条形码的生物物种识别方法
摘要 本发明公开了一种基于基因条形码的生物物种识别方法,步骤如下:1.基因条形码图像与基因条形码图像数据库的制作:从http://www.ncbi.nlm.nih.gov/网站下载617条原核生物体的DNA核苷酸序列建立数据库;根据现有技术制作要识别物种的基因条形码图像。2.对基因条形码图像预处理:采用灰度拉伸将灰度为[0,L]的基因条码图像拉伸到[0,255];再应用灰度增强,加强基因条码图像的对比度。3.对基因条形码图像中外来基因片段的检索:基因条形码图像的纵向分割;横向外来基因片段的搜索。4.物种识别:确定两个物种之间的相似性度量即确定它们之间的空间距离;根据相似性度量进行物种识别及输出结果。
申请公布号 CN102332064B 申请公布日期 2013.11.06
申请号 CN201110293726.5 申请日期 2011.10.07
申请人 吉林大学 发明人 刘富;侯涛;康冰;李丁园;李扬
分类号 G06F19/10(2011.01)I 主分类号 G06F19/10(2011.01)I
代理机构 长春吉大专利代理有限责任公司 22201 代理人 齐安全
主权项 1.一种基于基因条形码的生物物种识别方法,其特征在于,所述的基于基因条形码的生物物种识别方法包括如下步骤:1)基因条形码图像与基因条形码图像数据库的制作:(1)从http://www.ncbi.nlm.nih.gov/网站下载617条原核生物体的DNA核苷酸序列建立数据库;(2)基因序列是由4种核苷酸A、T、G、C构成的线性序列,首先将物种的全基因组序列切割成长度为M个碱基点的不重叠DNA片段,然后在每一段DNA片段中计算k-mer频率与它们的反向互补k-mer频率组合而成的综合频率,如当k参数取4时即是4-mer频率,其频率为所有4个碱基点与其反向互补序列的频率的商,将计算所得的综合频率赋予一个灰度值,则基因构成了一幅灰度图,即基因条形码图像,每个基因组条形码图像最终是一个矩阵,矩阵中的每一个元素代表相应序列片段内的相应频率,取k-mer频率的k参数为4,基因片段的长度M=3000来制作基因条形码图像;2)对基因条形码图像的预处理:(1)采用灰度拉伸将基因条码图像的灰度级拉伸到[0,255]区间;(2)再应用灰度增强,加强基因条码图像的对比度;3)对基因条形码图像中外来基因片段的检索:(1)基因条形码图像的纵向分割,所述的基因条形码图像的纵向分割包括如下步骤:a.假设基因条形码图像为I,创建二维特征描述向量作为输入向量:<maths num="0001"><![CDATA[<math><mrow><mi>Z</mi><mo>=</mo><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>,</mo><mo>|</mo><mo>&dtri;</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>)</mo></mrow></mrow></math>]]></maths>其中:I(x,y)和<img file="FDA0000368213320000015.GIF" wi="165" he="58" />分别为基因条形码图像上第x行y列的灰度值和梯度值;b.对输入向量中的灰度值I(x,y)进行处理用灰度统计法确定阈值T,把灰度值I(x,y)按灰度阈值T分成两类即c<sub>0</sub>与c<sub>1</sub>,其中,c<sub>0</sub>为灰度偏黑的点的集合,c<sub>1</sub>为灰度偏白的点的集合,L-1为基因条形码图像的最大灰度;<maths num="0002"><![CDATA[<math><mrow><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><msub><mi>c</mi><mn>0</mn></msub></mtd><mtd><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mo>[</mo><mn>0</mn><mo>,</mo><mi>T</mi><mo>]</mo></mtd></mtr><mtr><mtd><msub><mi>c</mi><mn>1</mn></msub></mtd><mtd><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&Element;</mo><mo>[</mo><mi>T</mi><mo>+</mo><mn>1</mn><mo>,</mo><mi>L</mi><mo>-</mo><mn>1</mn><mo>]</mo></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>c.对输入向量中的梯度值<img file="FDA0000368213320000016.GIF" wi="175" he="57" />进行处理利用像素灰度的一阶导数算子在灰度迅速变化处得到极值来进行突变点的检测,寻找其中梯度变化较大的点即方差突变点的集合;用基因条形码图像的一阶差分直接代替基因条形码图像函数的导数,经过处理后的离散基因条形码图像函数I<sub>1</sub>(x,y)在X方向的差分<img file="FDA0000368213320000012.GIF" wi="60" he="71" />和Y方向的差分<img file="FDA0000368213320000013.GIF" wi="48" he="69" />可通过以下公式计算:<maths num="0003"><![CDATA[<math><mrow><msubsup><mi>I</mi><mn>1</mn><mi>x</mi></msubsup><mo>=</mo><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><mo>-</mo><mn>1,1</mn><mo>)</mo></mrow></mrow></math>]]></maths><maths num="0004"><![CDATA[<math><mrow><msubsup><mi>I</mi><mn>1</mn><mi>y</mi></msubsup><mo>=</mo><msub><mi>I</mi><mn>1</mn></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>*</mo><mfenced open='(' close=')'><mtable><mtr><mtd><mo>-</mo><mn>1</mn></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>其中:“*”是卷积运算,由于基因条形码图像整体呈垂直的条纹状,所以只需要对图像I<sub>1</sub>(x,y)计算X方向的差分<img file="FDA0000368213320000023.GIF" wi="56" he="71" />即可,所得到基因条形码图像像素值为:<maths num="0005"><![CDATA[<math><mrow><msubsup><mi>I</mi><mn>1</mn><mi>x</mi></msubsup><mo>=</mo><mo>|</mo><mo>&dtri;</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>=</mo><mo>|</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow></math>]]></maths>令输出向量Z满足<maths num="0006"><![CDATA[<math><mrow><mi>Z</mi><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><mrow><mo>(</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>!</mo><mo>=</mo><mn>0</mn><mo>)</mo></mrow><mo>&amp;</mo><mo>&amp;</mo><mrow><mo>(</mo><mo>|</mo><mo>&dtri;</mo><mi>I</mi><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo><mo>!</mo><mo>=</mo><mn>0</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>else</mi></mtd></mtr></mtable></mfenced></mrow></math>]]></maths>则当Z=1时为突变点,取这些点所在基因条形码图像的坐标位置将预处理后的基因条形码图像纵向分割为H段灰度条,即:I={I<sub>1</sub>,I<sub>2</sub>,...,I<sub>H</sub>},每份作为一个子类;(2)横向外来基因片段的搜索,步骤如下:采用基因条形码图像的纵向分割方法把基因条形码图像切割成H份I={I<sub>1</sub>,I<sub>2</sub>,...,I<sub>H</sub>},每份作为一个子类,根据以下步骤横向搜索外来DNA片段;a.应用灰度统计法计算每个子类I<sub>k</sub>的阈值<img file="FDA00003682133200000211.GIF" wi="37" he="75" />,其中k=1,2,...,H;b.定义聚类标示矩阵为{r<sub>i,j</sub>}<sub>m*n</sub>来标识观测样本中每个成员的归属问题,这样定义{r<sub>i,j</sub>}<sub>m*n</sub>的元素值:对每个子类I<sub>k</sub>若<img file="FDA0000368213320000026.GIF" wi="446" he="83" />则认为图像偏白,搜索的目标点为偏黑的点<maths num="0007"><![CDATA[<math><mrow><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>0</mn></mtd><mtd><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>&GreaterEqual;</mo><mover><msub><mi>T</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover></mtd></mtr><mtr><mtd><mn>1</mn></mtd><mtd><mi>else</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>若<maths num="0008"><![CDATA[<math><mrow><mover><msub><mi>T</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>&le;</mo><mi>mean</mi><mrow><mo>(</mo><msub><mi>I</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>,</mo></mrow></math>]]></maths>则认为图像偏黑,搜索的目标点为偏白的点<maths num="0009"><![CDATA[<math><mrow><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>=</mo><mfenced open='{' close=''><mtable><mtr><mtd><mn>1</mn></mtd><mtd><msub><mi>r</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>&GreaterEqual;</mo><mover><msub><mi>T</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mi>else</mi></mtd></mtr></mtable></mfenced><mo>;</mo></mrow></math>]]></maths>c.取矩阵{r<sub>i,j</sub>}<sub>m*n</sub>中r<sub>i,j</sub>=1的点为目标点进行聚类,切割每个类中目标点所在区域的最大域,即是需要过滤的外来插入DNA片段;4)物种识别:(1)采用的是4阶Minkovsky距离来测算物种基因间的相似性,设物种集为{X<sub>i</sub>,i=1,...,N},X<sub>i</sub>=(X<sub>i1</sub>,...,X<sub>id</sub>)<sup>T</sup>,d为特征向量的维数,N为特征向量的个数,Minkovsky距离由下式计算:<maths num="0010"><![CDATA[<math><mrow><mi>S</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><msup><mrow><mo>[</mo><munderover><mi>&Sigma;</mi><mrow><mi>l</mi><mo>=</mo><mn>1</mn></mrow><mi>d</mi></munderover><msup><mrow><mo>|</mo><msub><mi>X</mi><mi>il</mi></msub><mo>-</mo><msub><mi>X</mi><mi>jl</mi></msub><mo>|</mo></mrow><mi>q</mi></msup><mo>]</mo></mrow><mfrac><mn>1</mn><mi>q</mi></mfrac></msup></mrow></math>]]></maths>    其中q=1、2、3、4(2)根据相似性度量进行物种识别及输出结果。
地址 130012 吉林省长春市前进大街2699号