发明名称 DNA蛋白结合位点的DNase高通测序检测信号处理方法
摘要 本发明公开了DNA蛋白结合位点的DNase高通测序检测信号预处理方法。包括以下几个步骤:获取基因基本信息,和DNA蛋白结合位点的DNase-Seq高通测序检测数据和ChIP-Seq高通测序监测数据;对DNase-Seq高通测序检测数据质量评估,筛选出可信测序数据;将每条可信测序数据仅保留直接反映蛋白结合位点的测序起始位置;得到DNase-Seq检测样本数据集合;对DNase-Seq检测样本数据集合进行归一化处理;对DNase-Seq检测样本数据集合进行细分;分别从正面和背面两个方向对两个子集中数据进行纵向求和,完成操作。本发明大幅提高了DNA蛋白结合位点的识别精度和识别分辨率。
申请公布号 CN104131093B 申请公布日期 2015.12.09
申请号 CN201410352942.6 申请日期 2014.07.23
申请人 哈尔滨工程大学 发明人 冯伟兴;廉德源;刘晓龙;宋锋飞;贺波
分类号 C12Q1/68(2006.01)I 主分类号 C12Q1/68(2006.01)I
代理机构 代理人
主权项 DNA蛋白结合位点的DNase高通量测序检测信号的预处理方法,其特征在于,包括以下几个步骤:步骤一:获取基因基本信息,基因基本信息包括DNA基因组的碱基序列和基因在DNA上的位置信息,获取DNA蛋白结合位点的DNase‑Seq高通量测序检测数据和ChIP‑Seq高通量测序检测数据;步骤二:对DNase‑Seq高通量测序检测数据质量评估,筛选出碱基位点的质量得分在20以上的可信测序数据,通过映射找到每条可信预测数据在基因组中的出处;步骤三:将每条可信测序数据仅保留直接反映蛋白结合位点的测序起始位置,得到更新后的DNase–Seq数据;步骤四:在每个DNA碱基位点上求取更新后的DNase–Seq数据点的个数,作为DNA碱基位点的DNase‑Seq检测值;利用ChIP‑Seq数据获取存在相关DNA蛋白的结合位点的区域,提取区域内完整的DNase‑Seq检测值,得到DNase‑Seq检测样本数据集合;步骤五:对DNase‑Seq检测样本数据集合进行归一化处理,即将每个DNA碱基位点的DNase‑Seq检测值除以DNase‑Seq检测样本数据集合中所有DNA碱基位点的DNase‑Seq检测值之和;步骤六:对DNase‑Seq检测样本数据集合进行细分;将DNase‑Seq检测样本数据集合分为正链正测序子集、正链负测序子集、负链正测序子集和负链负测序子集,将正链正测序子集和负链负测序子集通过相关对齐的方式合并成为DNA蛋白结合位点的正面检测数据子集,将正链负测序子集和负链正测序子集通过相关对齐的方式合并成为DNA蛋白结合位点的背面检测数据子集;步骤七:分别从正面和背面两个方向,对正面检测数据子集和背面检测数据子集中的数据进行纵向求和,完成操作。
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室