发明名称 一种二代测序数据的压缩方法
摘要 本发明公开了一种二代测序数据的压缩方法。方法包括:对每个样本的二代测序数据,根据第一预设长度进行分割,生成BSSL初始文件;根据第二预设长度构建切割标签文件;根据切割标签文件对BSSL初始文件进行处理,获得BSSL中间文件;将BSSL中间文件合并得到BSSL最终文件;统计BSSL最终文件中种子序列的频次分布结果,根据结果得到种子文件;结合测序数据的格式特征,确定压缩规则,基于种子文件,对每个样本的二代测序数据进行压缩。本发明通过将二代测序数据进行分割以并行处理,提高处理速度,同时结合种子序列选择并得到种子文件,根据二代测序数据的格式特征和种子文件对二代测序数据进行压缩,从而可将二代测序数据的存储空间大大缩小。
申请公布号 CN105760706A 申请公布日期 2016.07.13
申请号 CN201410776713.7 申请日期 2014.12.15
申请人 深圳华大基因研究院 发明人 严志祥;杨洁;操利超;游丽金;张勇;周欣
分类号 G06F19/10(2011.01)I 主分类号 G06F19/10(2011.01)I
代理机构 深圳鼎合诚知识产权代理有限公司 44281 代理人 林宏津;彭家恩
主权项 一种二代测序数据的压缩方法,其特征在于,包括:初文件生成步骤:对每个样本的二代测序数据,根据第一预设长度进行分割,生成固定长度碱基序列BSSL初始文件;标签文件生成步骤:根据第二预设长度构建切割标签文件;中间文件生成步骤:根据所述切割标签文件对所述BSSL初始文件进行处理,获得以切割标签为界的BSSL中间文件;终文件生成步骤:将得到的所有所述BSSL中间文件合并,得到BSSL最终文件;种子文件生成步骤:对所述BSSL最终文件,统计种子序列的频次分布结果,根据所述频次分布结果对所述BSSL最终文件进行选择,得到种子文件;压缩步骤:结合二代测序数据的格式特征,确定压缩规则,基于所述种子文件并根据所述压缩规则,对所述每个样本的二代测序数据进行压缩。
地址 518083 广东省深圳市盐田区北山工业区综合楼