发明名称 一种基于CRISPR/Cas9的sgRNA的设计方法
摘要 本发明涉及一种基于CRISPR/Cas9的sgRNA的设计方法,其特征在于,该方法包括下列步骤:获取sgRNA和对应的Cas9的酶切效率的值;建立个性化sgRNA设计模型;运用NDCG算法衡量建立的个性化sgRNA设计模型的质量并更新数据库;设计sgRNA并给出每个sgRNA的评估值。与现有技术相比,本发明具有准确率高、特征完整、应用范围广与分析数据广的特点。
申请公布号 CN106446600A 申请公布日期 2017.02.22
申请号 CN201610341946.3 申请日期 2016.05.20
申请人 同济大学 发明人 刘琦;啜国晖;陈亚男;闫纪芳
分类号 G06F19/12(2011.01)I 主分类号 G06F19/12(2011.01)I
代理机构 上海科盛知识产权代理有限公司 31225 代理人 翁惠瑜
主权项 一种基于CRISPR/Cas9的sgRNA的设计方法,其特征在于,该方法包括下列步骤:1)获取sgRNA和对应的Cas9的酶切效率的值,具体为:11)从文献中获取sgRNA以及对应的Cas9的酶切效率的值;12)从SRA数据库中获取sgRNA,计算获取对应的Cas9的酶切效率的值;13)按照物种、细胞类型和实验条件将步骤11)和12)中获取到的数据分类成不同的参考基因组,每个参考基因组中都列出一份第一列为sgRNA名称、第二列为sgRNA序列以及第三列为对应的Cas9的酶切效率的表格;2)建立个性化sgRNA设计模型,具体为:21)根据需求从相应的参考基因组中,提取步骤1)中获取的sgRNA的序列信息;22)对步骤21)中提取的sgRNA序列信息按照二进制规则进行二进制编码;23)对步骤21)中获取的sgRNA,判断其Cas9的酶切效率的数据类型,若为数值型则进入步骤24),若为分类型则进入步骤25);24)对步骤22)中编码后的sgRNA序列信息,用Lasso模型进行特征提取,根据标准线性回归建立个性化sgRNA设计模型;25)对步骤22)中编码后的sgRNA序列信息,用二分类逻辑回归中的L1正则化进行特征选择,再根据二分类逻辑回归中的L2正则化建立个性化sgRNA设计模型;3)运用NDCG算法衡量步骤2)中建立的个性化sgRNA设计模型的质量并更新SRA数据库,具体为:31)计算步骤2)中建立的个性化sgRNA设计模型的NDCG值;32)判断现有SRA数据库中是否有对应的个性化sgRNA模型,若否则将其添加进SRA数据库,若是则进入步骤33);33)比较该个性化sgRNA模型与对应的SRA数据库中的sgRNA模型,选择NDCG值大的一个存储在SRA数据库中;4)设计sgRNA并给出每个sgRNA的评估值,具体为:41)根据用户给出的基因组区域,从SRA数据库中选取合适的参考基因组,从中搜索所有符合设计规则的sgRNA,将其作为设计的sgRNA;42)对步骤41)中设计的sgRNA,运用步骤2)中建立的个性化sgRNA模型进行评估。
地址 200092 上海市杨浦区四平路1239号