人工智能+基因编辑,这是国内外最新研究进展

人工智能应用1年前 (2023)发布 aixure
76 0 0
导读:编辑 | 橘子皮 这里有两篇「AI+基因编辑」相关研究 当前,生命科学与医学的前沿研究都离不开基因编辑,碱基技术的出现让基因编辑变得更加可操作。然而其编辑部位碱基的准确性,以及编辑部位上下文序列对编辑的影响,一直是困扰研究人员的问题。这关系到基因…

编辑 | 橘子皮

这里有两篇「AI+基因编辑」相关研究

当前,生命科学与医学的前沿研究都离不开基因编辑,碱基技术的出现让基因编辑变得更加可操作。然而其编辑部位碱基的准确性,以及编辑部位上下文序列对编辑的影响,一直是困扰研究人员的问题。这关系到基因编辑是否能够成功,也会影响基因治疗的临床效果。

来自苏黎世大学的研究人员建立了一种基于注意力的深度学习算法 BE-DICT,该算法能够高精度地预测碱基编辑结果。

同样,国内的研究人员也在这方面研究中取得了重大进展。来自中科院与农科院的研究人员报告了一个具有高效率和保真度的工程化 C-to-G 碱基编辑器(BE),其修改的目标序列的上下文可通过机器学习方法进行预测。同时还开发了一个深度学习模型,可以准确预测具有特定序列上下文的目标位点的 OPTI-CGBE 编辑结果。

先说国外的……

该研究以「Predicting base editing outcomes with an attention-based deep learning algorithm trained on high-throughput target lipary screens」为题,于2021 年 8月 25 日发布在《Nature Communications》。

碱基编辑器(BE)是嵌合核糖核蛋白复合物,由靶向 DNA 的 CRISPR-Cas 模块和单链 DNA 脱氨酶组成。它们使基因组 DNA 上的 C G 转变为 T A 碱基对,反之亦然。虽然碱基编辑器作为用于基础研究和基因治疗的基因组编辑工具,具有巨大潜力;但它们的应用会因为不同基因组位点编辑效率的广泛差异,而受到阻碍。

研究人员对包含 28,294 个慢病毒整合基因序列的文库,进行了腺嘌呤(A)和胞嘧啶(C)碱基编辑器的广泛分析,并建立了 BE-DICT;这是一种基于注意力的深度学习算法,能够高精度地预测碱基编辑结果。BE-DICT 是一种多功能工具,原则上可以在任何新型碱基编辑器变体上进行训练,促进碱基编辑在研究和治疗中的应用。

用于评估碱基编辑器活动的高通量平台。

在这项研究中,研究人员使用高通量方法,来评估碱基编辑器在数千个目标站点上的活动和准确性。所得数据集用于训练深度学习模型 BE-DICT,该模型能够准确预测目标核苷酸和周围「旁观者」核苷酸的编辑。

目前,BE-DICT 在 ABEmax、CBE4max、ABE8e 和 Target-AID 的数据集上进行了训练,相应的模型可在www.be-dict.org上免费访问。

由于该算法具有通用性,未来它也可以用于各种其他碱基编辑器变体,使研究人员能够先验地为其目标基因座选择最佳碱基编辑器。碱基编辑器可应用于基因组编辑疗法;在这种疗法中,BE应该在不诱导旁观者编辑的情况,下修复引起疾病的点突变。此外,BE 在基因筛选中的应用也很重要,因为旁观者突变可能会影响由目标碱基转换引起的表型。

BE-DICT:一种用于预测碱基编辑结果的机器学习模型。

最近,还有研究团队开发了另外两种机器学习模型,它们也可以预测碱基编辑结果的比例(BE-Hive 和 DeepBaseEditor)。该项目组的研究人员广泛地比较了这三种模型,发现它们的性能相似。值得注意的是,除了「旁观者」模块,BE-DICT 还提供了一个 per-base 模块。虽然该模块仅给出目标碱基被编辑(或不被编辑)的概率,并且无法预测目标碱基和旁观者转换的组合,但是它提供了识别当前可用碱基编辑器「基序偏好」的功能。这可以为未来开发具有改进活动的新型碱基编辑器变体提供依据。

此外,BE-DICT per-base 模块隐式地模拟了每个位置的边缘编辑概率。因此,与其他模型(即旁观者模型)不同,搜索空间的复杂性随核苷酸数量呈指数增长,BE-DICT per-base 模块表现出二次复杂性,这可以通过缩放自注意力来进一步改进层到 O(n) 复杂度原则上使模型能够考虑超出原型间隔区目标位点的序列上下文。

总的来说,BE-DICT 模块可以准确预测碱基编辑结果,并可以指导研究人员设计基因编辑实验。

BE-DICT 旁观者模型。

国内的也很厉害……

该研究以「Optimization of C-to-G base editors with sequence context preference predictable by machine learning methods」为题,于2021 年 8 月 12 日发布在《Nature Communications》。

在基因编辑方面非常需要用于 C 到 G 转换的高效精确的 BE。然而,研究人员对于影响编辑结果的目标序列上下文,却知之甚少。在这里,研究人员报告了一个具有高效率和保真度的工程化 C-to-G BE,其序列上下文可通过机器学习方法进行预测。

通过改变尿嘧啶-DNA 糖基化酶和脱氨酶的相对位置,以及密码子优化,研究人员获得了优化的 C-to-G BEs (OPTI-CGBEs) 以实现高效的 C-to-G 转换。OPTI-CGBE 编辑 100 个内源性位点的基序偏好是在 HEK293T 细胞中确定的。

使用包含 41,388 个序列的 sgRNA 库,研究人员开发了一个深度学习模型,可以准确预测具有特定序列上下文的目标位点的 OPTI-CGBE 编辑结果。进一步证明,这些 OPTI-CGBE 能够在小鼠胚胎中进行有效的碱基编辑,从而使小鼠产生 Tyr 编辑的后代。因此,这些工程化的 CGBE 可用于高效精确的碱基编辑,编辑结果也可根据目标位点的序列上下文进行预测。

CGBEs工程。

通过改变来自物种的 UNG 结构域和改组序列以及脱氨酶结构域在各种碱基编辑器中的位置,研究人员获得了工程化的 CGBE 变体(OPTI-CGBEs),其实现了高 C-to-G 转换效率和低脱靶效应。OPTI-CGBE 在测试的目标站点的 C-to-G 编辑效率和产品纯度方面优于之前报道的 CGBE1 和主要编辑器。

最近,有研究团队通过用碱基切除修复(BER)蛋白替换 BE3 的 UGI,在特定基序上提高了 C-to-G 编辑效率。值得注意的是,在该项目的研究中,研究人员发现 OPTI-CGBE 与相应的 CBE 的基序偏好不同,并且具有不同来源的脱氨酶的 CGBE 更喜欢不同的序列背景。这些 C-to-G 碱基编辑器的基序偏好可能可以通过不同 CGBE 的相应脱氨酶采用的不同结合模式来解释。脱氨酶增加了 C-to-U 编辑,所以提高了 CGBE 的 C-to-G 编辑效率。

OPTI-CGBES的机器学习模型。

研究人员还使用包含 41,388 个目标序列的 DNA 文库,对这些变体的编辑效率进行了高通量分析,从而阐明它们的基序偏好。同时,开发了两种计算方法,包括深度学习模型 (CGBE-SMART),用于预测 C-to-G 编辑效率和编辑结果比例。

CGBE-SMART 模型能够在具有特定序列上下文的目标位点进行有效的 sgRNA 选择;并且可以推广以支持有效的 sgRNA 选择,以优化使用 BE。

事实上,CGBE-SMART 在预测 CBE 的编辑效率方面也取得了很高的性能,与之前为相同目的开发的深度学习模型相媲美。同时,CGBE-SMART 在我们的 CGBE 数据集中表现出比其他模型更好的性能。

然而,高通量分析中的低 C-to-G 编辑效率会低估计算模型的性能。HEK293T 细胞和胚胎中的研究表明,编辑结果可能受到表观遗传调控、染色质可及性和 DNA 修复活动等体内因素的影响;除了目标位点的序列背景外,这些因素也值得进一步研究。

在这项工作中,研究人员证明了一组优化的 CGBE 变体,在不同序列背景下高 C-G 转换效率和最小脱靶效应;以及它们在产生基因组编辑后代方面的效率。这些 CGBE 变体可能会对未来需要 C 到 G 转换的基因编辑很有价值。

人工智能×[ 生物 神经科学 数学 物理 材料 ]

「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展

欢迎注标星,并点击右下角点赞在看

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...