药物研发的未来:人工智能“解锁”

AI1年前 (2023)发布 aixure
66 0 0
导读:作者 | Zoey Shu 感谢王璐博士对本文的修改与指导,以及望石智慧伙伴的支持 小线菌 随着技术不断成熟,AI辅助制药取得了越来越多的关注。《麻省理工科技评论》(MIT Technology Review)将人工智能发现分子列为2020年十大突破技术之一,人工智能辅助制药和疫苗…

作者| Zoey Shu

感谢王璐博士对本文的修改与指导,以及望石智慧伙伴的支持

小线菌

随着技术不断成熟,AI辅助制药取得了越来越多的关注。《麻省理工科技评论》(MIT Technology Review)将“人工智能发现分子”列为“2020年十大突破技术”之一,人工智能辅助制药和疫苗研究也在近年内涌现了多项成果。

盛宴之下,我们更应该追溯本源, 确证this is the right question,思考if this is the right time。所以,有必要追问药物是如何被研发出来的,AI能解决这其中的哪些痛点,以及AI是如何解决的。 本文从药物研发原理出发,初探机器学习如何应用于药物研发和医药领域常用的机器学习算法。

研发并成功上市一种新药的难度和成本是超乎想象的。

Tufts研究中心的数据显示,研发一种新药的平均耗时高达12年,平均耗费高达26亿美元。即使是身负“新冠特效”希望加速研究的“瑞德西韦”,也在临床试验中陷入有关疗效的焦灼战役。更别说,每一款成功新药背后都倒下了无数个备选药物分子,它们只能转化成为药企研发成本中的一个数字。

与传统生物技术相对的,是近年人工智能应用带来的新的突破:2019年7月,第一支AI辅助设计的流感疫苗在美国进入人体实验阶段,设计过程只消耗了一个小型科研团队两年的时间 [1];2020年2月,MIT科学家设计的AI在无人类假设的情况下独立发现新抗生素 [2],英国一款AI发现的药物也在一年之内从开始研发进入临床实验阶段 [3]。

AI助力药物研发展现出玫瑰色的前景。但我们也需要思考,AI应用于药物研发的匹配度、技术难度、发展成熟度等问题。为了确证this is the right question,思考if this is the right time,或许我们需要从本源出发,追问药物是如何被研发出来的,AI能解决这其中的哪些痛点,以及AI是如何解决的。

本文从药物研发原理出发,初探机器学习如何应用于药物研发和医药领域常用的机器学习算法。

钥匙和锁

早在1894年,Fischer就提出了著名的锁钥理论(Lock-key theory):合适的钥匙可以打开正确的锁,合适的底物(substrate)才可以激活相应的酶(enzyme)。延伸到药物研发领域,就需要找到合适的化合物(compound)来激活或者抑制疾病相关的靶蛋白(target)。

图片来源:https://saylordotorg.github.io/text_the-basics-of-general-organic-and-biological-chemistry/s21-06-enzyme-action.html

想要成功打开一把锁,需要根据锁的内部结构设计钥匙的形状,药物研发也通过“寻找并分析锁-筛选并设计钥匙”两步进行。疾病的产生,无论是体内物质异常还是外来物质入侵,一定有一个靶标。比如新冠病毒感染人体会有300多种蛋白质相互作用,癌症的靶标则是体内基因突变引起的异常物质。研究人员首先需要确定靶点,找到需要开启的锁,再通过研究靶标的生物大分子结构、构效关系进行药物分子的筛选和优化,最后再进行动物实验、临床实验。

由此可见,药物研发的关键是“筛选”和“匹配”。不论是筛选靶蛋白还是药物分子,都是在一个巨大的高维空间“搜索”物质;而如何做到更好的锁钥匹配,则是对物质进行“分类”或者“排序”。而搜索、分类、排序,正是机器学习擅长的领域。传统药物研发过程中的化合物筛选和优化耗时耗力,可能需要反复几十遍才能找到效能和生化稳定性都达到要求的药物,且如果实验效果不佳,就需要重新来过;而AI可以从大量数据中自动学习并做出推断,能够极大缩短这个过程。

AI智能“解锁”

机器学习大体可分为有监督、半监督、无监督、强化学习、 主动学习、迁移学习、多任务学习,具体到算法则更为多样。从文献的角度,在药物研发领域内,经典贝叶斯方法和支持向量机(SVM)的文献数量占据主导,遗传算法、决策树及集成算法、神经网络等也有所涉及。

图片来源:探针资本

传统机器学习如贝叶斯,虽研究较多但仍然依赖研究人员的先验知识:如果科学家难以判别分子结构和生化性质之间的关系,模型难以推断具有某种药性的分子结构。比如F代表一系列生化性质,S代表分子结构,U代表想要的药性,想要知道能表现出药性的分子具有某种结构的概率分布p(S|F,F∈U),就需要研究人员的先验概率p(F|S),即某结构表现出一些性质的概率,以及分子中出现某种结构的概率p(S)等。选出结构后如何拼接成分子也需要依赖研究人员的经验。

因而为了更全面高效地筛选新药,在近年的实际应用中,具有超强拟合能力的DNN、CNN、RNN、GAN等神经网络方法受到了更多的关注。因此,以下部分主要选取生成性模型在靶点确认、化合物筛选和优化场景中的应用,初步介绍AI是如何进行智能筛选和匹配的。

“锁”的拆解

在药物研发流程中,第一步就是提出“什么是锁”的假设,即某种疾病与靶点、细胞表型或生物标志物之间的关系。传统研究中假设的来源一般为研究者的已有知识储备,如已知重要的药物靶点、通过基因组学研究新发现的靶点和来自公共文献的假设,这可能会受限于过往结果或研究者直觉,很难做到全面和精准。

而AI可以通过学习大量的疾病和非疾病表现反推对疾病有影响的蛋白质。如生物制药公司Berg,建立了一组深度神经网络模型,输入从组织样本、器官液和血液提取的数据。这些数据包括基因组学、蛋白质组学、代谢组学、脂质组学等,来自患有或不患有特定疾病以及处于疾病进展的不同阶段的人。然后模型自动学习搜索非疾病状态和疾病状态之间的差异,并通过敏感性分析推断最终对疾病有影响的蛋白质,找出候选靶蛋白。

“钥匙”的设计和优化

1 先导化合物筛选

已知靶标的情况下,就需要通过筛选大量分子找到具有活性的、可以与靶标有效结合的药物候选者成为先导化合物。此时,可以借助计算机技术和药物设计理论,进行虚拟筛选(virtual screening,VS)。虚拟筛选分为基于结构(structure-based)和基于配体(ligand-based)两类。第一种是基于受体的三维结构,研究靶标与小分子间的相互作用,在结合位点处筛选可匹配的小分子;第二种是利用已知活性的小分子配体,根据化合物的形状相似性或药效团模型筛选与它匹配的化学分子结构。

图片来源:Protein-ligand scoring with convolutional neural networks,2017

2 化合物优化

筛选出先导化合物之后,需要对其ADMET(吸收,分布,代谢,排泄和毒性)等性质进行评估,优化其分子结构,从而找到性质优良的药物分子。

图片来源:2018 American Chemical Society

上图的AutoEncoder自编码模型选取SMILES字符串代表分子结构,用VAE和RNN编码器与RNN解码器的组合,实现了SMILE与分子连续潜在空间表示之间的相互转换。同时为了进行分子设计,训练了b图另外的多层感知器,以基于分子的潜在空间坐标来预测感兴趣的特性。因此,输入SMILES编码的分子,通过编码确定其潜在空间矢量(a图),模型可以自动向最有可能改善目标特性的方向移动来生成新的候选矢量 (b图)并将其解码为相应的分子 (a图),实现了分子结构优化设计。

综上,从“锁”的拆解(靶标分析)到“钥匙”的设计与优化(苗头化合物到临床候选化合物),人工智能与药物化学、药理学、临床医学等学科相融合,提高药物发现关键环节的效率与成功率。

玫瑰色的前景

根据Gartner人工智能技术成熟曲线,深度学习等“AI+制药”领域常用的技术具有较高的关注度并将在2-5年内成熟。而2019年生物科学领域的技术成熟度曲线 [4]显示机器学习、自然语言处理等技术正处于生物医药领域的关注高峰处,这可能会加快相关技术的成熟和应用落地。

实际上,已经有一些first runners进入了“AI+制药”这个新兴赛道。望石智慧就是具有代表性的一家。他们目前构建了面向小分子新药研发的药物分子设计和知识图谱两大平台,利用AI技术驱动新药研发。

如上图,望石智慧在新药研发的不同环节有不同的技术路线,已经形成了自己的完整“生态”,包含智能化药物分子设计平台(图中虚线框内部分)和药物研发知识图谱。

药物研发过程中,化合物生成可具体分解为两个子模块:分子骨架跃迁和骨架衍生。分子可认为由骨架和药效团组成,类似树干和树枝。骨架跃迁如同对树干进行修改,找到与已知有效分子相似且能破专利的新分子;骨架衍生则是对树枝进行变化,骨架中蕴含着特定靶点下的主要信息,在不错的骨架基础上获取活性更强的分子。经过这两步,可以快速得到大批量的有活性的潜在化合物。之后在通过望石智慧复杂的虚拟筛选系统,可以筛出有可能的先导化合物。

望石智慧的虚拟筛选系统是一套综合深度学习、机器学习和传统虚拟筛选方法的复杂系统,每种方法有自己擅长的部分,例如深度学习和机器学习方法善于从宏观上把握海量化合物和靶点的相互作用规律,传统虚拟筛选方法善于在微观上分析化合物和靶点的相互作用。望石智慧的虚拟筛选系统在保留各自方法优势的同时,巧妙地将二者结合起来,互相补充,从而实现更加强大的虚拟筛选功能。

找到先导化合物后,还可以通过分子优化模块,去改善先导化合物的某个性质,在此基础上设计出质量更好的新分子。

此外,在上一部分提到,AI与药物化学、药理学、临床医学等学科相融合才能有效提高药物发现关键环节的成功率。望石智慧实现知识累积和融合的方式就是药物知识图谱。知识图谱不仅为制药各环节提供靶点、适应症、蛋白相互作用和性质等高质量数据,也挖掘最新医药研发领域专利和研究成果,保证药物研发绝不是闭门造车。

当然,AI制药还有更加广阔的优化前景和未来。据望石智慧介绍,他们在关注更易商业化的“me-better”制药的同时,也把触角伸到了“best-in-class”和“first-in-class”方向。

人工智能辅助药物的市场进入率可能会在一段时间内保持较低水平。但是,随着技术加快成熟,如果简化了测试和批准流程,该比率可能会急剧上升。

因而,虽然AI助力药物研发仍处于初级阶段,我们有理由相信,这抹玫瑰色将是旭日升起的前奏。

[1] https://smart.huanqiu.com/article/9CaKrnKljGC

References

[1] Yang, X., et al., Concepts of Artificial Intelligence for Computer-Assisted Drug Discovery. Chemical Reviews, 2019. 119(18): p. 10520-10594.

[2] David H. Freedman. Hunting for New Drugs with AI. Nature, 2019. vol 576: p. S50-53.

[3] Protein-ligand scoring with convolutional neural networks[J]. Journal of chemical information and modeling, 2017, 57(4):942-957.

[4] 探针资本. 信息化与人工智能辅助医药研究. 2019.

[5] 邓欣贤. 知乎. https://www.zhihu.com/question/21878831/answer/20302894

《「望石智慧」完成近千万美元A轮融资》

《AI:捕捉小分子药物的破局之道?》

「线性资本 Linear Capital」是一家聚焦于「数据智能 Data Intelligence」以及「前沿科技 Frontier Technology」领域的专业投资机构。

我们重点关注「数据应用 Data Application」、「数据基础设施 Data Infrastructure」和「前沿科技 Frontier Technology」应用领域的早期项目。投资阶段以天使至A轮领投为主,每个项目投资典型金额为300到500万美元或等值人民币。

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...