界面新闻记者 | 陈杨
界面新闻编辑 | 谢欣
日前,计算机技术龙头英伟达(NVIDIA)披露三季报,业绩伴随大火的生成式AI起飞。其第三季度净利上涨588%,包括AI服务在内的数据中心业务营收再创新高,同比上涨2.8倍,占总收入的八成。
这其中,英伟达的AI触手也没有错过医疗制药领域。三季报公布同日,英伟达与跨国药企罗氏制药旗下的基因泰克(Genentech)共同宣布,双方达成战略性AI研究合作,以加速药物发现和开发。
具体而言,两家公司将联手在英伟达的DGX Cloud上加速和优化基因泰克专有的机器学习(ML)算法和模型。DGX Cloud是英伟达今年推出的一项AI超级计算服务平台,其中包括用于药物发现的生成式AI应用NVIDIA BioNeMo。
同时,在合作中,英伟达也将深入洞察药物发现和开发中与AI相关的挑战。其计划以此来改进BioNeMo及其他平台,以进一步满足生物科技行业所用模型的要求。
实际上,这并非英伟达首次涉足AI制药。早在2021年,其就与阿斯利康合作,开发药物研发模型 MegaMolBART,计划用于反应预测、分子优化和分子生成。其“朋友圈”还有一众AI制药公司,包括美国公司Schrodinger、Recursion,中国公司英矽智能(InsilicoMedicine)等。
从AI制药的产业链来看,英伟达和AI公司、药企处于不同位置。该产业链上游为提供GPU芯片、量子计算机等硬件,以及数据库、云计算平台等软件的公司,包括英伟达、谷歌等。中游提供AI药物算法开发,包括AI药物研发企业和IT企业,如前述Schrodinger、Recursion,以及国内的英矽智能、晶泰科技。下游则是对AI制药有需求的药企,既有Pharma(大型制药公司),也有Biotech(生物科技公司)。
而这其中,各个位置的参与者在AI制药上具体承担什么工作,又面临什么挑战?
如前所述,英伟达提供的是AI超级计算服务平台,作用可以简单理解为帮助中下游公司的模型“加速”,做出算得更快、效率更高的模型。
全球健康药物研发中心(GHDDI)数据科学部负责人郭晋疆博士向界面新闻介绍,此前,英伟达加速的场景包括图像识别、处理、视频监控等。相较之下,二维图像数据范式统一,基本由像素组成。但涉及生命科学领域,数据的类型、格式将变得异质化,例如蛋白质以氨基酸为单位,化合物考虑的是原子和化学键,基因组、转录组分别基于DNA序列、RNA序列。其挑战在于如何满足生命科学领域各种数据的加速处理需求,例如专门针对蛋白质3D结构的需求。
而关于中下游公司,从前述基因泰克的ML算法和模型可以窥见AI制药的现状。据公开信息,本次合作被加速、优化的基因泰克“实验室闭环”(lab in a loop)是一个迭代框架,用于生成和探索具有预测性质的分子设计。
简单理解,这个迭代框架包含了两个部分,分别是实验数据和生成式模型。今年大热的ChatGPT使生成式AI为大众所知。郭晋疆向界面新闻表示,生成式AI同样也是AI制药领域这两年爆火的话题之一,它与此前该领域最主流的“虚拟筛选”相比,最大的特点是理想情况下可以做到“一步到位”给出新解。
制药领域最重要的课题是根据疾病相关的靶点信息开发、设计药物,使药物能激活或抑制靶点蛋白,从而发挥作用。就像先搞清锁眼的形状,再去找能开锁的钥匙。最初,制药人通常从已知的化合物库中筛选出可能能结合靶点蛋白的分子,再做湿实验测定,也就是从钥匙串上不断拿下可能对的钥匙,亲自放进锁眼里看看能不能开锁。
而随着数据积累和技术发展,这一过程在AI时代虚拟化了,即出现了“虚拟筛选”。郭晋疆介绍,当下的“虚拟筛选”有两种方式。其一是根据分子力学、量子力学等物理学层面的信息,例如分子、原子间的空间位置与不同类型的作用关系来判断化合物和靶点的亲和程度,以此判断化合物的活性。
其二则是数据驱动、高度依赖高质量数据的虚拟筛眩这种AI判断的过程是一个不可见的黑箱,也就是不用知道每把钥匙长什么样,该如何严丝合缝地待在锁孔中,而是通过机器学习大量以往有活性和无活性化合物的数据,直接来判断备选分子的活性情况。
总之,“虚拟筛选”之下,制药人们不必自己动手去插锁孔了。但生成式AI的颠覆性在于,这一串备选钥匙甚至也不必存在。根据制药人的指令,即对开锁要求和锁眼的描述,生成式AI可以直接给出正确钥匙的模型图纸。
郭晋疆告诉界面新闻,这最吸引制药人的地方在于,生成式AI给出的答案不仅正确、能够开锁,而且往往还是一把全新的钥匙,即不是化合物库中已知、或已经能够合成的任何一个。在低垂的果实逐渐被摘完,药物研发投入产出比日渐下行、竞争越发激烈的当下,这样潜在的“First-in-class”(同类最先)分子无疑有着无限魅力。
另外,生成式AI给出结果的时间也更短。郭晋疆举例,以400万个化合物的库筛选,对接一个6万个原子大小的蛋白为例,使用基于物理学的“虚拟筛选”需要一周左右的时间。而理想的生成式AI则是“一步到位”给出答案。
不过,当下的AI模型还难以达到这样的理想程度,靠实验数据不断迭代成为这个框架的另外一半。
郭晋疆解释,正确钥匙的模型图纸易得,但实际做出来的钥匙却也不一定行。最显著的问题是可合成性。合成的化合物是否稳定、是否能在蛋白或细胞层表现出良好的活性,都还需要在真实实验中验证、优化。
目前,通常的做法是制药人先通过生成式AI得到几万个化合物分子,再用虚拟筛选的方法去筛。同时,有经验的药物研发专家也会修饰分子,进行湿实验测定,并将实验结果返给AI模型,帮助其再学习,从而越来越适应研发任务。
实际上,这背后的原因还是在于人体自身,以及和药物相互作用的复杂性。当下,科学界、制药界可能还只是观一木而未见森林,这也是AI制药需要产业链上下游各方协作,推动模型进步的原因。
不过,其中的一些悖论是,一方面,传统大药企的心态更偏向保守,在AI制药领域有小部分尝试,但更多的部分还是以传统方式来做。制药人普遍更倾向依靠自己的个人经验,例如初期先做实验,根据经验去优化、修饰分子,经验以外难以解决的复杂系统性问题才希望找AI解决。同时,当下全球范围内还没有任何一款AI研发的药物真正获批上市,也就是AI制药之路还没有真实走通,这也是让药企处于观望状态,难以all in的原因之一。
另外,数据始终是AI制药没有突破的困境。毕竟,数据是AI生命养料的同时,也是药企最核心的资产。本次英伟达和基因泰克的合作中也指出,基因泰克有权决定其专有数据是否共享,且英伟达在无获得基因泰克授权时,无法直接存取该类数据。