药明康德/报道
人工智能(AI)是近年来的爆款话题。在医药行业,关于AI能否有效设计新药的争论也从未停歇。近日,发表在顶尖学术期刊《科学》上的一项研究,则让我们看到了积极的一面:来自普林斯顿大学(Princeton University)和默沙东研究实验室(Merck Research Laboratories)的化学家们开发了一款人工智能,可以精准地预测化学反应的产率,这有望在新药开发上得到广泛的应用。
从本质上看,新药的合成与制造是化学反应。化学家们为了得到想要的分子,必须以合适的比例加入正确的原料,并提供恰当的反应条件。这听起来虽然很简单,但让机器来预测和设计高产率的化学反应却并不容易。一个典型的化学反应需要有大量不同的化学分子参与。而每一个额外分子的加入,都会为计算添加一个维度。即便对于近年表现出彩的人工智能,化学家们也不是很确定它是否能胜任这项工作。
为了让机器学会设计高产率的化学反应,我们需要帮助它建立一个多维度的模型。但从历史上看,这一直是个瓶颈。其背后的原因在于这个模型过于复杂,而我们能用来训练这个模型的数据却远远不够。幸好,随着默沙东在机器人系统上的大量投入,现在我们能在短短几天内,完成数千个化学反应。这产生了大量可以用来训练AI的数据。
▲默沙东研究实验室的Spencer Dreher博士(图片来源:默沙东官方网站)
“我非常高兴地看到,我们产生的数据质量很高,能用于建立有效的模型。”默沙东研究实验室的Spencer Dreher博士说道。
在获得了这些数据,并利用程序对每一个输入进模型的化学品进行定量标注后,研究人员们考量了多种统计学模型的准确率。有趣的是,行业中常用的线性回归模型在这一任务的执行上表现并不好,而表现最好的是一类叫做“随机森林”(random forest)的模型。此类模型能从训练数据库中随机提取出小量的样本,构建决定树(decision tree),而每一棵决定树都能对特定的化学反应产率进行预测。这些预测会被综合评估,产生一个总体的预测产率。结果表明,这款模型能很好地对训练数据之外的化学反应进行产率的预测。
▲“随机森林”模型表现最佳(图片来源:《科学》)
▲该模型可以准确预测产率(图片来源:《科学》)
“只要几百个反应数据,我们就能准确地用模型预测产率。化学家们甚至都不需要机器人的帮助,自己就能完成这些反应。”这项研究的第一作者Derek Ahneman博士说道。
▲普林斯顿大学的Abigail Doyle教授(图片来源:普林斯顿大学)
“我们开发的这款软件能适用于任何反应或任何底物类型,”该研究的通讯作者之一,普林斯顿大学的Abigail Doyle教授说道:“我们希望人们能将这一工具应用于其他反应之中。”