(小尘4x/图)
刚刚才风头无两的ChatGPT聊天机器人可能要与同样热门的人工智能系统ProGen展开竞争了。
ChatGPT是美国一个人工智能实验室OpenAI发布的聊天机器人,它能与人自由交谈,貌似突破了图灵试验,比谷歌的搜索引擎更有效地回答问题,并针对任何提示,按照规范编写出可信的文本(名类文章)或计算机代码。ProGen是美国另一家人工智能研究企业 Salesforce Research和合成生物学公司Tierra Biosciences等合力打造的人造酶人工智能系统。在实验室测试中,ProGen设计的人工酶中的一些与自然界中发现的酶一样有效,即使它们人工生成的酶的氨基酸序列与任何已知的天然蛋白质存在显著差异。
如果说ChatGPT还只是在一些宽泛而抽象的意义上显示了它可能替代人类,如写作、交流等,而ProGen已经是在产出具体的产品了。这种产品就是酶,是一种特殊的蛋白质。而且,如果人工智能产生的蛋白质能够像自然生成的蛋白质一样,也意味着未来人工智能可以设计人类所需要的各类产品,当然首先是满足人类生存的食物和药品。
随之而来的一个问题是,人工智能设计和研发的产品能真正满足人的需求吗?例如,食物能满足人类的能量供给和营养需求吗?蛋白药物有效和安全吗?
虽然现在还不能完全解答这些问题,但ProGen设计的蛋白产品已经显示了某些可能性和可行性。
人工智能的核心是深度学习,并按照所学习的模本创造产品。因此,研究人员把1.9万个家族的2.8亿种不同蛋白质的氨基酸序列输入ProGen的机器学习模型中,同时提供相关蛋白质特性作为控制标签,然后让系统花费数周时间来“消化”这些信息。此后,研究人员再把信息收窄,使用来自5个溶菌酶家族的5.6万个序列,以及有关这些蛋白质的一些上下文信息来对模型进行微调。
根据学习的内容,ProGen迅速生成了100万个序列。然后,研究团队根据这些序列与天然蛋白质序列的相似程度,以及人工智能产出的蛋白质的潜在氨基酸“语法”和“语义”的自然程度,选择了100个进行测试。
在100个人工设计的酶中来自5个溶菌酶家族的所有人工蛋白质均显示出活性,并且在这些人工制造的溶菌酶中,有73%被发现具有抗菌功能,而在天然蛋白质中仅有59%具备功能性。研究团队选择的5种人工蛋白在大肠杆菌中进行重组表达,并将它们的活性与鸡蛋清溶菌酶(HEWL)进行比较。后者主要存在于鸡蛋白,以及人类的眼泪、唾液和牛奶中,具有抵御细菌和真菌的作用。
结果显示,5种人工蛋白质中有2种能够以相当于HEWL 的活性分解细菌的细胞壁,尽管它们之间仅有约18%的序列是相同的。另一方面,存在于自然界中的已知蛋白与这两个人造蛋白的序列的相似度分别为90%和70%左右。
更令人惊讶的结果是,在另一轮筛选中,研究团队发现,即使只有31.4%的序列与目前已知的天然蛋白相似,但由 AI 生成的酶类依然显示出活性。与之相比,天然蛋白质中发生任何一个突变就有可能失去生物活性。
这些结果有多重意义。一是,ProGen 生成的人工蛋白不仅可以正确表达,并且展示出与蛋白天然折叠相类似的结构。二是人工生成的蛋白即便只有部分氨基酸序列与天然蛋白的序列相似,也具有生物活性,但天然蛋白没有这种优点。三是人工智能可以设计出此前在自然界从未有过的新物质和新产品。
这些优势也意味着,如果采用AI设计和生产蛋白药物、食品及生物产品(如降解塑料的产品),都会既快又有效,当然安全性还需要通过动物和人体试验来检验。
ProGen设计蛋白产品也可以按中国人对事物产生的朴素理解来认知,道生一,一生二,二生三,三生万物。事实上,人工设计蛋白质是按照人的语言规律来生成的,氨基酸相当于人的语言中无数的单词和词组,但是要按一定的语法结构串联组织起来。当无数个氨基酸一个接一个地按“语法”串在一起后,就会形成有意义和有功能的产品蛋白质。
这也表明,当前的人工智能技术已经可以通过研究原始序列数据来了解酶、蛋白应该如何形成。而且,在人工智能设计出新的蛋白产品后,通过X射线晶体学测量和检测发现,这些人造蛋白质的原子结构完全符合设计预期,而且这些蛋白的氨基酸序列此前在自然界并不存在。
同样,ChatGPT能与人交谈和写出各类文章,也是通过深度学习而进行和产生的。ChatGPT就是一个大型语言模型,接受了大量文本数据的训练,这些数据包括书籍、文章、网站帖子,使得它能够对各种各样的提问产生类似人类的反应,并回答问题,写出文章,而且是以一种听起来和看起来与人一样自然的方式说话和写作出来。
不过,无论是ProGen生成人工蛋白,还是ChatGPT与人交谈和写出各类文章,都是通过人类给予他们的训练并通过它们的深度学习产生,因此,它们既可能犯人类可能犯的错误,也会犯机器学习可能产生的错误,因此ProGen生成的人工蛋白未必就是安全有效的,ChatGPT写出的文章未必就是无可挑剔的。
一些研究人员在英国《自然》杂志刚刚发表的一篇文章中称,他们向ChatGPT 提出了一系列问题和作业,这些问题和作业需要对文献有深入的了解,结果发现,ChatGPT经常产生虚假和误导性的文本,并且回答错误。
同样,ProGen生成的人工蛋白也可能有问题。因此,解决人工智能产品的方式是,必须采取人工验证,并且是多个步骤的检测,才能避免错误,当然还必须要有动物和人体试验。这是人类始终应当对科学研究和研究产品负责的态度和做法。
张田勘