记者/李晶晶
编辑/计巍
9月12日,百度在北京发布其十大科技前沿发明
除了与ChatGPT对话,AI已经从我们日常的生活中延伸到更远AI生物计算,它可以识别“蛋白大分子”“小分子化合物”,为创新药的研发装上引擎,让科研人员的双手从重复的劳动中解放出来。
百度AI生物计算团队三年前开始从计算机领域跨界到生物医药,助力国产创新药物的研发。
你可以想象一个场景,在药物分子的海洋中,海量的、令人眼花缭乱的分子化合物从你眼前倏忽而过,似乎都长得一模一样,而你需要一一去辨别、去“贴上”它们,看看能不能和你起反应,这是传统的生物实验。
而AI算法就像“千里眼”,可以迅速对药物分子的物理、化学、药学性质的表征进行筛选归类、推断其空间结构;自动化则是“无影手”,在算法指导下进行标准化、无间断的实验操作与数据采集,为AI模型的优化提供数据反溃
生物计算,这是一个“坑”
“我这里有个大坑,你要不要接一下。”三年前,刚得知要挑起百度AI生物计算研究的重任时,张肖男和团队就被领导说的话来了个下马威。当时她还在做关于机器语言学习方面的工作,虽然也不能停止学习,但还算熟门熟路得心应手,在得知要步入一个全新的领域从零开始时,她几乎是“硬着头皮上的”。
在生物领域,她和团队技术负责人都算得上是“小白”,经常被提及的“小分子化合物”,也是看了书才了解它真正的定义。在百度工作十多年,这一次,她和团队又要重新做回学生了。《药物发现与设计》《新药药理学研究方法》等书是那时生物计算团队桌子上摆的最多的书。
2020年正值新冠疫情爆发的年份,对于药物研制有着迫切的需求,AI在生命科学领域的应用也有了一些新进展,如谷歌AlphaFold2的出现,这也加速了人工智能技术在生命科学领域的落地。但在中国,关于此方面的探究还处于早期阶段。
“在中国,药物研发是一个容易被欧美卡脖子的领域。”张肖男不无感慨地说,那时,她和团队频繁往返于全国各地的药企做调研,了解国内药企的痛点和实际需求。
仿制是制药产业中被允许的普遍做法,当创新药(即原研药)20年专利有效期到期后,其他药企即可使用药物的化学合成物专利,自行开发配方工艺并合法生产仿制药。国内医药市场八成以上为仿制药,而仿制药资金投入的一大部分都不在研发而在营销怎么和其他仿制药企进行价格厮杀、维护和医院的关系以博得进入药品展台的机会。
创新药历来有“十年时间加十亿美金”的说法,新药研发周期漫长、成本高的特点让很多药企望而却步。但创新药也有更广袤的市常创新药投入高、研发周期长、失败率高,但是产品一旦研发成功确实能够解决临床问题,带来的回报也非常可观。
总要有人来做创新的事,这不仅需要药企的努力,也需要科技的助力。周期漫长,那就想办法缩短研制的周期,减少实验人员的重复性工作;成本高昂,那就尽力在计算机模拟的阶段找到更合适的分子,让药企在分子采买阶段就能省下钱来,而AI就可以完成这件事。
据张肖男了解,生物计算方面国内外还有一定差距,这种差距更多体现在数据、人才、商业环境上。目前该领域大部分的公开数据集都来自国外的科研机构,国内数据几乎没有。交叉人才的储备上,懂AI也懂生物、药学的国内更是稀缺。受限于仿制药工业等历史原因,国内药企对创新药的研发投入本就不高,愿意花在计算上的钱相比国外药企就更低了。
张肖男在会议上交流
从“搜索”到“做药”
以小分子为例,要找到一个候选药物,理论上可检索的化学空间达到10的60次方,传统计算方法很难高效完成,且过程会略显笨拙。实验人员要在一块块高通量的板子上面不断地重复做实验,可能要做很多块板子才能找到一个两个可以用的分子。但通过计算方法,可以快速定位到最有可能的候选分子,大大降低实验的数量。
但在刚开始什么都没有时,百度生物计算团队去拜访客户时,很多时候是被药企的资深专家们先进行一番“灵魂拷问”:“百度不是做搜索的吗?现在也开始做药了?”“你们只懂AI是没用的,领域的know how更重要。”
但随着研发成果和成功案例的出现,百度在生物计算上的技术实力和所提供的产品方案,逐渐得到了行业专家们的认可。质疑的声音逐渐弱了,取而代之的是,更多合作的促成。
百度自主研发的文心生物计算大模型,其多个成果发表在国际顶级期刊和会议上。例如,在化合物属性预测上,2022年在国际顶级期刊Nature子刊Nature Machine Intelligence上发表的HelixGEM,揭示了一种基于化合物三维几何空间建模的新方法,能够更准确的预测化合物的属性,提升虚拟筛选的精准度。在RNA领域,百度自主研发的mRNA序列设计算法LinearDesign,发表于Nature杂志,旨在帮助设计出稳定性更好、蛋白表达更优的mRNA序列。而这仅仅是百度生物计算能力的冰山一角。
生物计算不仅要获得科研层面的认可,更重要的是获得行业客户的认可,将领先的技术转化为可落地的产品服务,赋能产业,而这也是百度生物计算团队的长期愿景。目前,基于文心生物计算大模型和飞桨深度学习框架搭建的面向小分子、大分子和RNA的药物设计平台飞桨螺旋桨PaddleHelix,已经帮助超过三十家合作伙伴,利用百度的生物计算大模型能力,找到并设计出活性更好、性质更优的候选药物分子,从而大幅提升合作伙伴在新药研发和疫苗设计上的效率,其中不乏很多国内外的头部药企。
从开始的不被认可,到现在的引领行业,百度在试图走出一条自己的路。
AI生物计算为创新药的研发装上引擎
变化与革新正在发生
全球老龄化加上气候变化,人类需要应对的医学难题接踵而至,想要赶上变化的速度,就需要科技的助力。或许药物的研发是一个愚公移山的过程,但可以想见的是,AI的助力是将这把铲子变成了挖掘机。
9月12日,百度在北京发布了其十大科技前沿发明,生物计算团队的发明“数据和原理双驱动的生物计算大模型”也在其中。
百度专利事务部的崔玲玲介绍,入选的十大发明体现了百度多项国际前沿核心技术的实现与突破,涉及大模型、基于大模型的端到端搜索、飞桨、AI芯片、生成式检索、内容生成推荐技术、自动驾驶决策系统、生物计算大模型、高性能量子芯片。
百度首席技术官王海峰表示,十大科技前沿发明是百度前沿创新成果的集中展现,有超过70%的发明都涉及到大模型和重构创新,我们用AI原生思维,踊跃创新AI原生应用。
全球知识产权综合信息服务提供商IPRdaily中文网今年4月份发布的《中国人工智能大模型企业发明专利排行榜》显示,百度以602件大模型专利申请量排名第一,百度大模型专利的授权量也是第一名。
百度集团资深副总裁、总法律顾问梁志祥表示,技术竞争的背后是知识产权的竞争。强大公司背后凝聚着一个强大技术团队,强大技术团队背后凝聚着很多强大的专利。百度拥有充满技术基因的强大技术团队和知识产权团队,大模型技术和专利布局业界领先,为百度产品的领先提供了重要支撑。“这个世界在改变,这个世界在不断革新,现在就是各类技术人员的时刻。”梁志祥感慨道。
【版权声明】本作品的著作权等知识产权归北京青年报【北青深一度】所有,未经授权,不得转载。