2007年,在进入大三之前的那个夏天,我一直在做一件事:从小鼠身上取下小块脑组织,放到培养皿中进行培养,仔细观察其中的神经元。在三个月时间里,我每周有5、6天,每天有3、4个小时都待在一个小房间里,盯着一台显微镜看,给脑细胞拍照。房间漆黑一片,只有神经元发出的莹莹绿光。
当时,我正在研究一种特定的生长因子能否保护神经元免受神经退行性疾病的影响,比如帕金森玻这种在神经学研究中很常见的工作需要耗费大量时间,以及对细节几近病态的关注。这就是为什么课题组负责人要培训我这样一个低级别的本科生来做这件事,正如几十年前,某个人来培训他做这件事一样。
现在,研究人员认为,他们可以训练机器接管这些琐碎的工作。
在刊于《细胞》杂志的一项研究中,由格拉德斯通研究所(Gladstone Institutes)和加州大学旧金山分校神经科学家史蒂芬芬克拜纳(Steven Finkbeiner)领导的团队与谷歌的研究人员进行了合作,他们训练出一种机器学习算法,可以对培养皿中的神经元细胞进行分析。
研究人员使用了一种名为深度学习的方法,这种机器学习技术不仅推动谷歌取得了一系列成果,在亚马逊、Facebook、微软等一系列人们耳熟能详的科技公司中,也得到了重用。深度学习依靠的是模式识别:向系统馈入足够多的训练数据可能是动物图像,可能是专业围棋棋手的招式,也可能是人工培养脑细胞的照片然后,它就可以去辨识猫,去挑战世界顶级棋手,或是弄清神经元的形态特征。
用这种方式训练人工智能系统,最难的两件事在于:
1)生成规模足够大的数据集;
2)找人对数据集进行标记。
幸运的是,大多数神经科学实验室都拥有足够多的细胞培养物可供转化为训练数据(芬克拜纳的实验室已经让显微镜检查过程的多个环节实现了自动化,它生成的图像数量已经超出了实验室的分析能力),而且也有足够多的人手对数据进行标记。
“基本上,这有赖于大量的暑期学生、研究生和博士后,让他们来做人工标记,将数据馈入计算机。”分子神经科学家玛格丽特萨瑟兰德(Margaret Sutherland)说。她是全美神经病学与中风研究所的项目主任,该机构资助了上述研究。(即便有了人工智能,学生和博士后似乎还是免不了要干这些累活。)
芬克拜纳的团队开发了一个深度神经网络,并使用细胞图像对它进行了训练,这些图像有的带有荧光标记,有的则没有。这些发光的标记有助于区分不同的细胞类型,还可以让研究人员更容易判断神经元的末端位置以及轴突和树突的起始点。(轴突和树突是神经元中突出的部分,负责跟其他神经元交换电化学信号。)不过,很多标记方法也会损害你试图观察的细胞。
然而,通过训练,研究人员的算法能够识别出它之前从未见过的特定类型的脑细胞。此外,算法还可以辨别死细胞和活细胞,定位细胞核,区分轴突和树突,而且这一切都不需要荧光标记的帮助。芬克拜纳团队把他们的机器学习方法称为ISL。
由于分析细胞并不需要添加固定剂或荧光染料,因此与传统方法相比,ISL的优点包括:前后标记更一致,对培养物的损害更小,而且能够对细胞的健康状况实现更长期的监测。
此外,由于只有训练算法时才需要用到人手,这种方法还可以为研究人员提供一种分析大量数据的途径,他们不再需要招募大量实验室技术人员在黑暗中对着显微镜埋头苦干。
对生物医学领域的研究人员来说不管他们是在大型研究院校资金充裕的实验室工作,还是为一家小型初创公司效力这都是个好消息。“像这样的技术往往会产生民主化效应。”计算机生物学家、艾伦细胞科学研究所(Allen Institute for Cell Science)的数学建模主管莫莉马拉卡(Molly Maleckar)说。马拉卡没有参与芬克拜纳的研究。
她和同事们曾利用类似的无标记机器学习技术来识别亚细胞结构。她说,通过结合机器学习方法,规模较小的生物医学研究机构在研制新药过程中的每一个步骤,或许都可以提速。“如果你了解自己算法的局限性,并清楚如何去解读、去提升其表现,你就不需要那么多人手来收集和分析大量数据。”
当然,你仍然需要人手来训练算法。对于这件事,不是还有暑期实习生嘛。
翻译 | 何无鱼;校对 | 其奇