整理丨王轶群
出品丨AI 科技大本营(ID:rgznai100)
隐退江湖四年的谷歌联合创始人谢尔盖布林(Sergey Brin,以下简称布林)因为谷歌在大模型之战的大失利而亲赴前线,深入谷歌的大模型Gemini的研发工作,继我们看到布林亲自给 Gemini 写代码、经常加班到凌晨的传闻之后,布林本人在 Gemini黑客松现身,对一系列问题进行了回应。
在近40分钟的演讲交流中,布林与开发者们共同聊了聊Gemini开发内幕、AGI,以及AI对社会变革的看法和开发者们所关注的 AI 之于谷歌的影响。有谷歌前研究科学家晒出与布林的现场合影,并表示非常受启发。布林此举引起了全网关注和科技圈的热议,网友纷纷呼吁他回归重新执掌谷歌。与此同时,谷歌的现任CEO桑达尔·皮查伊(Sundar Pichai)则面临着下台的呼声。
本文对布林与开发者现场的交流进行了梳理(部分内容有删减),让我们一起看看这场启发与争议并存的AI极客们与谷歌传奇创始人的思维碰撞。
直面 Gemini 的争议问题
在去年发布的的Gemini技术报告中,布林的名字就出现在核心贡献者的名单内。作为核心贡献者之一,他在揭秘Gemini的开发时,对现场的开发者们展示出了极大的坦诚,他率先表示:“Fire away(开火吧,尽管说)!”,由此展开了一系列关键问题的讨论。
在去年的Google I/O大会上,Pichai为我们带来了Gemini,然而一如Bard发布后的窘况,Gemini发布之后也遇到了诸多翻车问题。而其最新的Gemini 1.5 Pro发布伊始,其风头便被OpenAI的Sora完全盖过。布林表示,Gemini的发布有着些许意料之外,它在开发团队内部被称为金鱼(Goldfish):
这是个具有讽刺意味的名字,因为金鱼记忆很短。但当我们在训练这个模型的时候,我们并没想到它会出乎意料地强大,或者拥有它所具备的所有功能。实际上,这只是我们规模扩展实验的一部分。但当我们看到它能做什么时,我们就在想:嘿,不要再等待,希望全世界都能尝试起来。我很感激在座的各位都在这里试一试。
此前,Gemini绘画在种族问题上翻车。面对现场开发者对Gemini图像生成事件的提问,布林诚恳认错:
我们在图像生成上确实出了问题。我认为这主要是由于没有进行彻底的测试。我想这些图片促使很多人深入测试了基础文本模型。文本模型有两个独立的效应。
一方面,坦白讲,如果你深入测试任何文本模型,无论是我们的、
ChatGPT
,还是你手头的,它可能会说出一些相当奇怪、看似极左的言论。任何模型,只要你尝试得足够深入,都可能被诱导进入那种情况。但也要公正地说,那个模型中有一些我们还无法完全理解的部分,比如为什么在很多情况下,它的输出结果会偏向“左”。这并不是我们的初衷。但如果你从上周开始尝试的话,我们已经覆盖的测试案例至少应该有 80% 的提升。所以,我希望你们都去试一试。这应该会产生很大的影响。
你们正在试用的这个版本Gemini 1.5 Pro,并没有在公众端的应用中,我们曾经的 Bard,并不应该有太大的影响,除了一个普遍的情况:如果你对任何 AI 模型进行彻底的测试,总会出现一些奇特的边缘情况。但即使这个版本并未进行全面的测试,我们并不期待它会有强烈的特定倾向。我想我们可以尝试一下。尽管今天我们更期待的是试验长上下文和一些技术特性。
深入模型技术与安全
在现场,布林多次提及了他对AI大模型发展的兴奋与期待。他的再次公开露面,将他对AI的热情尽现,他表示自己很热衷于研究AI、乐于使用AI工具,并持续精进AI大模型。
Q:随着当前多模态大模型的发展,谷歌是否考虑视频聊天GPT?
布林:多模态模型上无论是输入还是输出,都非常令人兴奋。在视频、音频上,我们进行了早期实验,这是一个令人兴奋的领域。你们还记得那个小鸭子的视频吗?虽然视频中已经充分声明了它并不是实时的,它还是让我们陷入了麻烦。我们确实做过一些工作,比如审核图片,逐帧分析,目前我觉得还没有现成的实时展示。
Q:你是否亲自为某些项目编写代码?
布林:说实话,我并未真正编写过代码。虽然这并不是你会觉得非常厉害的代码,但有时我还是会调试一下,努力理解一个模型的工作方式,或者在不同的区域分析一下性能。尽管这只是些小事情,但让我感觉参与其中。由于我现在的编程技能有些生疏,我会使用AI机器人来帮我编写代码,其工作效果出奇得好。所以,你应该会对此感到满意。
Q:作为 Gemini 上开发应用的开发者,我们想知道你对哪类应用最感兴趣?
布林:我最感兴趣的是哪种应用程序?我认为现阶段只是获取信息。对于我们试图编辑的版本,1.5 Pro,长上下文测试是我们真正在尝试的东西。无论你是在转储大量代码还是视频,我刚看到现场有人这样做……我真的不明白模型是如何做到这一点的。
Q:你认为我们是否能够真正理解这些模型是如何工作,或者它们仍然是黑匣子?
布林:我认为可以学会去理解它。当你面对这些模型时,你可以测试出一千种不同的性能。一方面,它能做到是非常令人惊讶的。另一方面,如果你想了解某个特定的能力,你可以回溯,我们可以查看在代码和视频之间,每一层的注意力是如何转移的。
就我个人而言,我不知道研究人员在做这种事情上走了多远,但需要大量的时间和研究才能真正剖析为什么一个模型能够做到一些事。我认为我们可以理解它,也许已经有人正在理解它,但大部分的精力都在寻找模型的错误之处,而不是揭示它失败的原因。
Q:在计算机科学中,一个概念叫反射性编程,也就是程序能够查看甚至修改自己的源代码。在AGI文献中,有递归自我改进这样的概念。那么,你对于极长的上下文窗口以及语言模型能够修改自己的提示有什么看法呢?这些又与自主性和通用人工智能的建设有何关联?
布林:我认为让这些真正的自我改善是非常令人兴奋的。记得在读研究生时,我写了个游戏,它就像你正在穿越一个迷宫,但你射击的墙壁对应的是内存的位,并会翻转这些位。游戏的目标是尽快让它崩溃,这虽然不能直接回答你的问题,但这是一个自我修改代码的例子,只不过它并没有特别有用的目的。不过,我还是会让人们进行游戏,直到电脑崩溃。
我认为开环(open loop)控制可能会对某些非常有限的领域起作用,若没有人为干预引导,我相信它可以实现一定程度的持续改进。但我认为我们暂时还无法在一些重要的领域实现这一点。首先,一百万长度的上下文对于大型代码库来说还远远不够,对于启动整个代码库可能有难度,但你可以先进行检索,然后进行修改编辑。我个人可能没有进行足够的实践,但至少在目前,我还没有看到复杂的代码会自我迭代并进行改进,不过这的确是一件令人振奋的事,借力人类的辅助,绝对有能力做到。比如,我现在就会使用 Gemini 去尝试处理一些 Gemini 的代码,但还没有进行过非常开环的深度工作。
Q:训练成本非常高,你对此怎么看?
布林:成本肯定很高,这是像我们这样的公司必须应对的事情,但其长期效用是无可比拟的。就像如果你用人类生产力的水平来衡量它,若一周内为某人节省了一个小时的工作时长,那么这个小时就很有价值了。有很多人正在或者将要使用,这是对未来的一个很大的赌注。
Q:我们每天都要处理数以千计的客服聊天记录,你说过 GPT-4 是唯一真正有价值的,现在看起来 Gemini 也是一种非常有效的方法。非常感谢你的付出。看起来它的成本更低,效果甚至更好,响应非常迅速。所以我想问的是,它会一直保持这个水平吗,还是你们计划在将来提高价格呢?
布林:我们不会。实际上,我并没有掌握定价的信息。我预计我们不会提高价格,有两个主要的原因。首先,我们在模型推理方面一直在进行优化,每个月都有新的想法和优化方法累积起来,比如有 10% 的改进,有 20% 的改进,这样积累起来就可以产生显著的效果。其次,我认为我们的TPU在进行模型推理方面表现得非常好,虽然它们不如GPU,但对于某些特定的工作负载,TPU更适配。同时,另一个重要的影响因素是我们能够使生成的模型越来越小而且更有效,无论是架构的变化,训练的变化,还是其他的一些因素,都使得模型即使在同样的规模下也越来越强大,所以我不认为价格会上涨。
Q:是在设备上进行模型训练吗?
布林:是的,在设备上运行的模型,我们已经将其部署到安卓版的 Chrome和Pixel手机,我认为即使是Chrome现在也运行了一个相当不错的模型。我们刚刚开源了Gemma,这是一个非常小的模型,它做到低延迟的,不依赖网络连接,而且小模型也可以调用云端的大模型,所以我认为在设备上运行模型真的是一个很好的选项。
Q:你认为这一代的科技有哪些垂直行业会受到很大影响,创业公司应该考虑去挖掘一下这些行业?
布林:哪些行业有这么大的机会?我认为这很难预测。人们会想到一些明显的行业,比如客户服务,冗长文档的分析,以及工作流程自动化,这些都是显而易见的。但我认为也会有不明显的领域, 这些我无法预测,尤其是看到这些多模态模型,以及它们所拥有的令人惊讶的能力时。这就是你们所有人在这里的原因,正是你们这些富有创造力人,要来找出这些机会所在。
Q:你是如何展示 AI 在医疗保健和生物技术方面的应用的?
布林:AI 在医疗保健和生物技术方面有很多应用场景。在生物技术方面,比如研究酒精等物质,理解生命的基本机制,你可以看到 AI 在这方面的应用越来越广泛,无论是研究分子的物理结构,还是阅读和总结外部的科研文章。从患者的角度来看,虽然在这个领域我们还有很长的路要走,因为我们不能仅依赖 AI,AI 也会犯错误。但我认为未来 AI 可以提供更个性化的医疗服务,AI 能够更深入地研究个体,包括他们的病史,扫描结果等,可能在医生的辅助下。实际上,这可能只是更准确的诊断,更优质的建议等等。
Q:你们是否在致力于研究非Transformer架构,以更好地进行推理和规划?
布林:我正在关注非Transformer架构。我认为有很多种方式可以进行改进,但我相信大多数人还是认为这些改进仍然基于Transformer架构。我相信在你们公司内肯定有人对此有更深的理解。尽管过去六七年间,Transformer取得了很大的进步,但这并不意味着未来不会出现新的颠覆性架构。另外,可能只是一些逐步的改变,比如稀疏性等,这些仍然是Transformer的一部分,也可能带来革命性的变化。所以,我没有一个确定的答案。但是,对于推理类问题是否存在某种瓶颈呢?使用Transformer有瓶颈吗?是的。有许多理论研究揭示了 Transformer的局限性。我不知道这些理论局限性如何应用到现代的 Transformer上,因为现代的Transformer通常不满足这些理论工作的假设,所以可能并不适用,但我也可能会尝试其它架构,这也是很酷的事情。”
Q:我们能在多大程度上乐观地引入文本生成模型和其产生幻觉的能力,以及你如何看待传播中潜在的伦理问题?
布林:这确实是当前面临的一个重大问题。随着时间的推移,我们减少了人工智能的误判。我非常期待误判率能够接近零的突破。但是,我们不能仅依赖突破。我们将继续做各种能做的事,将错误率持续降低。显然,你不希望你的 AI 机器人编造事实,但他们也可能被误导。这涉及到许多复杂的政治问题,关于不同的人如何看待真假信息。这引发了一场广泛的社会讨论。另一个可能需要考虑的问题是,AI 是否可能故意代表他人传播假信息。从这个角度来看,制造一个错误频发的 AI 其实是很容易的。你完全可以通过调整任何一个开源文本模型,让其生成各类错误信息。因此,我认为检测人工智能生成的内容是重要领域,我们也在致力于此,至少可以判断出某些内容是否由 AI 生成。
Q:如果很多人开始使用这些智能体(agent)来编写代码,我想知道这将如何影响 IT 安全。你可能会争辩说,就像我们在编写涵盖所有情况的测试套件方面做得更好一样。您对此有何看法?对于像 IT 安全这样的普通程序员来说,需要有人为用户检查人工智能所编写的代码吗?
布林:确实你们都在选择职业,我想你应通过算命先生来回答这个问题。不过今天使用人工智能来编写单元测试确实很简单,这是人工智能做得很好的事情之一。我的希望是人工智能会让代码更安全,而不是更不安全。在安全领域,人们懒惰的对此有影响,而人工智能擅长的就是不懒惰。因此,人工智能的安全性可能是一个净赌注。但我不会为此阻碍你从事 IT 安全职业。
AGI与谷歌的未来
对于AGI的构建和未来的畅想,谢尔盖布林表现出难以掩饰的兴奋。业内普遍认为,人型机器人将是AGI的最佳载体。现场开发者也提出了有关人型机器人发展的问题。对此,谢尔盖表示他本人将来不会投入硬件研究,但看好人型机器人的未来。
Q:你想构建AGI吗?
布林:不同的人对此有不同的观点。但对我来说,推理方面真的很令人兴奋和惊喜的。我退休了,只是因为人工智能的发展。这太令人兴奋了。作为计算机科学家,光是看到这些模型年复一年能做的事,就令人惊喜。所以答案是肯定的。
Q:目前有没有类似人形机器人方面的进展?就像此前Google X在2015至2016年间颇有成果。
布林:实际上,我们这些年来做过很多类人机器人的研究,也收购和出售了许多机器人公司。现在有很多公司都在进行类人机器人的研究,我们内部也有一些团队在从事各种形式的机器人研究。那么我对此有何看法?老实说,我不太清楚,因为在这波新的 AI 浪潮之前,我主要是在做应用方面的工作,那时的重点更多在硬件项目上。但我发现,无论是从技术还是商业角度来看,硬件的难度要大得多。我并不是阻碍人们制造硬件,肯定需要有人来做。与此同时,软件和人工智能发展得如此迅速,对我而言就像是火箭一般。如果我被制造当下的硬件所分心,那可能不是最好的选择,相比之下,下一级的 AI 可能会在未来为我设计一个更加先进的机器人。那真是太棒了。在 Google,有很多人正致力于此。
Q:谷歌的广告收益和商业模式会有什么变化?
布林:在谷歌的所有人中,我并不太担心商业模式的转变。25 年的时间里,我们为每个人免费提供世界一流的信息搜索。这得到了广告的支持。在我看来,这很棒。这对世界来说是件好事,能让非洲孩子和美国总统一样容易获取基本信息。与此同时,我预计商业模式将随着时间的推移而发展。也许依然是广告,因为无论哪种广告类型效果都会更好,人工智能可以更好地定制广告付费模式。即使移步至Gemini Advanced,也有公司的广告付费模式。本质上,AI正在提供巨大价值。取代人工智能所需的脑力劳动,无论是时间、劳动力还是财产等,都是巨大的。在搜索领域,也是同样的道理。所以只要有巨大的价值产生,我们就找到清晰的商业模式。
Q:很久以前谷歌推出了谷歌眼镜,现如今苹果有Vision Pro。我认为谷歌眼镜的推出在之前还为时过早,你会考虑再试一次吗?
布林:我有一些谷歌眼镜,但我觉得我之前做了一些错误的决定。是的,它肯定是很早的,也许在技术整体发展的早期,我之前试图把它作为一个产品来推动,但事后看来它更像是一个原型。我对当时对消费硬件的供应链知之甚少,还有一堆其他的想法。我仍然喜欢这种轻量级、极简的显示屏,你可以整天佩戴,而不是我们现在使用的那些笨重的设备。这只是我个人的偏好。不论是Apple Vision还是Oculus,我都对它们的性能印象深刻。
Q:你是否认为 Gemini 在扩展能力方面有可能向3D或者空间计算,甚至是模拟世界的方向发展?特别是在超过了谷歌眼镜之后,它已经拥有了一些相关的产品,比如谷歌地图、街景、AR核心等等。你是否认为这些产品之间存在某种协同效应?”
布林:这是一个好问题。我之前并未考虑过这个问题,我们没有理由不在其中加入更多类似的3D元素,就像是另一种3D数据模式。所以可能会有一些有趣的事情发生。我也可以尝试开启其他功能。顺便说一下,也许有人已经在 Gemini 中尝试这样做了。
Q:你认为谷歌搜索将走向何方?
布林:对于搜索这是一个极其激动人心的时刻,因为通过人工智能,搜索引擎回答问题的能力要强太多。极强的检索能力发展机遇,诞生在检索条件更具体的情况。比如,你会问一个非常专业的问题,或与你个人情况有关的问题,这个问题此前在网上没有人输入过。毕竟,对于万人输入过并深入思考过的问题,检索答案并不是什么难事。但对于你关心的独特且具体的问题,这是一个巨大的机遇,你可以想象你眼中的各种产品以不同方式去交付呈现。在这种情况下,人工智能是一个亲切的邻居,它只会做得更好。