前阵子写过一个关于谷歌旗下DeepMind的AI系统的创新故事,他们的AlphaFold解决了困扰人类长达五十年的蛋白质折叠难题。
不曾想,才短短两周时间过去,DeepMind最新的AI程序MuZero又有了新进展,它可以在游戏或任务中获得“超人性能”,无需了解规则便可快速掌握该游戏或疑难任务。尤其在视频压缩领域的编码方式上,有了惊人的进展。
位于伦敦的DeepMind,早在2019年11月19日就首次发布了MuZero的详细信息,但一直等到《自然》杂志上的论文发表后,才真正开始了视频压缩方面的讨论。
像研究中心早期的其他人工智能一样,MuZero精通围棋,国际象棋,将棋和标准Atari电子游戏的数十种玩法。它的算法跟AlphaZero类似。
但是与AlphaZero不同,MuZero必须自己制定规则。它将AlphaZero在国际象棋和将棋中的表现相匹配,改进了围棋中的表现,并因此创造了新的世界纪录。它还通过掌握57种Atari游戏中的街机学习环境、复杂的视觉领域等方面,改进了现有技术。
说是算法类似,实质上,MuZero直接使用了来自AlphaZero代码,并共享其设置搜索超参数的规则。但两者确实是有一些不同的。
AlphaZero的计划过程是使用知道游戏规则且必须由人明确编程的模拟器,和预测未来位置的政策价值神经网络。并且,AlphaZero在对搜索树中的状态转换进行建模,在每个节点上可用的操作以及树的分支终止时,都使用了游戏规则相关的全面知识。
而MuZero却无法访问完美的规则集,甚至对规则一无所知。它将这个规则集替换成用于搜索树状态转换建模的学习型神经网络。
MuZero和AlphaZero的不同还表现在游戏模型方面。
AlphaZero有一个单一的从棋盘状态到预测的游戏模型;MuZero则具有用于表示当前状态和状态动态的单独模型,以及基于状态表示对未来头寸的政策和价值的预测。
MuZero的隐藏模型比较复杂,可能会在其中隐藏计算;在成功训练的MuZero实例中探索隐藏模型的细节可能是未来探索的主要途径和方向。
AlphaZero专为可能赢,平或输的两人游戏而设计。而MuZero的目标不是在两人游戏中全力以赴并分出胜负,它更适用于标准的强化学习方案,包括具有连续中间奖励的单主体环境。
在不使用规则的情况下,MuZero主要是通过自我比赛,以及与AlphaZero比赛,进行多项常规或残局训练。经过训练的算法虽然使用与AlphaZero相同的卷积和残差算法,但搜索树中每个节点的计算步骤减少了20%。
所以,MuZero是AlphaZero算法的高性能计划与无模型强化学习方法的结合。这种组合可以在经典计划体制中进行更有效的训练,比如围棋;同时还可以处理每个阶段的输入复杂领域,比如视觉视频游戏。
DeepMind的首席研究科学家David Silver在接受外媒BBC的采访中提到,现实世界混乱而复杂,没有人会给他们提供有关其工作原理的规则手册。随即又强调称,人类有能力制定下一步的计划和策略。
David Silver说他们第一次真正拥有了一个系统,能够对世界的运作方式建立自己的理解,并利用这种理解来进行复杂的前瞻性计划,就像以前在象棋这样的游戏中所见过的。
David Silver夸赞MuZero可以从零开始,仅通过反复试验就可以发现世界规则,并使用这些规则来实现某种超人的表现。
英国南安普敦大学计算机科学教授,政府AI理事会成员Wendy Hall表示,DeepMind的工作成果令人震惊,这项工作标志着“向前迈出了重要的一步”。
Wendy Hall也提到了一个顾虑:尽管DeepMind团队不断努力改善算法的性能并应用结果以造福社会,但他们并未花太多精力思考工作可能带来的意外后果。
她补充道,“我不认为喷气发动机的发明人在发明时便在考虑全球污染的问题。所以我们必须在AI技术的发展中取得一些平衡。”
总的来说,MuZero代表了DeepMind公司在深度强化学习方面的最新成功。该技术使用多层神经网络,让机器通过反复试验的过程来自学新技能,获得成功的“奖励”,而不是被告知要做什么。
目前,MuZero已经投入实际使用,正在寻找一种全新的视频编码方式,这可能会大大降低谷歌旗下的YouTube视频网站的技术成本。