OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实时推理，与人自然对话，功能秒杀Siri

59 0 0

导读：GPT-4o可以对音频、视觉和文本进行实时推理，在232毫秒内响应音频输入，与人类在对话中的响应时间相似。 GPT-4o的文本和图像功能开始在ChatGPT中免费推出，音频模式存在各种新风险而未公开，未来音频输出将仅限于选定的预设声音，并要遵守安全政策。 GPT-4o…

GPT-4o可以对音频、视觉和文本进行实时推理，在232毫秒内响应音频输入，与人类在对话中的响应时间相似。

GPT-4o的文本和图像功能开始在ChatGPT中免费推出，音频模式存在各种新风险而未公开，未来音频输出将仅限于选定的预设声音，并要遵守安全政策。

GPT-4o生成图像：机器人正在输入日志条目，正文很大，清晰易读，机器人的手在打字机上打字。

5月14日，OpenAI发布新产品，不是AI搜索引擎，也不是GPT-5，而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”，意为全能，与现有模型相比，它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理，接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。

在GPT-4o之前，用户可以使用Voice Mode（由三个独立模型组成）与ChatGPT通话，但平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。原理是Voice Mode利用一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息，例如GPT-4不能直接观察音调、多个说话者或背景噪音，也不能输出笑声、歌声或情感表达。利用GPT-4o，OpenAI训练了一个跨文本、视觉和音频的端到端新模型，这意味着所有输入和输出都由同一个神经网络处理，这是OpenAI第一个结合所有这些模式的模型，OpenAI仍在探索模型的功能及其局限性。

新语音模式是一种语音聊天助手。据Business Insider（商业内幕）报道，它能够与用户进行自然的来回对话，能够带着情感说话，它可以假装兴奋、友好，甚至讽刺。这可以秒杀Siri，用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如“嘿Siri!”来使用语音功能。

OpenAI首席执行官山姆奥特曼（Sam Altman）表示，新的语音和视频模式是他用过的最好的电脑界面，感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说，与电脑交谈从来都不是一件很自然的事，现在它做到了。随着我们增加（可选的）个性化、访问你的信息、代表你采取行动的能力等等，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往任何时候都多的事情。”

从性能来看，OpenAI表示，在传统基准测试中，GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能，同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当，在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作，以识别新增加的模式引入或放大的风险，提高与GPT-4o互动的安全性。

OpenAI表示，将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险，目前公开的是文本和图像输入以及文本输出，在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作，例如音频输出将仅限于选定的预设声音，并将遵守现有安全政策。

目前，GPT-4o的文本和图像功能开始在ChatGPT中免费推出，Plus用户可以享受到5倍的调用额度。在接下来的几周内，OpenAI将在ChatGPT Plus中推出Voice Mode新版本，该版本带有GPT-4o。

# 人工智能应用