OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

2024/05/16 推荐： 夏花生阅读 4.0w 评论有奖阅读本文需 12 分钟

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

大家好，这里是和你们一起探索 AI 的花生。

如何使用ChatGPT定制各种实用小工具？我总结了6个！

ChatGPT 的能力让人难以想象，限制 ChatGPT 能力的只会是使用者的想象力。

5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」，会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了此次更新升级的要点，并实时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功能，展示了其强大的实时多模态交互性能，今天我们就一起来看看此次发布会的具体内容。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会

一、最新旗舰模型 GPT-4o

此次发布会最大的亮点就是新旗舰模型 GPT-4o 的推出，其中「o」是 “omni（全能）”的意思。GPT-4o 可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出，且这些内容的反馈都是实时的，因此使用 GPT-4o 就像和真人进行互动那样轻松自然。

比如实时语音交互，之前 ChatGPT 的进行语音对话会有几秒的延迟，中间的等待时间总让人觉得不自然。而 GPT-4o 能在 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，与人类在对话中的响应时间相近。并且即使是面对回答被突然中断、多人同时谈话等复杂的情况，GPT-4o 也能完美理解。

当视频在手机上无法加载，可前往PC查看。

这样的提升主要得益于新的模型训练方式。之前 ChatGPT 的语音模式是由三个独立模型组成的流水线：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息--它不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。

而 GPT-4o 使用的是在文本、视觉和音频领域端到端训练的新模型，这意味着它可以直接理解音频或者视频一切内容，比如通过你的语气、语速判断你的状态，并做出相对于的反应。官方演示中工作人员特意做出了一个呼吸急促的行为，GPT-4o 能正确识别并理解这种行为对“深呼吸”来说是不对的，还给出的正确的建议。

当视频在手机上无法加载，可前往PC查看。

基于 GPT-4o 的情绪感知能力、快速反应能力和强大的理解力，它能独立处理的场景就丰富了。它可以是一个完美的情感伴侣，给你讲故事、为你唱歌；也可以是一个专业的助理，可以在多人对话中扮演翻译，实时将一种语言翻译成另一种方便你们沟通；或者是作为客服为用户提供专业、耐心的解答帮助。GPT-4o 它的回答方式、说话的语速语调也可以全凭你的喜好来设置、真实灵活的表现完全不会让你觉得它是一个机器人。

这样强大的实时交互能力同样能在视觉上发挥作用。GPT-4o 可以根据你的面部表情判断你的情绪，从而更好地和你交谈；辅导你学习一门新语言或者一步步解开一个方程式；根据你将要去的场合对你的穿搭给出建议；甚至可以充当盲人的 “眼睛”，描述周围发生的一切并为他的下一步动作给出建议，比如该什么时候招手叫停一辆出租车。由此可见 GPT-4o 将给我们的生活带来多么巨大的改变。

当视频在手机上无法加载，可前往PC查看。

除了语音和视觉交互功能，GPT-4o 在文本及图像的生成处理上性能也有大幅提升。根据传统基准测试，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的级别。有网友测试后反映 GPT-4o 在长文本的处理上表现有明显提升，可以快速地分析一篇 20 万字的英文文稿，并对其内容进行总结、人物背景进行分析，这点是其他大模型无法做到的。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

GPT-4o 的图像处理功能更是令人惊喜，不但能识别/分析图像内容、根据文本生成准确的英文文本内容，还能充当 “设计师” 完成一些高阶的图像编辑合成任务。比如根据指令对文本进行排版，将照片动漫化、生成创意字体、根据一个 logo 生成样机模板或者周边、根据图像进行 3D 重建、设计一个角色并生成一系列能保持角色形象一致性的场景等等，之前大家说的 “用嘴做设计” 的梦想好像真的要实现了。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

根据指令对文本进行排版

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

生成角色以及一系列连贯场景

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

根据图像合成海报

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

根据图像进行 3D 重建

二、新的桌面应用和 WebUI

此次发布会上的另一要点是 ChatGPT 将推出桌面端应用，目前已经有 Mac 原生应用可以安装。客户端体积 134 MB，需要有 ChatGPT 付费账号以及一些网络技术基础才能顺利用上，Windows 客户端则预计会在晚些时候推出。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

桌面端 ChatGPT 将帮助我们更便捷的使用它的 AI 服务。使用键盘快捷键 Option + Space 可以立即向 ChatGPT 提问，发送网页截图或者进行语音对话也更方便，更大地用处是用户可以直接将整个屏幕分享给 ChatGPT，让它根据屏幕内容实时处理人物，比如检测你的代码写作过程；参加你的线上会议并记录内容、总结要点；以及对中国家长来说非常需要的 "辅导孩子写作业"。

当视频在手机上无法加载，可前往PC查看。

三、易用性提升与 AI 普惠

一般来说越强大的性能往往意味着越高昂的获取代价，但 GPT-4o 的获取门槛并没有提高。现在在 ChatGPT 网页端，免费用户也可以体验 GPT-4o 的文本和图像功能，不过额度有限，当达到限制后将自动切换到 GPT-3.5 以继续和用户对话；付费用户的额度则是免费用户的 5 倍。未来几周内 OpenAI 还将在 ChatGPT Plus 中推出新版语音模式的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。官方还计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

其实在此次发布会中，Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity（确保人工智能造福全人类），OpenAI 首席执行官 Sam Altman 也在发布会后单独发表了一篇博客，同样强调 “我们使命的一个关键部分是将非常强大的人工智能工具免费（或以优惠的价格）提供给人们” 。而他们的团队也一直致力于此，努力从各方面降低人们使用 AI 的困难。

比如目前用户可以不用注册就使用 ChatGPT；CHatGPT 的 WebUI 界面也有了优化，以提供给用户更简单友好的使用体验；还新增 “临时聊天” 功能，允许用户和 ChatGPT 进行一次性对话，该对话的聊天内容不会被保存到聊天记录之中，可以帮助用户避免隐私问题；而桌面端 ChatGPT 的推出则让人与 AI 的交互变得更加简单直接。

之前 GPT-3.5 已经免费提供给了所有用户使用，GPT4o 因为在文字方面实现了成本降低，尤其是对于英文以外的语言来说减少了 token 的使用，使得服务更加经济，所以 OpenAI 能够将 GPT-4o 也免费带给用户，包括 GPTs 未来也将免费开放。所有人都能轻松用上 GPT-4 级别的人工智能，还没有任何广告或其他干扰，这是 OpenAI 践行其“AI 普惠” 使命的有力证明。

GPT-4o 的出现不仅意味我们又多了一个强大可用的多模态模型，更是展示了未来人机交互的一种新范式。Sam Altman 称 GPT-4o 的语音/视频模式是他用过的最好的计算机界面，还用科幻电影《Her》来指代 GPT-4o 给自己的感受（《Her》是一部讲述人与人工智能相爱的科幻爱情电影，里面有一个人工智能 “萨曼莎”，是一个比人类更懂人类的 AI）。或许未来每个人都会有一个专属 AI 助理，我们将把自己的双手和眼睛从电子屏幕上解放出来，仅通过语音交互就完成大部分的工作和日常任务，而本是科幻电影里的场景也会成为真正的现实。

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

本期为大家介绍的 OpenAI 春季发布会的相关内容，喜欢的话记得点赞收藏支持一波，我会有更动力为大家推荐新的干货内容~ 想了解更多 AI 新鲜资讯的话，欢迎关注优设 AI 自学网和优设微信视频号，每天都会分享最新的 AIGC 资讯和神器，让你轻松掌握 AI 发展动态。

另外我最新制作的课程《零基础 AI 绘画入门》已经上线，课程包含对 Midjourney 及 Stable Diffusion WebUI 的系统入门教学，并提供配套资源、各类实用工具和提示词库，能帮助初学者快速掌握这 2 款目前最热门的 AI 工具，感兴趣的小伙伴可以戳的链接了解详情：夏花生的《零基础 AI 绘画录播课》。

也欢迎大家扫描下方的二维码加入“优设 AI 知识交流群”，和我及其他设计师一起交流学习 AI 知识~

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放