大家好,这里是和你们一起探索 AI 的花生。
推荐阅读
5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」,会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了此次更新升级的要点,并实时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功能,展示了其强大的实时多模态交互性能,今天我们就一起来看看此次发布会的具体内容。
OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会
此次发布会最大的亮点就是新旗舰模型 GPT-4o 的推出,其中「o」是 “omni(全能)”的意思。GPT-4o 可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,且这些内容的反馈都是实时的,因此使用 GPT-4o 就像和真人进行互动那样轻松自然。
比如实时语音交互,之前 ChatGPT 的进行语音对话会有几秒的延迟,中间的等待时间总让人觉得不自然。而 GPT-4o 能在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在对话中的响应时间相近。并且即使是面对回答被突然中断、多人同时谈话等复杂的情况,GPT-4o 也能完美理解。
这样的提升主要得益于新的模型训练方式。之前 ChatGPT 的语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息--它不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。
而 GPT-4o 使用的是在文本、视觉和音频领域端到端训练的新模型,这意味着它可以直接理解音频或者视频一切内容,比如通过你的语气、语速判断你的状态,并做出相对于的反应。官方演示中工作人员特意做出了一个呼吸急促的行为,GPT-4o 能正确识别并理解这种行为对“深呼吸”来说是不对的,还给出的正确的建议。
基于 GPT-4o 的情绪感知能力、快速反应能力和强大的理解力,它能独立处理的场景就丰富了。它可以是一个完美的情感伴侣,给你讲故事、为你唱歌;也可以是一个专业的助理,可以在多人对话中扮演翻译,实时将一种语言翻译成另一种方便你们沟通;或者是作为客服为用户提供专业、耐心的解答帮助。GPT-4o 它的回答方式、说话的语速语调也可以全凭你的喜好来设置、真实灵活的表现完全不会让你觉得它是一个机器人。
这样强大的实时交互能力同样能在视觉上发挥作用。GPT-4o 可以根据你的面部表情判断你的情绪,从而更好地和你交谈;辅导你学习一门新语言或者一步步解开一个方程式;根据你将要去的场合对你的穿搭给出建议;甚至可以充当盲人的 “眼睛”,描述周围发生的一切并为他的下一步动作给出建议,比如该什么时候招手叫停一辆出租车。由此可见 GPT-4o 将给我们的生活带来多么巨大的改变。
除了语音和视觉交互功能,GPT-4o 在文本及图像的生成处理上性能也有大幅提升。根据传统基准测试,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的级别。有网友测试后反映 GPT-4o 在长文本的处理上表现有明显提升,可以快速地分析一篇 20 万字的英文文稿,并对其内容进行总结、人物背景进行分析,这点是其他大模型无法做到的。
GPT-4o 的图像处理功能更是令人惊喜,不但能识别/分析图像内容、根据文本生成准确的英文文本内容,还能充当 “设计师” 完成一些高阶的图像编辑合成任务。比如根据指令对文本进行排版,将照片动漫化、生成创意字体、根据一个 logo 生成样机模板或者周边、根据图像进行 3D 重建、设计一个角色并生成一系列能保持角色形象一致性的场景等等,之前大家说的 “用嘴做设计” 的梦想好像真的要实现了。
根据指令对文本进行排版
生成角色以及一系列连贯场景
根据图像合成海报
根据图像进行 3D 重建
此次发布会上的另一要点是 ChatGPT 将推出桌面端应用,目前已经有 Mac 原生应用可以安装。客户端体积 134 MB,需要有 ChatGPT 付费账号以及一些网络技术基础才能顺利用上,Windows 客户端则预计会在晚些时候推出。
桌面端 ChatGPT 将帮助我们更便捷的使用它的 AI 服务。使用键盘快捷键 Option + Space 可以立即向 ChatGPT 提问,发送网页截图或者进行语音对话也更方便,更大地用处是用户可以直接将整个屏幕分享给 ChatGPT,让它根据屏幕内容实时处理人物,比如检测你的代码写作过程;参加你的线上会议并记录内容、总结要点;以及对中国家长来说非常需要的 "辅导孩子写作业"。
一般来说越强大的性能往往意味着越高昂的获取代价,但 GPT-4o 的获取门槛并没有提高。现在在 ChatGPT 网页端,免费用户也可以体验 GPT-4o 的文本和图像功能,不过额度有限,当达到限制后将自动切换到 GPT-3.5 以继续和用户对话;付费用户的额度则是免费用户的 5 倍。未来几周内 OpenAI 还将在 ChatGPT Plus 中推出新版语音模式的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。官方还计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。
其实在此次发布会中,Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity(确保人工智能造福全人类),OpenAI 首席执行官 Sam Altman 也在发布会后单独发表了一篇博客,同样强调 “我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们” 。而他们的团队也一直致力于此,努力从各方面降低人们使用 AI 的困难。
比如目前用户可以不用注册就使用 ChatGPT;CHatGPT 的 WebUI 界面也有了优化,以提供给用户更简单友好的使用体验; 还新增 “临时聊天” 功能,允许用户和 ChatGPT 进行一次性对话,该对话的聊天内容不会被保存到聊天记录之中,可以帮助用户避免隐私问题;而桌面端 ChatGPT 的推出则让人与 AI 的交互变得更加简单直接。
之前 GPT-3.5 已经免费提供给了所有用户使用,GPT4o 因为在文字方面实现了成本降低,尤其是对于英文以外的语言来说减少了 token 的使用,使得服务更加经济,所以 OpenAI 能够将 GPT-4o 也免费带给用户,包括 GPTs 未来也将免费开放。所有人都能轻松用上 GPT-4 级别的人工智能,还没有任何广告或其他干扰,这是 OpenAI 践行其“AI 普惠” 使命的有力证明。
GPT-4o 的出现不仅意味我们又多了一个强大可用的多模态模型,更是展示了未来人机交互的一种新范式。Sam Altman 称 GPT-4o 的语音/视频模式是他用过的最好的计算机界面,还用科幻电影 《Her》来指代 GPT-4o 给自己的感受(《Her》是一部讲述人与人工智能相爱的科幻爱情电影,里面有一个人工智能 “萨曼莎”,是一个比人类更懂人类的 AI)。或许未来每个人都会有一个专属 AI 助理,我们将把自己的双手和眼睛从电子屏幕上解放出来,仅通过语音交互就完成大部分的工作和日常任务,而本是科幻电影里的场景也会成为真正的现实。
本期为大家介绍的 OpenAI 春季发布会的相关内容,喜欢的话记得点赞收藏支持一波,我会有更动力为大家推荐新的干货内容~ 想了解更多 AI 新鲜资讯的话,欢迎关注 优设 AI 自学网 和优设微信视频号,每天都会分享最新的 AIGC 资讯和神器,让你轻松掌握 AI 发展动态。
另外我最新制作的课程《零基础 AI 绘画入门》已经上线,课程包含对 Midjourney 及 Stable Diffusion WebUI 的系统入门教学,并提供配套资源、各类实用工具和提示词库,能帮助初学者快速掌握这 2 款目前最热门的 AI 工具,感兴趣的小伙伴可以戳的链接了解详情:夏花生的《零基础 AI 绘画录播课》。
也欢迎大家扫描下方的二维码加入“优设 AI 知识交流群”,和我及其他设计师一起交流学习 AI 知识~
推荐阅读:
参考资料:
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI绘画创意与实战
已累计诞生 655 位幸运星
发表评论 已发布2条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓