降维打击所有模型！OpenAI正式发布o3

2024/12/23 推荐： 数字生命卡兹克阅读 1.9w 评论有奖阅读本文需 8 分钟

降维打击所有模型！OpenAI正式发布o3

往期AI圈重磅消息：

碾压Sora！谷歌全新发布AI视频模型Veo2+AI绘图Imagen3

更多AI干货：大半夜的，OpenAI 的垃圾直播没任何看头，就发了个个性化的 AI 搜索。

阅读文章 >

OpenAI 的 12 天直播，终于来到了最终章。奥特曼，也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。

OpenAI o3。

降维打击所有模型！OpenAI正式发布o3

又一次超群，又一次把模型的能力，推到了新的高度。

也向全世界证明了，OpenAI，依然在铁王座上牢不可摧。

我也想起了 OpenAI 研究员在发布 o1 之前的那句话：

“我们通往 AGI 的路上，已经没有任何阻碍了”

之所以 OpenAI 直接发布 o3 没有 o2，原因也挺简单的。

因为跟英国电信服务提供商 O2 可能存在版权或商标冲突，所以直接跳过了。。。

直接到 o3。

而 OpenAI 直播一完，X 上基本就沸腾了。

降维打击所有模型！OpenAI正式发布o3

o3 的能力，对现在所有模型，几乎都直接是降维打击。

看下 o3 的能力吧。

一些粗的评测集简单过一下。

降维打击所有模型！OpenAI正式发布o3

左边的是软件工程考试（SWE-Bench Verified），这就像是一个考写程序的考试，比如你写一个软件要它快速、准确，还不能有 bug（小错误）。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。

o3 的成绩：71.7%，比 o1 还强了不少。

右边的那个基准比较猛，Codeforces，一个全球著名的编码竞赛平台。

o3 的得分是 2727，这个得分，相当于整个榜单的第 175 名，已经超越了 99.99%的人类了。

降维打击所有模型！OpenAI正式发布o3

o1 的代码能力已经强到爆炸了，而 o3，又向 AGI 的山顶，前进了一大步。

降维打击所有模型！OpenAI正式发布o3

数学竞赛 AIEM 2024 和博士级科学考试 GPQA Diamond。

AIEM 2024 接近满分，如果我没记错的话，这应该也是第一次 AI 能达到有 AIEM 接近满分的水平。

博士级科学考试有进化，但没数学和编程进化的这么猛。

接下来的这个数学基准比较有趣一点。

降维打击所有模型！OpenAI正式发布o3

FrontierMath，Epoch AI 开发的一个数学基准测试，由 60 多位顶尖数学家的合作开发，旨在评估人工智能在高级数学推理方面的能力。

而且为了避免数据污染，所有的题目都是原创的且从来没有发布过的新题目。

之前 GPT-4 和 Gemini 1.5 Pro 这种模型去评估的时候，成功功率不足 2%，与其他传统数学基准（如 GSM-8K 和 MATH）中超过 90%的成功率形成鲜明对比。

而这一次，o3 直接达到了 25.2。

当各大其他模型都还在卷传统数学基准的时候，o3 真的已经进入了另一个世界了。。。

就像大家还在大斗师阶段互相卷，你是五星大斗师，我是八星大斗师。

两者争论不休，正准备要比试比试，忽然就看到一个斗宗强者踏空而行，留下一地的卧槽。

这还比个鬼。

然后，就是我觉得，整个基准里，最有趣的一个基准了：ARC-AGI。

先说说这是个啥玩意。

ARC-AGI 于 2019 年首次提出，旨在通过一系列抽象和推理任务来测试 AI 系统的能力。

主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。

所以，ARC-AGI 诞生了，里面的这些任务要求 AI 识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从 1x1 到 30x30 不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。

可以简单的理解成，找规律。

大概就是这样的。

降维打击所有模型！OpenAI正式发布o3

非常的难且抽象。

过去几代模型的评分在此：

GPT-2 (2019): 0%
GPT-3 (2020): 0%
GPT-4 (2023): 2%
GPT-4o (2024): 5%
o1-preview (2024): 21%
o1 (2024): 32%
o1 Pro (2024): ~50%

但是今天，o3 的分数，达到了恐怖的 87.5%。

降维打击所有模型！OpenAI正式发布o3

从 0%到 5%，整整花了 5 年的时间，而如今，从 5%到 87.5%，仅仅只花了半年。

而对应的，人类的阈值分数，是 85%。

我们通往 AGI 的路上，已经没有任何阻碍了。

不过 o3 强归强，但是又是一个期货，OpenAI 目前只对红队开放，如果是巨佬的话，可以去申请试试。

降维打击所有模型！OpenAI正式发布o3

网址在此： https://openai.com/index/early-access-for-safety-testing/

目前不知道 o3 什么时候放出，但是 OpenAI 又基于 o3，训了 3 个小尺寸的 o3 模型。

降维打击所有模型！OpenAI正式发布o3

目前 o3-mimi，预估在 1 月底可以对外开放，但是感觉到时候，肯定又是 pro 会员专属的模型了。

我越来越期待，2025 年 AI 行业的进化了。

推理模型、Agent、AI 硬件、世界模型。

每一个都是比这个中间态的 2024，都更让人兴奋的东西。

2025，必是 AI 行业，真正的星辰大海。

我们也在最后，回顾一下这 12 天的直播吧。

Day 1：满血 o1 上线，ChatGPT Pro 会员上线，o1 pro 推出。

降维打击所有模型！OpenAI正式发布o3

Day 2：基于 o1 的强化微调。

Day 3：Sora 正式发布。

降维打击所有模型！OpenAI正式发布o3

Day 4：ChatGPT Canvas 全员开放以及小功能更新。

Day 5：给苹果站台，宣传苹果全系接入 GPT。

Day 6：4o 的实时视频理解上线。

降维打击所有模型！OpenAI正式发布o3

Day 7：ChatGPT 发布新建文件夹“项目”功能。

降维打击所有模型！OpenAI正式发布o3

Day 8：ChatGPT Search 全量开放，搜索体验大幅优化。

Day 9：发布了 o1 的 API、更新了实时语音的 API、发布了偏好微调能力（PFT）。

Day 10：物理意义上的可以给 ChatGPT 打电话了。

降维打击所有模型！OpenAI正式发布o3

Day 11：炒冷饭，ChatGPT 桌面版能读到别的应用。

Day 12：OpenAI o3 正式发布。

降维打击所有模型！OpenAI正式发布o3

这 12 天，稍微有点惊喜的日子大概只有 2、3 天，其他都是垃圾时间。

还好，今天的大货，补上了之前的阴霾。

最后，还是忍不住感叹一声。

这 12 天，像一场漫长的马拉松。

我们经历了深夜中数不胜数的垃圾时间。

却也迎来了最后的高光时刻。

这感觉。

还挺 AI 的。

欢迎关注作者的微信公众号：数字生命卡兹克

降维打击所有模型！OpenAI正式发布o3

数字生命卡兹克

文章 27 人气 61.7w

AI自媒体

+关注作者

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 3 条评论点赞，解锁好运彩蛋

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学设计上优设

您还未登录

登录后即可体验更多功能

降维打击所有模型！OpenAI正式发布o3

2024/12/23 推荐： 数字生命卡兹克阅读 1.9w 评论有奖 阅读本文需 8 分钟

碾压Sora！谷歌全新发布AI视频模型Veo2+AI绘图Imagen3

OpenAI o3。

数字生命卡兹克

文章 27 人气 61.7w

继续阅读本文相关话题

61.7w人气 27文章

本文3套知识9图

盲盒私人定制！ChatGPT-4o盲盒制作小技巧！

AIGC高效技巧！3步实现产品海报背景智能替换！

被追着问的盲盒教程来了！GPT-4o 3步做出超萌真人手办！

文章目录

文章目录

你即将学会 潘通2025年度色 的知识

超多案例！五大章节读懂2025潘通年度色「摩卡慕斯」

4.1w 人阅读

上一篇

你即将学会 B端设计 的知识

没灵感看这里！20个大厂PC端官网设计思路汇总

6.0w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

AIGC互联网产品设计实践

已累计诞生 700 位幸运星

发表评论 为下方 3 条评论点赞，解锁好运彩蛋

↓ 下方为您推荐了一些精彩有趣的文章热评 ↓

数字生命卡兹克

数字生命卡兹克

数字生命卡兹克

数字生命卡兹克

ASAK设计

优设推荐官精选热门话题

经验分享

文章 5856

干货合集

文章 291

职场规划

文章 565

用户体验设计

文章 554

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

Midjourney

会上瘾的AI绘画工具

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

Stable Diffusion

最强开源AI绘画工具

优设热榜

每日必读的行业消息

教你做字库

每个公司都可有字库

设计服务

一站式数字创意服务平台

求职面试

为你用心整理的技巧

B端设计

开始探索B端设计

菜单优设网 - 学设计上优设

2024/12/23 推荐：数字生命卡兹克阅读 1.9w 评论有奖阅读本文需 8 分钟

你即将学会潘通2025年度色的知识

你即将学会 B端设计的知识

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 3 条评论点赞，解锁好运彩蛋