往期AI圈重磅消息:
OpenAI 的 12 天直播,终于来到了最终章。奥特曼,也在一片圣诞的气息中终于回归。为大家带来了最后的压轴大戏。
OpenAI o3。
又一次超群,又一次把模型的能力,推到了新的高度。
也向全世界证明了,OpenAI,依然在铁王座上牢不可摧。
我也想起了 OpenAI 研究员在发布 o1 之前的那句话:
“我们通往 AGI 的路上,已经没有任何阻碍了”
之所以 OpenAI 直接发布 o3 没有 o2,原因也挺简单的。
因为跟英国电信服务提供商 O2 可能存在版权或商标冲突,所以直接跳过了。。。
直接到 o3。
而 OpenAI 直播一完,X 上基本就沸腾了。
o3 的能力,对现在所有模型,几乎都直接是降维打击。
看下 o3 的能力吧。
一些粗的评测集简单过一下。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
o3 的成绩:71.7%,比 o1 还强了不少。
右边的那个基准比较猛,Codeforces,一个全球著名的编码竞赛平台。
o3 的得分是 2727,这个得分,相当于整个榜单的第 175 名,已经超越了 99.99%的人类了。
o1 的代码能力已经强到爆炸了,而 o3,又向 AGI 的山顶,前进了一大步。
数学竞赛 AIEM 2024 和博士级科学考试 GPQA Diamond。
AIEM 2024 接近满分,如果我没记错的话,这应该也是第一次 AI 能达到有 AIEM 接近满分的水平。
博士级科学考试有进化,但没数学和编程进化的这么猛。
接下来的这个数学基准比较有趣一点。
FrontierMath,Epoch AI 开发的一个数学基准测试,由 60 多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。
而且为了避免数据污染,所有的题目都是原创的且从来没有发布过的新题目。
之前 GPT-4 和 Gemini 1.5 Pro 这种模型去评估的时候,成功功率不足 2%,与其他传统数学基准(如 GSM-8K 和 MATH)中超过 90%的成功率形成鲜明对比。
而这一次,o3 直接达到了 25.2。
当各大其他模型都还在卷传统数学基准的时候,o3 真的已经进入了另一个世界了。。。
就像大家还在大斗师阶段互相卷,你是五星大斗师,我是八星大斗师。
两者争论不休,正准备要比试比试,忽然就看到一个斗宗强者踏空而行,留下一地的卧槽。
这还比个鬼。
然后,就是我觉得,整个基准里,最有趣的一个基准了:ARC-AGI。
先说说这是个啥玩意。
ARC-AGI 于 2019 年首次提出,旨在通过一系列抽象和推理任务来测试 AI 系统的能力。
主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。
所以,ARC-AGI 诞生了,里面的这些任务要求 AI 识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从 1x1 到 30x30 不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。
可以简单的理解成,找规律。
大概就是这样的。
非常的难且抽象。
过去几代模型的评分在此:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 (2024): 32%
- o1 Pro (2024): ~50%
但是今天,o3 的分数,达到了恐怖的 87.5%。
从 0%到 5%,整整花了 5 年的时间,而如今,从 5%到 87.5%,仅仅只花了半年。
而对应的,人类的阈值分数,是 85%。
我们通往 AGI 的路上,已经没有任何阻碍了。
不过 o3 强归强,但是又是一个期货,OpenAI 目前只对红队开放,如果是巨佬的话,可以去申请试试。
网址在此: https://openai.com/index/early-access-for-safety-testing/
目前不知道 o3 什么时候放出,但是 OpenAI 又基于 o3,训了 3 个小尺寸的 o3 模型。
目前 o3-mimi,预估在 1 月底可以对外开放,但是感觉到时候,肯定又是 pro 会员专属的模型了。
我越来越期待,2025 年 AI 行业的进化了。
推理模型、Agent、AI 硬件、世界模型。
每一个都是比这个中间态的 2024,都更让人兴奋的东西。
2025,必是 AI 行业,真正的星辰大海。
我们也在最后,回顾一下这 12 天的直播吧。
Day 1:满血 o1 上线,ChatGPT Pro 会员上线,o1 pro 推出。
Day 2:基于 o1 的强化微调。
Day 3:Sora 正式发布。
Day 4:ChatGPT Canvas 全员开放以及小功能更新。
Day 5:给苹果站台,宣传苹果全系接入 GPT。
Day 6:4o 的实时视频理解上线。
Day 7:ChatGPT 发布新建文件夹“项目”功能。
Day 8:ChatGPT Search 全量开放,搜索体验大幅优化。
Day 9:发布了 o1 的 API、更新了实时语音的 API、发布了偏好微调能力(PFT)。
Day 10:物理意义上的可以给 ChatGPT 打电话了。
Day 11:炒冷饭,ChatGPT 桌面版能读到别的应用。
Day 12:OpenAI o3 正式发布。
这 12 天,稍微有点惊喜的日子大概只有 2、3 天,其他都是垃圾时间。
还好,今天的大货,补上了之前的阴霾。
最后,还是忍不住感叹一声。
这 12 天,像一场漫长的马拉松。
我们经历了深夜中数不胜数的垃圾时间。
却也迎来了最后的高光时刻。
这感觉。
还挺 AI 的。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI绘画创意与实战
已累计诞生 655 位幸运星
发表评论
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓