超过人类博士的能力！OpenAI 全新发布o1模型！

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

大家好，这里是和你们一起探索 AI 的花生。

阅读文章 >

大半夜的，OpenAI 抽象了整整快半年的新模型。

在没有任何预告下，正式登场。

超过人类博士的能力！OpenAI 全新发布o1模型！

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

超过人类博士的能力！OpenAI 全新发布o1模型！

为什么取名叫 o1，OpenAI 是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来是：

对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。

这次模型的强悍，甚至让 OpenAI 不惜推掉了过去 GPT 系列的命名，重新起了一个 o 系列。

炸了，真的炸了。

我现在，头皮发麻，真的，这次 OpenAI o1 发布，也标志着，AI 行业，正式进入了一个全新的纪元。

“我们通往 AGI 的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

超过人类博士的能力！OpenAI 全新发布o1模型！

AIME 2024，一个高水平的数学竞赛，GPT4o 准确率为 13.4%，而这次的 o1 预览版，是 56.7%，还未发布的 o1 正式版，是 83.3%。

代码竞赛，GPT4o 准确率为 11.0%，o1 预览版为 62%，o1 正式版，是 89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o 是 56.1，人类专家水平是 69.7，o1 达到了恐怖的 78%。

超过人类博士的能力！OpenAI 全新发布o1模型！

我让 Claude 翻译了一下 o1 的图，丑是丑了点，但是能看的懂每项数据意思就行。

超过人类博士的能力！OpenAI 全新发布o1模型！

什么叫全面碾压，这就是。

特别是在测试测试化学、物理和生物学专业知识的基准 GPQA-diamond 上，o1 的表现全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。

而整个模型之所以达到如此成就，基石就是 Self-play RL，不知道这个的可以去看我前两天的预测文章：新模型草莓到底是个啥？

通过 Self-play RL，o1 学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时，它也学会了尝试不同的方法。

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。

非常详细的阐述了人类的两种思考方式。

第一种是快思考（系统 1），特点是快速、自动、直觉性、无意识，举几个例子：

看到一个笑脸就知道对方心情很好。
1+1=2 这样简单的计算。
开车时遇到危险情况立即踩刹车。

这些就是快思考，也就是传统的大模型，死记硬背后学得的快速反应的能力。

第二种是慢思考（系统 2），特点是缓慢、需要努力、逻辑性、有意识，举几个例子：

解决一道复杂的数学题
填写税务申报表
权衡利弊后做出重要决定

这就是慢思考，我们人类之所以强大的核心，也是 AI 要通往下一步 AGI 路上的基石。

而现在，o1 终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如 o1 可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。

o1 也绝对是全新一代的数据飞轮，如果答案正确，整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。

以 OpenAI 的用户级别，未来的进化速度，只会更恐怖。

写到这，我忽然叹了口气，我觉得我跟一年以后的 o1 比起来，可能就是个纯废物了，真的。。。

目前，o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放，未来会考虑对免费用户开放。

超过人类博士的能力！OpenAI 全新发布o1模型！

分为两个模型，o1 预览版和 o1 mini，o1-mini 就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。

o1 预览版每周 30 条，o1-mini 每周 50 条。

雪崩，甚至不是按以前的 3 小时来限制的，是每周 30 条，也能从侧面看出来，o1 这个模型，有多贵了。

对于开发者来说，只对已经付过 1000 美刀的等级 5 开发者开放，每分钟限制 20 次。

都挺少的。

而且在功能上阉割挺大，但是毕竟早期，理解。

超过人类博士的能力！OpenAI 全新发布o1模型！

API 的价格上，o1 预览版每百万输入 15 美元，每百万输出 60 美元，这个推理成本...

超过人类博士的能力！OpenAI 全新发布o1模型！

o1-mini 会便宜一些，每百万输入 3 美元，每百万输出 12 美元。

超过人类博士的能力！OpenAI 全新发布o1模型！

输出成本都是推理成本的 4 倍，对比一下 GPT4o，分别是 5 美元和 15 美元。

超过人类博士的能力！OpenAI 全新发布o1模型！

o1-mini 还是勉强有一些经济效应的，不过还是开始，后面等着 OpenAI 打骨折。

既然说 o1 已经对 Plus 用户开放，我就直接去我的号上看了眼，还不错，拿到了。

超过人类博士的能力！OpenAI 全新发布o1模型！

那自然第一时间试一试。

目前不支持曾经的所有功能，也就是没有图片理解、图片生成、代码解释器、网页搜索等等，只有一个可以对话的裸模型。

我先是一个曾经很致命的问题：

“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

超过人类博士的能力！OpenAI 全新发布o1模型！

思考了 6 秒时间，给了我一个很完美的回答。

还有之前一个坑遍所有大模型的调休问题：

“这是中国 2024 年 9 月 9 日（星期一）开始到 10 月 13 日的放假调休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？”

在 o1 思考了整整 30 秒以后，给出了一天不差的极度精准的答案。

超过人类博士的能力！OpenAI 全新发布o1模型！

无敌，真的无敌。

再来一个更难的，就是曾经姜萍那个比赛的奥数题：

超过人类博士的能力！OpenAI 全新发布o1模型！

别问我题目什么意思，我看不懂，我是废物，这题曾经屠杀所有的大模型，这次，我们让 o1 也来试一下看看。

超过人类博士的能力！OpenAI 全新发布o1模型！

在 o1 思考了整整 1 分多钟之后，他给出了答案。
...

超过人类博士的能力！OpenAI 全新发布o1模型！

全...对...

我裂开了。

目前我自己试下来，感觉 Prompt，未来可能也要重新摸索，在 GPT 为代表的快思考大模型时代，我们有很多所谓的一步一步思考之类的玩意，现在全都无效了，对 o1 甚至还有负效果。

OpenAI 给出的最佳写法是：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，而不需要大量的指导。
避免思路链提示：由于这些模型在内部进行推理，因此不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度：使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增强生成 (RAG) 中的附加上下文：提供附加上下文或文档时，仅包含最相关的信息，以防止模型过度复杂化其响应。

最后，我想说一下这个思考的时长。

现在 o1 是思考了一分钟，但是，如果是真正的 AGI，说实话，思考的越慢可能会越刺激。

当他真的，可以去做证明数学定理，去做癌症药物研发，去做天体研究呢？

每一次的思考，可以达到几小时、几天、甚至几周呢？

最后的结果，可能会让所有人震惊的难以置信。

现在，没有人能想象到，那时候的 AI，会是一个什么样的存在。

而 o1 的未来，在我看到，也绝对不止是一个普普通通的 ChatGPT。

而是我们前往下个时代，最伟大的基石。

“我们通往 AGI 的路上，已经没有任何阻碍。”

现在，我毫不犹豫的坚信着这句话。

星光熠熠的下一个时代。

在今天。

正式到来了。

欢迎关注作者的微信公众号：数字生命卡兹克

超过人类博士的能力！OpenAI 全新发布o1模型！

数字生命卡兹克

文章 28 人气 63.3w

AI自媒体

+关注

收藏 14
干货满满
收藏学习

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 1 条评论点赞，解锁好运彩蛋

哎呀甜奶盖

生活不只有眼前的苟且，还有夜晚的小酒和歌

还得是OpenAI啊，一出手就直接放大

2024-09-14 来自北京市 Chrome浏览器回复点赞

一只正在学AI的小鸡

一位深藏名与利的设计师

嗨，您好！感谢观看本文，评论支持鼓励，作者会更有动力输出好内容哟。
① 优设AI课程，又好又便宜！副业创收工作提效。查看课程
② 评论互动赢新书！清华大学出版社畅销书等您拿！快来看看
③ 新人大礼包！关注优设官微，每天用热点解锁AI知识！下方扫码

2024-09-14 来自优设惊喜部 ChickOS

(づ￣3￣)づ同学~精彩纷呈的信息正为您读取中...

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学设计上优设

您还未登录

登录后即可体验更多功能

超过人类博士的能力！OpenAI 全新发布o1模型！

2024/09/14 推荐： 数字生命卡兹克阅读 1.2w评论有奖 阅读本文需 10 分钟 稍后阅读

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

数字生命卡兹克

文章 28 人气 63.3w

继续阅读本文相关话题

63.3w人气 28文章

本文3套知识9图

AI写真！10组以假乱真Flux AI模特写真大片！

AI打造爆款中文海报！8组提示词公式+风格解析！

AI重构操控体验！9组高科技飞行器界面设计探索！

文章目录

文章目录

你即将学会 AIGC 的知识

如何判断AI的输出是否正确？三个办法搞定！

1.3w 人阅读

上一篇

你即将学会 AIGC 的知识

效率暴涨！100万人都在关注的多合一 AI 搜索神器 SeekAll！

2.8w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

MJ+SD智能设计

已累计诞生 702 位幸运星

发表评论 为下方 1 条评论点赞，解锁好运彩蛋

生活不只有眼前的苟且，还有夜晚的小酒和歌

2024-09-14 来自 北京市 Chrome浏览器 回复 点赞

一位深藏名与利的设计师

2024-09-14 来自 优设惊喜部 ChickOS

(づ￣3￣)づ 同学~精彩纷呈的信息正为您读取中...

夏花生

彭彭

小普

小普

夏花生

优设推荐官精选热门话题

Midjourney

文章 1095

干货合集

文章 291

UI设计

文章 1626

ps技巧

文章 653

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

Midjourney

会上瘾的AI绘画工具

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

Stable Diffusion

最强开源AI绘画工具

优设热榜

每日必读的行业消息

教你做字库

每个公司都可有字库

设计服务

一站式数字创意服务平台

求职面试

菜单优设网 - 学设计上优设

2024/09/14 推荐：数字生命卡兹克阅读 1.2w评论有奖阅读本文需 10 分钟
稍后阅读

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 1 条评论点赞，解锁好运彩蛋

2024-09-14 来自北京市 Chrome浏览器回复点赞

2024-09-14 来自优设惊喜部 ChickOS

(づ￣3￣)づ同学~精彩纷呈的信息正为您读取中...