昨天夜里,深夜惊雷。
一个新团队突然发了一个首款通用型的项目:Manus。演示在此,我人直接看麻了。
看完我的第一感觉,人类又要一败涂地了。
这就是 OpenAI 的 DeepResearch 和 Claude 的 Computer Use 的究极集合体,甚至,他还能自己写代码,直接 Coding Agent。
我预想到这一天会来,只是没想到,来的如此之早。
更多AI资讯:
Manus 在 GAIA 的评分上,也非常的离谱。
已经超越 OpenAI 的 DeepResearch 的了,成为 GAIA 评分第一。
可能很多人不知道 GAIA 是个啥,我简单说一下。
GAIA(General AI Assistants)是一个面向通用 AI 助手能力的基准评测体系,由 Meta AI(FAIR)、Hugging Face 等研究团队于 2023 年提出。
有一篇非常著名的论文:
里面有 466 个精心设计的问题。
传统的测试一般都是数学(AIME)或者一些专业知识问答、编程等等,但是 GAIA 测试,里面很多都是概念简单,但是需要多步骤解决的实际问题。
其中分为三个级别,Lv.1、Lv.2、Lv.3,难度依次递增。
想通过 GAIA 的测试,一般需要网络检索能力、工具调用能力、编程能力、文件处理能力等等。
在 23 年的时候,人类一般能达到 90%的成功率,而那时候的最强 AI GPT4,在第一级才勉强达到 15%。
再看这张图,你就知道,有多强了。。。
说实话,我目前还愿意为 ChatGPT 每个月都氪 200 刀,主要就是 o1 Pro 和DeepResearch,这俩有一说一,在我做一些研究和需要强推理任务的时候,还是非常好用的。
而 Manus 这波,把 DeepResearch 干碎了,要知道,它之前已经是最强了。。。
Manus 网址在此: https://manus.im
现在有个很难顶的问题是封测中,所以只有邀请码的用户才能体验到。
所以,我也动用了我的人脉,花了十分钟的时间,联系到了 Manus 团队的人,非常幸运的获得了邀请码。
不过,即使是没有拿到邀请码的用户,也可以去他们官网,大概看一下他们的 Use Case,每一个,都非常的有意思。
而如果你有了邀请码,正常登录进去以后,就是一个大大的界面:
虽然都是一个对话框,但是 Manus 的能力还不太一样,他不是那个你提出个问题,AI 一会就会直接给你回答 Chatbot。
而是当你提出问题之后,他会根据你的问题和要求,来拆解任务,进行极度复杂的任务规划和执行。
并且会在云端自动运行,你可以直接退出出去,等运行完了,会通知你。
比如之前的那篇 GAIA 的论文,我想把 PDF 变成一个能拿出去讲的 PPT,我把这个要求提给 Manus 的时候。
他会先把我的需求拆解。
我是这么说的:
- 我希望你写一段 Python 程序,用 OCR 把这篇论文的 PDF 信息提取出来。
- 将 PDF 里面的信息总结成 PPT 大纲。
- 按照小米发布会的风格,做一份给普通人科普用的 PPT。
- 给我 PPT 的下载文件。
他会开始花一点时间来理解。
然后,在右边的窗口上,运行一个虚拟机,准备开始执行操作。
在虚拟机开启之后,会第一时间,列一份 To Do List。
然后,就会开始执行第一个任务,安装 python 库。
完成的项目,会全部在右边的预览窗口打 x。
他们用了一个非常有趣的交互形式,就是实时加进度同步。
右边的界面就像 PPT 一样,不断的下一页下一页,让你实时的看到,当前这个 Manus 正在做什么,你能看到它的每一点想法,每一个动作,这个掌控感真的太强了。
即使要等很久,你看着他在一点一点执行,这个感觉也真的很爽。
而右下角的任务步骤也可以展开,非常直观的告诉你,大步骤进行到哪一个阶段了。
交互做的极棒。
我这个 case,只需要等大概几分钟以后,一个 PPT 就出来了。
看看 PPT。
信息是没问题的,就是这美感= =还是欠缺了一点,但是在信息的排版和内容质量上,真的高到爆炸。
这个其实并不是特别能展示它的能力,我再展示另一个,我曾经试图让所有 Agent 尝试的例子,帮我整理发票。
我经常要出差,所以有一堆乱七八糟的发票需要让公司报销的,但是公司的大总管呢,制定了一个 SOP,就是发票你不能直接打包给她,这样太乱,所以需要做成一个 excel 的模板,这样她好对账。
就是这样的,但是你知道,我要每个月把我的十几张发票,都处理成表格,真的很麻烦。
所以,当我抱着试试看的态度,把这个任务交给 Manus 的时候,我震惊了。
因为,它成功了。。。
我当时就浑身发麻了,实在太牛逼了。你们懂那种,浑身触电的感觉吗。
我给大家过一下流程。
最开始,我的 Prompt 超级简单。
就这么简简单单的一句话。
他在思考完以后,处理成了 8 步任务。
然后,解压压缩包,安装 OCR 依赖,提取发票,整理成表格等等等等。
我什么也没干,他就自己这么跑着。
9 分钟以后,提示我任务完成了。
我一回来,就看到了了这个画面。
只有一个小地方没填上,其他都是对的。
太离谱了,这还需要人干吗?
我还用它,分析了一下阿里巴巴股票。
同样的 case,我们先看看 OpenAI 的 DeepResearch 的结果。
质量是不错,很高,但是对比一下 Manus,那可读性实在是有点不堪重负了。。。
Manus 直接把任务拆解成了 8 步。
最重要的是,当他们完成的时候,所输出的内容。
当我看到所谓的报告,给出的是一个链接的时候,我就猜到,这个事情有点不简单了。
点进去以后,果然。。。
不仅图文并茂,这尼玛,这些图标图表居然是可以交互的。。。
我真的给跪了,我想给 Manus 磕一个。
然后今天 QwQ 不是开源了 32B 的推理模型吗,我又让 Manus 随手做了一个千问开源的时间线。
在经历了 30 多分钟后,一张时间线的地图就出来了。大家可以验证一下看看准不准。。。
我无话可说,人已跪地。
短短的几个小时的体验时间
人类真的即将,一败涂地。
在 Manus 的 prompt 技巧上,我自己试了下,你的点,一定要足够的清晰,描述越清晰具体,Manus 就能执行得越精准。
明确说明你的期望、格式要求和质量标准,可以大幅提升最终交付物的匹配度。
这一点,非常重要。
2025 年 3 月 6 日,我觉得,即使在 AI 圈,也是一个值得铭记的日子。
阿里开源 QwQ-32B,以如此规模在性能上追平 DeepSeek R1 满血版,另一边,Manus 一夜崛起,把 Agent 工程带上了一个新的高度。
而这两个团队,都属于我们中国。
没错,都是中国团队。
为之自豪吧。
今夜的这一片星空,属于 China。
宇宙,正在为我们而闪烁。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
DeepSeek实用操作手册
已累计诞生 699 位幸运星
发表评论 为下方 20 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓