智谱开源 AI 绘图 CogView4,曾经的开源之光回来了。
昨天连更两篇,今天想休息一下,结果。。。
真的快肝吐了,感觉自从 DeepSeek 开源统治地球之后。
开源的世界,迎来了究极繁荣。
上周 DeepSeek 连续 5 天开源硬核技术,阿里开源万相 2.1,Qwen 的推理模型推出预览版,但是肯定马上也要开源。
而今天,智谱这个曾经的开源之光,在昨天官宣拿了杭州 10 亿融资之后,在官宣文章里如此写道:
我知道智谱今年会大力开源,但是没想到,开源年的第一棒,来的如此之快,就在第二天。。。
我。。。不是,让我歇会吧。。。
今天智谱和清华团队直接开源了他们的 AI 绘图模型,CogView4。
更多AI工具推荐:
这下,真的快补上 2025 年开源界的拼图了。
模型链接在此: https://github.com/THUDM/CogView4
模型尺寸 6B,在 BF16 和 batchsize=4d 的情况下,GPU 需求如图。
最低估计一张 12G 的显卡就能跑起来。
我们也在第一时间,把模型下载下来,反手在 AutoDL 上开了一台 A800-80G 的显存,部署测试了一下。
我自己测试下来,一张 1024*1024 的图大概 70s 左右,AutoDL 的云机器会慢一些,本地应该会快不少。
当然如果你们想直接体验,也可以用智谱官方自己搭好的在线服务:
网址:https://modelscope.cn/studios/ZhipuAI/CogView4
在跑了一小时后,我觉得 CogView4,有两个比较有意思的点。
一个一个说。
第一个点就是,CogView4 支持中英文字直接生成,跟我之前写过的即梦 2.1 还挺像的,但是智谱的 CogView4,是开源的。
这也是开源的 AI 绘图模型里,第一个支持同时生成中英文字的。
我跑了些 case,大家可以直接看看。
比如这些 Prompt:
1. 一只布偶猫举着牌子,牌子上写着中文字体的“起来嗨’。
2. 一幅极简主义风格的冬季插画,以"小雪"节气为主题。画面采用清新的浅蓝色调,上方用简约的白色中文字体写着"小雪"二字。构图主要分为三个层次:天空、雪山和铁路。背景是连绵起伏的雪山剪影,呈现出柔和的曲线;中间是一列橙红色的火车,在茫茫雪原上形成鲜明的视觉对比;整个画面点缀着飘落的雪花。
3. 电影宣传海报,画面中间是韦小宝,四周是宫女,标题文字“重生之我是韦小宝”。
4. 画面顶部英文标题:“I NEED YOU”,复古美漫动漫,画面中央是一个小孩在电视机前玩游戏的背影。
非常坦率的讲,整体效果和审美,是没有市面一些主流模型好的,中文字的错误率很高比英文大不少,审美和色彩,也有一点差距。
我测下来,感觉他们是没有把文字拎出来单独做处理,而是非常实诚的直接塞给模型直接处理了,所以中文错别字比例会高一些。
但是优点也很突出。
那就是,这玩意开源啊!唯一一个能生文字的开源。
就智谱的 Cogview4 的效果来看,我觉得,他们技术肯定是没问题,最大的问题,还是数据集这块,审美确实差不少,但是如果你就把它当个底座,来重搞数据集,微调一个很牛逼的电影海报设计模型,那真的不是不可能。
第二个特点,就是它的语义理解,还是真的有点东西的。
比如这些 Prompt:
1. 8K 超宽幅画卷,分四区域: 左侧:唐代城门,朱红城墙,商队骆驼穿行,匾额题“朱雀门”; 中左:西市胡商集市,丝绸瓷器摊位,人群熙攘; 中右:曲江池畔,仕女泛舟,柳树垂岸; 右侧:大明宫殿群,飞檐斗栱,晨雾缭绕。整体风格为工笔重彩,绢布质感。
2. 一幅横向长卷,从左到右依次是远古狩猎营地、古埃及金字塔群、中世纪市场、工业革命工厂、当代摩天楼、未来垂直花园城。
3. 一笼刚出笼的上海小笼包,皮薄馅嫩,汤汁丰富,摆放在精致的竹制蒸笼中。旁边是一碟香醋和一双竹筷,背景是木质的餐桌和一壶绿茶,体现出江南的细腻和雅致风格。江南风味,精致,雅致
4. 野径云俱黑,江船火独明。
5. 一张照片级真实感的奇幻毛茸茸汽车,车身完全覆盖着厚实柔软的白色绒毛,明亮灵动的车灯宛如一双友善的大眼睛,轮胎隐藏在浓密蓬松的毛发之中,夜晚散发出温暖柔和的光晕,呈现出魔法生物般的风格,细节精致,质感极度逼真,充满梦幻气息与温馨感,电影级灯光效果
可以看到,美不美的另说,但是画的,是真的准确。
这块还是得益于,他们把 T5 换成了 GLM4,这个还是爽多了。
目前他们在出图的分辨率上,也没限制特定比例,2048 以下几乎都可以无级调节,这一点还是比较爽的。
后续,他们也会支持 ComfyUI 和 ControlNET 套件,还有微调的脚本。这个还是比较重要的,用 CogView4 来当基座模型微调的话,应该能玩出不少的花活。
目前开源的这个模型支持 Apache2.0 协议,而给普通用户用的版本,也会在 3 月 13 日上线在智谱清言上,到时候可以蹲一下。
最后,我想聊聊智谱这个公司。
国内我之前有一个非常主观不客观的评价,我把五家公司放在一起,并称为开源五虎。
其实在 DeepSeek 还没成立的时候,智谱就已经在 kuku 开源模型了。
如果是 2023 年就开始玩大模型玩 AI 的,应该见过这个风靡一时的基座模型,ChatGLM-6B。
4w 的星标,在 Github 上意味着啥相信大家懂得都懂。
那个时候,我还在公司里面做项目,微调了好几个不同的 GLM6B,串成工作流来执行任务。
后续,他们又开源了非常非常非常多的模型,比如 GLM-4、GLM-4-Voice、CogVideoX v1.5、CogAgent 等等等等。
时光匆匆,一晃眼,两年了。
这两年,感觉到了智谱的纠结、智谱的挣扎,还有他们的摇摆。
虽然在 2024 年的后半程,他们靠着 AutoGLM 和智能体,在整个 AI 圈杀出了一条自己的血路,但是在开源世界的声量,好像也被通义和 DeepSeek 压了过去。
老骥伏枥,志在千里。
在今天 CogView4 的仓库里面有这么一张官方生成的 Demo 图。
他们把 2025 年,定义为智谱 AI 自己的开源年。
不破不立,破而后立。
期待智谱拿下更多超级融资的同时,也能在开源路上越走越远。
毕竟,对我们所有人而言,每一家厂商的进步,都是让中国 AI 越发闪耀的灯火。
祝愿这片风云激荡的江湖,燃得更盛吧。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
MJ版AIGC绘画原理
已累计诞生 682 位幸运星
发表评论
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓