大家好,我是言川。
最近 OpenAI 上线了 GPT-4o 模型的生图功能,这个消息也是刷爆了朋友圈和各大社媒平台。
这次更新的影响力,我认为堪比春节期间发布的 Deepseek R1 模型。特别是在设计圈,一片“哀鸿遍野”。究其原因还是在于 GPT-4o 模型的生图能力不仅是改变了传统设计流程,可能也颠覆了现如今主流的 AI 生图工作流。
基础介绍:
今天,想跟大家分享下我的使用体验,以及 GPT-4o 在生图领域的应用场景。在文章后面,我也会浅谈下它与现如今主流的 AI 图像模型(Diffusion model)之间的区别,帮助大家客观、理性地看待 AI 技术。毕竟,有许多的媒体/博主为了流量,非常努力的渲染焦虑......
这篇文章将延续我一贯的深入风格,从基础介绍和使用方法开始,逐步深入。
非常感谢你愿意花时间阅读我的文章,让我们开始吧。
1. GPT-4o 模型介绍
GPT-4o 是由 OpenAI 开发的一款多模态大型语言模型,于 2024 年 5 月 13 日正式发布。其中,4o中的“o”代表“Omni”,强调其全能的多模态能力。
那多模态模型是啥?
指的是能够同时处理文本、图像和音频输入,并生成相应的输出。例如,之前我教过大家如何利用 AI 文本生成工具,通过图像反推生成提示词。
反之,多模态模型也能通过提示词生成图片。
但是,它所生成的图像效果是远远不如 Midjourney、StableDiffusion 等主流图像模型的。
直到 2025 年 3 月 26 日,OpenAI 更新了 GPT-4o 的图像生成功能,使其多模态模型的图像生成能力达到了与 Midjourney、StableDiffusion 等图像模型相媲美,甚至在某些方面超越它们的水平。
2. 4o 图像生成的特点
OpenAI 官方发布了一篇 GPT-4o 图像生成的介绍
地址: https://openai.com/index/introducing-4o-image-generation/
接下来我分享给大家的介绍,也是引用 OpenAI 这篇文章中的案例。
GPT-4o 图像生成的特点主要包括六类:文本渲染、多轮生成、遵循指令、情境学习、世界知识、真实风格。
① 文本渲染
GPT-4o 能够准确生成图像中的文本内容,支持制作包含文字的图像,如菜单、邀请函和信息图等。
② 多轮生成
用户可以通过多轮对话调整和优化生成的图像细节,GPT-4o 能够理解并执行复杂的指令,确保生成的图像符合用户的具体需求。
③ 遵循指令
GPT-4o 模型能够精确遵循用户的指令,生成符合要求的图像,即使在复杂的场景和细节中也能保持一致性。
④ 情境学习
GPT-4o 能够理解上下文信息,将其融入图像生成过程中,确保生成的图像与对话内容或提供的提示词高度相关。
⑤ 世界知识
GPT-4o 模型具备丰富的世界知识,能够生成包含复杂文本的商业级图像,如菜单、信息图表和徽标等
⑥ 真实风格
GPT-4o 支持多种艺术风格的转换,从写实照片到插图等,能够生成具有真实感的图像,捕捉细致的纹理和光影效果。
提示词:“这是一张狗仔队偷拍的照片,照片中卡尔·马克思匆匆走过美国购物中心的停车场,他回头张望,脸上露出惊愕的表情,试图避开镜头。他手里抓着多个装满奢侈品的闪亮购物袋。他的外套在风中飘扬,其中一个购物袋摆动着,仿佛他正在迈步。背景模糊,有汽车,购物中心入口发光,以强调运动。相机闪光灯的眩光使图像部分曝光过度,给人一种混乱的小报感觉。”
提示词:“逼真的水下场景,海豚从废弃地铁车厢的窗户间游过,气泡和细致的水流模拟准确。”
提示词:“水果碗照片,由真实水果和微型行星(木星、土星、火星、地球)混合而成,保持与原始照片一致的真实反射、灯光和阴影,构图清晰,纹理真实,细节渲染清晰。”
通过上面的介绍和举例,想必大家对 GPT-4o 生图能力有了一定的了解。
下面介绍下如何使用。
1. 使用条件
ChatGPT 地址: https://chatgpt.com/
注:需要特定的网络才可以打开。
GPT-4o 模型的图像生成功能目前对订阅账号开放,部分免费账号在灰度测试阶段也可使用。
但多数账号应该是没有的,你可以通过 ChatGPT 的对话输入框来查看。
例如,我的未订阅账号显示的是“DALL·E”,表明尚未包含在灰度测试中。
注:DALL·E 是 OpenAI 研发的图像生成模型,属于扩散模型(Diffusion model)。
GPT-4o 模型最新的生图功能,正确的显示状态如图:
未订阅的账号即时被灰度测试到,但使用生图功能时,有次数限制(每天最多可生成三张图像)。
如果你想顺畅的使用,还是需要订阅会员,Plus 版即可(20$)。
2. 使用方式
GPT-4o 生图的使用方式非常简单,通过简短的自然语言指令即可生成图像。
但我们还是可以将生图的方式分为两种:提示词生成(文生图)、图像加提示词生成(图生图)。
需要注意的是,GPT-4o 生图时会有内容限制,包括禁止生成有害内容、去除水印、知名 IP、模仿在世艺术家的作品,以及生成色情内容和儿童不当图像等。
① 提示词生成(文生图)
两步操作,首先点击“创建图像”,然后输入提示词。
提示词:“生成一张图像,展示权力的游戏中的丹妮莉丝·坦格利安与指环王中的精灵王子莱戈拉斯在冰雪覆盖的森林中并肩行走。”
从生成的图像结果来看,GPT-4o 在遵循提示词和图像真实效果方面,表现不逊于 Flux 模型。
说实话,我第一次在大语言模型上体验到这种高质量的图片生成,很震惊。
再来测试下插画风格。
提示词:“画一张插画,内容是鱿鱼游戏的迷宫般的阶梯,梵高的风格。”
生成的结果还不错,但我打算继续与它对话,测试它的“多轮对话”能力。
提示词:“将这张梵高风格的插图,放在游戏王游戏的卡牌中,要满星级的卡片。”
它能够理解并准确生成游戏王卡片、满星级的图像,OpenAI 这波更新属实牛逼,它几乎能满足我们各种要求。
但真正有可能改变现有 AI 图像生成工作流、颠覆市面上几乎所有 AI 图像工具的,是图生图能力。
② 图像+提示词生成(图生图)
两个步骤,上传图像(可多张),然后加入提示词指令描述。
通过提示词描述,将上传图转换不同的风格,比如,提示词:“将这张图片转换为插画风格。”
或者是,非常明确的提出转换某种特定的风格,比如:“将这张图片转换为 3D 毛绒风格。”
还可以通过上传多张图片,让 GPT-4o 将图片中的各个元素组合成一张图。
比如提示词:“将衬衫和短裤穿在马斯克身上。”
当我们知道了 GPT-4o 的生图能力之后,就能想象出各种应用场景。
接下来的板块,是我参考了全网优秀的案例,花了 3 天时间测试出来的结果。虽然这些内容可能不够全面,但希望它们能为你的学习和参考提供价值。
为了更系统的梳理和展示这些应用场景,我将生图的场景分为两大类,分别是图像设计和图像编辑。
1. 图像设计
图像设计主要包含风格转绘、风格迁移、角色设计、草图转绘、模特换装、产品合成、室内设计和字体设计这 8 种类型。
① 风格转绘
指将一种特定的艺术风格应用到已有的图像上,从而将其转换成该风格的视觉表现。
提示词:“将这张画像切换成写实人像风。”
提示词:“将这张图片中的角色,转换为 3D 毛绒风格,保持角色姿势不变。”
提示词:“将这张图片中的表情包,转换为 3D 毛绒风格。”
② 风格迁移
与转绘是一个意思,这里的风格迁移指的是通过参考图片,迁移到指定图像中。
提示词:“将第一张图片中的图标,转换为第二张图片中的图标风格,3D 建模质感。”
提示词:“将第二张图片的风格迁移到第一张图片中,第一张图片中的人物姿势保持不变。”
③ 角色设计
先玩个角色迁移,将指定角色替换到另一个场景中,并让该角色代替原场景中的角色,保持角色的特征和风格。
提示词:“将第一张图片中的角色,替换到第二张图片中,3D 风格。”
角色三视图设计。
提示词:“根据这张图片中的角色,生成三视图,正面、侧面和背面,保持角色风格和细节不变。”
④ 草图转绘
将简单的草图或素描转化为精细的绘画作品。在 AIGC 时代,草图绘制的细节、风格主要由 Prompt 控制。
提示词:“请为这幅中国古代建筑风格的线稿上色。建筑部分使用温暖的红色和金色,屋顶可用传统的深绿色或深蓝色调,搭配一些金色的装饰。背景的山脉和树木可以用淡雅的绿色、棕色和灰色来表现,水面则使用深蓝和浅蓝的渐变色,石块和植物使用自然的土色系,如灰色、棕色、绿色等,整体色调应柔和而具有传统中国画的艺术感。”
草图换绘还可以结合风格迁移生图。
提示词:“ 将第一张的人物线稿图上色,参考第二张图的画风。”
提示词:“根据这张 web 设计的手绘草图,生成一张原型图。”
提示词:“根据这张原型图,生成一张 UI 图,需要填充图片和文字,有 UI 图落地的效果。”
⑤ 模特换装
通过 AI 技术将不同的服装、配饰等元素应用到模特身上,生成新的穿搭效果。
提示词:“将第二张图中的衣服,穿到第一张模特身上。”
提示词:“将这双 AJ 鞋穿在模特脚上,画面只展示鞋子部分。”
提示词:“将图中的模特上衣换成红色的,但要确保上衣细节保持一致,图片中的其他元素保持不变。”
⑥ 产品合成
通过产品精修和产品场景合成两步,利用 AI 自动优化产品图像细节并将其与合适的背景结合。
产品精修——提示词:“精修图片中的耳机。”
产品替换——提示词:“将第二张图中的耳机,替换第一张图中的耳机”
产品合成——提示词:“将第二张图的耳机,合成到第一张场景图中。” Logo、光影、产品局部细节处还原度不高。
换一种方式,仅通过提示词描述合成。
提示词:“将这款黑金色的 Beats 耳机放置在一个现代科幻风格的展示平台上,背景是充满未来感的蓝色科技环境,灯光从顶部照射下来,突出耳机的金属质感和细节,场景应当有光滑的金属质感和发光的虚拟线条,展示出耳机在未来科技世界中的位置,充满科技感与未来感。”
光影融合比较自然了,但产品局部细节仍然存在于原图不符的情况。
人像合成——提示词:“请将图中的耳机穿戴在一位亚洲男模特的头部。”
⑦ 室内设计
通过提示词描述,让 AI 根据指定场景进行装修设计。
提示词:“请为这间现代化的公寓房间进行装修设计,现代简约风格装修,浅灰色墙壁,浅木地板,窗台上放置绿植,搭配一张舒适的沙发和简约的茶几。”
换一种方式,通过指定的物品,让 AI 生成室内空间图。
提示词:“帮我生成一张室内设计图,并将我上传的沙发、茶几、植物、地毯图融合在室内空间中。整体设计色调温暖且简洁,搭配大面积的自然光。”
⑧ 字体设计
AI 模型越来越会写文字了,借助多模态大语言模型的能力,即使是中文,GPT-4o 也能很好的理解并生成。
提示词:“将第一张图的字体特效迁移到第二张图中。”
提示词:“根据这张图的字体风格,帮我设计“言川真棒” 的标题字体。”
2. 图像编辑
① 人物换脸
通过 AI 技术将一张图像中的人物面部特征替换为另一人物的面部,从而生成新的面部表情或形象。
提示词:“将第二张图,克里斯汀·斯图尔特 的脸部换到第一张图中。”
那么,同样的思路,用换脸技术生成证件照。
提示词:“将第二张图人物的面部,换到第一张证件照中。”
② 图像扩展
利用 AI 技术对原有图像进行边缘延伸或场景拓展,生成一个连贯且符合原始风格的新区域。
提示词:“ 扩展这张图片,保留原有的街道和建筑风格。”
提示词:“扩展这张图片,16:9 比例的横图。”
③ 照片修复
利用 AI 技术对老旧、损坏或缺失部分的照片进行修复,自动修复损坏区域、恢复细节,并改善图像的清晰度和色彩。
提示词:“将这张老照片变成彩色。”
提示词:“修复这张老照片,并上色。”
④ 局部重绘
指在图像中选择特定区域进行重新绘制或修复,通过 AI 技术对该区域进行细节的重构、增强或改变,从而改善图像的视觉效果或替换不需要的元素,同时保持整体画面的连贯性。
测试下来发现,结果并不理想。虽然说 GPT-4o 能按照我的指令修图,但会改变原本不需要修改的元素。
提示词:“删掉图中的女人,保持画面中的其他细节不变。”
提示词:“删掉图中不必要的元素(比如人、电动车等),保留图片中的场景。”
⑤ 背景抠除
通过 AI 技术或图像处理工具,将图像中的人物、物体或其他主体从背景中分离出来。
提示词:“将图片中的产品从背景中抠出来,保持产品形态不变,生成 PNG 格式的透明产品图。”
通过上面的展示你可能不确信真的是 PNG 透明图,我把生成的页面放出来。
提示词:“将图片中的车从背景中抠出来,保持产品形态不变,生成 PNG 格式的透明产品图。”
但有个问题,GPT-4o 还是会在图像处理时,改变原物体中的其他细节。比如车标、Ultra 字母等。
提示词:“将图片中的人物从背景中抠出来,保持产品形态不变,生成 PNG 格式的透明产品图。”
毛发抠除的效果其实算是不错的了,但人物会发生改变,无解......
提示词:“将这张图中的杯子抠出来,确保它的透明度清晰可见,保持杯子的细节和透明质感,去除背景和任何附加元素,生成 PNG 格式的透明产品图。”
透明的玻璃杯,杯身的透明材质依旧无法抠除。
看完 GPT-4o 生成的案例后,我想给大家分享,或者是说浅谈下 GPT-4o 生图的技术。
叠个甲,OpenAI 并未在本次的更新中发布 GPT-4o 生图能力的技术实现路径,我也只能通过阅读网上其他博主分享的内容来写,如果说明有误,请大家及时指出。然后,轻点喷......
首先,GPT-4o 的图像生成功能采用了“自回归模型 ”,与传统的“扩散模型”有所不同。所以,我们还得从它们的介绍开始说起。
1. 扩散模型
扩散模型的核心思想是通过逐步加入噪声,使数据逐渐变得模糊,再通过逆过程从噪声中恢复出原始数据。
扩散模型的生成过程可以分为两个阶段:
- 正向扩散(添加噪声):从原始数据开始,逐步加入噪声,使数据变得越来越模糊,直到最终变成纯噪声。
- 逆向扩散(去噪):模型学习如何从噪声中恢复出原始数据,这个过程类似于去噪的过程,最终生成新的数据。
我们熟知的 Stable Diffusion、Midjourney、DALL·E 等都是基于扩散模型的图像生成模型。
2. 自回归模型
GPT-4o 的生图功能依赖于自回归模型,通过理解自然语言的语义和上下文信息,将这些信息转化为图像生成的条件输入。
自回归模型通过逐步像素生成图像的方式,从每一个已生成的像素推测下一个像素,直到完整的图像生成。
另外,GPT-4o 是一个多模态大语言模型,利用多模态学习技术,结合了文本和图像数据,允许模型同时处理和生成图像和文本。
通过一张表格来说明 GPT-4o 生图与扩散模型的区别:
总结一下:
GPT-4o 生图主要依赖自回归模型,能够通过语言模型结合图像生成。它生成的图像通常非常准确地与文本描述匹配。扩散模型则通过噪声的添加和去噪的过程生成图像,能够生成更高质量、细节丰富的图像,但生成过程相对较慢。
那大家看完以上内容后,想必你心中对 GPT-4o 有了相应的结论,或者说评价。
本篇内容因为是我写的,所以由我来当大家的嘴替,至于对不对,你也可以在评论区留言,我们互相探讨下。
1. GPT-4o 的优点
① 优点一:文本渲染能力
GPT-4o 是一个多模态大语言模型,凭借着大语言模型庞大的数据量,能够生成多种文字,并且依靠多模态技术,能将这些文字生成图像,这是扩散模型比拟不了的(主要体现在数据量上)。
② 优点二:提示词遵循度
GPT-4o 能够准确地理解复杂的文本指令,并将其转化为具体的图像生成任务。与传统的图像生成模型不同,GPT-4o 能够处理带有多重要求的指令,准确把握每个细节。
③ 优点三:上下文感知能力
GPT-4o 能够理解并利用对话上下文和用户提供的视觉线索,生成与上下文高度一致的图像,使得多轮对话中的图像生成保持连贯性和一致性。
④ 优点四:多样的风格表达
GPT-4o 模型支持多种艺术风格的图像生成,而这些风格数据,也来源于大语言模型。而在扩散模型中,需要单独训练特定的风格 Lora 或 微调 Checkpoint 大模型。
2. GPT-4o 的缺点
① 缺点一:图像裁剪问题
在生成图像时,GPT-4o 会出现裁剪不当的情况,而且无法准确的控制图像尺寸生成。
② 缺点二:模型幻觉问题
GPT-4o 在生成图像时,可能会出现与现实不符的细节,即模型幻觉(大语言模型的通病)。这种情况可能导致图像中出现不真实或不一致的元素,影响生成内容的可信度。
③ 缺点三:高结合问题
处理包含多个元素的复杂场景时,GPT-4o 可能在将不同对象和特征紧密结合方面遇到困难,导致生成的图像缺乏协调性和一致性。
④ 缺点四:密集信息问题
当图像包含大量密集信息时,GPT-4o 可能难以准确呈现所有细节,导致部分内容模糊或缺失,影响图像的完整性和可读性。
⑤ 缺点五:原始图像变形问题
在编辑或生成图像时,GPT-4o 会对原始图像进行修改(100%),非常典型的例子,就是人像抠图了。
⑥ 缺点六:生成速度问题
由于生成高质量图像需要大量计算资源,GPT-4o 的生成速度可能较慢,尤其在高负载情况下,生成一张图片可能耗时较长,非常影响体验。
⑦ 缺点七:数据安全问题
GPT-4o 在生成图像过程中可能涉及使用大量数据,包括用户提供的参考图像。这可能引发数据隐私和安全问题,特别是当生成内容包含敏感信息时。
⑧ 缺点八:IP 版权限制生成问题
有许多 IP 角色、人物的生成会有限制,会出现无法生成的情况,自由度不如 StableDiffusion 高。虽然这也是对版权和原创性的保护,但用起来总是不那么顺畅。
那本篇文章就先分享到这,说说我对 OpenAI 这波更新的看法吧。
首先,GPT-4o 图像生成的技术绝对是目前 AI 图像领域的一次革新。在次之前,大家都在卷扩散模型,但其实每次扩散模型的更新迭代都只是在图像效果上表现出色,比如 Midjourney V4 到 V6 模型。
并没有像这次自回归模型技术有颠覆性的变化,因为它完全打破了扩散模型极其复杂的工作流,比如 ComfyUI 工作流。现在只需要一句提示词就能做到老照片修复、产品精修、模特换装等等图像效果。
我在 2023 年其实就表达过一个观点,StableDiffusion 这种复杂的生图流程在未来一定会被取代。因为 AIGC 时代,AI 最主要的作用就是简化人类的工作,将标准化的人工流程用 AI 替代。因为 AI 是程序,给它足够的计算资源就能永不休止的工作。
而 StableDiffusion 虽说能兼顾大部分商业生图场景,但太复杂了,尽管能优化传统工作流,能降本增效,但其实不是特别明显,AI 生产的内容需要大量的人工成本进行修正。
很显然,GPT-4o 这种在图像生成领域的自回归模型做到了,尽管它现在仍然不那么完美,仍然需要人工后期修正。但对比复杂的 ComfyUI 工作流,又能极大的简化工作流程。
那么问题来了,我们还要不要学习扩散模型,也就是 Midjourney、StableDiffusion。
我的回答是,肯定要学。
在我们的会员社群,大家调侃的说:“再不学就不用学了......”
为什么我会这么说呢?
非常刺痛的一个点,就是数据安全问题。GPT 模型会学习我们上传的文本信息、图像信息,这对许多公司而言是不能被允许的,而 StableDiffusion 是本地部署的,不会存在这种问题。
还有各种自定义编辑问题,比如图像裁剪、特殊的风格、原始图像的稳定性等等,虽然 GPT-4o 能生成高质量图像,也很听话,但商业级的图像质量水平和对图像的细节控制,还远远不够,我们只能说它的综合能力很强。
很显然,当下最合适的商业级生图场景的模型,或者说工具,仍然是 StableDiffusion。虽然我上面说它很复杂、学习成本也比较高,甚至是未来会被其他技术取代。
而这次的事件,也会加速图像模型的研发进度,2024 年图像模型真的太安逸了......
无论是以前的扩散模型,还是现如今的自回归模型,都会在这次的行业震动下,再次卷起来!落后就要挨打,我非常期待 4 月份 Midjourney V7 模型的发布,也期待 StableDiffusion 继续迭代。
最后,大家现在使用 GPT-4o 会存在许多限制,比如网络、会员、生成速度等等问题。但不要着急,按照行业惯性,可能马上,国内的字节、腾讯、阿里等大厂就会出类似的功能(自回归模型,不是现在用的扩散模型技术)。当然,DeepSeek 或许能继续开源。
以上这段分享,纯属是我个人观点。
AI 时代下,谁也不能准确的判断和预测未来会发展到何种地步,唯一可确定的是,AIGC 将会是未来主流的发展趋势。
而我们,要成为一名终身学习者,以理性、客观的心理来应对未来行业的变化,切勿因为某次技术的迭代,而产生焦虑、恐惧的情绪。否则,我们或将成为 AI 发展趋势下的“受害者”。
感谢你的阅读,希望本篇文章对你有所帮助,我们下期内容再见。
如果你想学习 AIGC,可以加入我主理的《优设 AI 俱乐部》,俱乐部内沉淀有 2000+ 优质 AI 学习资料,涵盖 AI 绘画、AI 视频、AI 提示词、AI 工具库、AI 商业设计案例、研究报告......
也可以点击链接: https://wx.zsxq.com/group/15288828142182
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
这么设计才好玩
已累计诞生 694 位幸运星
发表评论 为下方 16 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓