哈啰大家好,好久不见啦~~2025 年好呀~~这里是和你一起探索 AIGC 美学边界的戏呱皮 DC。大家可以叫我呱呱。最近网上爆火的巨物卡通 IP 占领人类城市系列的视频,大家有看过吗?呱呱也在小红书发布了这个内容的创意视频~
相关教程:
呱呱在视频介绍中附上了步骤,其中最重要的一步就是在一个叫 Whisk 的 AI 网站上,先生成一张超现实的创意图片。
然后再通过类似可灵、海螺这些视频类的 AIGC 工具,将图片转成视频并剪辑优化而成,关于这个方向的案例呱呱会在后面详细展示实操步骤。但是呱呱本次文章教程并不单单只是讲清楚这个案例的做法,今天呱呱会给大家带来关于这个 whisk 的全方位攻略。呱呱会从 10 个案例入手,带大家一起认识和玩转这个免费的、好玩的 AI 网站。仍然是一如既往的又干又充实,记得点赞+收藏啦~~话不多说,直接开始今天的攻略学习吧~~
在开始实操之前,我们先简单介绍一下 whisk。
Whisk 呢是谷歌推出的 AI 图像生成工具,支持用户上传图像指定生成图像的主题、场景和风格,无需长文本提示。 用户能为每个类别提供多张图像,或用谷歌自动填充的 AI 生成图像作为提示。Whisk 能快速视觉探索,支持用户编辑底层提示优化结果。说白了呢,就是一款不需要调节参数无脑上手的创意出图网站。
- 图像提示生成:用户能上传图像提示,AI 生成新图像。
- 多图像输入:用户能为主题、场景和风格分别提供多张图像,指导 A1 生成具有特定特征的图像。
- 自动图像提示:如果没有合适的图像,用户用谷歌自动填充的 AI 生成图像作为提示。
- 额外细节添加:用户在生成流程的最后阶段用文本框输入额外的文字细节,进一步指导图像的生成。
- 图像生成与调整:Whisk 生成图像后,用户能对结果进行查看和调整。
Whisk 的原理并不复杂,它会根据你提供的图片生成对应的文字描述,再将这段描述作为提示文字返回给 AI,从而生成相应的新图片,完成“图生图”的过程。
在技术层面上,Whisk 的后端使用 Gemini 模型自动为输入的图片生成详细描述,之后将这些描述输入到 Google 最新的图像生成模型 Imagen 3 中,这一过程并非对原图的简单复制,而是通过捕捉图像的特点,在风格与内容上进行重塑,从而帮助用户实现主题、场景和风格的自由混合与创新。
Google 在官网中表示,Whisk 的设计初衷是“快速进行视觉探索,而非像素级的精准编辑”。这种定位使 Whisk 更适用于创意发散的初期阶段,帮助用户快速试验不同的视觉风格与构图。同时,Google 也承认 Whisk 有时可能“未能完全达到预期”,因此提供了编辑提示输入的功能,确保用户能够轻松地修正优化生成结果。
通过不同设计方向的使用测试,Whisk 给了呱呱很大的惊喜。呱呱相信随着 Google 不断优化其 AI 模型,Whisk 有望成为提升设计师创意效率的 AIGC 工具。
网址:https://labs.google/fx/zh/tools/whisk
- 使用要求:需要用谷歌账号进行登录,且只有美区的上网节点才可以打开
(这一点只要你能魔法上网,选择区服是美国区域的即可) - 费用说明:免费的
案例一:万物皆可变玩偶
① 进入whisk生图主页面
whisk 的生图页面非常简单和直接,可以看到主页面只有三个区域:样式设定区、图片添加和生成区、可选图片区。
whisk 网站样式设定区默认是 3 个选项:贴纸、珐琅徽章和长毛绒。(至于如何设定其他样式,后面呱呱会讲到)
咱们打开网站后,可以看到左侧是一张玩偶的预览图,对应的就是网站的 PLUSHIE(长毛绒)的样式。
呱呱碎碎念:
你可以理解为样式选择“长毛绒”后,放置在主题位置的任何图片,都会被 whisk 转换为长毛绒质感,即「万物即可长毛绒」。
②选择主题图并直出玩偶效果
这一步,我们可以先拿 whisk 网站已有的素材图,测试下效果。(拿 whisk 提供的粉色咖啡杯为例)
呱呱注释:
whisk 这个页面中,不需要找提交或者什么按钮,就把图片拖动到对应位置后。该图片周边一圈变成滚动的蚂蚁线就是在运行了。也就是说只要咱们把图拖上到指定位置,whisk 就默认你要生图就直接运行了。(不能取消的哦,免费的取消它干啥~~)
那么如何上传自己的图呢?(步骤见下图↓)
③进入图片优化页面
回到前面我们转化的那张粉色咖啡杯的图,可以看到生成的预览图中,我们的粉色杯子确实转化成了长毛绒质感的。但是纹路图案不太对,这时候怎么办呢?如何优化修正呢?如图,咱们就点击预览图下方的功能按钮“在工具中打开”,我们会跳转到一个新的页面。
可以看到新页面中简单明了的划分了 3 个操作区:生成图预览区、关键词输入区(支持中文输入)和设定区。
呱呱注释:
关键词输入框处如果是做的 IP 类的或者细节很多的内容建议还是用 deepl 的英文翻译比较好。谷歌的翻译有些内容不准确,呱呱实测。
④优化生成的图片
把鼠标移动到咱们生成的其中一张图上,可以看到图片上浮现了几个功能按钮。
左上角有:优化和编辑图像
右上角是:点赞、下载和删除
左下角是:标记
此时,如果选中的图中没有我们想要的某部分,我们可以选择左上角第一个功能“优化”,去添加对应的提示词生成新的图。
比如此处呱呱想在左侧图片上添加这样的内容:
碟子是长毛绒质感的,背景有长毛绒质感的蓬松的云朵。
可以看到图中,背景有了长毛绒质感的蓬松云朵,但是杯子和碟子全部没有了长毛绒质感。
⑤编辑生成图的提示词
此时,咱们直接选择左上角第二个功能按钮:“编辑图像”。
当我们点击这个“编辑图像”,并进入提示词后,我们会看到我们生成图所对应的一大串提示词内容。咱们翻译过来看下都写的什么~
A pastel pink teacup and saucer, appearing to be made of a soft, plush material, sits against a background of similarly textured, fluffy pink clouds. The teacup is round with a slightly flared rim and a curved handle, decorated with small, evenly spaced, slightly raised pastel blue-lavender circles on a pastel pink background. The saucer is round, with an iridescent finish displaying subtle rainbow-like shifts in color. The teacup contains a pale, almost transparent liquid.
粉红色的茶杯和茶托似乎由柔软的毛绒材料制成,背景是质地相似、蓬松的粉红色云朵。茶杯呈圆形,杯沿略微外扩,杯柄呈弧形,粉色背景上饰有均匀分布、微微凸起的粉蓝色-淡紫色小圆圈。茶托是圆形的,表面有彩虹般的微妙色彩变化。茶杯中装有淡淡的、几乎透明的液体。
从图片对应的提示词中可以看到,关于杯子的长毛绒质感并没有那么明确和细节。所以此时呱呱把提示词按照需要的效果内容进行调整,并复制到输入框中(此处呱呱用的是 deepl 翻译网站,比较准确):
网址:https://www.deepl.com/zh/translator
中文:
一个淡粉色的茶杯和茶碟,是由柔软的长毛绒材料制成的,坐落在同样纹理蓬松的粉红色云的背景上。这款长毛绒材质的茶杯是圆形的,边缘微微张开,手柄弯曲,在淡粉色的背景上装饰着间距均匀、密集的、微微凸起的淡蓝色薰衣草长毛绒小圆圈。长毛绒材质的碟子是圆形的,带有彩虹色的饰面,在颜色上呈现出微妙的彩虹般的变化。茶杯里的液体也是长毛绒质感的。整个场景都是长毛绒质感的。
Deeple 翻译:
A pale pink teacup and saucer, made of soft plush material, sits against a background of similarly textured fluffy pink clouds. Rounded with slightly splayed edges and curved handles, the plush teacup is decorated with evenly spaced, dense, slightly raised pale blue lavender plush circles against a pale pink background. The plush-material saucer is round with a rainbow-colored finish that presents a subtle rainbow of variations in color. The liquid in the teacup is plush. The whole scene is plush.
呱呱碎碎念:
此时看到这张图片对应的提示词,以及可以编辑的这个操作。有没有悟了~谷歌的 whisk 就是把咱们的主题图片和样式图片进行了读取和对应提示词的提取,并综合在一起去出了一张图。悟了吧~原理是很简单粗暴好理解的~
⑥效果过程展示
⑦其他主题图转化尝试
前面我们以“whisk 平台提供的图片”+“长毛绒样式”的组合方式,详细拆解了如何使用 whisk 进行毛绒玩偶化的步骤和优化操作。现在让我们看看建筑、人物照片、插画等不同出图条件下 whisk 的表现:
⑧亿点技巧
前面呱呱给大家展示了关于「万物皆可变毛绒玩偶」的很多图片转化案例,这里呱呱总结了一点小技巧分享给大家:
1) 进入首页后,点击功能按钮“从头开始”,使用图片+提示词来综合控制出图效果。
2) 简单画面建议没有提示词直出。
3) 复杂画面则建议除了提供参考图,还需要输入尽量准确详细的提示词。
如果细节很多,还是要仔细描述清楚的,不然 whisk 自行扫描提取语义信息肯定会有不理想的情况。
4) IP 类内容的提示词尽量用自己翻译检查后的英文。
从最后一个派大星的案例中可以看出,我们直接输入中文,让 whisk 后台自行翻译的英文输出的图片效果不理想。而当我们把内容自行用网易有道或者 deepl 翻译成英文再复制过来使用的时候,派大星的形象才是对的。
案例二:万物皆可变贴纸
从这个案例开始,呱呱就带大家直接进入可编辑可控制效果的生图页面进行操作了。
① 进入whisk生图可编辑页面
在 whisk 主页下方,找到“从头开始”,点击进入更自主化的生图页面。
② 设定样式和尺寸
选择左上角的三条杠,调出样式设定和尺寸设定,设定自己需要的尺寸和样式。
此处呱呱设定的样式是 Sticker(贴纸),尺寸选择默认的 Landcape(16:9)的。
③选择或者上传一张设计图
当我们把样式选择好后,生图页面上“样式”区域的参考图则已经打上“√”了。
这时候我们需要做的则是把“主题”图片上传好或者用文本输入好,本次示例呱呱选择使用图片。第二个类型 SCENE(场景)的图片可有可无,看个人选择。如果你选择上传一张场景,则生成图的参考图为:主题参考图+SCENE(场景)参考图。
此处呱呱使用 WHISK 的一个功能“筛子”,让系统随机的生成不同的图来测试效果。
呱呱注释:“筛子”功能就是摇骰子,系统会随机给出一张主题图,一张 SCENE 图,一张样式图。
呱呱碎碎念:
每次点击筛子按钮后,主题、SCENE(场景)和样式都会随机增加一张图。
④生成看效果
呱呱只是测试效果此处就不写提示词,点击“→”直接生成合并图片了。
⑤其他图片转化贴纸的尝试效果
如果想用自己的图片,同时又不想删除前面的图。则可以使用 WHISK 的“添加更多”功能。这个功能可以自由的在选择的类型下添加 1 个空白的图片框(每次点击只能选择一个类型添加,每次一张图,但可以无限点击)。
本次教程呱呱全程都是用的上传图片,因为 WHISK 最擅长的就是“图生图”。下面是呱呱用其他类型的图的效果测试,大家可以看下效果。
⑥亿点技巧
当我们使用场景比较复杂的图进行图生图的时候,不写提示词往往画面很不准确。比如下图这张国风质感的场景,细节很多,不好描述。直出或者结合原图的中文提示词或者英文提示词效果都差一点。
这时候我们可以这样做:
1) 使用 joy1 反推图片,得到场景的具体提示词
网址:https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
This is a vibrant, digital illustration depicting a serene Asian woman in a traditional Chinese outfit. She is positioned centrally in the image, her eyes closed and her hands pressed together in a prayer-like gesture. Her long, dark hair is styled in an elaborate updo adorned with white and yellow flowers. She wears a white silk robe with intricate green embroidery and a teal sash around her waist, adding a touch of color to her attire.
Surrounding her are two small birds perched on her shoulders, one black with a white breast, and another with a yellow breast. The background features a picturesque village scene with lush greenery and traditional Chinese houses with red-tiled roofs. In the distance, there are several figures, including a man in a blue shirt and a woman in a red dress, suggesting a festive atmosphere. The sky is a bright blue with fluffy white clouds, adding to the idyllic setting. The overall style is detailed and colorful, with a soft, watercolor-like texture that enhances the peaceful and harmonious mood of the illustration.
2) 复制反推得到的英文提示词到输入框,结合参考图生成合成图片。
3) 点击生成图片的“编辑图像”功能,把反推的提示词再次复制进去,再次生成。
可以看到细节优化了很多,和参考图更像了。但因为我们在写提示词的时候没有把每部分场景都和“贴纸”进行语言上的结合,所以贴纸的感觉就很弱了,这里大家根据自己需要选择是优化提示词还是简单化。
案例三:万物皆可变珐琅别针
① 进入whisk生图可编辑页面
同前面步骤一样的,呱呱就不多赘述了。
② 设定样式和尺寸
选择左上角的三条杠,调出样式设定和尺寸设定,设定自己需要的尺寸和样式。
此处呱呱设定的样式是 Sticker(贴纸),尺寸选择默认的第一个选项:Landcape,也就是(16:9)的。
③ 使用系统提供的主题图或者自己上传一张。
当我们把样式选择好后,生图页面上“样式”区域的参考图则已经打上“√”了。
接着是上传主题图,呱呱是使用 whisk 的“摇色子”功能让系统随机给出一张主题图和一张 SCENE 图和一张样式图。
④写提示词
如果是简单的内容,可以不写。此处呱呱是为了给大家演示步骤,就不去仔细编辑提示词了。此处呱呱直接根据网站提示,点击“→”生成合并图片。
⑤生成看效果
⑥优化图片提示词
如果想调整优化效果,可以点击图片的“优化”或者“编辑图像”功能,对提示词进行优化。
也可以直接点击图片,进入“编辑图像”页面,优化提示词。
呱呱碎碎念:切记,whisk 的逻辑就是识别图片生成该图片的提示词,图片+图片=提示词+提示词
④ 其他图片转化珐琅别针的尝试效果
如果想用自己的图片,同时又不想删除前面的图。则可以使用 WHISK 的“添加更多”功能。这个功能可以自由的在选择的类型下添加 1 个空白的图片框(每次点击只能选择一个类型添加,每次一张图,但可以无限点击)。
其他效果如图:
上篇暂告一段落,想学的记得关注我和优设网哦。
*标题“全网”指代优设网。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
这么设计才好玩
已累计诞生 671 位幸运星
发表评论 已发布4条
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓