文件名 如何下载使用 文件大小 提取码 下载来源
Janus-Pro模型+Flux工作流文件17.72G8866 点此复制 登录下载

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

DeepSeek 这次直接把桌子掀了!

继把大模型价格打到地板价后,他们最新开源的多模态模型更狠——不仅看得懂《清明上河图》的细节,还能照着你的描述生图。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

这个多模态模型就是他们悄悄开源的“双脑”视觉模型 Janus-Pro,被称为“左脑能当福尔摩斯解密图片,右脑能当画家挥毫泼墨。”的模型。

目前该模型未上线 Deepseek 官网,但我们可以通过 ComfyUI 来使用它。并且,还能结合 Flux 工作流使用!

接下来,我将通过这篇文章来教你如何在 ComfyUI 中使用 Janus-Pro 模型。

基础回顾:

一、Janus-Pro 介绍

一句话总结,Janus-Pro 是 DeepSeek 公司开发的一款“能看懂图片又能画图”的多模态模型。

论文地址: https://www.arxiv.org/pdf/2501.17811

GitHub 项目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

它就像有两个不同的大脑:

左脑(理解模式):比如上传图片,发送指令让模型识别照片中的物体。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

右脑(生成模式):可根据文字描述生成新图片,也就是我们熟知的文生图。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

接下来,就让我们看看如何在 ComfyUI 中部署 Janus-Pro,以及测试它在 ComfyUI 工作流中生图的可行性。

二、搭建 Janus-Pro 工作流

Janus-Pro 节点组作者开源的项目地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

1. 安装 Janus-Pro

首先,我们需要在 ComfyUI 中的 Manager 节点管理器中安装 Janus-Pro。搜索“Janus-Pro”,点击“Install”安装。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

然后,在 Hugging Face 上下载 Janus-Pro 模型。共两个版本模型:

Janus-Pro-1B(小模型):10 亿参数,擅长快速生成简单图片/文字回答,最低显存要求 8GB。

模型下载地址: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

Janus-Pro-7B(大模型):70 亿参数,擅长高精度复杂图像生成/推理,最低显存要求 24GB。

模型下载地址: https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main

切记,需要在“Files and Versions”中下载列表中的所有文件。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

模型安装会比较麻烦一些,这里需要认真看。

第一步,打开 ComfyUI 根目录,找到 Models 文件夹,新建文件夹并命名“Janus-pro”。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

第二步,进入“Janus-pro”文件中,再次新建文件夹,并按照你需要安装的模型版本命名文件夹。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

第三步,将 Hugging Face 上下载的文件放在对应的文件夹中。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

2. 搭建 Janus-Pro 工作流

安装节点组和模型后,我们就可以启动 ComfyUI 搭建 Janus-Pro 工作流了。

可以在节点库中搜索“Janus”找到节点组,共 3 个节点,分别是模型加载、图像理解和图像生成。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

先搭建图像理解工作流。连接方式也比较简单,除了 Janus 节点组中的模型加载和图像理解节点外,还需调用“图像加载”和“展示文本”节点,如图所示:

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

它可以识别图片中的任何元素,如图中的人像摄影图。

操作方式为,选择“Janus-Pro-7B”模型,上传图像,并在图像理解节点中输入提示词:“请详细描述这张图片。”

运行后,就可以在展示文本中看到回复结果:

“这张图片展示了一位年轻女性,她站在户外,背景是模糊的绿色植物和阳光。她的长发自然地散落在肩上,头发颜色为深棕色或黑色。她穿着一件带有花卉图案的露肩上衣,上衣的颜色主要是白色,并点缀着红色和绿色的花朵。她的表情温柔,目光直视镜头,嘴唇涂有鲜艳的红色口红。整体画面给人一种清新自然的感觉,光线柔和,营造出一种宁静的氛围。”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

上传一张清明上河图,Janus 也能详细的描述出图中内容。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

接着,我们测试下图像生成工作流。

调用图像生成节点,连接模型加载节点和预览/保存图像节点。这个工作流的功能类似于文生图,只不过大模型是 Janus-Pro-1B/7B。

可以测试下,使用 Janus-Pro-7B,输入“The girl in the red shirt(穿着红色衬衫的女孩)。”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

怀疑是提示词少了,于是再写了一组详细的 Prompt:

“masterpiece, best quality, ultra-realistic photography style, cinematic lighting, A 20-year-old woman standing on a city rooftop at sunset, black silk crop top, black leather leggings, long flowing raven hair with subtle violet highlights, facial highlights accentuating high cheekbones, dramatic sky background with swirling dark clouds pierced by golden sunset rays, soft pastel tones blending into muted indigo shadows, high contrast chiaroscuro, natural skin texture with dewy complexion, dim ambient light casting delicate rim lighting, low-angle wide shot from 35mm lens, shallow depth of field blurring distant skyscrapers, neo-noir aesthetic with melancholic yet empowering atmosphere.”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

说实话,Janus-Pro-7B 在文生图方面差远了,这是如何击败 StableDiffusion......

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

一句话总结(借助下群友的回复):“生图一般,提示词反推可以。”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

这就是 Deepseek 团队发布的 Janus 多模态模型,从上面的案例演示你或许也能看出,该模型也只是在图像识别方面会比较优秀,而这个模型的能力,早在其他大语言模型上实现,比如 Kimi 的视觉思考模型(现已经整合)。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

而在未来,Deepseek 肯定会在官网上线这一模型,压力又给到了国内的 AI 六小龙们......

那既然文生图效果不行,在 ComfyUI 中,使用 Janus-Pro 模型只剩下图像理解工作流了。
可以这样做,让 Janus 模型生成 AI 绘画提示词,而生图模型用 Flux 模型即可优劣互补。

三、Janus+Flux 工作流

先加载一套 Flux 文生图工作流,注意需要安装 Flux 对应的节点模型。

在文生图工作流上,可以添加一个“Lora 堆”节点,方便后续 lora 模型的调用。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

搭建 Janus+Flux 工作流的方法有两种:

1. Janus+Flux 工作流合并

第一种,Janus 图像理解工作流与 Flux 文生图工作流合并。

具体操作:将“Clip 文本编码器”的提示词框转换为输入连接点,并与图像理解工作流的“展示文本”连接。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

上传一张图片(如图中的哪吒),在 Janus 图像理解工作流中输入指令:

“根据图片内容帮助我生成 Stablediffusion 所需要的 Prompt。注意,你只需要输出 Prompt,并且需要是英文。”

回复为:

Sure, here is the Prompt for Stablediffusion:

"A young boy with a mischievous grin, wearing a red and gold outfit, is surrounded by flames. He holds a staff with a fiery orb at the end, and his eyes are wide with excitement. The background is a swirling mix of dark and fiery colors, giving a sense of dynamic movement and energy."

译文为:

“当然,这是稳定扩散的提示:

一个小男孩带着顽皮的笑容,穿着红色和金色的衣服,被火焰包围。他手里拿着一根末端有一个火球的棍子,眼睛兴奋得睁得大大的。背景是深色和火红色的漩涡混合,给人一种动态运动和能量的感觉。”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

虽然在 StableDiffusion 生图提示词中,“Sure, here is the Prompt for Stablediffusion:”是一句多余的文本,但对图像生成的效果影响不大。

在 lora 堆中设置两个哪吒人物的 lora 模型,如图所示:

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

那这样,我们就可以用这套工作流一键复刻上传的图像(如图中的哪吒形象)。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

换一张敖光的图片测试,选择这两个敖光的 Lora 模型。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

Janus 生成的提示词为:

“Sure, here is the Stablediffusion Prompt for the image:
Prompt: "A fantasy character with white hair and pointed ears, wearing intricate silver armor with dragon motifs, holding a glowing blue sword, surrounded by a majestic white dragon with red eyes and golden accents. The background features a mystical, cloudy atmosphere with lightning effects."

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

这套工作流的优点是快,可以形成通过上传图片一键复刻生成。

缺点是自由度比较低,无法修改提示词,而用 Janus 模型+Flux 模型同时运行,会对电脑的显存要求比较高。

2. Janus+Flux 工作流拆分

那么,我们可以用第二种方式,将 Janus 和 Flux 拆分,形成两套工作流。

Janus 图像理解工作流,负责提示词生成,然后我们手动筛选优化提示词。

在 Janus 工作流中输入提示词:“请详细描述图片内容,然后为我生成 StableDiffusion 所需要的提示词。”

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

Flux 文生图工作流,负责图像生成,手动输入 Janus 模型生成的提示词。

而为了更加方便我们用提示词创作,可以在 Flux 工作流中增加一个翻译节点。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

这样,我们就可以直接在 ComfyUI 中,自由的输入提示词了。

并且 Janus 工作流可以替代以往我们在 Kimi、Claude 等 AI 聊天软件中反推提示词的步骤。

将上述 Janus 生成的提示词筛选出来(这种提示词方便添加权重):

“长发的女性,蓝色头发,头戴尖角发饰,鳞片状的服装,手臂和身体上的鳞片设计,巨大的龙,蓝色和紫色的鳞片,红色的眼睛,神秘的幻想背景,模糊的树木,天空,神秘,幻想。”

或者直接用 Janus 对图像的描述:

“一位身穿华丽服饰的女性角色,她拥有长长的蓝色头发,头戴装饰有尖角的发饰。她的服装以蓝色和紫色为主,带有鳞片状的纹理,与她手臂和身体上的鳞片设计相呼应。她正与一条巨大的龙互动,龙的鳞片同样是蓝色和紫色的,眼睛发出红色的光芒。背景中可以看到一些模糊的树木和天空,整体氛围充满了神秘和幻想色彩。”

然后将中文提示词直接放入翻译节点中,切换对应的 lora 模型。

注意!!两套工作流是单独运行处理的,所以在运行其中一个工作流时,需要将另一个工作流隐藏(全选工作流,按 Ctrl+B)

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

最后,我们依靠 Janus 所反推的提示词生成了这张效果图。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

但你会发现,Janus 只是将画面的人物动作描述的较为详细,对风格,细节的描述则很少。
所以,如果直接使用 Janus 反推的提示词,生成的结果较为一般,这时,还是需要我们手动补充,或者是借助 ComfyUI 中其他提示词节点。

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

写在最后

经过对 Janus 模型的测试,可以得出结论:“Janus 在 comfyUI 中的图像应用并不理想,而且所消耗的电脑资源比较大,虽然图像理解的能力还不错,但并未与其他 AI 聊天应用有比较明显的差距。”

所以,如果在 ComfyUI 中需要使用图像反推节点,我更愿意推荐“Florence 2”或“WD-14 反推提示词”等节点组。

但是,认真思考下,如果是 Janus 模型与 DeepseekR1 模型相互结合呢?

Janus 模型识别图像内容,R1 模型在思考推理前先联网检索网上优质的提示词,最后按照用户下达的指令,写出提示词而 Janus 模型部署在 Deepseek 中也只是时间问题。

这意味着,写图像提示词的难度还会降低,甚至是不需要你动脑子想,DeepseekR1 直接给你写出 N 种提示词方案。而你,只需要发送图片给它,用老板的语气给他下达指令......

如果你想要学习更多 AI 绘画技巧,可以加入我主理的《优设 AI 俱乐部》,俱乐部内沉淀有 2000+优质 AI 学习资料,AI 提示词、AI 工具库、AI 商业设计案例、研究报告......

可以点击链接: https://wx.zsxq.com/group/15288828142182

掀桌子了!DeepSeek开源“双脑模型”Janus-Pro:左脑识图,右脑画图!

文件名 如何下载使用 文件大小 提取码 下载来源
Janus-Pro模型+Flux工作流文件17.72G8866 点此复制 登录下载
收藏 24
点赞 35

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。