手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

一、Janus 模型介绍

Janus 是深度求索(DeepSeek)公司开源的多模态大模型,主打 AI 图像生成与 AI 图像识别,支持文生图、图生文等多模态交互,属于其 AGI 技术布局中的关键产品之一。(简而言之:一个能画图、能识图、开源可定制的 AI 模型)

GitHub 代码库: https://github.com/deepseek-ai/Janus

更多DeepSeek干货:

二、Janus 模型在线使用

1. 图像识别(图生文)

① 使用魔法网络打开网址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,选多模态识别,红色箭头位置上传图片,QUESTION 处写上 explain this picture(解释这个图片)点击 CHAT 即可。

② 使用魔法网络稍等片刻,Response 即可显示图片识别的结果。

③ 也可以使用早期版本来做图像识别

Janus 1.3B「图像识别」 https://huggingface.co/spaces/deepseek-ai/Janus-1.3B

JanusFlow-1.3B「图像识别」 https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B

2. 图像生成(文生图)

① 打开网址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,选文生图,红色箭头位置写提示词,绿色箭头位置点击即可生成图片

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

② 稍等片刻,即可显示图片生成的结果。

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

三、Janus 模型本地使用

三个步骤请按顺序执行,如果那个步骤已经安装对应软件可忽略此步骤。

1. 安装 ComfyUI

详见:

2. 安装插件

① 打开 COMFYUI 右上角的管理器,然后选择节点管理

② 打开魔法网络。搜索 JANUS,三选一,点击 INSTALL 安装即可

网址:

  1. https://github.com/chflame163/ComfyUI_Janus_Wrapper/
  2. https://github.com/ZHO-ZHO-ZHO/ComfyUI-DeepSeek-JanusPro
  3. https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro 

3. 安装模型

  1. 模型将在首次运行时自动下载。如果下载失败必须手动下载模型。
  2. 下载 https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main所有文件并复制到 ComfyUI\models\Janus-Pro\Janus-Pro-7B 文件夹。
  3. 下载 https://huggingface.co/deepseek-ai/Janus-Pro-1B/tree/main所有文件并复制到 ComfyUI\models\Janus-Pro\Janus-Pro-1B 文件夹。
  4. 提供 1B(10 亿参数)和 7B(70 亿参数)两种规模模型,适配不同算力需求,并允许开发者自由使用及二次开发模型。

4. 图像识别(图生文)

打开工作流文件,红色箭头处选择 Janus-Pro-1B 模型,绿色框位置写上图像提示词,提示词支持中文/英文 详细描述图片的内容,输出要求: 一份中文描述, 一份英文描述

5. 图像生成(文生图)

打开工作流文件,红色箭头处选择 Janus-Pro-1B 模型,绿色框位置写上生成图像的提示词,提示词支持英文

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

四、Janus 模型资料

1. Janus 模型版本介绍

一共有三个版本,Janus-Pro 为最新模型。

① Janus-Pro:通过数据和模型缩放统一多模态理解和生成

Janus-Pro 是之前作品 Janus 的高级版本。具体而言,Janus-Pro 包含优化的训练策略、扩展的训练数据以及扩展至更大的模型尺寸。通过这些改进,Janus-Pro 在多模态理解和文本-图像指令遵循能力方面都取得了显著进步,同时还增强了文本-图像生成的稳定性。

② Janus:解耦视觉编码,统一多模态理解和生成

Janus 是一个新的自回归框架,统一了多模态理解和生成。它通过将视觉编码解耦到单独的路径中来解决以前方法的局限性,同时仍然使用单个统一的 Transformer 架构进行处理。这种解耦不仅消除了视觉编码器在理解和生成过程中的角色冲突,而且增强了框架的灵活性。Janus 超越了以前的统一模型,并匹配或超过特定任务模型的性能。Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

③ JanusFlow:协调自回归和校正流,实现统一的多模态理解和生成

JanusFlow 引入了一种极简架构,将自回归语言模型与整流流集成在一起,整流流是生成建模中最先进的方法。我们的关键发现表明,整流流可以直接在大型语言模型框架内训练,无需复杂的架构修改。大量的实验表明,JanusFlow 在各自的领域中实现了与专用模型相当或上级的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表了向更有效和通用的视觉语言模型迈出的一步。

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

2. Janus 模型发布时间

2025.01.27:Janus-Pro 发布,这是 Janus 高级版本,显著改善多模态理解和视觉生成。

2024.11.13:JanusFlow 发布,这是一种新的统一模型,具有用于图像生成的整流流。

2024.10.23:VLMEvalKit 中添加了用于再现论文中多模态理解结果的评估代码。

2024.10.20:Janus-1.3B 发布

四、Deepseek Janus 模型打标测试对比 joy_Caption 效果

1. 打标测试

① Deepseeek janus-Pro 测试

对于黑白线稿的打标测试

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

效果反馈

Janus-Pro-7b 在规则的黑白线稿打标上效果最好,对于 Joy_caption 有着一定的优势,但是缺点就是打标速度慢单张在 2 分钟左右,且对电脑的性能要求较高,测试电脑性能为 4090D,在其他部分风格上的打标略有不足。

2. 关于彩色以及抽象风格图片打标

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

效果评价

  1. Janus-Pro-7B 打标速度较慢时间为 113-118 秒,打标效果较好可以很大程度的复现原稿,对于抽象的原图,有一定的修复效果
  2. Janus-Pro-1B 打标速度较快时间为 20-40 秒,打标效果一般,对于图片的理解能力不如 Joy_capion
  3. Joy_Caption 打标速度快,打标效果较为精准,同样对于抽象的风格打标效果不尽如人意

3. 对于图片的打标

Janus-Pro-7B 文本测试

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

效果评价

打标风格可以调整,对于少量特殊的风格打标也较为精准,对于关键词数量也比较合适。

4. Joy_caption 文本测试

手把手教学!Deepseek Janus 生图模型安装流程+核心功能解析

效果评价

Janus-Prod 的打标风格如果有需要可以在内部进行调整,对于大多数风格都较为合适,但是关键词过于仔细较长,对于抽象风格有一定的修复效果,但理解不到位。

收藏 8
点赞 38

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。