Janus 是深度求索(DeepSeek)公司开源的多模态大模型,主打 AI 图像生成与 AI 图像识别,支持文生图、图生文等多模态交互,属于其 AGI 技术布局中的关键产品之一。(简而言之:一个能画图、能识图、开源可定制的 AI 模型)
GitHub 代码库: https://github.com/deepseek-ai/Janus
更多DeepSeek干货:
1. 图像识别(图生文)
① 使用魔法网络打开网址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,选多模态识别,红色箭头位置上传图片,QUESTION 处写上 explain this picture(解释这个图片)点击 CHAT 即可。
② 使用魔法网络稍等片刻,Response 即可显示图片识别的结果。
③ 也可以使用早期版本来做图像识别
Janus 1.3B「图像识别」 https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
JanusFlow-1.3B「图像识别」 https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B
2. 图像生成(文生图)
① 打开网址: https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B ,选文生图,红色箭头位置写提示词,绿色箭头位置点击即可生成图片
② 稍等片刻,即可显示图片生成的结果。
三个步骤请按顺序执行,如果那个步骤已经安装对应软件可忽略此步骤。
1. 安装 ComfyUI
详见:
2. 安装插件
① 打开 COMFYUI 右上角的管理器,然后选择节点管理
② 打开魔法网络。搜索 JANUS,三选一,点击 INSTALL 安装即可
网址:
- https://github.com/chflame163/ComfyUI_Janus_Wrapper/
- https://github.com/ZHO-ZHO-ZHO/ComfyUI-DeepSeek-JanusPro
- https://github.com/CY-CHENYUE/ComfyUI-Janus-Pro
3. 安装模型
- 模型将在首次运行时自动下载。如果下载失败必须手动下载模型。
- 下载 https://huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main所有文件并复制到 ComfyUI\models\Janus-Pro\Janus-Pro-7B 文件夹。
- 下载 https://huggingface.co/deepseek-ai/Janus-Pro-1B/tree/main所有文件并复制到 ComfyUI\models\Janus-Pro\Janus-Pro-1B 文件夹。
- 提供 1B(10 亿参数)和 7B(70 亿参数)两种规模模型,适配不同算力需求,并允许开发者自由使用及二次开发模型。
4. 图像识别(图生文)
打开工作流文件,红色箭头处选择 Janus-Pro-1B 模型,绿色框位置写上图像提示词,提示词支持中文/英文 详细描述图片的内容,输出要求: 一份中文描述, 一份英文描述
5. 图像生成(文生图)
打开工作流文件,红色箭头处选择 Janus-Pro-1B 模型,绿色框位置写上生成图像的提示词,提示词支持英文
1. Janus 模型版本介绍
一共有三个版本,Janus-Pro 为最新模型。
① Janus-Pro:通过数据和模型缩放统一多模态理解和生成
Janus-Pro 是之前作品 Janus 的高级版本。具体而言,Janus-Pro 包含优化的训练策略、扩展的训练数据以及扩展至更大的模型尺寸。通过这些改进,Janus-Pro 在多模态理解和文本-图像指令遵循能力方面都取得了显著进步,同时还增强了文本-图像生成的稳定性。
② Janus:解耦视觉编码,统一多模态理解和生成
Janus 是一个新的自回归框架,统一了多模态理解和生成。它通过将视觉编码解耦到单独的路径中来解决以前方法的局限性,同时仍然使用单个统一的 Transformer 架构进行处理。这种解耦不仅消除了视觉编码器在理解和生成过程中的角色冲突,而且增强了框架的灵活性。Janus 超越了以前的统一模型,并匹配或超过特定任务模型的性能。Janus 的简单性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
③ JanusFlow:协调自回归和校正流,实现统一的多模态理解和生成
JanusFlow 引入了一种极简架构,将自回归语言模型与整流流集成在一起,整流流是生成建模中最先进的方法。我们的关键发现表明,整流流可以直接在大型语言模型框架内训练,无需复杂的架构修改。大量的实验表明,JanusFlow 在各自的领域中实现了与专用模型相当或上级的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表了向更有效和通用的视觉语言模型迈出的一步。
2. Janus 模型发布时间
2025.01.27:Janus-Pro 发布,这是 Janus 高级版本,显著改善多模态理解和视觉生成。
2024.11.13:JanusFlow 发布,这是一种新的统一模型,具有用于图像生成的整流流。
2024.10.23:VLMEvalKit 中添加了用于再现论文中多模态理解结果的评估代码。
2024.10.20:Janus-1.3B 发布
1. 打标测试
① Deepseeek janus-Pro 测试
对于黑白线稿的打标测试
效果反馈
Janus-Pro-7b 在规则的黑白线稿打标上效果最好,对于 Joy_caption 有着一定的优势,但是缺点就是打标速度慢单张在 2 分钟左右,且对电脑的性能要求较高,测试电脑性能为 4090D,在其他部分风格上的打标略有不足。
2. 关于彩色以及抽象风格图片打标
效果评价
- Janus-Pro-7B 打标速度较慢时间为 113-118 秒,打标效果较好可以很大程度的复现原稿,对于抽象的原图,有一定的修复效果
- Janus-Pro-1B 打标速度较快时间为 20-40 秒,打标效果一般,对于图片的理解能力不如 Joy_capion
- Joy_Caption 打标速度快,打标效果较为精准,同样对于抽象的风格打标效果不尽如人意
3. 对于图片的打标
Janus-Pro-7B 文本测试
效果评价
打标风格可以调整,对于少量特殊的风格打标也较为精准,对于关键词数量也比较合适。
4. Joy_caption 文本测试
效果评价
Janus-Prod 的打标风格如果有需要可以在内部进行调整,对于大多数风格都较为合适,但是关键词过于仔细较长,对于抽象风格有一定的修复效果,但理解不到位。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI时代的设计师生存手册
已累计诞生 684 位幸运星
发表评论 为下方 4 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓