Stability AI 发布了 Stable Diffusion 3,宣称这是他们最强大的文本到图像模型,利用扩散转换器架构大大提高了多主题提示、图像质量和拼写能力的性能!
该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。
Stable Diffusion 3的参数在8亿——80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。
Stable Diffusion 3 支持申请使用,未来会扩大测试范围。
申请地址:https://stability.ai/stablediffusion3
根据 Adobe 官方网站的公告,他们正式推出了一款名为AIAssistant的生成式AI助手,并将其整合到Reader和Acrobat这两款知名的PDF阅读器中。
AIAssistant 的功能类似于ChatGPT,它能够根据PDF文档内容提供摘要、核心见解,甚至回答各种问题。
目前,Acrobat Personal、Teams以及Acrobat Pro的用户可以体验测试版AIAssistant功能。
这一新功能的推出,无疑将极大地提升用户在阅读和处理PDF文档时的效率和便利性,为用户带来全新的使用体验。
字节研究院发布了一个名为 Boximator 的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。与 Runway 的运动笔刷相比,Boximator 可以更精确地控制物体的运动结束位置。
Boximator适用于艺术家、设计师和营销专业人士,它结合了高度的个性化和创意表达能力,使用户能够创造出独特且引人入胜的视频内容。目前,Boximator仍在开发中,但已提供早期体验渠道,用户可以通过电子邮件体验其功能。
线上体验地址:https://boximator.github.io/
给大家推荐一个 Stable Diffusion ComfyUI 工作流管理插件 Comfyspace,现在新增了模型管理功能。能力更强大了。
点击右上角的模型按钮,即可查看已安装的模型文件,同时它会同步Civitai的模型封面图,无需依靠文字猜测模型。模型分类也非常全面,不再局限于CKPT模型和Lora模型。
点击安装即可轻松查看Civitai的所有模型,并进行搜索,随时下载到对应文件夹。这个插件已成为我使用Comfyui时不可或缺的插件,而且他们的本地插件管理和历史生成结果查看功能也非常实用。
下载安装:https://github.com/11cafe/comfyui-workspace-manager
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块: - 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。 - 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。 - 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。 - 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468 项目地址:https://magicvideov2.github.io/
Midjourney 官方宣布,正在测试一种风格调整算法「风格参照」,帮助用户生成风格一致性图像。这项功能与图像提示类似,在图片提示中,你可以提供一个或多个图像的链接,用以描述你想要的统一风格。该功能支持 V6 和 Niji V6 版本(不支持 V5 等旧版本),该功能可能会在未来几周进行更新。
划重点: 1. 使用 —sref url(image)这个指令可以添加最多三张风格参考图,现在不用写promt,想要什么风格直接扔图给MJ,他会懂你😎 2. 进行时:在接下来很短的日子里,MJ即将推出另外一个新指令 —cref, 让你能更好的控制人物形象一致性。