好消息,近日字节跳动推出了一种新型工具——分辨率适配器 ResAdapter,这个工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。
ResAdapter能够与现有的IPadapter和Controlnet模型兼容,并且可以直接生成动态分辨率的图像,提高了图像处理的效率。
项目简介中提到,尽管像Stable Diffusion这样的模型能够创造出高质量的图像,但在生成非训练分辨率的图像时存在限制。ResAdapter通过利用广泛的分辨率先验,即使只有0.5M的容量,也能生成高分辨率且保持原有风格的图像。
ResAdapter在提高分辨率方面与扩散模型配合得很好,并且可以与其他模块兼容,用于创建不同分辨率的图像。
项目介绍地址:res-adapter.github
近日,谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。
Genie是一个具有110亿参数的模型,它能够根据图像、真实照片甚至草图生成可控制动作的视频游戏。这个模型的特点是无需数据标记和无监督训练,它通过3万小时、6800万段游戏视频进行了大规模训练,而且训练过程中没有使用任何真实动作标签或其他特定提示。
Genie的核心架构使用了ST-Transformer(时空变换器),这是一种结合了Transformer模型的自注意力机制与时空数据的特性,有效处理视频、多传感器时间序列、交通流量等时空数据的方法。ST-Transformer通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力。
Genie的架构主要由三大模块组成: 1. 视频分词器:基于VQ-VAE的模块,将原始视频帧压缩成离散的记号表示,以降低维度并提高视频生成质量。 2. 潜在动作模型:无监督学习模块,从原始视频中推断出状态变化对应的潜在动作,并实现对每一帧的控制。 3. 动力学模型:基于潜在动作模型学习到的动作关系,预测下一帧的视频。
除了视频游戏,你觉得 Genie 模型还能在哪些其他领域发挥作用?
Stability AI 发布了 Stable Diffusion 3,宣称这是他们最强大的文本到图像模型,利用扩散转换器架构大大提高了多主题提示、图像质量和拼写能力的性能!
该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。
Stable Diffusion 3的参数在8亿——80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。
Stable Diffusion 3 支持申请使用,未来会扩大测试范围。
申请地址:https://stability.ai/stablediffusion3
根据 Adobe 官方网站的公告,他们正式推出了一款名为AIAssistant的生成式AI助手,并将其整合到Reader和Acrobat这两款知名的PDF阅读器中。
AIAssistant 的功能类似于ChatGPT,它能够根据PDF文档内容提供摘要、核心见解,甚至回答各种问题。
目前,Acrobat Personal、Teams以及Acrobat Pro的用户可以体验测试版AIAssistant功能。
这一新功能的推出,无疑将极大地提升用户在阅读和处理PDF文档时的效率和便利性,为用户带来全新的使用体验。
字节研究院发布了一个名为 Boximator 的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。与 Runway 的运动笔刷相比,Boximator 可以更精确地控制物体的运动结束位置。
Boximator适用于艺术家、设计师和营销专业人士,它结合了高度的个性化和创意表达能力,使用户能够创造出独特且引人入胜的视频内容。目前,Boximator仍在开发中,但已提供早期体验渠道,用户可以通过电子邮件体验其功能。
线上体验地址:https://boximator.github.io/
给大家推荐一个 Stable Diffusion ComfyUI 工作流管理插件 Comfyspace,现在新增了模型管理功能。能力更强大了。
点击右上角的模型按钮,即可查看已安装的模型文件,同时它会同步Civitai的模型封面图,无需依靠文字猜测模型。模型分类也非常全面,不再局限于CKPT模型和Lora模型。
点击安装即可轻松查看Civitai的所有模型,并进行搜索,随时下载到对应文件夹。这个插件已成为我使用Comfyui时不可或缺的插件,而且他们的本地插件管理和历史生成结果查看功能也非常实用。
下载安装:https://github.com/11cafe/comfyui-workspace-manager
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块: - 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。 - 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。 - 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。 - 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468 项目地址:https://magicvideov2.github.io/