字节研究院发布了一个名为 Boximator 的视频控制方式,看起来相当不错。这种控制方式允许用户选择需要运动的物体,并绘制其结束位置和运动路径,物体将严格按照用户绘制的位置和路径进行运动。与 Runway 的运动笔刷相比,Boximator 可以更精确地控制物体的运动结束位置。
Boximator适用于艺术家、设计师和营销专业人士,它结合了高度的个性化和创意表达能力,使用户能够创造出独特且引人入胜的视频内容。目前,Boximator仍在开发中,但已提供早期体验渠道,用户可以通过电子邮件体验其功能。
线上体验地址:https://boximator.github.io/
给大家推荐一个 Stable Diffusion ComfyUI 工作流管理插件 Comfyspace,现在新增了模型管理功能。能力更强大了。
点击右上角的模型按钮,即可查看已安装的模型文件,同时它会同步Civitai的模型封面图,无需依靠文字猜测模型。模型分类也非常全面,不再局限于CKPT模型和Lora模型。
点击安装即可轻松查看Civitai的所有模型,并进行搜索,随时下载到对应文件夹。这个插件已成为我使用Comfyui时不可或缺的插件,而且他们的本地插件管理和历史生成结果查看功能也非常实用。
下载安装:https://github.com/11cafe/comfyui-workspace-manager
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块: - 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。 - 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。 - 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。 - 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468 项目地址:https://magicvideov2.github.io/
AI 生成视频又卷起来了!Google发布重磅视频扩散模型Lumiere,支持通过文字一键生成特定风格的有连贯动作的高质量的视频,至少从demo视频看起来,跟目前其他的视频生成应用能够达到的效果相比,是一个非常大的进步。
它还支持通过文字控制视频画面的局部修改,比如一键换装;支持通过文字将图片转化成特定动作的视频;支持根据参考图片生成一样风格但不同内容的视频等,这些都可以在视频里看到,快看!
Lumiere 有5大亮点值得关注: 亮点1:支持文本到视频与图像到视频 亮点2:画风迁移 亮点3:运动蒙版 亮点4:视频编辑 亮点5:视频修复
昨天在优设读报刷到的这个工具,试玩了一下,感觉还蛮有意思的,比较适合做微信头像(不是很会用,就感觉拿来生成卡通的头像太合适了)
PhotoMaker 是腾讯推出的一款真实人像生成工具,快速逼真,效果自然。
功能包括: 1. 利用多张照片作为身份ID,获取人物特征,然后创造出一个新的、个性化的人物图像。
2.把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。
3. 能改变照片人物的性别、年龄和生成多种风格的其他照片。Huggingface上有Demo,试了一下的确可以精准还原人脸特征。
大家有体验过了吗?感觉怎么样呢?