字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块: - 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。 - 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。 - 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。 - 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468 项目地址:https://magicvideov2.github.io/
AI 生成视频又卷起来了!Google发布重磅视频扩散模型Lumiere,支持通过文字一键生成特定风格的有连贯动作的高质量的视频,至少从demo视频看起来,跟目前其他的视频生成应用能够达到的效果相比,是一个非常大的进步。
它还支持通过文字控制视频画面的局部修改,比如一键换装;支持通过文字将图片转化成特定动作的视频;支持根据参考图片生成一样风格但不同内容的视频等,这些都可以在视频里看到,快看!
Lumiere 有5大亮点值得关注: 亮点1:支持文本到视频与图像到视频 亮点2:画风迁移 亮点3:运动蒙版 亮点4:视频编辑 亮点5:视频修复
昨天在优设读报刷到的这个工具,试玩了一下,感觉还蛮有意思的,比较适合做微信头像(不是很会用,就感觉拿来生成卡通的头像太合适了)
PhotoMaker 是腾讯推出的一款真实人像生成工具,快速逼真,效果自然。
功能包括: 1. 利用多张照片作为身份ID,获取人物特征,然后创造出一个新的、个性化的人物图像。
2.把几个不同人的照片特征混合在一起,创造出一个全新的人物形象。
3. 能改变照片人物的性别、年龄和生成多种风格的其他照片。Huggingface上有Demo,试了一下的确可以精准还原人脸特征。
大家有体验过了吗?感觉怎么样呢?
Github 上的一个名为 OpenVoice 的 AI 语音克隆项目爆火,该项目由 myshell-ai 开源,仅开源了不到三周,就有了 6.1k 的 star。
OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。
主要功能: - 准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。 - 灵活的声音风格控制:用户可以控制生成语音的情感和口音,以及其他风格参数,如节奏、停顿和语调。 - 零样本跨语言声音克隆:OpenVoice可以在未包含在大规模多语言训练集中的任何语言之间进行声音克隆。
试玩地址: https://github.com/myshell-ai/OpenVoice