字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块:
- 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。
- 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。
- 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。
- 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468
项目地址:https://magicvideov2.github.io/