谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点:
1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。
2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。
3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。
4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。