刘谦Designer 邀请你来回答

2024/03/04

谷歌推出生成交互大模型 Genie,一张草图直接生成视频游戏!

近日,谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。

Genie是一个具有110亿参数的模型,它能够根据图像、真实照片甚至草图生成可控制动作的视频游戏。这个模型的特点是无需数据标记和无监督训练,它通过3万小时、6800万段游戏视频进行了大规模训练,而且训练过程中没有使用任何真实动作标签或其他特定提示。

Genie的核心架构使用了ST-Transformer(时空变换器),这是一种结合了Transformer模型的自注意力机制与时空数据的特性,有效处理视频、多传感器时间序列、交通流量等时空数据的方法。ST-Transformer通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力。

Genie的架构主要由三大模块组成:
1. 视频分词器:基于VQ-VAE的模块,将原始视频帧压缩成离散的记号表示,以降低维度并提高视频生成质量。
2. 潜在动作模型:无监督学习模块,从原始视频中推断出状态变化对应的潜在动作,并实现对每一帧的控制。
3. 动力学模型:基于潜在动作模型学习到的动作关系,预测下一帧的视频。

除了视频游戏,你觉得 Genie 模型还能在哪些其他领域发挥作用?

好问题 15 回答 3 生成海报
优设问答有问必答 👉 回答问题赢奖品
{{ moreBtnTxt }}
阅读相关文章
{{comTitle}} {{comSubtitle}}

谷歌推出生成交互大模型 Genie,一张草图直接生成视频游戏!

生成问答海报 我要提问 我来回答