刘谦Designer 邀你回答

2024/03/04

谷歌推出生成交互大模型 Genie，一张草图直接生成视频游戏！

近日，谷歌DeepMind的研究人员推出了，首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments，简称“Genie”。

Genie是一个具有110亿参数的模型，它能够根据图像、真实照片甚至草图生成可控制动作的视频游戏。这个模型的特点是无需数据标记和无监督训练，它通过3万小时、6800万段游戏视频进行了大规模训练，而且训练过程中没有使用任何真实动作标签或其他特定提示。

Genie的核心架构使用了ST-Transformer（时空变换器），这是一种结合了Transformer模型的自注意力机制与时空数据的特性，有效处理视频、多传感器时间序列、交通流量等时空数据的方法。ST-Transformer通过捕捉数据在时间和空间上的复杂依赖关系，提高了对时空序列的理解和预测能力。

Genie的架构主要由三大模块组成：
1. 视频分词器：基于VQ-VAE的模块，将原始视频帧压缩成离散的记号表示，以降低维度并提高视频生成质量。
2. 潜在动作模型：无监督学习模块，从原始视频中推断出状态变化对应的潜在动作，并实现对每一帧的控制。
3. 动力学模型：基于潜在动作模型学习到的动作关系，预测下一帧的视频。

除了视频游戏，你觉得 Genie 模型还能在哪些其他领域发挥作用？

AI神器 AI视频人工智能谷歌设计

收藏 关注话题 点赞 15

立即查看 AI神器的解决方案

注意看！4个免费好用的AI配音神器都在这！

AI神器 AI配音阅读 18.5w

查看详情

优设问答有问必答 👉 回答问题赢奖品

6分钟阅读

8分钟阅读

12分钟阅读

8分钟阅读

{{comTitle}} {{comSubtitle}}

菜单 优设网uisdc.com 优设网 - 学设计上优设

您还未登录

登录后即可体验更多功能

刘谦Designer 邀你回答

立即查看 AI神器 的解决方案

AI神器AI配音阅读 18.5w

Wo~本文的评论还空着，快来抢沙发

邀你回答

Adobe 推出 AI 音乐生成工具 Project Music GenAI Control，与现有的音乐创作软件相比有哪些优势和不同？

< 上一篇

3.8k 设计师围观了该问题

在工作中，你遇到过的最“坑爹”的设计需求是什么？

下一篇 >

程远

夏花生

彩云Sky

夏花生

夏花生

优设读报 2025年04月16日 星期三

OpenAI 发布 GPT-4.1系列模型：能力全面超越前代

可灵 AI 全系模型进入 2.0 时代：视频生成技术实现革命性突破

智谱AI启用全新域名 Z.ai，并开源 32B/9B 系列 GLM 模型

阿里云旗下 AI 开源社区魔搭上线 MCP 广场

月之暗面 Kimi ai 将推出内容社区，开启用户互动新模式

近期热门问题

做个小调查，你希望优设网新增哪项新功能？

42位设计师参与回答

吴彦祖为咖啡店设计新LOGO！灵感你看出来自哪里了吗？

11位设计师参与回答

大家呼声最高的稍后阅读功能，今天终于上线了！

7位设计师参与回答

优设桌面摆件，IP小黄鸡原创桌面立牌上新啦！

7位设计师参与回答

为什么上个班硬是上出了结婚的感觉？

6位设计师参与回答

中南民族大学全新校园卡设计，8套方案你pick哪一款？

6位设计师参与回答

优设官方微信群

添加管理员 招财

微信号: 扫码添加

严格审核打造高质量交流群