谷歌 Genie 3 开放体验:一句话生成可玩的 3D 世界
谷歌今天向付费用户开放了 Project Genie,这是基于 Genie 3 世界模型的实验性产品。只要输入一句话,就能生成一个可以实时探索的 3D 环境。
谷歌今天向付费用户开放了 Project Genie,这是基于 Genie 3 世界模型的实验性产品。只要输入一句话,就能生成一个可以实时探索的 3D 环境。
Genie 3 是什么?它是谷歌 DeepMind 开发的世界模型。去年8月首次预览,现在通过 Project Genie 向美国的 Google AI Ultra 订阅用户开放。
这个模型能以 24 帧每秒的速度,生成 720p 分辨率的交互式 3D 环境。你可以在里面走动、飞行、驾驶,环境会根据你的操作实时响应。最长支持数分钟的连续交互,视觉记忆时长达到一分钟。
Genie 3 和 Sora 有什么不同?
很多人会把 Genie 3 和 Sora 这类视频生成模型混淆。但它们本质上是两种东西。
Sora 生成的是视频,是一段固定的影像序列,适合观看和叙事。而 Genie 3 生成的是一个持久的、可交互的环境。
举个例子:在 Genie 3 生成的世界里,你走到一块黑板前,上面有图有字。你仔细看完,走到窗边看风景,过了一分钟再回来,黑板上的内容还在,一字未改。这就是"世界"和"视频"的区别。
Genie 3 采用自回归 Transformer 架构,逐帧生成画面。它不依赖传统物理引擎,而是通过分析大量视频数据,自己学会了重力、碰撞、物体运动这些物理规律。这种能力是"涌现"出来的,不是人为编程的。
能用来做什么?
谷歌把 Genie 3 定位为通向 AGI 的关键一步。它最直接的应用是训练 AI 智能体。