第18章 世界模型与视觉生成¶
📚 章节概述¶
世界模型(World Model)是2024-2025年AI领域最令人兴奋的方向之一。从Ha & Schmidhuber在2018年提出"World Models"概念,到OpenAI Sora在2024年引爆全球关注,世界模型正从学术研究走向产业落地。本章将系统讲解世界模型的理论基础、核心架构(DiT/时空Patch)、视频生成技术、3D生成技术,以及在自动驾驶和机器人领域的前沿应用。
学习时间:5-7天 难度等级:⭐⭐⭐⭐⭐ 前置知识:第11章生成模型与GAN、第12章视觉Transformer、扩散模型基础
🎯 学习目标¶
完成本章后,你将能够: - 理解世界模型的概念演进:从认知科学到AI实现 - 掌握Sora的核心架构(DiT + 时空Patch + 视频VAE) - 了解主流世界模型:Genie、UniSim、DIAMOND、Cosmos - 理解自动驾驶世界模型(GAIA-1、DriveDreamer、Vista)的设计 - 了解机器人世界模型(UniPi、RT-2)的工作原理 - 掌握视频生成技术(CogVideoX、Kling、Runway Gen-3)的技术路线 - 了解3D生成(Gaussian Splatting、NeRF、Zero-1-to-3)的前沿进展 - 理解世界模型与AGI的关系 - 准备6道高频面试题
18.1 世界模型概念¶
18.1.1 什么是世界模型?¶
世界模型(World Model) 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的",可以在给定当前状态和动作的情况下,预测未来状态。
认知科学视角:人类大脑中存在一个内部世界模型(Internal World Model),用于: - 预测物理世界的变化(球抛出后会落地) - 模拟未来场景(想象开车到达目的地的路径) - 理解因果关系(推门 → 门打开)
AI视角的形式化定义:
其中 \(s_t\) 是当前状态,\(a_t\) 是动作,\(\hat{s}_{t+1}\) 是预测的下一个状态,\(f_\theta\) 是参数化的世界模型。
18.1.2 世界模型的发展历程¶
| 时间 | 里程碑 | 核心贡献 |
|---|---|---|
| 2018 | World Models (Ha & Schmidhuber) | VAE+RNN的世界模型框架,在Car Racing中学会"做梦" |
| 2020 | DreamerV1 (Hafner et al.) | RSSM用于模型-based RL,样本效率大幅提升 |
| 2022 | DreamerV3 | 跨领域通用的世界模型(游戏、机器人、DMC) |
| 2023 | GAIA-1 (Wayve) | 自动驾驶领域首个大规模生成式世界模型 |
| 2024.02 | Sora (OpenAI) | 视频生成级世界模型引爆全球关注 |
| 2024.02 | Genie (DeepMind) | 从视频中学习可交互环境的世界模型 |
| 2025.01 | Cosmos (NVIDIA) | 物理世界模拟的世界基础模型 |
| 2024.12 | Sora Turbo (OpenAI) | 加速版Sora正式开放 |
| 2025 | 持续爆发 | 世界模型在机器人、自动驾驶、游戏中快速落地 |
18.1.3 世界模型的核心组件¶
一个完整的世界模型通常包含:
环境观测(视频帧/传感器数据)
↓
┌─────────────────────────────┐
│ 1. 感知编码器 (Perception) │ 将观测编码为潜在表示
│ 2. 动力学模型 (Dynamics) │ 预测状态如何随时间/动作演化
│ 3. 解码器 (Decoder) │ 将潜在表示重建为可视化输出
│ 4. 奖励预测器 (Reward)* │ (用于RL:预测动作的回报)
└─────────────────────────────┘
↓
未来状态预测(视频帧/3D场景)
18.1.4 World Models (Ha & Schmidhuber, 2018)¶
这是世界模型概念的奠基之作。
架构:V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R
观测图像 → VAE Encoder → 潜在向量 z_t
↓
MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
↓
预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
↓
控制器: a_t = Controller(z_t, h_t)
核心创新:"在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化,无需与真实环境交互。
18.2 Sora架构解析¶
18.2.1 Sora概述¶
Sora(OpenAI, 2024年2月)是一个能够根据文本描述生成高质量、长时间视频的模型。OpenAI将其定位为"视频生成模型",但更本质地,它是一个视觉世界模拟器。
核心能力: - 生成最长60秒的高清视频(1080p) - 理解3D空间一致性(物体遮挡、反射、阴影) - 物理世界模拟(流体、碰撞、布料动力学) - 多角色、多场景的复杂叙事 - 支持Image-to-Video、Video-to-Video、Inpainting等多种模式
18.2.2 技术架构¶
Sora的核心架构基于以下三大组件:
1. 视频VAE(Video Compression Network)
将视频压缩到低维潜在空间:
原始视频: T×H×W×3 (时间×高度×宽度×通道)
↓ Video Encoder (时空压缩)
潜在表示: t×h×w×C (压缩后的时空潜在)
↓ 处理后
↓ Video Decoder (时空解压)
重建视频: T×H×W×3
压缩率约为 8×8(空间)× 4(时间),大幅降低Transformer的计算负担。
2. 时空Patch(Spacetime Patch)
这是Sora的关键创新——将视频从时空潜在表示进一步切割为时空Patch:
潜在视频: t×h×w×C
↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N] (N = t'×h'×w')
↓
每个patch包含时间×空间的局部信息
类比ViT:ViT将2D图像切为2D patch → Sora将3D视频切为3D时空patch
3. DiT(Diffusion Transformer)
带噪声的时空Patch序列
↓
DiT Block × L:
- LayerNorm
- Multi-Head Self-Attention (时空注意力)
- Cross-Attention (文本条件)
- AdaLN-Zero (时间步条件注入)
- MLP
↓
去噪后的时空Patch序列
↓ Unpatchify
去噪的潜在视频
↓ Video Decoder
生成的视频
18.2.3 Sora的关键设计选择¶
| 设计维度 | Sora的选择 | 传统方法 |
|---|---|---|
| 骨干网络 | DiT (Transformer) | U-Net |
| 序列化方式 | 时空Patch | 逐帧/3D卷积 |
| 分辨率/时长 | 原生可变分辨率和时长 | 固定分辨率 |
| 潜在空间 | 时空联合VAE | 逐帧VAE (如Stable Diffusion) |
| 条件注入 | Cross-Attention + AdaLN | Cross-Attention |
| 训练数据 | 未公开(估计数亿视频) | 公开数据集 |
18.2.4 Sora的涌现能力¶
Sora展现了多种未显式训练的涌现能力: 1. 3D一致性:摄像机运动时3D场景保持一致 2. 长程时间一致性:60秒视频中人物/物体外观不漂移 3. 世界交互:画家在画布上留下笔触(状态持久变化) 4. 数字世界模拟:可以模拟Minecraft游戏画面
局限性: - 物理模拟不完美(如液体飞溅、手指数量) - 长视频后期可能出现不一致 - 因果推理能力有限
18.3 主流世界模型¶
18.3.1 Genie (DeepMind, 2024)¶
论文:Genie: Generative Interactive Environments
核心定位:从互联网视频中学习可交互的2D世界模型。
架构: 1. Video Tokenizer:将视频帧编码为离散token(VQ-VAE) 2. Latent Action Model:无监督推断帧之间的"潜在动作" 3. Dynamics Model:给定当前帧token和动作,预测下一帧token
视频序列: [frame_1, frame_2, ..., frame_T]
↓
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
↓
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)
亮点: - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在200K+小时的2D平台游戏视频上
18.3.2 UniSim (Google, 2024)¶
论文:UniSim: Learning Interactive Real-World Simulators
目标:构建一个统一的交互式真实世界模拟器。
关键特点: - 支持多种交互形式:文本指令、动作轨迹、摄像机运动 - 在多个领域训练:真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果
18.3.3 DIAMOND (2024)¶
论文:Diffusion for World Modeling: Visual Details Matter in Atari
核心贡献:首次证明扩散模型可以作为世界模型来训练RL智能体。
方法: - 用扩散模型建模环境动态:\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练RL策略(在"想象中"训练) - 在Atari游戏上达到人类水平
DIAMOND vs 传统世界模型: | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |
18.3.4 Cosmos (NVIDIA, 2025)¶
定位:面向物理世界模拟的世界基础模型(World Foundation Model)。
两种架构: 1. Cosmos-Diffusion:基于扩散模型的视频世界模型 2. Cosmos-Autoregressive:基于自回归Transformer的视频世界模型
核心特点: - 专注物理世界的精确模拟(不仅是视觉质量) - 提供多种规模模型(从4B到14B参数) - 开源tokenizer和部分模型权重 - 面向机器人和自动驾驶应用优化
Cosmos Tokenizer: - 时空连续tokenizer(比离散tokenizer重建质量更高) - 支持图像(2D)和视频(3D)的统一tokenization
18.4 自动驾驶世界模型¶
自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景,用于: 1. 模拟器数据增强(corner case生成) 2. 端到端规划(在想象中预演驾驶决策) 3. 安全验证(测试极端场景)
18.4.1 GAIA-1 (Wayve, 2023)¶
论文:GAIA-1: A Generative World Model for Autonomous Driving
架构:9B参数的自回归Transformer生成式世界模型。
输入:
- 前方摄像头视频 (Video Tokenizer编码)
- 文本描述 (T5编码)
- 驾驶动作 (速度/转角)
↓
自回归Transformer (GPT-like)
↓
预测未来视频帧序列
能力: - 生成逼真的未来驾驶场景(3-5秒) - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析
18.4.2 DriveDreamer (2023-2024)¶
论文:DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving
核心创新: - 结合结构化驾驶信息(3D bbox、HDMap、交通信号)作为条件 - 支持多视角生成 - DriveDreamer-2:引入LLM将用户指令转化为驾驶场景描述
18.4.3 Vista (2024)¶
论文:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability
关键特点: - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成(>15秒) - 多种控制信号:动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练
18.4.4 自动驾驶世界模型对比¶
| 模型 | 参数量 | 架构 | 条件输入 | 生成时长 | 特色 |
|---|---|---|---|---|---|
| GAIA-1 | 9B | 自回归Transformer | 视频+文本+动作 | 3-5秒 | 首个大规模驾驶世界模型 |
| DriveDreamer | ~1B | 扩散模型 | 结构化信息+文本 | 2-5秒 | 多视角+结构化条件 |
| Vista | ~2B | 扩散模型 | 动作+文本+目标 | 15+秒 | 长时间+通用性 |
| DriveWM | ~1B | 自回归 | 规划轨迹 | 4秒 | 多视角一致性 |
18.5 机器人世界模型¶
18.5.1 UniPi (2023)¶
论文:UniPi: Learning Universal Policies via Text-Guided Video Generation
核心思想:将机器人规划问题转化为视频生成问题。
流程:
优势: - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划
18.5.2 RT-2 (Google DeepMind, 2023)¶
论文:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
核心思想:将大型视觉-语言模型(VLM)直接转化为机器人控制策略。
架构:
关键创新: - 动作token化:将连续动作离散化为特殊文本token - 利用VLM在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力("把垃圾扔进垃圾桶",即使未见过该指令)
18.5.3 机器人世界模型对比¶
| 模型 | 方法 | 类型 | 关键特性 |
|---|---|---|---|
| UniPi | 视频生成→逆运动学 | 基于视频 | 利用扩散模型做规划 |
| RT-2 | VLM直接输出动作 | 端到端 | 互联网知识迁移到机器人 |
| SuSIE | 子目标图像预测 | 分层规划 | 预测中间目标图像 |
| RoboDreamer | 世界模型+规划 | 模型-based | 在想象中进行试错 |
| GR-1 | GPT风格自回归 | 统一模型 | 文本+视频+动作统一建模 |
18.6 世界模型与AGI的关系¶
18.6.1 LeCun的世界模型理论¶
Yann LeCun提出了以世界模型为核心的自主AI架构(JEPA - Joint Embedding Predictive Architecture):
┌─────────────────────────────────────────────┐
│ 自主智能体架构 │
│ │
│ 感知 → 世界模型 → 行为者 → 动作 │
│ ↕ │
│ 记忆模块 │
│ ↕ │
│ 配置器(目标) │
│ ↕ │
│ 代价模块 │
└─────────────────────────────────────────────┘
LeCun的核心论点: - LLM只学习了"语言世界"的模型,缺乏对物理世界的理解 - AGI需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间(而非像素空间)中进行预测 - 自监督学习(而非生成式建模)是学习世界模型的正确方式
18.6.2 世界模型为什么重要?¶
| 能力 | LLM | 世界模型 | 说明 |
|---|---|---|---|
| 语言理解 | ✅ | ❌ | LLM擅长 |
| 物理直觉 | ❌ | ✅ | 理解重力、碰撞、流体 |
| 因果推理 | 弱 | ✅ | 模拟"如果...会怎样" |
| 长程规划 | 弱 | ✅ | 在想象中预演多步决策 |
| 空间推理 | 弱 | ✅ | 3D空间理解 |
| 时间推理 | 弱 | ✅ | 动态变化预测 |
18.6.3 世界模型的开放挑战¶
- 物理精确性:当前模型生成的视频在物理规律上仍有大量错误
- 可控性:如何精确控制世界模型生成特定场景
- 组合泛化:面对从未见过的场景组合(新物体+新动作+新环境)
- 评估困难:缺乏统一的世界模型评估基准
- 计算成本:高质量视频生成的推理成本极高
- 因果 vs 相关:世界模型学到的是真正的因果关系还是统计相关?
18.7 视频生成技术¶
18.7.1 技术路线概览¶
当前视频生成主要有三条技术路线:
| 路线 | 代表模型 | 核心方法 |
|---|---|---|
| 扩散模型 | Sora, Runway Gen-3, Kling | DiT/U-Net + 时空注意力 |
| 自回归模型 | VideoPoet, Emu Video | Token预测 (类似LLM) |
| 混合方法 | CogVideoX | 自回归 + 扩散 |
18.7.2 CogVideoX (智谱AI, 2024)¶
定位:开源的文本到视频生成模型。
架构:Expert Transformer(3D VAE + Expert Adaptive LayerNorm DiT)
关键特点: - 3D因果VAE:时空联合压缩,保持时间因果性 - Expert Transformer:将文本和视频token在同一Transformer中处理,但使用不同的Expert FFN - 支持6秒/480p视频生成 - 开源模型(5B参数)
代码示例:
# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch
pipe = CogVideoXPipeline.from_pretrained(
"THUDM/CogVideoX-5b",
torch_dtype=torch.bfloat16
)
pipe.to("cuda") # 移至GPU/CPU
pipe.enable_model_cpu_offload()
prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
prompt=prompt,
num_frames=49, # 约6秒 (8fps)
guidance_scale=6.0,
num_inference_steps=50,
).frames[0]
# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)
18.7.3 Kling (快手, 2024)¶
定位:商用级高质量视频生成模型。
技术特点: - 3D时空联合注意力 - 支持最长2分钟视频生成 - 1080p高清画质 - 运动幅度大、物理一致性强 - 支持Image-to-Video、Video Extension
18.7.4 Pika (2024-2025)¶
特色功能: - 视频中的物体编辑(替换、删除、添加) - Lip Sync(口型同步) - 3D场景转换效果 - "Pikaffects"特效系统
18.7.5 Runway Gen-3 Alpha (2024)¶
技术特点: - 基于扩散Transformer架构 - 多模态条件:文本+图像+视频 - 高保真人物一致性 - 支持Motion Brush(运动笔刷控制)
18.7.6 视频生成模型对比¶
| 模型 | 公司 | 最大时长 | 分辨率 | 开源 | 特色 |
|---|---|---|---|---|---|
| Sora | OpenAI | 60秒 | 1080p | ❌ | 最强物理模拟 |
| CogVideoX | 智谱 | 6秒 | 720p | ✅ | 开源标杆 |
| Kling 1.6 | 快手 | 2分钟 | 1080p | ❌ | 长视频+高运动 |
| Pika 2.0 | Pika Labs | 10秒 | 1080p | ❌ | 物体编辑 |
| Gen-3 Alpha | Runway | 10秒 | 1080p+4K | ❌ | 人物一致性 |
| Veo 2 | 120秒 | 4K | ❌ | 超长+超高清 | |
| HunyuanVideo | 腾讯 | 5秒 | 720p | ✅ | 开源 |
| LTX-Video | Lightricks | 5秒 | 768p | ✅ | 轻量开源 |
18.8 3D生成技术¶
18.8.1 NeRF (Neural Radiance Fields)¶
论文:NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis(Mildenhall et al., ECCV 2020)
核心思想:用神经网络表示3D场景,输入3D坐标和视角方向,输出颜色和密度。
渲染方式:沿光线积分(体渲染):
其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)
局限: - 训练慢(MLP需要大量采样点) - 渲染慢(每个像素需要沿射线采样多点) - 静态场景为主
18.8.2 3D Gaussian Splatting (3DGS)¶
论文:3D Gaussian Splatting for Real-Time Radiance Field Rendering(Kerbl et al., SIGGRAPH 2023)
核心思想:用大量3D高斯体素(Gaussian primitives)显式表示场景,通过"splatting"(喷溅)实现实时渲染。
每个高斯体素的属性: - 位置 \(\mu \in \mathbb{R}^3\)(均值) - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)(形状和朝向) - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数(表示视角相关的颜色)
渲染流程:
优势: - 实时渲染:100+ FPS(NeRF仅~1 FPS) - 质量高:与NeRF同级甚至更好 - 可编辑:显式表示便于编辑和操作 - 训练快:几分钟 vs NeRF的几小时
3DGS在2024-2025的演进: | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景(时间维度) | | GaussianEditor | 3D场景编辑(文本驱动) | | DreamGaussian | 文本到3D生成 | | SUGAR | 网格提取(与传统渲染管线兼容) | | Gaussian Splatting + SLAM | 实时3D重建+定位 |
18.8.3 Zero-1-to-3¶
论文:Zero-1-to-3: Zero-shot One Image to 3D Object(Liu et al., ICCV 2023)
核心思想:给定单张图像,生成任意视角的新视图,进而重建3D模型。
方法: 1. 利用Stable Diffusion的大量2D图像先验 2. 微调:输入一张图+目标视角 → 生成目标视角的图像 3. 配合SDS(Score Distillation Sampling)优化3D表示
18.8.4 其他重要3D生成方法¶
| 方法 | 年份 | 核心思路 | 输入 |
|---|---|---|---|
| DreamFusion | 2022 | SDS损失优化NeRF | 文本 |
| Magic3D | 2023 | 粗→细两阶段 | 文本 |
| Instant3D | 2024 | 前馈式(无需优化) | 单图 |
| TripoSR | 2024 | 快速单图3D重建 | 单图 |
| LGM | 2024 | 大型高斯重建模型 | 多视图 |
| Trellis | 2025 | 结构化3D Token | 单图/文本 |
18.8.5 3D生成代码示例¶
# 使用TripoSR进行单图3D重建(前馈式,无需优化)
import torch
from tsr.system import TSR
from PIL import Image
# 加载模型
model = TSR.from_pretrained(
"stabilityai/TripoSR",
config_name="config.yaml",
weight_name="model.ckpt",
)
model.to("cuda")
# 单图输入
image = Image.open("object.png")
# 推理(约1秒)
with torch.no_grad(): # 禁用梯度计算,节省内存
scene_codes = model([image], device="cuda")
# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")
# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")
18.9 练习题¶
基础题¶
- 简答题:
- 世界模型的核心组件有哪些?与传统视频生成模型有什么区别?
核心组件:①观察编码器(将接收到的观测编码为状态表征);②动态预测器/转移模型(根据当前状态和动作预测下一状态,\(\hat{s}_{t+1}=f(s_t,a_t)\));③解码器/渲染器(将潜在状态解码为可视化结果)。与视频生成模型的区别:世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于RL/机器人决策;视频生成模型主要追求视觉真实感,不需要可交互性和物理精确性。
- Sora使用的时空Patch与ViT的2D Patch有什么异同?
相同点:都是将输入切分为非重叠的patch后投影为token序列送入Transformer。不同点:ViT的patch是2D空间切块(如16×16像素),Sora的时空patch是3D切块(空间+时间,如“帧数×高×宽”),能同时捕捉时间和空间关联;且Sora支持可变分辨率和时长,不同视频尺寸生成不同长度的序列。
-
解释3D Gaussian Splatting与NeRF的核心区别。
场景表示:NeRF用隐式MLP表示场景,3DGS用显式的三维高斯体素集合。渲染方式:NeRF沿光线采样MLP做体渲染(每像素多次MLP推理,很慢);3DGS将高斯体投影到图像平面后Alpha混合(利用GPU光栅化管线,可实时渲染)。可编辑性:3DGS显式表示可直接操作高斯体,NeRF隐式表示难以编辑。
-
分析题:
- 比较扩散模型和自回归模型两条视频生成路线的优劣。
扩散模型(如Sora):优势——生成质量高、时间一致性好、可全局建模;劣势——采样步数多导致生成慢、难以做自回归式扩展长视频。自回归模型(如Genie、VideoPoet):优势——天然支持任意长度生成、与LLM架构统一、便于交互式生成;劣势——离散化损失质量、误差累积、当前视觉质量通常不如扩散模型。
- 为什么LeCun认为世界模型对AGI至关重要?你是否同意?
LeCun认为AGI需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理,而不是仅仅做模式匹配,这是从感知迈向理解的关键。支持观点:动物和人类确实依赖内部模拟进行决策;质疑观点:当前LLM已展现强大推理能力且未显式建模世界,“内部模型”的形式不一定是显式的世界模拟器。
进阶题¶
- 研究题:
- 阅读DIAMOND论文,分析扩散模型作为世界模型在RL中的优势。
- 比较GAIA-1和Vista在自动驾驶世界模型设计上的不同取舍。
18.10 面试准备¶
大厂面试题¶
Q1: 什么是世界模型?它与普通视频生成模型有什么本质区别?
参考答案: 世界模型是能够预测环境动态变化的内部模型,形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)。
与视频生成模型的区别: | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入,预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |
Sora模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。
Q2: 请解释Sora的核心架构设计
参考答案: Sora的架构基于三大组件:
- 视频VAE:将视频时空联合压缩到低维潜在空间(约32×压缩率)
- 时空Patch:将潜在表示切割为3D时空patch,形成token序列
- DiT (Diffusion Transformer):
- 在潜在空间中做去噪扩散
- 使用Transformer替代U-Net
- AdaLN-Zero注入时间步条件
- Cross-Attention注入文本条件
关键创新:原生可变分辨率和时长——不同尺寸的视频生成不同长度的patch序列,无需固定输入尺寸。
Q3: 3D Gaussian Splatting为什么能实现NeRF无法达到的实时渲染?
参考答案: 核心区别在于表示方式和渲染方式:
| 方面 | NeRF | 3DGS |
|---|---|---|
| 场景表示 | 隐式(MLP) | 显式(高斯体素集合) |
| 渲染方式 | 体渲染(沿光线采样MLP) | Splatting(投影+Alpha混合) |
| 渲染速度 | 慢(每像素需多次MLP推理) | 快(光栅化,GPU高度并行) |
| 可编辑性 | 困难(隐式) | 容易(显式操作高斯体素) |
3DGS快的根本原因:从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长,后者利用GPU光栅化管线天然并行。
Q4: 自动驾驶为什么需要世界模型?相比传统仿真器有什么优势?
参考答案: 需要世界模型的原因: 1. Corner Case生成:真实道路很难采集到足够的极端场景 2. 端到端规划:在想象的未来中评估不同驾驶决策 3. 数据放大:从有限的真实数据生成大量多样化训练场景
相比传统仿真器的优势: | 维度 | 传统仿真器 (CARLA等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确(人工设计) | 近似(从数据学习) | | 创建成本 | 极高(建模+美术) | 较低(数据驱动) |
Q5: 比较Genie和Sora在世界模型设计上的不同思路
参考答案: | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散token + 自回归 | 连续latent + 扩散 | | 交互方式 | 潜在动作(无监督学习) | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D可交互环境 | 通用视频生成 | | 物理理解 | 2D游戏物理 | 3D世界物理(有限) | | 开放性 | 学术论文 | 产品化 |
本质区别:Genie更像"学习环境规则"(可以控制角色在环境中行动),Sora更像"学习视觉世界的统计规律"(以逼真的方式描绘世界变化)。
Q6: 谈谈你对"世界模型是通向AGI的关键"这个观点的看法
参考答案(开放题,以下为一种分析思路):
支持观点: - 人类的智能核心依赖内部世界模型(想象、预测、规划) - 纯语言模型缺乏物理世界理解,难以通过具身智能测试 - 世界模型可以实现"在想象中试错",是高效学习的基础
质疑观点: - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM已经展现了超预期的推理能力,也许文本世界模型也是有效的
个人见解:世界模型很可能是AGI的重要组件之一,但不一定需要完美——重要的是与语言模型、推理模块、记忆系统的有机结合。
18.11 前沿论文索引¶
世界模型核心论文¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2018 | World Models (Ha & Schmidhuber) | 奠基之作:VAE+RNN世界模型 |
| 2020 | DreamerV1 (Hafner et al.) | RSSM用于高效模型-based RL |
| 2023 | DreamerV3 | 跨领域通用世界模型 |
| 2024 | Sora (OpenAI) | 视频级世界模拟器 |
| 2024 | Genie (DeepMind) | 无监督学习可交互世界 |
| 2024 | DIAMOND | 扩散模型作为世界模型 |
| 2024 | Cosmos (NVIDIA) | 物理世界基础模型 |
自动驾驶与机器人¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2023 | GAIA-1 (Wayve) | 大规模驾驶世界模型 |
| 2023 | DriveDreamer | 结构化条件驾驶生成 |
| 2024 | Vista | 通用可控驾驶世界模型 |
| 2023 | UniPi | 视频生成驱动机器人规划 |
| 2023 | RT-2 (DeepMind) | VLM到机器人动作 |
视频生成¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2023 | DiT (Peebles & Xie) | Transformer替代U-Net做扩散 |
| 2024 | CogVideoX (智谱) | 开源视频生成标杆 |
| 2024 | Movie Gen (Meta) | 大规模视频+音频生成 |
| 2024 | HunyuanVideo (腾讯) | 开源高质量视频生成 |
| 2024 | LTX-Video (Lightricks) | 轻量高效视频生成 |
3D生成¶
| 年份 | 论文 | 核心贡献 |
|---|---|---|
| 2020 | NeRF (Mildenhall et al.) | 神经辐射场开创 |
| 2023 | 3D Gaussian Splatting | 实时高质量3D渲染 |
| 2023 | Zero-1-to-3 | 单图3D重建 |
| 2023 | DreamFusion | 文本到3D (SDS损失) |
| 2024 | TripoSR (Stability AI) | 快速前馈3D重建 |
| 2024 | LGM | 大型高斯重建模型 |
| 2025 | Trellis (Microsoft) | 结构化3D生成 |
18.12 本章小结¶
核心知识点¶
- 世界模型概念:从Ha & Schmidhuber 2018到2024-2025大爆发,世界模型从"在梦中训练"evolve到"模拟真实世界"
- Sora架构:视频VAE + 时空Patch + DiT = 视频级世界模拟器
- 主流世界模型:Genie(可交互环境)、DIAMOND(RL世界模型)、Cosmos(物理世界基础模型)
- 自动驾驶:GAIA-1、DriveDreamer、Vista解决corner case生成和端到端规划
- 机器人:UniPi(视频→动作)、RT-2(VLM→机器人控制)
- 视频生成:CogVideoX(开源标杆)、Kling/Pika/Gen-3(商用方案)
- 3D生成:NeRF → 3D Gaussian Splatting(实时)→ 单图/文本3D重建
- AGI视角:世界模型可能是通向AGI的关键拼图之一
下一步¶
- 动手跑CogVideoX开源模型体验视频生成
- 用nerfstudio或gsplat尝试3D Gaussian Splatting
- 阅读Sora技术报告和Genie论文理解世界模型设计
- 关注前沿:机器人世界模型和自动驾驶世界模型的最新进展
恭喜完成第18章! 🎉 世界模型是2024-2025年最前沿的AI方向之一——从视频生成到3D重建,从自动驾驶到机器人,它正在重新定义AI理解和模拟物理世界的方式。