第18章世界模型与视觉生成¶

📚 章节概述¶

世界模型（World Model）是2024-2025年AI领域最令人兴奋的方向之一。从Ha & Schmidhuber在2018年提出"World Models"概念，到OpenAI Sora在2024年引爆全球关注，世界模型正从学术研究走向产业落地。本章将系统讲解世界模型的理论基础、核心架构（DiT/时空Patch）、视频生成技术、3D生成技术，以及在自动驾驶和机器人领域的前沿应用。

学习时间：5-7天 难度等级：⭐⭐⭐⭐⭐ 前置知识：第11章生成模型与GAN、第12章视觉Transformer、扩散模型基础

🎯 学习目标¶

完成本章后，你将能够： - 理解世界模型的概念演进：从认知科学到AI实现 - 掌握Sora的核心架构（DiT + 时空Patch + 视频VAE） - 了解主流世界模型：Genie、UniSim、DIAMOND、Cosmos - 理解自动驾驶世界模型（GAIA-1、DriveDreamer、Vista）的设计 - 了解机器人世界模型（UniPi、RT-2）的工作原理 - 掌握视频生成技术（CogVideoX、Kling、Runway Gen-3）的技术路线 - 了解3D生成（Gaussian Splatting、NeRF、Zero-1-to-3）的前沿进展 - 理解世界模型与AGI的关系 - 准备6道高频面试题

18.1 世界模型概念¶

18.1.1 什么是世界模型？¶

世界模型（World Model） 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的"，可以在给定当前状态和动作的情况下，预测未来状态。

认知科学视角：人类大脑中存在一个内部世界模型（Internal World Model），用于： - 预测物理世界的变化（球抛出后会落地） - 模拟未来场景（想象开车到达目的地的路径） - 理解因果关系（推门 → 门打开）

AI视角的形式化定义：

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

其中 \(s_t\) 是当前状态，\(a_t\) 是动作，\(\hat{s}_{t+1}\) 是预测的下一个状态，\(f_\theta\) 是参数化的世界模型。

18.1.2 世界模型的发展历程¶

时间	里程碑	核心贡献
2018	World Models (Ha & Schmidhuber)	VAE+RNN的世界模型框架，在Car Racing中学会"做梦"
2020	DreamerV1 (Hafner et al.)	RSSM用于模型-based RL，样本效率大幅提升
2022	DreamerV3	跨领域通用的世界模型（游戏、机器人、DMC）
2023	GAIA-1 (Wayve)	自动驾驶领域首个大规模生成式世界模型
2024.02	Sora (OpenAI)	视频生成级世界模型引爆全球关注
2024.02	Genie (DeepMind)	从视频中学习可交互环境的世界模型
2025.01	Cosmos (NVIDIA)	物理世界模拟的世界基础模型
2024.12	Sora Turbo (OpenAI)	加速版Sora正式开放
2025	持续爆发	世界模型在机器人、自动驾驶、游戏中快速落地

18.1.3 世界模型的核心组件¶

一个完整的世界模型通常包含：

Text Only

环境观测(视频帧/传感器数据)
     ↓
┌─────────────────────────────┐
│  1. 感知编码器 (Perception)   │  将观测编码为潜在表示
│  2. 动力学模型 (Dynamics)     │  预测状态如何随时间/动作演化
│  3. 解码器 (Decoder)          │  将潜在表示重建为可视化输出
│  4. 奖励预测器 (Reward)*      │  （用于RL：预测动作的回报）
└─────────────────────────────┘
     ↓
未来状态预测(视频帧/3D场景)

18.1.4 World Models (Ha & Schmidhuber, 2018)¶

这是世界模型概念的奠基之作。

架构：V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R

Text Only

观测图像 → VAE Encoder → 潜在向量 z_t
                                    ↓
             MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
                                    ↓
                          预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
                                    ↓
                   控制器: a_t = Controller(z_t, h_t)

核心创新："在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化，无需与真实环境交互。

18.2 Sora架构解析¶

18.2.1 Sora概述¶

Sora（OpenAI, 2024年2月）是一个能够根据文本描述生成高质量、长时间视频的模型。OpenAI将其定位为"视频生成模型"，但更本质地，它是一个视觉世界模拟器。

核心能力： - 生成最长60秒的高清视频（1080p） - 理解3D空间一致性（物体遮挡、反射、阴影） - 物理世界模拟（流体、碰撞、布料动力学） - 多角色、多场景的复杂叙事 - 支持Image-to-Video、Video-to-Video、Inpainting等多种模式

18.2.2 技术架构¶

Sora的核心架构基于以下三大组件：

1. 视频VAE（Video Compression Network）

将视频压缩到低维潜在空间：

Text Only

原始视频: T×H×W×3 (时间×高度×宽度×通道)
    ↓  Video Encoder (时空压缩)
潜在表示: t×h×w×C  (压缩后的时空潜在)
    ↓  处理后
    ↓  Video Decoder (时空解压)
重建视频: T×H×W×3

压缩率约为 8×8（空间）× 4（时间），大幅降低Transformer的计算负担。

2. 时空Patch（Spacetime Patch）

这是Sora的关键创新——将视频从时空潜在表示进一步切割为时空Patch：

Text Only

潜在视频: t×h×w×C
    ↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N]  (N = t'×h'×w')
    ↓
每个patch包含时间×空间的局部信息

类比ViT：ViT将2D图像切为2D patch → Sora将3D视频切为3D时空patch

3. DiT（Diffusion Transformer）

Text Only

带噪声的时空Patch序列
    ↓
DiT Block × L:
  - LayerNorm
  - Multi-Head Self-Attention (时空注意力)
  - Cross-Attention (文本条件)
  - AdaLN-Zero (时间步条件注入)
  - MLP
    ↓
去噪后的时空Patch序列
    ↓ Unpatchify
去噪的潜在视频
    ↓ Video Decoder
生成的视频

18.2.3 Sora的关键设计选择¶

设计维度	Sora的选择	传统方法
骨干网络	DiT (Transformer)	U-Net
序列化方式	时空Patch	逐帧/3D卷积
分辨率/时长	原生可变分辨率和时长	固定分辨率
潜在空间	时空联合VAE	逐帧VAE (如Stable Diffusion)
条件注入	Cross-Attention + AdaLN	Cross-Attention
训练数据	未公开（估计数亿视频）	公开数据集

18.2.4 Sora的涌现能力¶

Sora展现了多种未显式训练的涌现能力： 1. 3D一致性：摄像机运动时3D场景保持一致 2. 长程时间一致性：60秒视频中人物/物体外观不漂移 3. 世界交互：画家在画布上留下笔触（状态持久变化） 4. 数字世界模拟：可以模拟Minecraft游戏画面

局限性： - 物理模拟不完美（如液体飞溅、手指数量） - 长视频后期可能出现不一致 - 因果推理能力有限

18.3 主流世界模型¶

18.3.1 Genie (DeepMind, 2024)¶

论文：Genie: Generative Interactive Environments

核心定位：从互联网视频中学习可交互的2D世界模型。

架构： 1. Video Tokenizer：将视频帧编码为离散token（VQ-VAE） 2. Latent Action Model：无监督推断帧之间的"潜在动作" 3. Dynamics Model：给定当前帧token和动作，预测下一帧token

Text Only

视频序列: [frame_1, frame_2, ..., frame_T]
           ↓
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
           ↓
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)

亮点： - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在200K+小时的2D平台游戏视频上

18.3.2 UniSim (Google, 2024)¶

论文：UniSim: Learning Interactive Real-World Simulators

目标：构建一个统一的交互式真实世界模拟器。

关键特点： - 支持多种交互形式：文本指令、动作轨迹、摄像机运动 - 在多个领域训练：真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果

18.3.3 DIAMOND (2024)¶

论文：Diffusion for World Modeling: Visual Details Matter in Atari

核心贡献：首次证明扩散模型可以作为世界模型来训练RL智能体。

方法： - 用扩散模型建模环境动态：\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练RL策略（在"想象中"训练） - 在Atari游戏上达到人类水平

DIAMOND vs 传统世界模型： | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |

18.3.4 Cosmos (NVIDIA, 2025)¶

定位：面向物理世界模拟的世界基础模型（World Foundation Model）。

两种架构： 1. Cosmos-Diffusion：基于扩散模型的视频世界模型 2. Cosmos-Autoregressive：基于自回归Transformer的视频世界模型

核心特点： - 专注物理世界的精确模拟（不仅是视觉质量） - 提供多种规模模型（从4B到14B参数） - 开源tokenizer和部分模型权重 - 面向机器人和自动驾驶应用优化

Cosmos Tokenizer： - 时空连续tokenizer（比离散tokenizer重建质量更高） - 支持图像（2D）和视频（3D）的统一tokenization

18.4 自动驾驶世界模型¶

自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景，用于： 1. 模拟器数据增强（corner case生成） 2. 端到端规划（在想象中预演驾驶决策） 3. 安全验证（测试极端场景）

18.4.1 GAIA-1 (Wayve, 2023)¶

论文：GAIA-1: A Generative World Model for Autonomous Driving

架构：9B参数的自回归Transformer生成式世界模型。

Text Only

输入:
  - 前方摄像头视频 (Video Tokenizer编码)
  - 文本描述 (T5编码)
  - 驾驶动作 (速度/转角)
    ↓
自回归Transformer (GPT-like)
    ↓
预测未来视频帧序列

能力： - 生成逼真的未来驾驶场景（3-5秒） - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析

18.4.2 DriveDreamer (2023-2024)¶

论文：DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

核心创新： - 结合结构化驾驶信息（3D bbox、HDMap、交通信号）作为条件 - 支持多视角生成 - DriveDreamer-2：引入LLM将用户指令转化为驾驶场景描述

18.4.3 Vista (2024)¶

论文：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

关键特点： - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成（>15秒） - 多种控制信号：动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练

18.4.4 自动驾驶世界模型对比¶

模型	参数量	架构	条件输入	生成时长	特色
GAIA-1	9B	自回归Transformer	视频+文本+动作	3-5秒	首个大规模驾驶世界模型
DriveDreamer	~1B	扩散模型	结构化信息+文本	2-5秒	多视角+结构化条件
Vista	~2B	扩散模型	动作+文本+目标	15+秒	长时间+通用性
DriveWM	~1B	自回归	规划轨迹	4秒	多视角一致性

18.5 机器人世界模型¶

18.5.1 UniPi (2023)¶

论文：UniPi: Learning Universal Policies via Text-Guided Video Generation

核心思想：将机器人规划问题转化为视频生成问题。

流程：

Text Only

文本指令: "Pick up the red cup"
    ↓
视频生成模型 (基于扩散)
    ↓
预测未来视频帧 (机器人完成任务的可视化)
    ↓
逆运动学模块
    ↓
机器人动作序列

优势： - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划

18.5.2 RT-2 (Google DeepMind, 2023)¶

论文：RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

核心思想：将大型视觉-语言模型（VLM）直接转化为机器人控制策略。

架构：

Text Only

视觉观测 + 文本指令
    ↓
VLM (PaLI-X 或 PaLM-E)
    ↓
Token化的动作 (离散化为文本token)
    ↓
机器人执行

关键创新： - 动作token化：将连续动作离散化为特殊文本token - 利用VLM在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力（"把垃圾扔进垃圾桶"，即使未见过该指令）

18.5.3 机器人世界模型对比¶

模型	方法	类型	关键特性
UniPi	视频生成→逆运动学	基于视频	利用扩散模型做规划
RT-2	VLM直接输出动作	端到端	互联网知识迁移到机器人
SuSIE	子目标图像预测	分层规划	预测中间目标图像
RoboDreamer	世界模型+规划	模型-based	在想象中进行试错
GR-1	GPT风格自回归	统一模型	文本+视频+动作统一建模

18.6 世界模型与AGI的关系¶

18.6.1 LeCun的世界模型理论¶

Yann LeCun提出了以世界模型为核心的自主AI架构（JEPA - Joint Embedding Predictive Architecture）：

Text Only

┌─────────────────────────────────────────────┐
│            自主智能体架构                       │
│                                              │
│  感知 → 世界模型 → 行为者 → 动作              │
│           ↕                                  │
│        记忆模块                               │
│           ↕                                  │
│       配置器(目标)                             │
│           ↕                                  │
│        代价模块                               │
└─────────────────────────────────────────────┘

LeCun的核心论点： - LLM只学习了"语言世界"的模型，缺乏对物理世界的理解 - AGI需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间（而非像素空间）中进行预测 - 自监督学习（而非生成式建模）是学习世界模型的正确方式

18.6.2 世界模型为什么重要？¶

能力	LLM	世界模型	说明
语言理解	✅	❌	LLM擅长
物理直觉	❌	✅	理解重力、碰撞、流体
因果推理	弱	✅	模拟"如果...会怎样"
长程规划	弱	✅	在想象中预演多步决策
空间推理	弱	✅	3D空间理解
时间推理	弱	✅	动态变化预测

18.6.3 世界模型的开放挑战¶

物理精确性：当前模型生成的视频在物理规律上仍有大量错误
可控性：如何精确控制世界模型生成特定场景
组合泛化：面对从未见过的场景组合（新物体+新动作+新环境）
评估困难：缺乏统一的世界模型评估基准
计算成本：高质量视频生成的推理成本极高
因果 vs 相关：世界模型学到的是真正的因果关系还是统计相关？

18.7 视频生成技术¶

18.7.1 技术路线概览¶

当前视频生成主要有三条技术路线：

路线	代表模型	核心方法
扩散模型	Sora, Runway Gen-3, Kling	DiT/U-Net + 时空注意力
自回归模型	VideoPoet, Emu Video	Token预测 (类似LLM)
混合方法	CogVideoX	自回归 + 扩散

18.7.2 CogVideoX (智谱AI, 2024)¶

定位：开源的文本到视频生成模型。

架构：Expert Transformer（3D VAE + Expert Adaptive LayerNorm DiT）

关键特点： - 3D因果VAE：时空联合压缩，保持时间因果性 - Expert Transformer：将文本和视频token在同一Transformer中处理，但使用不同的Expert FFN - 支持6秒/480p视频生成 - 开源模型（5B参数）

代码示例：

Python

# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")  # 移至GPU/CPU
pipe.enable_model_cpu_offload()

prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
    prompt=prompt,
    num_frames=49,        # 约6秒 (8fps)
    guidance_scale=6.0,
    num_inference_steps=50,
).frames[0]

# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)

18.7.3 Kling (快手, 2024)¶

定位：商用级高质量视频生成模型。

技术特点： - 3D时空联合注意力 - 支持最长2分钟视频生成 - 1080p高清画质 - 运动幅度大、物理一致性强 - 支持Image-to-Video、Video Extension

18.7.4 Pika (2024-2025)¶

特色功能： - 视频中的物体编辑（替换、删除、添加） - Lip Sync（口型同步） - 3D场景转换效果 - "Pikaffects"特效系统

18.7.5 Runway Gen-3 Alpha (2024)¶

技术特点： - 基于扩散Transformer架构 - 多模态条件：文本+图像+视频 - 高保真人物一致性 - 支持Motion Brush（运动笔刷控制）

18.7.6 视频生成模型对比¶

模型	公司	最大时长	分辨率	开源	特色
Sora	OpenAI	60秒	1080p	❌	最强物理模拟
CogVideoX	智谱	6秒	720p	✅	开源标杆
Kling 1.6	快手	2分钟	1080p	❌	长视频+高运动
Pika 2.0	Pika Labs	10秒	1080p	❌	物体编辑
Gen-3 Alpha	Runway	10秒	1080p+4K	❌	人物一致性
Veo 2	Google	120秒	4K	❌	超长+超高清
HunyuanVideo	腾讯	5秒	720p	✅	开源
LTX-Video	Lightricks	5秒	768p	✅	轻量开源

18.8 3D生成技术¶

18.8.1 NeRF (Neural Radiance Fields)¶

论文：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis（Mildenhall et al., ECCV 2020）

核心思想：用神经网络表示3D场景，输入3D坐标和视角方向，输出颜色和密度。

\[F_\theta: (x, y, z, \theta, \phi) \rightarrow (r, g, b, \sigma)\]

渲染方式：沿光线积分（体渲染）：

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \cdot \sigma(\mathbf{r}(t)) \cdot \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)

局限： - 训练慢（MLP需要大量采样点） - 渲染慢（每个像素需要沿射线采样多点） - 静态场景为主

18.8.2 3D Gaussian Splatting (3DGS)¶

论文：3D Gaussian Splatting for Real-Time Radiance Field Rendering（Kerbl et al., SIGGRAPH 2023）

核心思想：用大量3D高斯体素（Gaussian primitives）显式表示场景，通过"splatting"（喷溅）实现实时渲染。

每个高斯体素的属性： - 位置 \(\mu \in \mathbb{R}^3\)（均值） - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)（形状和朝向） - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数（表示视角相关的颜色）

渲染流程：

Text Only

3D高斯体素集合
    ↓ 投影到2D图像平面
2D高斯 (splatting)
    ↓ 按深度排序
    ↓ Alpha Blending
渲染图像

优势： - 实时渲染：100+ FPS（NeRF仅~1 FPS） - 质量高：与NeRF同级甚至更好 - 可编辑：显式表示便于编辑和操作 - 训练快：几分钟 vs NeRF的几小时

3DGS在2024-2025的演进： | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景（时间维度） | | GaussianEditor | 3D场景编辑（文本驱动） | | DreamGaussian | 文本到3D生成 | | SUGAR | 网格提取（与传统渲染管线兼容） | | Gaussian Splatting + SLAM | 实时3D重建+定位 |

18.8.3 Zero-1-to-3¶

论文：Zero-1-to-3: Zero-shot One Image to 3D Object（Liu et al., ICCV 2023）

核心思想：给定单张图像，生成任意视角的新视图，进而重建3D模型。

方法： 1. 利用Stable Diffusion的大量2D图像先验 2. 微调：输入一张图+目标视角 → 生成目标视角的图像 3. 配合SDS（Score Distillation Sampling）优化3D表示

Text Only

单张RGB图像 + 目标相机位姿 (R, θ, φ)
    ↓
微调的Stable Diffusion
    ↓
目标视角的图像
    ↓ (多个视角汇总)
3D重建 (NeRF 或 3DGS)

18.8.4 其他重要3D生成方法¶

方法	年份	核心思路	输入
DreamFusion	2022	SDS损失优化NeRF	文本
Magic3D	2023	粗→细两阶段	文本
Instant3D	2024	前馈式（无需优化）	单图
TripoSR	2024	快速单图3D重建	单图
LGM	2024	大型高斯重建模型	多视图
Trellis	2025	结构化3D Token	单图/文本

18.8.5 3D生成代码示例¶

Python

# 使用TripoSR进行单图3D重建（前馈式，无需优化）
import torch
from tsr.system import TSR
from PIL import Image

# 加载模型
model = TSR.from_pretrained(
    "stabilityai/TripoSR",
    config_name="config.yaml",
    weight_name="model.ckpt",
)
model.to("cuda")

# 单图输入
image = Image.open("object.png")

# 推理（约1秒）
with torch.no_grad():  # 禁用梯度计算，节省内存
    scene_codes = model([image], device="cuda")

# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")

# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")

18.9 练习题¶

基础题¶

简答题：
世界模型的核心组件有哪些？与传统视频生成模型有什么区别？

核心组件：①观察编码器（将接收到的观测编码为状态表征）；②动态预测器/转移模型（根据当前状态和动作预测下一状态，\(\hat{s}_{t+1}=f(s_t,a_t)\)）；③解码器/渲染器（将潜在状态解码为可视化结果）。与视频生成模型的区别：世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于RL/机器人决策；视频生成模型主要追求视觉真实感，不需要可交互性和物理精确性。
Sora使用的时空Patch与ViT的2D Patch有什么异同？

相同点：都是将输入切分为非重叠的patch后投影为token序列送入Transformer。不同点：ViT的patch是2D空间切块（如16×16像素），Sora的时空patch是3D切块（空间+时间，如“帧数×高×宽”），能同时捕捉时间和空间关联；且Sora支持可变分辨率和时长，不同视频尺寸生成不同长度的序列。
解释3D Gaussian Splatting与NeRF的核心区别。

场景表示：NeRF用隐式MLP表示场景，3DGS用显式的三维高斯体素集合。渲染方式：NeRF沿光线采样MLP做体渲染（每像素多次MLP推理，很慢）；3DGS将高斯体投影到图像平面后Alpha混合（利用GPU光栅化管线，可实时渲染）。可编辑性：3DGS显式表示可直接操作高斯体，NeRF隐式表示难以编辑。
分析题：
比较扩散模型和自回归模型两条视频生成路线的优劣。

扩散模型（如Sora）：优势——生成质量高、时间一致性好、可全局建模；劣势——采样步数多导致生成慢、难以做自回归式扩展长视频。自回归模型（如Genie、VideoPoet）：优势——天然支持任意长度生成、与LLM架构统一、便于交互式生成；劣势——离散化损失质量、误差累积、当前视觉质量通常不如扩散模型。
为什么LeCun认为世界模型对AGI至关重要？你是否同意？

LeCun认为AGI需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理，而不是仅仅做模式匹配，这是从感知迈向理解的关键。支持观点：动物和人类确实依赖内部模拟进行决策；质疑观点：当前LLM已展现强大推理能力且未显式建模世界，“内部模型”的形式不一定是显式的世界模拟器。

进阶题¶

研究题：
阅读DIAMOND论文，分析扩散模型作为世界模型在RL中的优势。
比较GAIA-1和Vista在自动驾驶世界模型设计上的不同取舍。

18.10 面试准备¶

大厂面试题¶

Q1: 什么是世界模型？它与普通视频生成模型有什么本质区别？

参考答案：世界模型是能够预测环境动态变化的内部模型，形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)。

与视频生成模型的区别： | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入，预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |

Sora模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。

Q2: 请解释Sora的核心架构设计

参考答案： Sora的架构基于三大组件：

视频VAE：将视频时空联合压缩到低维潜在空间（约32×压缩率）
时空Patch：将潜在表示切割为3D时空patch，形成token序列
DiT (Diffusion Transformer)：
在潜在空间中做去噪扩散
使用Transformer替代U-Net
AdaLN-Zero注入时间步条件
Cross-Attention注入文本条件

关键创新：原生可变分辨率和时长——不同尺寸的视频生成不同长度的patch序列，无需固定输入尺寸。

Q3: 3D Gaussian Splatting为什么能实现NeRF无法达到的实时渲染？

参考答案：核心区别在于表示方式和渲染方式：

方面	NeRF	3DGS
场景表示	隐式（MLP）	显式（高斯体素集合）
渲染方式	体渲染（沿光线采样MLP）	Splatting（投影+Alpha混合）
渲染速度	慢（每像素需多次MLP推理）	快（光栅化，GPU高度并行）
可编辑性	困难（隐式）	容易（显式操作高斯体素）

3DGS快的根本原因：从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长，后者利用GPU光栅化管线天然并行。

Q4: 自动驾驶为什么需要世界模型？相比传统仿真器有什么优势？

参考答案： 需要世界模型的原因： 1. Corner Case生成：真实道路很难采集到足够的极端场景 2. 端到端规划：在想象的未来中评估不同驾驶决策 3. 数据放大：从有限的真实数据生成大量多样化训练场景

相比传统仿真器的优势： | 维度 | 传统仿真器 (CARLA等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确（人工设计） | 近似（从数据学习） | | 创建成本 | 极高（建模+美术） | 较低（数据驱动） |

Q5: 比较Genie和Sora在世界模型设计上的不同思路

参考答案： | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散token + 自回归 | 连续latent + 扩散 | | 交互方式 | 潜在动作（无监督学习） | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D可交互环境 | 通用视频生成 | | 物理理解 | 2D游戏物理 | 3D世界物理（有限） | | 开放性 | 学术论文 | 产品化 |

本质区别：Genie更像"学习环境规则"（可以控制角色在环境中行动），Sora更像"学习视觉世界的统计规律"（以逼真的方式描绘世界变化）。

Q6: 谈谈你对"世界模型是通向AGI的关键"这个观点的看法

参考答案（开放题，以下为一种分析思路）：

支持观点： - 人类的智能核心依赖内部世界模型（想象、预测、规划） - 纯语言模型缺乏物理世界理解，难以通过具身智能测试 - 世界模型可以实现"在想象中试错"，是高效学习的基础

质疑观点： - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM已经展现了超预期的推理能力，也许文本世界模型也是有效的

个人见解：世界模型很可能是AGI的重要组件之一，但不一定需要完美——重要的是与语言模型、推理模块、记忆系统的有机结合。

18.11 前沿论文索引¶

世界模型核心论文¶

年份	论文	核心贡献
2018	World Models (Ha & Schmidhuber)	奠基之作：VAE+RNN世界模型
2020	DreamerV1 (Hafner et al.)	RSSM用于高效模型-based RL
2023	DreamerV3	跨领域通用世界模型
2024	Sora (OpenAI)	视频级世界模拟器
2024	Genie (DeepMind)	无监督学习可交互世界
2024	DIAMOND	扩散模型作为世界模型
2024	Cosmos (NVIDIA)	物理世界基础模型

自动驾驶与机器人¶

年份	论文	核心贡献
2023	GAIA-1 (Wayve)	大规模驾驶世界模型
2023	DriveDreamer	结构化条件驾驶生成
2024	Vista	通用可控驾驶世界模型
2023	UniPi	视频生成驱动机器人规划
2023	RT-2 (DeepMind)	VLM到机器人动作

视频生成¶

年份	论文	核心贡献
2023	DiT (Peebles & Xie)	Transformer替代U-Net做扩散
2024	CogVideoX (智谱)	开源视频生成标杆
2024	Movie Gen (Meta)	大规模视频+音频生成
2024	HunyuanVideo (腾讯)	开源高质量视频生成
2024	LTX-Video (Lightricks)	轻量高效视频生成

3D生成¶

年份	论文	核心贡献
2020	NeRF (Mildenhall et al.)	神经辐射场开创
2023	3D Gaussian Splatting	实时高质量3D渲染
2023	Zero-1-to-3	单图3D重建
2023	DreamFusion	文本到3D (SDS损失)
2024	TripoSR (Stability AI)	快速前馈3D重建
2024	LGM	大型高斯重建模型
2025	Trellis (Microsoft)	结构化3D生成

18.12 本章小结¶

核心知识点¶

世界模型概念：从Ha & Schmidhuber 2018到2024-2025大爆发，世界模型从"在梦中训练"evolve到"模拟真实世界"
Sora架构：视频VAE + 时空Patch + DiT = 视频级世界模拟器
主流世界模型：Genie（可交互环境）、DIAMOND（RL世界模型）、Cosmos（物理世界基础模型）
自动驾驶：GAIA-1、DriveDreamer、Vista解决corner case生成和端到端规划
机器人：UniPi（视频→动作）、RT-2（VLM→机器人控制）
视频生成：CogVideoX（开源标杆）、Kling/Pika/Gen-3（商用方案）
3D生成：NeRF → 3D Gaussian Splatting（实时）→ 单图/文本3D重建
AGI视角：世界模型可能是通向AGI的关键拼图之一

下一步¶

动手跑CogVideoX开源模型体验视频生成
用nerfstudio或gsplat尝试3D Gaussian Splatting
阅读Sora技术报告和Genie论文理解世界模型设计
关注前沿：机器人世界模型和自动驾驶世界模型的最新进展

恭喜完成第18章！ 🎉 世界模型是2024-2025年最前沿的AI方向之一——从视频生成到3D重建，从自动驾驶到机器人，它正在重新定义AI理解和模拟物理世界的方式。

第18章 世界模型与视觉生成¶

📚 章节概述¶

🎯 学习目标¶

18.1 世界模型概念¶

18.1.1 什么是世界模型？¶

18.1.2 世界模型的发展历程¶

18.1.3 世界模型的核心组件¶

18.1.4 World Models (Ha & Schmidhuber, 2018)¶

18.2 Sora架构解析¶

18.2.1 Sora概述¶

18.2.2 技术架构¶

18.2.3 Sora的关键设计选择¶

18.2.4 Sora的涌现能力¶

18.3 主流世界模型¶

18.3.1 Genie (DeepMind, 2024)¶

18.3.2 UniSim (Google, 2024)¶

18.3.3 DIAMOND (2024)¶

18.3.4 Cosmos (NVIDIA, 2025)¶

18.4 自动驾驶世界模型¶

18.4.1 GAIA-1 (Wayve, 2023)¶

18.4.2 DriveDreamer (2023-2024)¶

18.4.3 Vista (2024)¶

18.4.4 自动驾驶世界模型对比¶

18.5 机器人世界模型¶

18.5.1 UniPi (2023)¶

18.5.2 RT-2 (Google DeepMind, 2023)¶

18.5.3 机器人世界模型对比¶

18.6 世界模型与AGI的关系¶

18.6.1 LeCun的世界模型理论¶

18.6.2 世界模型为什么重要？¶

18.6.3 世界模型的开放挑战¶

18.7 视频生成技术¶

18.7.1 技术路线概览¶

18.7.2 CogVideoX (智谱AI, 2024)¶

18.7.3 Kling (快手, 2024)¶

18.7.4 Pika (2024-2025)¶

18.7.5 Runway Gen-3 Alpha (2024)¶

18.7.6 视频生成模型对比¶

18.8 3D生成技术¶

18.8.1 NeRF (Neural Radiance Fields)¶

18.8.2 3D Gaussian Splatting (3DGS)¶

18.8.3 Zero-1-to-3¶

18.8.4 其他重要3D生成方法¶

18.8.5 3D生成代码示例¶

18.9 练习题¶

基础题¶

进阶题¶

18.10 面试准备¶

大厂面试题¶

18.11 前沿论文索引¶

世界模型核心论文¶

自动驾驶与机器人¶

视频生成¶

3D生成¶

18.12 本章小结¶

核心知识点¶

下一步¶

第18章世界模型与视觉生成¶