跳转至

第18章 世界模型与视觉生成

世界模型与视觉生成图

📚 章节概述

世界模型(World Model)是2024-2025年AI领域最令人兴奋的方向之一。从Ha & Schmidhuber在2018年提出"World Models"概念,到OpenAI Sora在2024年引爆全球关注,世界模型正从学术研究走向产业落地。本章将系统讲解世界模型的理论基础、核心架构(DiT/时空Patch)、视频生成技术、3D生成技术,以及在自动驾驶和机器人领域的前沿应用。

学习时间:5-7天 难度等级:⭐⭐⭐⭐⭐ 前置知识:第11章生成模型与GAN、第12章视觉Transformer、扩散模型基础

🎯 学习目标

完成本章后,你将能够: - 理解世界模型的概念演进:从认知科学到AI实现 - 掌握Sora的核心架构(DiT + 时空Patch + 视频VAE) - 了解主流世界模型:Genie、UniSim、DIAMOND、Cosmos - 理解自动驾驶世界模型(GAIA-1、DriveDreamer、Vista)的设计 - 了解机器人世界模型(UniPi、RT-2)的工作原理 - 掌握视频生成技术(CogVideoX、Kling、Runway Gen-3)的技术路线 - 了解3D生成(Gaussian Splatting、NeRF、Zero-1-to-3)的前沿进展 - 理解世界模型与AGI的关系 - 准备6道高频面试题


18.1 世界模型概念

18.1.1 什么是世界模型?

世界模型(World Model) 是一个能够预测环境动态变化的内部模型。它学习"世界是如何运转的",可以在给定当前状态和动作的情况下,预测未来状态。

认知科学视角:人类大脑中存在一个内部世界模型(Internal World Model),用于: - 预测物理世界的变化(球抛出后会落地) - 模拟未来场景(想象开车到达目的地的路径) - 理解因果关系(推门 → 门打开)

AI视角的形式化定义

\[\hat{s}_{t+1} = f_\theta(s_t, a_t)\]

其中 \(s_t\) 是当前状态,\(a_t\) 是动作,\(\hat{s}_{t+1}\) 是预测的下一个状态,\(f_\theta\) 是参数化的世界模型。

18.1.2 世界模型的发展历程

时间 里程碑 核心贡献
2018 World Models (Ha & Schmidhuber) VAE+RNN的世界模型框架,在Car Racing中学会"做梦"
2020 DreamerV1 (Hafner et al.) RSSM用于模型-based RL,样本效率大幅提升
2022 DreamerV3 跨领域通用的世界模型(游戏、机器人、DMC)
2023 GAIA-1 (Wayve) 自动驾驶领域首个大规模生成式世界模型
2024.02 Sora (OpenAI) 视频生成级世界模型引爆全球关注
2024.02 Genie (DeepMind) 从视频中学习可交互环境的世界模型
2025.01 Cosmos (NVIDIA) 物理世界模拟的世界基础模型
2024.12 Sora Turbo (OpenAI) 加速版Sora正式开放
2025 持续爆发 世界模型在机器人、自动驾驶、游戏中快速落地

18.1.3 世界模型的核心组件

一个完整的世界模型通常包含:

Text Only
环境观测(视频帧/传感器数据)
┌─────────────────────────────┐
│  1. 感知编码器 (Perception)   │  将观测编码为潜在表示
│  2. 动力学模型 (Dynamics)     │  预测状态如何随时间/动作演化
│  3. 解码器 (Decoder)          │  将潜在表示重建为可视化输出
│  4. 奖励预测器 (Reward)*      │  (用于RL:预测动作的回报)
└─────────────────────────────┘
未来状态预测(视频帧/3D场景)

18.1.4 World Models (Ha & Schmidhuber, 2018)

这是世界模型概念的奠基之作。

架构:V I S I O N (VAE) + M E M O R Y (MDN-RNN) + C O N T R O L L E R

Text Only
观测图像 → VAE Encoder → 潜在向量 z_t
             MDN-RNN (记忆模块): h_t = RNN(z_t, a_{t-1}, h_{t-1})
                          预测下一状态: p(z_{t+1} | h_t, z_t, a_t)
                   控制器: a_t = Controller(z_t, h_t)

核心创新:"在梦中训练"——智能体可以在世界模型生成的"想象"环境中进行策略优化,无需与真实环境交互。


18.2 Sora架构解析

18.2.1 Sora概述

Sora(OpenAI, 2024年2月)是一个能够根据文本描述生成高质量、长时间视频的模型。OpenAI将其定位为"视频生成模型",但更本质地,它是一个视觉世界模拟器

核心能力: - 生成最长60秒的高清视频(1080p) - 理解3D空间一致性(物体遮挡、反射、阴影) - 物理世界模拟(流体、碰撞、布料动力学) - 多角色、多场景的复杂叙事 - 支持Image-to-Video、Video-to-Video、Inpainting等多种模式

18.2.2 技术架构

Sora的核心架构基于以下三大组件:

1. 视频VAE(Video Compression Network)

将视频压缩到低维潜在空间:

Text Only
原始视频: T×H×W×3 (时间×高度×宽度×通道)
    ↓  Video Encoder (时空压缩)
潜在表示: t×h×w×C  (压缩后的时空潜在)
    ↓  处理后
    ↓  Video Decoder (时空解压)
重建视频: T×H×W×3

压缩率约为 8×8(空间)× 4(时间),大幅降低Transformer的计算负担。

2. 时空Patch(Spacetime Patch)

这是Sora的关键创新——将视频从时空潜在表示进一步切割为时空Patch

Text Only
潜在视频: t×h×w×C
    ↓ Patchify (切割为3D patch)
Patch序列: [p_1, p_2, ..., p_N]  (N = t'×h'×w')
每个patch包含时间×空间的局部信息

类比ViT:ViT将2D图像切为2D patch → Sora将3D视频切为3D时空patch

3. DiT(Diffusion Transformer)

Text Only
带噪声的时空Patch序列
DiT Block × L:
  - LayerNorm
  - Multi-Head Self-Attention (时空注意力)
  - Cross-Attention (文本条件)
  - AdaLN-Zero (时间步条件注入)
  - MLP
去噪后的时空Patch序列
    ↓ Unpatchify
去噪的潜在视频
    ↓ Video Decoder
生成的视频

18.2.3 Sora的关键设计选择

设计维度 Sora的选择 传统方法
骨干网络 DiT (Transformer) U-Net
序列化方式 时空Patch 逐帧/3D卷积
分辨率/时长 原生可变分辨率和时长 固定分辨率
潜在空间 时空联合VAE 逐帧VAE (如Stable Diffusion)
条件注入 Cross-Attention + AdaLN Cross-Attention
训练数据 未公开(估计数亿视频) 公开数据集

18.2.4 Sora的涌现能力

Sora展现了多种未显式训练的涌现能力: 1. 3D一致性:摄像机运动时3D场景保持一致 2. 长程时间一致性:60秒视频中人物/物体外观不漂移 3. 世界交互:画家在画布上留下笔触(状态持久变化) 4. 数字世界模拟:可以模拟Minecraft游戏画面

局限性: - 物理模拟不完美(如液体飞溅、手指数量) - 长视频后期可能出现不一致 - 因果推理能力有限


18.3 主流世界模型

18.3.1 Genie (DeepMind, 2024)

论文Genie: Generative Interactive Environments

核心定位:从互联网视频中学习可交互的2D世界模型。

架构: 1. Video Tokenizer:将视频帧编码为离散token(VQ-VAE) 2. Latent Action Model:无监督推断帧之间的"潜在动作" 3. Dynamics Model:给定当前帧token和动作,预测下一帧token

Text Only
视频序列: [frame_1, frame_2, ..., frame_T]
潜在动作推断: a_t = ActionModel(frame_t, frame_{t+1})
动力学预测: frame_{t+1} = DynamicsModel(frame_t, a_t)

亮点: - 不需要动作标签——从纯视频中无监督学习动作空间 - 可以从单张图片生成可交互的虚拟世界 - 训练在200K+小时的2D平台游戏视频上

18.3.2 UniSim (Google, 2024)

论文UniSim: Learning Interactive Real-World Simulators

目标:构建一个统一的交互式真实世界模拟器。

关键特点: - 支持多种交互形式:文本指令、动作轨迹、摄像机运动 - 在多个领域训练:真实世界视频、机器人操作、导航 - 可以模拟机器人操作的视觉结果

18.3.3 DIAMOND (2024)

论文Diffusion for World Modeling: Visual Details Matter in Atari

核心贡献:首次证明扩散模型可以作为世界模型来训练RL智能体。

方法: - 用扩散模型建模环境动态:\(p(s_{t+1}|s_t, a_t)\) - 在扩散世界模型中训练RL策略(在"想象中"训练) - 在Atari游戏上达到人类水平

DIAMOND vs 传统世界模型: | 方面 | 传统 (Dreamer) | DIAMOND | |------|---------------|---------| | 生成模型 | VAE/RSSM | 扩散模型 | | 视觉质量 | 模糊、缺乏细节 | 清晰、保留关键细节 | | 信息保留 | 压缩导致信息丢失 | 扩散保留更多视觉信息 | | 关键观点 | 压缩表示足够 | 视觉细节对决策至关重要 |

18.3.4 Cosmos (NVIDIA, 2025)

定位:面向物理世界模拟的世界基础模型(World Foundation Model)。

两种架构: 1. Cosmos-Diffusion:基于扩散模型的视频世界模型 2. Cosmos-Autoregressive:基于自回归Transformer的视频世界模型

核心特点: - 专注物理世界的精确模拟(不仅是视觉质量) - 提供多种规模模型(从4B到14B参数) - 开源tokenizer和部分模型权重 - 面向机器人和自动驾驶应用优化

Cosmos Tokenizer: - 时空连续tokenizer(比离散tokenizer重建质量更高) - 支持图像(2D)和视频(3D)的统一tokenization


18.4 自动驾驶世界模型

自动驾驶是世界模型最重要的落地方向之一——驾驶世界模型可以生成逼真的驾驶场景,用于: 1. 模拟器数据增强(corner case生成) 2. 端到端规划(在想象中预演驾驶决策) 3. 安全验证(测试极端场景)

18.4.1 GAIA-1 (Wayve, 2023)

论文GAIA-1: A Generative World Model for Autonomous Driving

架构:9B参数的自回归Transformer生成式世界模型。

Text Only
输入:
  - 前方摄像头视频 (Video Tokenizer编码)
  - 文本描述 (T5编码)
  - 驾驶动作 (速度/转角)
自回归Transformer (GPT-like)
预测未来视频帧序列

能力: - 生成逼真的未来驾驶场景(3-5秒) - 理解天气、光照变化 - 响应不同的驾驶动作生成不同的未来 - 可用于不同驾驶策略的"what-if"分析

18.4.2 DriveDreamer (2023-2024)

论文DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving

核心创新: - 结合结构化驾驶信息(3D bbox、HDMap、交通信号)作为条件 - 支持多视角生成 - DriveDreamer-2:引入LLM将用户指令转化为驾驶场景描述

18.4.3 Vista (2024)

论文Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

关键特点: - 在大规模多样化驾驶数据上预训练 - 支持高保真度的长时间视频生成(>15秒) - 多种控制信号:动作、文本、目标点 - 可作为驾驶模拟器用于端到端自动驾驶训练

18.4.4 自动驾驶世界模型对比

模型 参数量 架构 条件输入 生成时长 特色
GAIA-1 9B 自回归Transformer 视频+文本+动作 3-5秒 首个大规模驾驶世界模型
DriveDreamer ~1B 扩散模型 结构化信息+文本 2-5秒 多视角+结构化条件
Vista ~2B 扩散模型 动作+文本+目标 15+秒 长时间+通用性
DriveWM ~1B 自回归 规划轨迹 4秒 多视角一致性

18.5 机器人世界模型

18.5.1 UniPi (2023)

论文UniPi: Learning Universal Policies via Text-Guided Video Generation

核心思想:将机器人规划问题转化为视频生成问题。

流程

Text Only
文本指令: "Pick up the red cup"
视频生成模型 (基于扩散)
预测未来视频帧 (机器人完成任务的可视化)
逆运动学模块
机器人动作序列

优势: - 无需为每个机器人单独设计策略——通过视频生成来规划 - 可以利用大量互联网视频进行预训练 - 自然地处理长时间规划

18.5.2 RT-2 (Google DeepMind, 2023)

论文RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

核心思想:将大型视觉-语言模型(VLM)直接转化为机器人控制策略。

架构

Text Only
视觉观测 + 文本指令
VLM (PaLI-X 或 PaLM-E)
Token化的动作 (离散化为文本token)
机器人执行

关键创新: - 动作token化:将连续动作离散化为特殊文本token - 利用VLM在互联网数据上学到的世界知识来指导机器人 - 展现了强零样本泛化能力("把垃圾扔进垃圾桶",即使未见过该指令)

18.5.3 机器人世界模型对比

模型 方法 类型 关键特性
UniPi 视频生成→逆运动学 基于视频 利用扩散模型做规划
RT-2 VLM直接输出动作 端到端 互联网知识迁移到机器人
SuSIE 子目标图像预测 分层规划 预测中间目标图像
RoboDreamer 世界模型+规划 模型-based 在想象中进行试错
GR-1 GPT风格自回归 统一模型 文本+视频+动作统一建模

18.6 世界模型与AGI的关系

18.6.1 LeCun的世界模型理论

Yann LeCun提出了以世界模型为核心的自主AI架构(JEPA - Joint Embedding Predictive Architecture):

Text Only
┌─────────────────────────────────────────────┐
│            自主智能体架构                       │
│                                              │
│  感知 → 世界模型 → 行为者 → 动作              │
│           ↕                                  │
│        记忆模块                               │
│           ↕                                  │
│       配置器(目标)                             │
│           ↕                                  │
│        代价模块                               │
└─────────────────────────────────────────────┘

LeCun的核心论点: - LLM只学习了"语言世界"的模型,缺乏对物理世界的理解 - AGI需要一个内部世界模型来进行因果推理和规划 - 世界模型应该在表示空间(而非像素空间)中进行预测 - 自监督学习(而非生成式建模)是学习世界模型的正确方式

18.6.2 世界模型为什么重要?

能力 LLM 世界模型 说明
语言理解 LLM擅长
物理直觉 理解重力、碰撞、流体
因果推理 模拟"如果...会怎样"
长程规划 在想象中预演多步决策
空间推理 3D空间理解
时间推理 动态变化预测

18.6.3 世界模型的开放挑战

  1. 物理精确性:当前模型生成的视频在物理规律上仍有大量错误
  2. 可控性:如何精确控制世界模型生成特定场景
  3. 组合泛化:面对从未见过的场景组合(新物体+新动作+新环境)
  4. 评估困难:缺乏统一的世界模型评估基准
  5. 计算成本:高质量视频生成的推理成本极高
  6. 因果 vs 相关:世界模型学到的是真正的因果关系还是统计相关?

18.7 视频生成技术

18.7.1 技术路线概览

当前视频生成主要有三条技术路线:

路线 代表模型 核心方法
扩散模型 Sora, Runway Gen-3, Kling DiT/U-Net + 时空注意力
自回归模型 VideoPoet, Emu Video Token预测 (类似LLM)
混合方法 CogVideoX 自回归 + 扩散

18.7.2 CogVideoX (智谱AI, 2024)

定位:开源的文本到视频生成模型。

架构:Expert Transformer(3D VAE + Expert Adaptive LayerNorm DiT)

关键特点: - 3D因果VAE:时空联合压缩,保持时间因果性 - Expert Transformer:将文本和视频token在同一Transformer中处理,但使用不同的Expert FFN - 支持6秒/480p视频生成 - 开源模型(5B参数)

代码示例

Python
# 使用diffusers库调用CogVideoX
from diffusers import CogVideoXPipeline
import torch

pipe = CogVideoXPipeline.from_pretrained(
    "THUDM/CogVideoX-5b",
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")  # 移至GPU/CPU
pipe.enable_model_cpu_offload()

prompt = "A golden retriever playing in the snow, cinematic lighting, 4K"
video = pipe(
    prompt=prompt,
    num_frames=49,        # 约6秒 (8fps)
    guidance_scale=6.0,
    num_inference_steps=50,
).frames[0]

# 保存视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)

18.7.3 Kling (快手, 2024)

定位:商用级高质量视频生成模型。

技术特点: - 3D时空联合注意力 - 支持最长2分钟视频生成 - 1080p高清画质 - 运动幅度大、物理一致性强 - 支持Image-to-Video、Video Extension

18.7.4 Pika (2024-2025)

特色功能: - 视频中的物体编辑(替换、删除、添加) - Lip Sync(口型同步) - 3D场景转换效果 - "Pikaffects"特效系统

18.7.5 Runway Gen-3 Alpha (2024)

技术特点: - 基于扩散Transformer架构 - 多模态条件:文本+图像+视频 - 高保真人物一致性 - 支持Motion Brush(运动笔刷控制)

18.7.6 视频生成模型对比

模型 公司 最大时长 分辨率 开源 特色
Sora OpenAI 60秒 1080p 最强物理模拟
CogVideoX 智谱 6秒 720p 开源标杆
Kling 1.6 快手 2分钟 1080p 长视频+高运动
Pika 2.0 Pika Labs 10秒 1080p 物体编辑
Gen-3 Alpha Runway 10秒 1080p+4K 人物一致性
Veo 2 Google 120秒 4K 超长+超高清
HunyuanVideo 腾讯 5秒 720p 开源
LTX-Video Lightricks 5秒 768p 轻量开源

18.8 3D生成技术

18.8.1 NeRF (Neural Radiance Fields)

论文NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis(Mildenhall et al., ECCV 2020)

核心思想:用神经网络表示3D场景,输入3D坐标和视角方向,输出颜色和密度。

\[F_\theta: (x, y, z, \theta, \phi) \rightarrow (r, g, b, \sigma)\]

渲染方式:沿光线积分(体渲染):

\[C(\mathbf{r}) = \int_{t_n}^{t_f} T(t) \cdot \sigma(\mathbf{r}(t)) \cdot \mathbf{c}(\mathbf{r}(t), \mathbf{d}) \, dt\]

其中 \(T(t) = \exp\left(-\int_{t_n}^{t} \sigma(\mathbf{r}(s)) \, ds\right)\)

局限: - 训练慢(MLP需要大量采样点) - 渲染慢(每个像素需要沿射线采样多点) - 静态场景为主

18.8.2 3D Gaussian Splatting (3DGS)

论文3D Gaussian Splatting for Real-Time Radiance Field Rendering(Kerbl et al., SIGGRAPH 2023)

核心思想:用大量3D高斯体素(Gaussian primitives)显式表示场景,通过"splatting"(喷溅)实现实时渲染。

每个高斯体素的属性: - 位置 \(\mu \in \mathbb{R}^3\)(均值) - 协方差矩阵 \(\Sigma \in \mathbb{R}^{3 \times 3}\)(形状和朝向) - 不透明度 \(\alpha \in [0, 1]\) - 球谐函数系数(表示视角相关的颜色)

渲染流程

Text Only
3D高斯体素集合
    ↓ 投影到2D图像平面
2D高斯 (splatting)
    ↓ 按深度排序
    ↓ Alpha Blending
渲染图像

优势: - 实时渲染:100+ FPS(NeRF仅~1 FPS) - 质量高:与NeRF同级甚至更好 - 可编辑:显式表示便于编辑和操作 - 训练快:几分钟 vs NeRF的几小时

3DGS在2024-2025的演进: | 变体 | 核心改进 | |------|---------| | 4DGS | 扩展到动态场景(时间维度) | | GaussianEditor | 3D场景编辑(文本驱动) | | DreamGaussian | 文本到3D生成 | | SUGAR | 网格提取(与传统渲染管线兼容) | | Gaussian Splatting + SLAM | 实时3D重建+定位 |

18.8.3 Zero-1-to-3

论文Zero-1-to-3: Zero-shot One Image to 3D Object(Liu et al., ICCV 2023)

核心思想:给定单张图像,生成任意视角的新视图,进而重建3D模型。

方法: 1. 利用Stable Diffusion的大量2D图像先验 2. 微调:输入一张图+目标视角 → 生成目标视角的图像 3. 配合SDS(Score Distillation Sampling)优化3D表示

Text Only
单张RGB图像 + 目标相机位姿 (R, θ, φ)
微调的Stable Diffusion
目标视角的图像
    ↓ (多个视角汇总)
3D重建 (NeRF 或 3DGS)

18.8.4 其他重要3D生成方法

方法 年份 核心思路 输入
DreamFusion 2022 SDS损失优化NeRF 文本
Magic3D 2023 粗→细两阶段 文本
Instant3D 2024 前馈式(无需优化) 单图
TripoSR 2024 快速单图3D重建 单图
LGM 2024 大型高斯重建模型 多视图
Trellis 2025 结构化3D Token 单图/文本

18.8.5 3D生成代码示例

Python
# 使用TripoSR进行单图3D重建(前馈式,无需优化)
import torch
from tsr.system import TSR
from PIL import Image

# 加载模型
model = TSR.from_pretrained(
    "stabilityai/TripoSR",
    config_name="config.yaml",
    weight_name="model.ckpt",
)
model.to("cuda")

# 单图输入
image = Image.open("object.png")

# 推理(约1秒)
with torch.no_grad():  # 禁用梯度计算,节省内存
    scene_codes = model([image], device="cuda")

# 导出3D mesh
mesh = model.extract_mesh(scene_codes[0])
mesh.export("output.obj")

# 导出为3D Gaussian Splatting格式
# gaussians = model.extract_gaussians(scene_codes[0])
# gaussians.save_ply("output.ply")

18.9 练习题

基础题

  1. 简答题
  2. 世界模型的核心组件有哪些?与传统视频生成模型有什么区别?

    核心组件:①观察编码器(将接收到的观测编码为状态表征);②动态预测器/转移模型(根据当前状态和动作预测下一状态,\(\hat{s}_{t+1}=f(s_t,a_t)\));③解码器/渲染器(将潜在状态解码为可视化结果)。与视频生成模型的区别:世界模型支持动作输入和交互、要求物理一致性和因果理解、可用于RL/机器人决策;视频生成模型主要追求视觉真实感,不需要可交互性和物理精确性。

  3. Sora使用的时空Patch与ViT的2D Patch有什么异同?

    相同点:都是将输入切分为非重叠的patch后投影为token序列送入Transformer。不同点:ViT的patch是2D空间切块(如16×16像素),Sora的时空patch是3D切块(空间+时间,如“帧数×高×宽”),能同时捕捉时间和空间关联;且Sora支持可变分辨率和时长,不同视频尺寸生成不同长度的序列。

  4. 解释3D Gaussian Splatting与NeRF的核心区别。

    场景表示:NeRF用隐式MLP表示场景,3DGS用显式的三维高斯体素集合。渲染方式:NeRF沿光线采样MLP做体渲染(每像素多次MLP推理,很慢);3DGS将高斯体投影到图像平面后Alpha混合(利用GPU光栅化管线,可实时渲染)。可编辑性:3DGS显式表示可直接操作高斯体,NeRF隐式表示难以编辑。

  5. 分析题

  6. 比较扩散模型和自回归模型两条视频生成路线的优劣。

    扩散模型(如Sora):优势——生成质量高、时间一致性好、可全局建模;劣势——采样步数多导致生成慢、难以做自回归式扩展长视频。自回归模型(如Genie、VideoPoet):优势——天然支持任意长度生成、与LLM架构统一、便于交互式生成;劣势——离散化损失质量、误差累积、当前视觉质量通常不如扩散模型。

  7. 为什么LeCun认为世界模型对AGI至关重要?你是否同意?

    LeCun认为AGI需要在表征空间中建立世界的内部模型——能够预测动作后果、进行计划和推理,而不是仅仅做模式匹配,这是从感知迈向理解的关键。支持观点:动物和人类确实依赖内部模拟进行决策;质疑观点:当前LLM已展现强大推理能力且未显式建模世界,“内部模型”的形式不一定是显式的世界模拟器。

进阶题

  1. 研究题
  2. 阅读DIAMOND论文,分析扩散模型作为世界模型在RL中的优势。
  3. 比较GAIA-1和Vista在自动驾驶世界模型设计上的不同取舍。

18.10 面试准备

大厂面试题

Q1: 什么是世界模型?它与普通视频生成模型有什么本质区别?

参考答案: 世界模型是能够预测环境动态变化的内部模型,形式化为 \(\hat{s}_{t+1} = f(s_t, a_t)\)

与视频生成模型的区别: | 维度 | 视频生成模型 | 世界模型 | |------|------------|---------| | 核心目标 | 生成视觉上逼真的视频 | 模拟世界的运行规律 | | 可交互性 | 通常不支持交互 | 支持动作输入,预测未来 | | 物理一致性 | 不要求 | 核心要求 | | 因果理解 | 不需要 | 理想状态下需要 | | 应用场景 | 内容创作 | RL / 机器人 / 自动驾驶 |

Sora模糊了这个边界——它以视频生成的形式展现了一定的世界模拟能力。


Q2: 请解释Sora的核心架构设计

参考答案: Sora的架构基于三大组件:

  1. 视频VAE:将视频时空联合压缩到低维潜在空间(约32×压缩率)
  2. 时空Patch:将潜在表示切割为3D时空patch,形成token序列
  3. DiT (Diffusion Transformer)
  4. 在潜在空间中做去噪扩散
  5. 使用Transformer替代U-Net
  6. AdaLN-Zero注入时间步条件
  7. Cross-Attention注入文本条件

关键创新:原生可变分辨率和时长——不同尺寸的视频生成不同长度的patch序列,无需固定输入尺寸。


Q3: 3D Gaussian Splatting为什么能实现NeRF无法达到的实时渲染?

参考答案: 核心区别在于表示方式和渲染方式

方面 NeRF 3DGS
场景表示 隐式(MLP) 显式(高斯体素集合)
渲染方式 体渲染(沿光线采样MLP) Splatting(投影+Alpha混合)
渲染速度 慢(每像素需多次MLP推理) 快(光栅化,GPU高度并行)
可编辑性 困难(隐式) 容易(显式操作高斯体素)

3DGS快的根本原因:从"每个像素查询场景"变为"每个高斯投影到图像"——前者计算量随分辨率增长,后者利用GPU光栅化管线天然并行。


Q4: 自动驾驶为什么需要世界模型?相比传统仿真器有什么优势?

参考答案需要世界模型的原因: 1. Corner Case生成:真实道路很难采集到足够的极端场景 2. 端到端规划:在想象的未来中评估不同驾驶决策 3. 数据放大:从有限的真实数据生成大量多样化训练场景

相比传统仿真器的优势: | 维度 | 传统仿真器 (CARLA等) | 生成式世界模型 | |------|---------------------|-------------| | 真实感 | 受渲染引擎限制 | 学习自真实世界数据 | | 场景多样性 | 需手动设计 | 自动生成多样场景 | | Domain Gap | 仿真与真实有差距 | 更接近真实数据分布 | | 物理精确性 | 精确(人工设计) | 近似(从数据学习) | | 创建成本 | 极高(建模+美术) | 较低(数据驱动) |


Q5: 比较Genie和Sora在世界模型设计上的不同思路

参考答案: | 维度 | Genie (DeepMind) | Sora (OpenAI) | |------|-----------------|--------------| | 核心方法 | 离散token + 自回归 | 连续latent + 扩散 | | 交互方式 | 潜在动作(无监督学习) | 文本条件 | | 学习信号 | 无标注视频中推断动作 | 文本-视频对 | | 目标场景 | 2D可交互环境 | 通用视频生成 | | 物理理解 | 2D游戏物理 | 3D世界物理(有限) | | 开放性 | 学术论文 | 产品化 |

本质区别:Genie更像"学习环境规则"(可以控制角色在环境中行动),Sora更像"学习视觉世界的统计规律"(以逼真的方式描绘世界变化)。


Q6: 谈谈你对"世界模型是通向AGI的关键"这个观点的看法

参考答案(开放题,以下为一种分析思路):

支持观点: - 人类的智能核心依赖内部世界模型(想象、预测、规划) - 纯语言模型缺乏物理世界理解,难以通过具身智能测试 - 世界模型可以实现"在想象中试错",是高效学习的基础

质疑观点: - 当前世界模型学到的更多是"统计相关"而非"因果理解" - 从像素预测到真正理解世界规律之间可能存在根本鸿沟 - LLM已经展现了超预期的推理能力,也许文本世界模型也是有效的

个人见解:世界模型很可能是AGI的重要组件之一,但不一定需要完美——重要的是与语言模型、推理模块、记忆系统的有机结合。


18.11 前沿论文索引

世界模型核心论文

年份 论文 核心贡献
2018 World Models (Ha & Schmidhuber) 奠基之作:VAE+RNN世界模型
2020 DreamerV1 (Hafner et al.) RSSM用于高效模型-based RL
2023 DreamerV3 跨领域通用世界模型
2024 Sora (OpenAI) 视频级世界模拟器
2024 Genie (DeepMind) 无监督学习可交互世界
2024 DIAMOND 扩散模型作为世界模型
2024 Cosmos (NVIDIA) 物理世界基础模型

自动驾驶与机器人

年份 论文 核心贡献
2023 GAIA-1 (Wayve) 大规模驾驶世界模型
2023 DriveDreamer 结构化条件驾驶生成
2024 Vista 通用可控驾驶世界模型
2023 UniPi 视频生成驱动机器人规划
2023 RT-2 (DeepMind) VLM到机器人动作

视频生成

年份 论文 核心贡献
2023 DiT (Peebles & Xie) Transformer替代U-Net做扩散
2024 CogVideoX (智谱) 开源视频生成标杆
2024 Movie Gen (Meta) 大规模视频+音频生成
2024 HunyuanVideo (腾讯) 开源高质量视频生成
2024 LTX-Video (Lightricks) 轻量高效视频生成

3D生成

年份 论文 核心贡献
2020 NeRF (Mildenhall et al.) 神经辐射场开创
2023 3D Gaussian Splatting 实时高质量3D渲染
2023 Zero-1-to-3 单图3D重建
2023 DreamFusion 文本到3D (SDS损失)
2024 TripoSR (Stability AI) 快速前馈3D重建
2024 LGM 大型高斯重建模型
2025 Trellis (Microsoft) 结构化3D生成

18.12 本章小结

核心知识点

  1. 世界模型概念:从Ha & Schmidhuber 2018到2024-2025大爆发,世界模型从"在梦中训练"evolve到"模拟真实世界"
  2. Sora架构:视频VAE + 时空Patch + DiT = 视频级世界模拟器
  3. 主流世界模型:Genie(可交互环境)、DIAMOND(RL世界模型)、Cosmos(物理世界基础模型)
  4. 自动驾驶:GAIA-1、DriveDreamer、Vista解决corner case生成和端到端规划
  5. 机器人:UniPi(视频→动作)、RT-2(VLM→机器人控制)
  6. 视频生成:CogVideoX(开源标杆)、Kling/Pika/Gen-3(商用方案)
  7. 3D生成:NeRF → 3D Gaussian Splatting(实时)→ 单图/文本3D重建
  8. AGI视角:世界模型可能是通向AGI的关键拼图之一

下一步

  • 动手跑CogVideoX开源模型体验视频生成
  • 用nerfstudio或gsplat尝试3D Gaussian Splatting
  • 阅读Sora技术报告和Genie论文理解世界模型设计
  • 关注前沿:机器人世界模型和自动驾驶世界模型的最新进展

恭喜完成第18章! 🎉 世界模型是2024-2025年最前沿的AI方向之一——从视频生成到3D重建,从自动驾驶到机器人,它正在重新定义AI理解和模拟物理世界的方式。