跳转至

🤖 具身智能与机器人AI

具身智能概述与VLA关系图

定位:2026-2030年AI最大增量方向之一,中国正大力发展人形机器人产业 就业前景:字节、小米、华为、宇树科技、智元机器人等大量招聘


目录

章节 内容 学时
01-具身智能概述 定义、发展历史、产业地图 2h
02-机器人感知 视觉、触觉、力觉、多传感器融合 4h
03-运动控制与规划 运动学、动力学、轨迹规划、强化学习控制 5h
04-视觉-语言-动作模型(VLA) RT-2、Octo、OpenVLA、Pi系列 4h
05-仿真环境与Sim2Real Isaac Sim、MuJoCo、域随机化 3h
06-前沿与面试 最新论文、面试题、项目建议 2h

总学时:约20小时


01 具身智能概述

1.1 什么是具身智能(Embodied AI)?

具身智能 = AI大脑 + 物理身体 + 环境交互

传统AI(如ChatGPT)只在虚拟世界中运行,具身智能要求AI系统能感知物理世界、做出决策、并通过身体执行动作

1.2 发展脉络

Text Only
经典机器人(规则控制) → 深度RL控制(2015+) → 基础模型+机器人(2023+)
    ↓                      ↓                        ↓
 预编程动作            端到端策略学习          VLA大模型统一感知-决策-行动

1.3 产业地图(2026年中国)

公司 方向 融资/估值
宇树科技 人形机器人(Unitree H1) 百亿级
智元机器人 通用机器人 数十亿
银河通用 人形机器人 数十亿
Figure AI 人形机器人(Figure 02) 百亿美元
小米 CyberOne/CyberDog 内部
华为 机器人生态 内部
特斯拉 Optimus 万亿美元(整体)

1.4 具身智能技术栈

Text Only
感知层: 视觉(CV) + 深度(LiDAR/ToF) + 触觉 + IMU + 力矩传感器
认知层: VLM(视觉语言理解) + 任务规划(LLM) + 世界模型(物理预测)
决策层: 强化学习策略 / VLA端到端模型 / 层次化规划
执行层: 运动控制 + 力控 + 手眼协调

02 机器人感知

2.1 视觉感知

  • RGB相机:目标检测(YOLO)、语义分割(SAM)、位姿估计
  • 深度相机:RealSense/ZED,点云处理(Open3D/PCL)
  • 3D感知:PointNet/PointNet++、3D Gaussian Splatting

2.2 触觉感知

  • GelSight/DIGIT触觉传感器
  • 触觉→力估计→抓取反馈

2.3 多传感器融合

  • 相机+LiDAR+IMU融合(卡尔曼滤波/因子图优化)
  • SLAM(同时定位与建图): ORB-SLAM3、LIO-SAM

2.4 开放词汇检测

  • 机器人需要理解开放世界中的物体
  • GroundingDINO + SAM = 任意文本描述→分割任意物体

03 运动控制与规划

3.1 机器人运动学

  • 正运动学: 关节角度 → 末端位姿(DH参数法)
  • 逆运动学: 目标位姿 → 关节角度(解析解/数值迭代)

3.2 运动规划

  • 传统方法: RRT(快速随机树)、A*、势场法
  • 学习方法: 强化学习策略(PPO/SAC)、模仿学习(Behavior Cloning)
  • 层次化: 任务规划(LLM) → 技能选择 → 低层控制

3.3 强化学习在机器人中的应用

Python
# Isaac Gym示例 - 训练四足机器人行走
env = IsaacGymEnv("Anymal", num_envs=4096)  # GPU并行4096个环境
policy = PPO(obs_dim=48, act_dim=12)  # 12个关节
for epoch in range(1000):
    obs, reward, done = env.step(policy.act(obs))
    policy.update(obs, reward, done)

3.4 灵巧手操作

  • 抓取规划: GraspNet、AnyGrasp
  • 灵巧操作: 原地翻转、工具使用
  • 触觉反馈控制: 力-位混合控制

04 视觉-语言-动作模型(VLA)

4.1 VLA模型架构

Text Only
图像(视觉) + 语言指令(文本) → 基础模型(Transformer) → 动作序列(关节角/末端位姿)

4.2 代表模型

模型 机构 特点
RT-2 Google PaLM-E + 机器人动作token化
Octo Berkeley 开源通用机器人策略,支持多任务
OpenVLA Stanford 开源7B VLA,Llama-2+DINOv2/SigLIP双视觉编码器
π0 Physical Intelligence 多任务FlowMatching(扩散策略)
GR-2 字节跳动 视频生成预训练+机器人微调

4.3 关键技术

  • 动作Token化: 将连续动作离散化为token,用LLM架构统一处理
  • 扩散策略(Diffusion Policy): 用扩散模型生成动作序列
  • 模仿学习: 从人类演示数据中学习(ACT/行为克隆)

4.4 数据收集

  • 遥操作:VR手套/示教器控制机器人收集数据
  • 人类视频:RT-2/GR-2从大规模人类视频中学习
  • 仿真合成:Isaac Sim生成大量训练数据

05 仿真环境与Sim2Real

5.1 主流仿真平台

平台 特点 适用
Isaac Sim/Gym NVIDIA GPU并行,最快 RL训练、大规模仿真
MuJoCo 精确物理引擎,Google开源 运动控制研究
PyBullet 轻量Python接口 教学、快速原型
Gazebo ROS生态集成 传统机器人开发

5.2 Sim2Real迁移

  • 域随机化(Domain Randomization): 随机化仿真参数(摩擦/质量/光照)
  • 域适应(Domain Adaptation): 对齐仿真和真实数据分布
  • Teacher-Student: 仿真中训练Teacher(有特权信息) → 蒸馏到Student(只用传感器)

5.3 实践路线

Text Only
1. MuJoCo/PyBullet入门 → 控制简单机械臂
2. Isaac Gym → GPU并行训练四足/人形机器人
3. 真实机器人验证(如宇树Go2/AIRBOT Play)

06 前沿与面试

6.1 2025-2026前沿趋势

  1. VLA大模型统一: 一个模型控制多种机器人执行多种任务
  2. 世界模型for机器人: 预测物理交互结果,辅助规划
  3. 人形机器人量产: 2025-2026年中国人形机器人产业爆发期
  4. LLM作为任务规划器: SayCan、Code-as-Policies

6.2 面试题精选(10题)

  1. 解释Sim2Real Gap及其解决方案
  2. VLA模型和传统RL控制策略的区别?
  3. 扩散策略(Diffusion Policy)相比BC的优势?
  4. 如何设计一个机械臂抓取的完整Pipeline?
  5. 人形机器人的全身运动控制挑战?
  6. 对比模仿学习和强化学习在机器人中的使用场景
  7. 什么是域随机化?为什么有效?
  8. 解释SLAM的核心原理
  9. 如何处理机器人任务中的部分可观测问题?
  10. 描述从视觉输入到动作输出的端到端系统

6.3 推荐项目

  • 入门: MuJoCo上训练机械臂到达目标位置(PPO)
  • 进阶: Isaac Gym训练四足机器人在不平地形行走
  • 高级: 用OpenVLA微调机械臂抓取任务

6.4 学习资源

  • 课程: Stanford CS326(具身智能)、Berkeley RAIL Lab
  • 书籍: 《Robotics, Vision and Control》(Corke)
  • 论文必读: RT-2、Diffusion Policy、Octo、π0

最后更新:2026年2月