🤖 具身智能与机器人AI¶
定位:2026-2030年AI最大增量方向之一,中国正大力发展人形机器人产业 就业前景:字节、小米、华为、宇树科技、智元机器人等大量招聘
目录¶
| 章节 | 内容 | 学时 |
|---|---|---|
| 01-具身智能概述 | 定义、发展历史、产业地图 | 2h |
| 02-机器人感知 | 视觉、触觉、力觉、多传感器融合 | 4h |
| 03-运动控制与规划 | 运动学、动力学、轨迹规划、强化学习控制 | 5h |
| 04-视觉-语言-动作模型(VLA) | RT-2、Octo、OpenVLA、Pi系列 | 4h |
| 05-仿真环境与Sim2Real | Isaac Sim、MuJoCo、域随机化 | 3h |
| 06-前沿与面试 | 最新论文、面试题、项目建议 | 2h |
总学时:约20小时
01 具身智能概述¶
1.1 什么是具身智能(Embodied AI)?¶
具身智能 = AI大脑 + 物理身体 + 环境交互
传统AI(如ChatGPT)只在虚拟世界中运行,具身智能要求AI系统能感知物理世界、做出决策、并通过身体执行动作。
1.2 发展脉络¶
1.3 产业地图(2026年中国)¶
| 公司 | 方向 | 融资/估值 |
|---|---|---|
| 宇树科技 | 人形机器人(Unitree H1) | 百亿级 |
| 智元机器人 | 通用机器人 | 数十亿 |
| 银河通用 | 人形机器人 | 数十亿 |
| Figure AI | 人形机器人(Figure 02) | 百亿美元 |
| 小米 | CyberOne/CyberDog | 内部 |
| 华为 | 机器人生态 | 内部 |
| 特斯拉 | Optimus | 万亿美元(整体) |
1.4 具身智能技术栈¶
Text Only
感知层: 视觉(CV) + 深度(LiDAR/ToF) + 触觉 + IMU + 力矩传感器
认知层: VLM(视觉语言理解) + 任务规划(LLM) + 世界模型(物理预测)
决策层: 强化学习策略 / VLA端到端模型 / 层次化规划
执行层: 运动控制 + 力控 + 手眼协调
02 机器人感知¶
2.1 视觉感知¶
- RGB相机:目标检测(YOLO)、语义分割(SAM)、位姿估计
- 深度相机:RealSense/ZED,点云处理(Open3D/PCL)
- 3D感知:PointNet/PointNet++、3D Gaussian Splatting
2.2 触觉感知¶
- GelSight/DIGIT触觉传感器
- 触觉→力估计→抓取反馈
2.3 多传感器融合¶
- 相机+LiDAR+IMU融合(卡尔曼滤波/因子图优化)
- SLAM(同时定位与建图): ORB-SLAM3、LIO-SAM
2.4 开放词汇检测¶
- 机器人需要理解开放世界中的物体
- GroundingDINO + SAM = 任意文本描述→分割任意物体
03 运动控制与规划¶
3.1 机器人运动学¶
- 正运动学: 关节角度 → 末端位姿(DH参数法)
- 逆运动学: 目标位姿 → 关节角度(解析解/数值迭代)
3.2 运动规划¶
- 传统方法: RRT(快速随机树)、A*、势场法
- 学习方法: 强化学习策略(PPO/SAC)、模仿学习(Behavior Cloning)
- 层次化: 任务规划(LLM) → 技能选择 → 低层控制
3.3 强化学习在机器人中的应用¶
Python
# Isaac Gym示例 - 训练四足机器人行走
env = IsaacGymEnv("Anymal", num_envs=4096) # GPU并行4096个环境
policy = PPO(obs_dim=48, act_dim=12) # 12个关节
for epoch in range(1000):
obs, reward, done = env.step(policy.act(obs))
policy.update(obs, reward, done)
3.4 灵巧手操作¶
- 抓取规划: GraspNet、AnyGrasp
- 灵巧操作: 原地翻转、工具使用
- 触觉反馈控制: 力-位混合控制
04 视觉-语言-动作模型(VLA)¶
4.1 VLA模型架构¶
4.2 代表模型¶
| 模型 | 机构 | 特点 |
|---|---|---|
| RT-2 | PaLM-E + 机器人动作token化 | |
| Octo | Berkeley | 开源通用机器人策略,支持多任务 |
| OpenVLA | Stanford | 开源7B VLA,Llama-2+DINOv2/SigLIP双视觉编码器 |
| π0 | Physical Intelligence | 多任务FlowMatching(扩散策略) |
| GR-2 | 字节跳动 | 视频生成预训练+机器人微调 |
4.3 关键技术¶
- 动作Token化: 将连续动作离散化为token,用LLM架构统一处理
- 扩散策略(Diffusion Policy): 用扩散模型生成动作序列
- 模仿学习: 从人类演示数据中学习(ACT/行为克隆)
4.4 数据收集¶
- 遥操作:VR手套/示教器控制机器人收集数据
- 人类视频:RT-2/GR-2从大规模人类视频中学习
- 仿真合成:Isaac Sim生成大量训练数据
05 仿真环境与Sim2Real¶
5.1 主流仿真平台¶
| 平台 | 特点 | 适用 |
|---|---|---|
| Isaac Sim/Gym | NVIDIA GPU并行,最快 | RL训练、大规模仿真 |
| MuJoCo | 精确物理引擎,Google开源 | 运动控制研究 |
| PyBullet | 轻量Python接口 | 教学、快速原型 |
| Gazebo | ROS生态集成 | 传统机器人开发 |
5.2 Sim2Real迁移¶
- 域随机化(Domain Randomization): 随机化仿真参数(摩擦/质量/光照)
- 域适应(Domain Adaptation): 对齐仿真和真实数据分布
- Teacher-Student: 仿真中训练Teacher(有特权信息) → 蒸馏到Student(只用传感器)
5.3 实践路线¶
Text Only
1. MuJoCo/PyBullet入门 → 控制简单机械臂
2. Isaac Gym → GPU并行训练四足/人形机器人
3. 真实机器人验证(如宇树Go2/AIRBOT Play)
06 前沿与面试¶
6.1 2025-2026前沿趋势¶
- VLA大模型统一: 一个模型控制多种机器人执行多种任务
- 世界模型for机器人: 预测物理交互结果,辅助规划
- 人形机器人量产: 2025-2026年中国人形机器人产业爆发期
- LLM作为任务规划器: SayCan、Code-as-Policies
6.2 面试题精选(10题)¶
- 解释Sim2Real Gap及其解决方案
- VLA模型和传统RL控制策略的区别?
- 扩散策略(Diffusion Policy)相比BC的优势?
- 如何设计一个机械臂抓取的完整Pipeline?
- 人形机器人的全身运动控制挑战?
- 对比模仿学习和强化学习在机器人中的使用场景
- 什么是域随机化?为什么有效?
- 解释SLAM的核心原理
- 如何处理机器人任务中的部分可观测问题?
- 描述从视觉输入到动作输出的端到端系统
6.3 推荐项目¶
- 入门: MuJoCo上训练机械臂到达目标位置(PPO)
- 进阶: Isaac Gym训练四足机器人在不平地形行走
- 高级: 用OpenVLA微调机械臂抓取任务
6.4 学习资源¶
- 课程: Stanford CS326(具身智能)、Berkeley RAIL Lab
- 书籍: 《Robotics, Vision and Control》(Corke)
- 论文必读: RT-2、Diffusion Policy、Octo、π0
最后更新:2026年2月