Transformer架构¶

本章节深入讲解Transformer架构及其变体，这是现代深度学习和大型语言模型的核心基础。

章节列表¶

章节	说明
01-注意力机制详解	注意力机制的原理与实现
02-Transformer架构	Transformer完整架构解析
03-视觉Transformer	ViT及其在计算机视觉中的应用
04-Mamba与状态空间模型	新一代序列建模架构

学习路径¶

Text Only

注意力机制 → Transformer架构 → 视觉Transformer → 状态空间模型

核心概念¶

自注意力机制：捕捉序列内部的长距离依赖
多头注意力：并行处理多个表示子空间
位置编码：为序列注入位置信息
层归一化：稳定训练过程

学习建议¶

先理解注意力：注意力机制是Transformer的核心，务必深入理解
手写实现：建议从零实现一个简单的Transformer
关注变体：了解Transformer的各种改进版本
实践应用：在NLP和CV任务中应用Transformer

相关资源¶

深度学习/05-生成模型 - 基于Transformer的生成模型
LLM学习 - 大语言模型专题
自然语言处理 - NLP应用