阶段4: AI/ML常用库¶
学习目标: 深入理解AI/ML工具的核心原理,能够独立构建和部署机器学习项目
预计时间: 6-8周(每天1-2小时) - 按每天1小时计算:约7-8周 - 按每天2小时计算:约3-4周 - 总学习时长:45-58小时
重要性: ⭐⭐⭐⭐⭐ 机器学习和深度学习的必备工具
📋 学习清单¶
- PyTorch基础 - 深度学习框架(12-16小时)
- scikit-learn - 传统机器学习(10-12小时)
- Hugging Face - Transformer模型(8-10小时)
- 实战项目 - 完整的端到端项目(15-20小时)
🎯 学习重点¶
必须掌握¶
- PyTorch - 张量操作、自动微分、神经网络构建、训练流程、GPU加速
- scikit-learn - 数据预处理、特征工程、模型训练与评估、Pipeline
- Hugging Face - Transformer原理、Tokenizer、预训练模型、微调
- 项目实践 - 图像分类、文本分类、端到端ML项目
理解即可¶
- 分布式训练
- 模型量化与优化
- 高级调参技巧
暂时跳过¶
- 自定义CUDA核函数
- 从头实现Transformer
- 生产级分布式部署
💡 学习建议¶
学习原则¶
如何学习ML库¶
❌ 错误方式: - 直接复制复杂代码而不理解 - 只关注准确率,忽视模型原理 - 跳过基础直接上高级技巧
✅ 正确方式: - 深入理解核心概念和原理 - 从简单示例开始,逐步增加复杂度 - 动手实现每个关键组件 - 在实际项目中应用所学知识
📖 内容概览¶
01 - PyTorch基础¶
核心内容: - 张量基础:创建、操作、内存管理 - 自动微分:计算图、梯度计算、自定义函数 - 数据加载:Dataset、DataLoader、数据增强 - 神经网络:nn.Module、常用层、CNN、ResNet - 训练流程:损失函数、优化器、学习率调度 - GPU训练:CUDA、混合精度、分布式训练 - 模型部署:TorchScript、ONNX导出
时间投入: 12-16小时
产出: 能够独立构建和训练深度学习模型
02 - scikit-learn¶
核心内容: - 数据预处理:缺失值处理、特征缩放、编码 - 特征工程:多项式特征、特征选择、降维 - 监督学习:线性模型、树模型、SVM、集成学习 - 无监督学习:聚类、降维 - 模型评估:交叉验证、超参数调优、评估指标 - Pipeline:构建完整的数据处理和建模流程 - 模型解释:特征重要性、SHAP、部分依赖图
时间投入: 10-12小时
产出: 能够完成完整的机器学习项目
03 - Hugging Face¶
核心内容: - Transformer架构:自注意力机制、编码器/解码器 - Tokenizer:分词算法、编码/解码、特殊token - 模型使用:AutoModel、不同任务头 - 微调流程:数据准备、Trainer API、自定义训练 - NLP任务:分类、NER、问答、摘要、翻译 - 模型优化:量化、ONNX导出、推理优化
时间投入: 8-10小时
产出: 能够使用预训练模型解决NLP问题
04 - 实战项目¶
项目内容: - 项目1: CIFAR-10图像分类(PyTorch + ResNet) - 项目2: IMDb情感分析(BERT微调) - 项目3: 端到端ML项目(scikit-learn完整流程)
时间投入: 15-20小时
产出: 3个可展示的完整项目
🚀 环境准备¶
# 创建conda环境
conda create -n ml python=3.11 -y
conda activate ml
# PyTorch(根据你的系统选择)
# CUDA版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# CPU版本
pip install torch torchvision torchaudio
# scikit-learn
pip install scikit-learn pandas numpy matplotlib seaborn
# Hugging Face
pip install transformers datasets accelerate evaluate
# 其他工具
pip install tensorboard jupyter tqdm optuna shap
🎯 完成标准¶
完成这一阶段后,你应该:
✅ 深入理解PyTorch的核心机制,能构建复杂神经网络 ✅ 熟练使用scikit-learn完成ML全流程 ✅ 掌握Transformer模型,能进行NLP任务 ✅ 完成3个端到端的实战项目 ✅ 具备独立解决实际AI/ML问题的能力
📚 推荐资源¶
PyTorch¶
scikit-learn¶
Hugging Face¶
🚀 开始学习¶
从 01 - PyTorch基础 开始!
记住: - 理解原理比复制代码重要 - 动手实践比单纯学习重要 - 项目经验是最好的学习方式