跳转至

阶段4: AI/ML常用库

学习目标: 深入理解AI/ML工具的核心原理,能够独立构建和部署机器学习项目

预计时间: 6-8周(每天1-2小时) - 按每天1小时计算:约7-8周 - 按每天2小时计算:约3-4周 - 总学习时长:45-58小时

重要性: ⭐⭐⭐⭐⭐ 机器学习和深度学习的必备工具


📋 学习清单


🎯 学习重点

必须掌握

  1. PyTorch - 张量操作、自动微分、神经网络构建、训练流程、GPU加速
  2. scikit-learn - 数据预处理、特征工程、模型训练与评估、Pipeline
  3. Hugging Face - Transformer原理、Tokenizer、预训练模型、微调
  4. 项目实践 - 图像分类、文本分类、端到端ML项目

理解即可

  • 分布式训练
  • 模型量化与优化
  • 高级调参技巧

暂时跳过

  • 自定义CUDA核函数
  • 从头实现Transformer
  • 生产级分布式部署

💡 学习建议

学习原则

Text Only
理解原理 → 动手实践 → 项目应用 → 深入优化

如何学习ML库

❌ 错误方式: - 直接复制复杂代码而不理解 - 只关注准确率,忽视模型原理 - 跳过基础直接上高级技巧

✅ 正确方式: - 深入理解核心概念和原理 - 从简单示例开始,逐步增加复杂度 - 动手实现每个关键组件 - 在实际项目中应用所学知识


📖 内容概览

01 - PyTorch基础

核心内容: - 张量基础:创建、操作、内存管理 - 自动微分:计算图、梯度计算、自定义函数 - 数据加载:Dataset、DataLoader、数据增强 - 神经网络:nn.Module、常用层、CNN、ResNet - 训练流程:损失函数、优化器、学习率调度 - GPU训练:CUDA、混合精度、分布式训练 - 模型部署:TorchScript、ONNX导出

时间投入: 12-16小时

产出: 能够独立构建和训练深度学习模型


02 - scikit-learn

核心内容: - 数据预处理:缺失值处理、特征缩放、编码 - 特征工程:多项式特征、特征选择、降维 - 监督学习:线性模型、树模型、SVM、集成学习 - 无监督学习:聚类、降维 - 模型评估:交叉验证、超参数调优、评估指标 - Pipeline:构建完整的数据处理和建模流程 - 模型解释:特征重要性、SHAP、部分依赖图

时间投入: 10-12小时

产出: 能够完成完整的机器学习项目


03 - Hugging Face

核心内容: - Transformer架构:自注意力机制、编码器/解码器 - Tokenizer:分词算法、编码/解码、特殊token - 模型使用:AutoModel、不同任务头 - 微调流程:数据准备、Trainer API、自定义训练 - NLP任务:分类、NER、问答、摘要、翻译 - 模型优化:量化、ONNX导出、推理优化

时间投入: 8-10小时

产出: 能够使用预训练模型解决NLP问题


04 - 实战项目

项目内容: - 项目1: CIFAR-10图像分类(PyTorch + ResNet) - 项目2: IMDb情感分析(BERT微调) - 项目3: 端到端ML项目(scikit-learn完整流程)

时间投入: 15-20小时

产出: 3个可展示的完整项目


🚀 环境准备

Bash
# 创建conda环境
conda create -n ml python=3.11 -y
conda activate ml

# PyTorch(根据你的系统选择)
# CUDA版本
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# CPU版本
pip install torch torchvision torchaudio

# scikit-learn
pip install scikit-learn pandas numpy matplotlib seaborn

# Hugging Face
pip install transformers datasets accelerate evaluate

# 其他工具
pip install tensorboard jupyter tqdm optuna shap

🎯 完成标准

完成这一阶段后,你应该:

✅ 深入理解PyTorch的核心机制,能构建复杂神经网络 ✅ 熟练使用scikit-learn完成ML全流程 ✅ 掌握Transformer模型,能进行NLP任务 ✅ 完成3个端到端的实战项目 ✅ 具备独立解决实际AI/ML问题的能力


📚 推荐资源

PyTorch

scikit-learn

Hugging Face


🚀 开始学习

01 - PyTorch基础 开始!

记住: - 理解原理比复制代码重要 - 动手实践比单纯学习重要 - 项目经验是最好的学习方式