阶段3: 数据科学核心库¶
学习目标: 掌握数据处理的基本功,这是AI的基础
预计时间: 2周(每天1-2小时)
重要性: ⭐⭐⭐⭐⭐ 数据科学和AI的核心工具
📋 学习清单¶
🎯 学习重点¶
必须掌握(每天都会用)¶
- NumPy - 数组创建、索引、切片、向量化运算
- Pandas - DataFrame操作、数据清洗、聚合、分组
- 数据可视化 - 基本图表绘制
理解即可(偶尔用到)¶
- 高级索引
- 时间序列处理
- 复杂的数据透视
暂时跳过(用到再学)¶
- NumPy的高级线性代数
- Pandas的多级索引
- 复杂的统计方法
💡 学习建议¶
学习原则¶
如何学习数据科学库¶
❌ 错误方式: - 背诵所有API - 看教程不动手 - 只用虚拟数据
✅ 正确方式: - 理解核心概念 - 用真实数据练习 - 解决实际问题 - 建立数据思维
实用学习流程¶
- 概念理解 (20分钟) - 理解数据结构和操作
- 跟随示例 (30分钟) - 运行示例代码
- 数据练习 (40分钟) - 用真实数据练习
- 项目应用 (持续) - 在项目中使用
📖 内容概览¶
01 - NumPy基础¶
核心内容: - 数组创建与操作 - 索引与切片 - 向量化运算 - 广播机制
实际应用: - 数据预处理 - 特征工程 - 数值计算
时间投入: 3-4小时
02 - Pandas入门¶
核心内容: - Series和DataFrame - 数据选择与过滤 - 数据清洗 - 数据聚合与分组
实际应用: - 数据分析 - 数据清洗 - 特征工程
时间投入: 5-6小时
03 - 数据可视化¶
核心内容: - Matplotlib基础 - 常用图表类型 - 图表美化
实际应用: - 数据探索 - 结果展示 - 报告生成
时间投入: 2-3小时
04 - 实战项目¶
项目内容: - 数据加载 - 数据清洗 - 数据分析 - 结果可视化
时间投入: 4-6小时
🚀 环境准备¶
Bash
# 创建conda环境
conda create -n datascience python=3.11 -y
conda activate datascience
# 安装核心库
conda install numpy pandas matplotlib -y
# 或者用pip
pip install numpy pandas matplotlib
# 验证安装
python -c "import numpy as np; import pandas as pd; import matplotlib; print('安装成功!')"
💪 学习策略¶
技巧1: 建立数据思维¶
Python
# 思考问题:
# 1. 数据是什么结构?
# 2. 需要什么操作?
# 3. 如何向量化?
# 4. 如何避免循环?
# ❌ 使用循环
result = []
for i in range(len(data)):
result.append(data[i] * 2)
# ✅ 使用向量化
result = data * 2
技巧2: 链式操作¶
Python
# Pandas支持链式操作,代码更清晰
result = (df
.query('age > 18')
.groupby('city')
.agg({'salary': 'mean'})
.sort_values('salary', ascending=False)
)
技巧3: 真实数据练习¶
🎯 完成标准¶
完成这一阶段后,你应该能够:
✅ 独立进行数据清洗 ✅ 进行基本的数据分析 ✅ 创建数据可视化 ✅ 处理真实数据集 ✅ 为机器学习准备数据
📚 推荐资源¶
官方文档¶
实用书籍¶
Python for Data Analysis- Pandas作者写的Python Data Science Handbook- 免费在线版
在线资源¶
- Kaggle Learn - 免费课程
- Pandas练习
⚠️ 常见陷阱¶
- 过度复杂化 - 大多数问题用基础操作就能解决
- 忽视向量化 - 避免在NumPy/Pandas中使用循环
- 内存问题 - 大数据要注意内存使用
- 链式拷贝 - 注意View vs Copy
🚀 开始学习¶
从 01 - NumPy基础 开始!
记住: 数据科学是AI的基础,扎实掌握数据处理能力至关重要。