阶段3: 数据科学核心库¶

学习目标: 掌握数据处理的基本功，这是AI的基础

预计时间: 2周（每天1-2小时）

重要性: ⭐⭐⭐⭐⭐ 数据科学和AI的核心工具

📋 学习清单¶

NumPy基础 - 数组操作与向量化
Pandas入门 - 数据处理与分析
数据可视化 - Matplotlib基础
实战项目 - 完整的数据分析流程

🎯 学习重点¶

必须掌握（每天都会用）¶

NumPy - 数组创建、索引、切片、向量化运算
Pandas - DataFrame操作、数据清洗、聚合、分组
数据可视化 - 基本图表绘制

理解即可（偶尔用到）¶

高级索引
时间序列处理
复杂的数据透视

暂时跳过（用到再学）¶

NumPy的高级线性代数
Pandas的多级索引
复杂的统计方法

💡 学习建议¶

学习原则¶

Text Only

从数据出发 → 学习处理方法 → 实际应用 → 巩固理解

如何学习数据科学库¶

❌ 错误方式: - 背诵所有API - 看教程不动手 - 只用虚拟数据

✅ 正确方式: - 理解核心概念 - 用真实数据练习 - 解决实际问题 - 建立数据思维

实用学习流程¶

概念理解 (20分钟) - 理解数据结构和操作
跟随示例 (30分钟) - 运行示例代码
数据练习 (40分钟) - 用真实数据练习
项目应用 (持续) - 在项目中使用

📖 内容概览¶

01 - NumPy基础¶

核心内容: - 数组创建与操作 - 索引与切片 - 向量化运算 - 广播机制

实际应用: - 数据预处理 - 特征工程 - 数值计算

时间投入: 3-4小时

02 - Pandas入门¶

核心内容: - Series和DataFrame - 数据选择与过滤 - 数据清洗 - 数据聚合与分组

实际应用: - 数据分析 - 数据清洗 - 特征工程

时间投入: 5-6小时

03 - 数据可视化¶

核心内容: - Matplotlib基础 - 常用图表类型 - 图表美化

实际应用: - 数据探索 - 结果展示 - 报告生成

时间投入: 2-3小时

04 - 实战项目¶

项目内容: - 数据加载 - 数据清洗 - 数据分析 - 结果可视化

时间投入: 4-6小时

🚀 环境准备¶

Bash

# 创建conda环境
conda create -n datascience python=3.11 -y
conda activate datascience

# 安装核心库
conda install numpy pandas matplotlib -y

# 或者用pip
pip install numpy pandas matplotlib

# 验证安装
python -c "import numpy as np; import pandas as pd; import matplotlib; print('安装成功!')"

💪 学习策略¶

技巧1: 建立数据思维¶

Python

# 思考问题：
# 1. 数据是什么结构？
# 2. 需要什么操作？
# 3. 如何向量化？
# 4. 如何避免循环？

# ❌ 使用循环
result = []
for i in range(len(data)):
    result.append(data[i] * 2)

# ✅ 使用向量化
result = data * 2

技巧2: 链式操作¶

Python

# Pandas支持链式操作，代码更清晰
result = (df
    .query('age > 18')
    .groupby('city')
    .agg({'salary': 'mean'})
    .sort_values('salary', ascending=False)
)

技巧3: 真实数据练习¶

Python

# 不要只用随机数据，尝试：
# 1. Kaggle数据集
# 2. 自己的数据
# 3. 公开数据集

🎯 完成标准¶

完成这一阶段后，你应该能够：

✅ 独立进行数据清洗 ✅ 进行基本的数据分析 ✅ 创建数据可视化 ✅ 处理真实数据集 ✅ 为机器学习准备数据

📚 推荐资源¶

官方文档¶

实用书籍¶

Python for Data Analysis - Pandas作者写的
Python Data Science Handbook - 免费在线版

在线资源¶

Kaggle Learn - 免费课程
Pandas练习

⚠️ 常见陷阱¶

过度复杂化 - 大多数问题用基础操作就能解决
忽视向量化 - 避免在NumPy/Pandas中使用循环
内存问题 - 大数据要注意内存使用
链式拷贝 - 注意View vs Copy

🚀 开始学习¶

从 01 - NumPy基础 开始！

记住: 数据科学是AI的基础，扎实掌握数据处理能力至关重要。