跳转至

阶段3: 数据科学核心库

学习目标: 掌握数据处理的基本功,这是AI的基础

预计时间: 2周(每天1-2小时)

重要性: ⭐⭐⭐⭐⭐ 数据科学和AI的核心工具


📋 学习清单


🎯 学习重点

必须掌握(每天都会用)

  1. NumPy - 数组创建、索引、切片、向量化运算
  2. Pandas - DataFrame操作、数据清洗、聚合、分组
  3. 数据可视化 - 基本图表绘制

理解即可(偶尔用到)

  • 高级索引
  • 时间序列处理
  • 复杂的数据透视

暂时跳过(用到再学)

  • NumPy的高级线性代数
  • Pandas的多级索引
  • 复杂的统计方法

💡 学习建议

学习原则

Text Only
从数据出发 → 学习处理方法 → 实际应用 → 巩固理解

如何学习数据科学库

❌ 错误方式: - 背诵所有API - 看教程不动手 - 只用虚拟数据

✅ 正确方式: - 理解核心概念 - 用真实数据练习 - 解决实际问题 - 建立数据思维

实用学习流程

  1. 概念理解 (20分钟) - 理解数据结构和操作
  2. 跟随示例 (30分钟) - 运行示例代码
  3. 数据练习 (40分钟) - 用真实数据练习
  4. 项目应用 (持续) - 在项目中使用

📖 内容概览

01 - NumPy基础

核心内容: - 数组创建与操作 - 索引与切片 - 向量化运算 - 广播机制

实际应用: - 数据预处理 - 特征工程 - 数值计算

时间投入: 3-4小时


02 - Pandas入门

核心内容: - Series和DataFrame - 数据选择与过滤 - 数据清洗 - 数据聚合与分组

实际应用: - 数据分析 - 数据清洗 - 特征工程

时间投入: 5-6小时


03 - 数据可视化

核心内容: - Matplotlib基础 - 常用图表类型 - 图表美化

实际应用: - 数据探索 - 结果展示 - 报告生成

时间投入: 2-3小时


04 - 实战项目

项目内容: - 数据加载 - 数据清洗 - 数据分析 - 结果可视化

时间投入: 4-6小时


🚀 环境准备

Bash
# 创建conda环境
conda create -n datascience python=3.11 -y
conda activate datascience

# 安装核心库
conda install numpy pandas matplotlib -y

# 或者用pip
pip install numpy pandas matplotlib

# 验证安装
python -c "import numpy as np; import pandas as pd; import matplotlib; print('安装成功!')"

💪 学习策略

技巧1: 建立数据思维

Python
# 思考问题:
# 1. 数据是什么结构?
# 2. 需要什么操作?
# 3. 如何向量化?
# 4. 如何避免循环?

# ❌ 使用循环
result = []
for i in range(len(data)):
    result.append(data[i] * 2)

# ✅ 使用向量化
result = data * 2

技巧2: 链式操作

Python
# Pandas支持链式操作,代码更清晰
result = (df
    .query('age > 18')
    .groupby('city')
    .agg({'salary': 'mean'})
    .sort_values('salary', ascending=False)
)

技巧3: 真实数据练习

Python
# 不要只用随机数据,尝试:
# 1. Kaggle数据集
# 2. 自己的数据
# 3. 公开数据集

🎯 完成标准

完成这一阶段后,你应该能够:

✅ 独立进行数据清洗 ✅ 进行基本的数据分析 ✅ 创建数据可视化 ✅ 处理真实数据集 ✅ 为机器学习准备数据


📚 推荐资源

官方文档

实用书籍

  • Python for Data Analysis - Pandas作者写的
  • Python Data Science Handbook - 免费在线版

在线资源


⚠️ 常见陷阱

  1. 过度复杂化 - 大多数问题用基础操作就能解决
  2. 忽视向量化 - 避免在NumPy/Pandas中使用循环
  3. 内存问题 - 大数据要注意内存使用
  4. 链式拷贝 - 注意View vs Copy

🚀 开始学习

01 - NumPy基础 开始!

记住: 数据科学是AI的基础,扎实掌握数据处理能力至关重要。