跳转至

🔥 数据工程实战项目集(3个分级项目)


项目1:数据管道入门(入门级,2周)

技术栈

Python + Pandas + SQLite/PostgreSQL + Airflow(简化) + dbt

项目描述

构建一个ETL管道:采集公开API数据→清洗转换→入仓→可视化。

交付物

  • 数据采集脚本(调用公开API)
  • Pandas清洗转换逻辑
  • dbt数据模型(staging→mart)
  • 简单的Airflow DAG调度
  • Metabase/Superset报表

项目2:实时数据处理平台(进阶级,3周)

架构

Text Only
数据源(Mock) → Kafka → Flink/Spark Streaming(清洗+聚合)
→ Delta Lake(S3/MinIO) → 实时Dashboard(Grafana)
+ 离线: Spark Batch → dbt → PostgreSQL → Metabase

交付物

  • Kafka Producer模拟数据流
  • Flink/PySpark Streaming实时处理
  • Delta Lake存储(支持Time Travel)
  • 实时+离线双链路
  • Docker Compose完整环境
  • Grafana实时Dashboard

项目3:LLM训练数据管道(高级,4周)

项目描述

构建大模型训练数据的完整处理管道。

架构

Text Only
数据采集(Common Crawl/自定义爬虫) → 文本提取(Trafilatura)
→ 语言检测 → 去重(MinHash/SimHash) → 质量过滤(Perplexity+规则)
→ PII去除 → 敏感内容过滤 → Tokenize → 打包为训练格式

关键技术

  • 大规模去重: MinHash LSH (datasketch库)
  • 质量过滤: 用小语言模型计算Perplexity
  • Spark分布式: 处理TB级数据

交付物

  • 数据爬取+提取Pipeline
  • MinHash去重(Spark实现)
  • 质量评分模型
  • 完整DAG(Airflow/Dagster)
  • 数据质量报告(去重率/过滤率/分布统计)
  • DVC数据版本管理

最后更新:2026年2月