🔥 数据工程实战项目集(3个分级项目)¶
项目1:数据管道入门(入门级,2周)¶
技术栈¶
Python + Pandas + SQLite/PostgreSQL + Airflow(简化) + dbt
项目描述¶
构建一个ETL管道:采集公开API数据→清洗转换→入仓→可视化。
交付物¶
- 数据采集脚本(调用公开API)
- Pandas清洗转换逻辑
- dbt数据模型(staging→mart)
- 简单的Airflow DAG调度
- Metabase/Superset报表
项目2:实时数据处理平台(进阶级,3周)¶
架构¶
Text Only
数据源(Mock) → Kafka → Flink/Spark Streaming(清洗+聚合)
→ Delta Lake(S3/MinIO) → 实时Dashboard(Grafana)
+ 离线: Spark Batch → dbt → PostgreSQL → Metabase
交付物¶
- Kafka Producer模拟数据流
- Flink/PySpark Streaming实时处理
- Delta Lake存储(支持Time Travel)
- 实时+离线双链路
- Docker Compose完整环境
- Grafana实时Dashboard
项目3:LLM训练数据管道(高级,4周)¶
项目描述¶
构建大模型训练数据的完整处理管道。
架构¶
Text Only
数据采集(Common Crawl/自定义爬虫) → 文本提取(Trafilatura)
→ 语言检测 → 去重(MinHash/SimHash) → 质量过滤(Perplexity+规则)
→ PII去除 → 敏感内容过滤 → Tokenize → 打包为训练格式
关键技术¶
- 大规模去重: MinHash LSH (datasketch库)
- 质量过滤: 用小语言模型计算Perplexity
- Spark分布式: 处理TB级数据
交付物¶
- 数据爬取+提取Pipeline
- MinHash去重(Spark实现)
- 质量评分模型
- 完整DAG(Airflow/Dagster)
- 数据质量报告(去重率/过滤率/分布统计)
- DVC数据版本管理
最后更新:2026年2月