🧱

Data Engineering Quest

최근 수정: 2026-05-03

지저분한 파일에서 믿을 수 있는 파이프라인까지

Python, Pandas, NumPy, Parquet, DuckDB, Polars, Airflow, dbt, Apache Arrow까지 — 새벽 2시에 5천만 행짜리 CSV 청소하기 전에 누가 알려줬으면 좋았을 모든 거. 실전 데이터 엔지니어링.

8 tracks · 47 lessons · ~20h · difficulty: beginner-to-intermediate

Level 0구경꾼

0 XP0/47 lessons0/11 achievements

0/120 XP to next level120 XP to go0% complete

데이터 엔지니어링은 화려하지 않은 일이야. 그런데 모든 진지한 AI, 분석, 자동화, 백엔드 시스템의 진짜 토대가 여기야. 모델은 이 위에서 학습하고, 대시보드는 이 위에서 살고, 파이프라인은 이거 때문에 무너져. Data Engineering Quest 는 modern Python data stack 을 따라가는 실전 가이드 — 첫 pd.read_csv() 부터 lineage 까지 추적되는 production-grade orchestrated pipeline 까지.

8 트랙으로 정리: foundation (왜 이게 중요한지, modern stack 정찰, mental model), frames (NumPy + Pandas 진짜로 다루기), storage (CSV, Parquet, Arrow, DuckDB), pipelines (Polars, ETL 패턴, idempotency), quality (Pandera, Great Expectations, profiling), orchestration (Airflow, Dagster, Prefect), modeling (dimensional 설계, dbt, lineage), 마지막으로 production (모니터링, backfill, contract, 비용). 진짜 일이 무너지는 모양 그대로.

버전은 2026년 4월 기준 — Python 3.13, Pandas 3.0.2, NumPy 2.4.4, PyArrow 23.0.1, DuckDB 1.5.2, Polars 1.39.3, Airflow 2.10, dbt 1.9, Dagster 1.10. 도구는 바뀌지만 원리는 안 바뀌어.

Tracks

01🧭Foundation — 데이터 엔지니어링이 중요한 이유
0/6 lessons
80% 문제, modern stack, 그리고 mental model.
코드 짜기 전에 '왜' 부터. 데이터 엔지니어링이 진짜로 뭔지, spreadsheet 가 왜 안 되는지, 2026 modern Python data stack 의 모양, 그리고 한 번 돌아간 스크립트와 매일 밤 도는 파이프라인을 가르는 mental model.
Lesson list (6)
퀴즈 · 4 문제→
02🔢Frames — NumPy + Pandas Core
0/7 lessons
배열, DataFrame, 그리고 loop 에서 vectorization 으로의 사고 전환.
모든 Python 데이터 사람이 결국 마스터하는 두 라이브러리. ndarray 가 빠른 이유, broadcasting 이 진짜 의미하는 거, Series 와 DataFrame 의 관계, .loc/.iloc 함정, GroupBy split-apply-combine, 테이블 join, 그리고 transformation 을 읽기 쉽게 만드는 method-chaining 스타일.
Lesson list (7)
퀴즈 · 4 문제→
03💾Storage — 진짜 중요한 파일 포맷
0/6 lessons
CSV, Excel, Parquet, Arrow, DuckDB, 그리고 고르는 법.
Disk 에 어떻게 쓸지가 다음 stage 가 얼마나 빠르게 돌고 비용이 얼마나 들지 결정해. CSV 는 사람용으론 OK 분석엔 재앙. Parquet 이 분석 default. Arrow 가 wire 포맷. DuckDB 가 그것들을 SQL 로 query 가능하게 만듦. 의도적으로 골라 — 실수로 말고.
Lesson list (6)
퀴즈 · 4 문제→
04🚰Pipelines — 살아남는 ETL 패턴
0/6 lessons
Extract, transform, load — 그리고 Polars 가 존재하는 이유.
스크립트가 아니라 파이프라인이게 만드는 패턴들: 깔끔한 stage 경계, 명시적 설정, idempotent write, 그리고 첫 번째 run 작성 전에 두 번째 run 을 위해 설계하는 규율. 거기에 Pandas 대신 Polars 잡을 때, 그리고 batch vs streaming 의 진짜 차이.
Lesson list (6)
퀴즈 · 4 문제→
05🛡️Quality — 나쁜 데이터는 게이트에서 죽어
0/6 lessons
Schema, expectation, profiling, 그리고 검증의 규율.
Downstream 으로 ship 하는 데이터가 contract 가 말한 그거 맞는지 확인하는 법. Pandera 로 schema 검증, Great Expectations 로 팀 간 데이터 테스트, ydata-profiling 으로 탐색 profiling, 거기에 type drift 탐지와 사고 디버깅 가능하게 만드는 구조화 로깅.
Lesson list (6)
퀴즈 · 4 문제→
06🎼Orchestration — Airflow, Dagster, Prefect
0/5 lessons
뭐가 언제 돌지, 그리고 뭐 fail 했을 때 뭐 할지 결정하는 시스템.
Orchestrator 영원히 안 가질 순 없는 이유. Airflow 의 DAG 모델. Dagster 의 asset-first 접근. Prefect 의 Pythonic flow. 진짜 차이, 진짜 trade-off, 그리고 진짜 팀 위해 하나 고르는 법.
Lesson list (5)
퀴즈 · 4 문제→
07🗺️Modeling — 분석 테이블이 어떻게 설계되나
0/5 lessons
Star schema, slowly changing dimension, dbt, lineage.
분석 테이블이 그 모양인 (또는 그래야 하는) 이유. Dimensional modeling, fact + dimension 테이블, star vs snowflake, slowly changing dimension, modern transformation layer 로서의 dbt, 그리고 lineage — 대시보드의 모든 숫자가 어디서 왔는지 정확히 알기.
Lesson list (5)
퀴즈 · 4 문제→
08🏭Production — 진짜 세계
0/6 lessons
Backfill, contract, 모니터링, PII, 비용 — 파이프라인 오래가게 만드는 것들.
"내 머신에선 작동" 에서 "2년간 매일 밤 돔" 으로의 전환. Backfill 과 time-travel read. 팀 간 data contract. PII 와 access control. 비용 — DuckDB 가 Snowflake 이길 때 (그리고 반대). Stakeholder 보다 먼저 문제 잡는 모니터링. 그리고 데이터 엔지니어링 커리어의 솔직한 시각.
Lesson list (6)
퀴즈 · 4 문제→

이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

💛 by 똘이— playful

🔔 답글 알림 (로그인 필요)

로그인 — 댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.

Tracks

01🧭Foundation — 데이터 엔지니어링이 중요한 이유

02🔢Frames — NumPy + Pandas Core

03💾Storage — 진짜 중요한 파일 포맷

04🚰Pipelines — 살아남는 ETL 패턴

05🛡️Quality — 나쁜 데이터는 게이트에서 죽어

06🎼Orchestration — Airflow, Dagster, Prefect

07🗺️Modeling — 분석 테이블이 어떻게 설계되나

08🏭Production — 진짜 세계