ETL과 ELT 프로세스란 무엇인가?

현대 데이터 엔지니어링에서 반드시 알아야 할 데이터 파이프라인의 핵심지식으로 ETL, ELT 가 있다. 데이터가 기업의 핵심 자산이 된 지금, “데이터를 어떻게 수집하고, 가공하고, 저장할 것인가”는 단순한 기술 문제가 아니라 비즈니스 경쟁력과 직결된 문제다. 이 과정의 중심에 있는 개념이 바로 ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform) 프로세스다. 이 글에서는 ETL과 ELT의 개념부터 차이점, 각각의 장단점, 그리고 어떤 상황에서 어떤 방식을 선택해야 하는지까지 체계적으로 정리해보려한다.

ETL 프로세스란?

ETL은 데이터 파이프라인의 가장 전통적인 형태로, 다음 세 단계로 구성된다.

Extract (추출)

데이터베이스, 로그 파일, API, SaaS 서비스 등 다양한 소스에서 데이터를 가져오는 단계다. 예를 들어 MySQL, PostgreSQL 같은 관계형 데이터베이스나 CRM, ERP 시스템이 주요 소스가 된다.

Transform (변환)

추출한 데이터를 비즈니스 목적에 맞게 정제하고 가공하는 단계다.

데이터 타입 변환
결측치 처리
중복 제거
컬럼 매핑
집계(Aggregation)

이 과정에서 데이터 품질이 결정된다고 해도 과언이 아니다.

Load (적재)

변환이 완료된 데이터를 최종 목적지, 보통 데이터 웨어하우스(Data Warehouse)에 저장한다. 대표적인 예로는 Amazon Redshift, Google BigQuery, Snowflake 등이 있다. ETL의 핵심 특징은 데이터를 저장하기 전에 변환을 완료한다는 점이다. 이로 인해 저장되는 데이터는 이미 정제된 “분석 친화적인 데이터”가 된다.

ELT 프로세스란?

ELT는 클라우드 환경과 빅데이터 시대의 등장과 함께 주목받기 시작한 방식이다. ETL과 단계는 같지만 순서가 다르다.

Extract (추출)

ETL과 동일하게 다양한 소스에서 데이터를 수집한다.

Load (적재)

변환을 최소화하거나 아예 하지 않은 상태로 데이터를 바로 데이터 웨어하우스 또는 데이터 레이크에 저장한다.

Transform (변환)

저장된 이후에 SQL, Spark, dbt 같은 도구를 이용해 필요한 시점에 데이터를 변환한다. ELT의 핵심은 원본 데이터를 최대한 그대로 보존하고, 변환 로직을 나중으로 미룬다는 점이다. 이는 스토리지와 컴퓨팅 자원이 풍부한 클라우드 환경에서 특히 강력한 장점을 가진다.

ETL과 ELT의 주요 차이점

[ 구분 ] [ ETL ] [ ELT ]

변환 시점	적재 이전	적재 이후
원본 데이터 보존	제한적	거의 그대로 유지
인프라	온프레미스 중심	클라우드 친화적
확장성	상대적으로 제한적	매우 뛰어남
분석 유연성	낮음	높음

ETL은 데이터 품질과 안정성이 중요한 전통적인 BI 환경에 적합하고, ELT는 데이터 탐색과 실험이 잦은 현대 데이터 분석 환경에 잘 맞는다.

왜 ELT가 각광받고 있을까?

ELT가 빠르게 확산된 데에는 몇 가지 명확한 이유가 있다.

첫째, 클라우드 데이터 웨어하우스의 발전이다.

BigQuery, Snowflake 같은 서비스는 대규모 데이터에 대한 연산을 매우 빠르게 처리할 수 있다. 굳이 외부에서 변환할 필요 없이, 저장소 내부에서 SQL만으로도 복잡한 변환이 가능해졌다.

둘째, 스키마 유연성이다.

ELT에서는 데이터를 먼저 쌓아두고, 필요할 때 스키마를 정의한다(Schema-on-Read). 이는 데이터 요구사항이 자주 바뀌는 환경에서 큰 장점이다.

셋째, 분석 및 머신러닝 활용성이다.

원본 데이터가 그대로 남아 있기 때문에, 새로운 피처 엔지니어링이나 모델링 시 재가공이 쉽다. 이는 머신러닝 파이프라인과도 자연스럽게 연결된다.

ETL이 여전히 필요한 경우

그렇다고 ETL이 완전히 사라진 것은 아니다. 다음과 같은 경우에는 여전히 ETL이 적합하다.

데이터 보안이나 규제가 엄격한 경우
저장 전에 반드시 데이터 마스킹이나 필터링이 필요한 경우
데이터 웨어하우스 비용을 최소화해야 하는 경우
구조화된 리포팅 중심의 환경

즉, 안정성과 통제가 중요한 환경에서는 ETL이 여전히 강력한 선택지다.

ETL / ELT 구현에 사용되는 대표적인 도구들

ETL 중심 도구

Informatica
Talend
Apache NiFi
ELT 중심 도구
Fivetran
Stitch
Airbyte
dbt (Transform 단계 특화)

최근에는 ETL과 ELT의 경계를 넘나드는 하이브리드 형태의 파이프라인도 많이 사용된다.

어떤 방식을 선택해야 할까?

정답은 하나가 아니다. 선택 기준은 다음 질문들로 정리할 수 있다.

데이터 규모는 얼마나 큰가?
클라우드 기반인가, 온프레미스인가?
분석과 실험의 빈도는 얼마나 잦은가?
데이터 품질과 규제 요구사항은 어떤 수준인가?

일반적으로

전통적인 BI 환경 → ETL

클라우드, 빅데이터, ML 중심 환경 → ELT
라고 생각하면 큰 틀에서 맞는다.

ETL과 ELT는 단순한 기술 용어가 아니라, 조직의 데이터 활용 전략을 반영하는 선택이다. 데이터가 작고 안정적이던 시대에는 ETL이 정답이었지만, 데이터가 폭발적으로 증가하고 활용 방식이 다양해진 지금은 ELT가 새로운 표준으로 자리 잡고 있다. 중요한 것은 유행을 따르는 것이 아니라, 자신의 데이터 환경과 목적에 맞는 파이프라인을 설계하는 것이다. ETL과 ELT를 제대로 이해하는 것만으로도, 데이터 엔지니어링의 절반은 이미 성공한 셈이다. 차이점을 잘 인지하고 본인이 개발하고자 하는 상황에 잘 적용하길 바란다!

동서남북뉴스