<aside> 〰️ terminology

정의

ETL이란 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정을 말한다.

1. 추출(Extraction): 온프레미스 애플리케이션, SaaS 애플리케이션, 데이터베이스 등의 분산된 소스에서 원시 데이터 세트를 수집한다. 2. 로드(Loading): 데이터 스키마 및 타입을 포함해 타깃 시스템에 데이터를 직접 로드한다. 추출된 데이터는 데이터 레이크, 웨어하우스 또는 비관계형 데이터베이스 등 데이터 저장소에 로드된다. 3. 변환(Transformation): 변환은 타깃 시스템에서 이뤄진다. 보고 및 기타 용도로 서드파티 도구를 사용한다. 데이터 변환은 주로 스크립트를 사용하여 데이터 레이크 또는 웨어하우스에서 수행된다.

추출: 원본 데이터베이스 또는 데이터 소스에서 소스 데이터를 가져오는 것을 추출이라고 합니다. ETL에서는 데이터가 임시 스테이징 영역으로 들어갑니다. ELT의 경우, 데이터는 데이터 레이크 스토리지 시스템으로 곧바로 들어갑니다.

변환: 변환이란 대상 데이터 시스템 및 해당 시스템의 나머지 데이터와 통합할 수 있도록 정보의 구조를 변경하는 과정을 일컫습니다.

로드: 로드란 정보를 데이터 스토리지 시스템에 보관하는 과정을 말합니다.


이 단어를 발견한 곳

  1. 데이터 엔지니어링에선 데이터 ETL(Extract, Transform, Load) 과정을 통해 데이터를 가공하며 적재함. 머신러닝 분야에서도 모델 학습용 데이터 전처리, Train, Prediction시 사용 가능. 위와 같은 경우 여러개의 Sequential한 로직(앞의 output이 뒤의 input이 되는)이 존재하는데 이런 로직들을 한번에 관리해야 함.

  2. chapter5, A data warehouse feeds into business intelligence systems at a high level, and a Feature Store provides inputs into an ML system.

    Data warehouse versus feature store

    Data warehouse versus feature store