<aside> 〰️ terminology

정의

[ba2.4_1.1_1.1_1. title: ETL([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59)Data Extract, Transform, Load (ETL)](https://janghoo.notion.site/Data-Extract-Transform-Load-ETL-767c8e7be3384c86862c0f6b33cc9260)) 프로세스는 언제든 바뀔 수 있기 때문에, 변경된 프로세스에 맞추어 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389))에서 옛날 원시데이터를 다시 가져오는 과정이 백필링([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data backfilling](https://janghoo.notion.site/Data-backfilling-07afbc63d9da4ea9bcb88c2430932e18))이다.](https://janghoo.notion.site/ba2-4_1-1_1-1_1-title-ETL-c45bea407cc248ff9900a3eddf6212f1)

“Backfilling” data is a term that refers to the process of retroactively processing historical data in a data pipeline. It is an important component to any actively growing data pipeline.


이 단어를 발견한 곳

  1. feature store는 offline 과 online 저장소의 일관성(consistency)를 유지하는 기능이 필수적입니다. Offline store에 batch 작업으로 갱신된 feature 데이터는 주기적으로 online store 에 보내지고 (data disposal), 반대로 online store에 먼저 입력되는 streaming data 를 가공하여 얻은 실시간 feature는 offline store 에 복사가 이루어 집니다 (backfill).
  2. Apache Airflow 와 같은 워크플로우 관리도구를 역채움(backfilling : 과거의 데이터를 채워넣기)과 스케줄링, 파이프라인 메트릭 수집 등의 작업에 사용하여 데이터를 흐르게 함으로써 이를 실현할 수 있습니다.
  3. You’ve changed your ETL process and need to reprocess your original raw data using the new ETL process, Fixing a bug found in your ETL process
  4. Backfilling is a major bottleneck when you’re iterating on your training set ideas. Efficiently computing new training sets is a huge deal for speeding up your data scientist workflow. —Airbnb