<aside>
〰️ terminology
- [x] 추상적인(전문적인) 용어임.
- [x] 키워드가 가까운 시일 내 검색될 것 같지 않음.
- [x] 알아두고 싶은 단어이지만 영구노트 생성은 과분함.
</aside>
정의
[ba2.4_1.1_1.1_1. title: ETL 프로세스는 언제든 바뀔 수 있기 때문에, 변경된 프로세스에 맞추어 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389))에서 옛날 원시데이터를 다시 가져오는 과정이 백필링([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data backfilling](https://janghoo.notion.site/Data-backfilling-07afbc63d9da4ea9bcb88c2430932e18))이다.](https://janghoo.notion.site/ba2-4_1-1_1-1_1-title-ETL-c45bea407cc248ff9900a3eddf6212f1)
‣
“Backfilling” data is a term that refers to the process of retroactively processing historical data in a data pipeline. It is an important component to any actively growing data pipeline.
이 단어를 발견한 곳
- feature store는 offline 과 online 저장소의 일관성(consistency)를 유지하는 기능이 필수적입니다. Offline store에 batch 작업으로 갱신된 feature 데이터는 주기적으로 online store 에 보내지고 (data disposal), 반대로 online store에 먼저 입력되는 streaming data 를 가공하여 얻은 실시간 feature는 offline store 에 복사가 이루어 집니다 (backfill).
- Apache Airflow 와 같은 워크플로우 관리도구를 역채움(backfilling : 과거의 데이터를 채워넣기)과 스케줄링, 파이프라인 메트릭 수집 등의 작업에 사용하여 데이터를 흐르게 함으로써 이를 실현할 수 있습니다.
- You’ve changed your ETL process and need to reprocess your original raw data using the new ETL process, Fixing a bug found in your ETL process
- Backfilling is a major bottleneck when you’re iterating on your training set ideas. Efficiently computing new training sets is a huge deal for speeding up your data scientist workflow. —Airbnb