그림 (참고2)

Untitled

빅데이터 시대라고 한다. 데이터 소스로부터 쏟아져들어오는 데이터들이 점점 많아지고 있다. 심지어 들어오는 데이터의 형식은 데이터 소스마다 일관되지 않은 경우들도 있다. 어떤 데이터는 정형으로, 어떤 데이터는 비정형으로 우리 시스템에 들어온다(참고3). 간단한 예를 들어, 어떤 데이터는 테이블 형식으로, 어떤 데이터는 이미지 타입으로, 어떤 데이터는 json 형태로 들어온다고 생각해볼 수 있다.

데이터 소스들은 많아지고 데이터의 형태도 다각화되는데, 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f)) 포맷에 맞추어 변환(Transform)(참고4:나머지 데이터와 통합할 수 있도록 정보의 구조를 변경하는 작업)하는 과정을 항상 거쳐야만 했다. 당연히 데이터를 저장할 때마다 규약에 맞추는 작업은 쉬운 작업이 아니다.

그래서 마인드를 바꾸게 되었다. 데이터 저장소의 가격이 과거에 비해 크게 저렴해진만큼(참고7), 변환을 고민하기 전에 일단 데이터 소스로부터 데이터를 추출(Extraction)(참고5:데이터 소스에서 데이터를 가져오는 행위)하여 로드(Load)(참고6:데이터 스토리지 시스템에 보관하는 과정)하자는 것이다. 그리고 필요한 것이 무엇일지는 나중에 고민하자고 하게 된 것이다(참고1,2). 나중에 필요가 생겼을 때, 데이터 레이크에 잘 널부러져 있는 정보를 뽑아올려 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f))에 맞게 **변환(Transform)**하거나, 특징 저장소([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Feature Store](https://janghoo.notion.site/Feature-Store-15843dbb6be94c1d9cfffe6427cc64a6))에 변환하자는 생각을 하게 되었다. 그래서 ELT([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Extract, Load, Transform (ELT)](https://janghoo.notion.site/Extract-Load-Transform-ELT-ac69bfc53bdc4fb0949aea6d805be80c))라는 말이 등장하게 되었다.


[데이터 ETL([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59)Data Extract, Transform, Load (ETL)](https://janghoo.notion.site/Data-Extract-Transform-Load-ETL-767c8e7be3384c86862c0f6b33cc9260)) 과정과 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f)), 특징 저장소([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Feature Store](https://janghoo.notion.site/Feature-Store-15843dbb6be94c1d9cfffe6427cc64a6)) 사이에는 어떤 관계가 존재하는가?](https://janghoo.notion.site/ETL-2d75188e52464e2988f032705f05166d)


parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.

  1. None

from : 과거의 어떤 생각이 이 생각을 만들었는가?

  1. [ba2.4_1.1. title: 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389))와 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f))는 데이터가 정제되었는지 정제되지 않았는지, 얼마나 엄격한지 얼마나 느슨한지로 나뉜다. 데이터 웨어하우스가 고수준이다.](https://janghoo.notion.site/ba2-4_1-1-title-f5ecee99619c4a15a1da47a6c267b656)
  2. [ba2.4_1.1_1.1. title: 데이터 ETL([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59)Data Extract, Transform, Load (ETL)](https://janghoo.notion.site/Data-Extract-Transform-Load-ETL-767c8e7be3384c86862c0f6b33cc9260)) 을 거친 결과물은 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f))에 저장되기도 하고 특징 저장소([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Feature Store](https://janghoo.notion.site/Feature-Store-15843dbb6be94c1d9cfffe6427cc64a6))에 저장되기도 한다.](https://janghoo.notion.site/ba2-4_1-1_1-1-title-ETL-7940f582afe84466bf469bdb19368134)

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?

  1. [ba2.4_1.1.1.1. title: 어떤 목적으로 사용될지 어떤 형태로 다시 가공되어야 할지 잘 모르는 채 일단 데이터를 적재만 해 두었다가 연구라는 목적이 명확히 세워지고 나서, 연구에 편한 OCRDataset 형태로 원시데이터를 가공하는 방법을 제시한 MMOCR의 사례는 일종의 ELT([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Extract, Load, Transform (ELT)](https://janghoo.notion.site/Extract-Load-Transform-ELT-ac69bfc53bdc4fb0949aea6d805be80c)) 라고 해석할 수 있다](https://janghoo.notion.site/ba2-4_1-1-1-1-title--481e093232d44a32acd45a21e7d0e6c5)

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?

  1. None