OCR 도메인에서는 ICDAR 챌린지에 맞게 가공된 데이터셋, COCO 형태로 가공된 데이터셋 등 그 형태가 다양하다. 이들을 표준화해 다루기 위해 MMOCR 프레임워크는 OCRDataset 이라는 표준을 제시했다. ICDAR 데이터셋과 COCO 데이터셋이 원시데이터의 성격을 가진다고 본다면 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389))에 로드(Load)될 것이고, OCRDataset 형태로 변환(Transform) 된 데이터는 연구라는 목적을 위해 뒤늦게 가공되었다는 특징이 있기 때문에 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f))에 저장될 것이라고 생각할 수 있다.

어떤 목적으로 사용될지 어떤 형태로 다시 가공되어야 할지 잘 모르는 채 일단 데이터를 적재만 해 두었다가 연구라는 목적이 명확히 세워지고 나서, 연구에 편한 OCRDataset 형태로 원시데이터를 가공하는 방법을 제시한 MMOCR 프레임워크(from2)의 사례는 일종의 ELT([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Extract, Load, Transform (ELT)](https://janghoo.notion.site/Extract-Load-Transform-ELT-ac69bfc53bdc4fb0949aea6d805be80c)) 라고 해석할 수 있다(from1).


MMOCR 이 연구에 특화되어 있는 것인지는 잘 모른다.


parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.

  1. None

from : 과거의 어떤 생각이 이 생각을 만들었는가?

  1. [ba2.4_1.1.1. title: 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389)) 개념은 ETL([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59)Data Extract, Transform, Load (ETL)](https://janghoo.notion.site/Data-Extract-Transform-Load-ETL-767c8e7be3384c86862c0f6b33cc9260))에서 변환(Transfrom)이 어렵고 복잡해지자, 이를 후순위로 미루어 ELT([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Extract, Load, Transform (ELT)](https://janghoo.notion.site/Extract-Load-Transform-ELT-ac69bfc53bdc4fb0949aea6d805be80c))로 만드려는 흐름과 관련이 있다.](https://janghoo.notion.site/ba2-4_1-1-1-title-ETL-Transfrom-ELT-a4784931452a477bb21b5dd9f892a840)
  2. bc3__1_1. title: MMOCR 은 OCR 어노테이션 표준 양식을 제시한다. OCRDataset 클래스는 MMOCR 표준 어노테이션 포맷으로 작성된 파일을 파이썬 변수에 담을 수 있는 객체 모델이다.

supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?

  1. None

opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?

  1. None

to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?

  1. None