OCR 도메인에서는 ICDAR 챌린지에 맞게 가공된 데이터셋, COCO 형태로 가공된 데이터셋 등 그 형태가 다양하다. 이들을 표준화해 다루기 위해 MMOCR 프레임워크는 OCRDataset
이라는 표준을 제시했다. ICDAR 데이터셋과 COCO 데이터셋이 원시데이터의 성격을 가진다고 본다면 데이터 레이크([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data Lake](https://janghoo.notion.site/Data-Lake-a848d505cac248fa82e823c39165c389))에 로드(Load)될 것이고, OCRDataset
형태로 변환(Transform) 된 데이터는 연구라는 목적을 위해 뒤늦게 가공되었다는 특징이 있기 때문에 데이터 웨어하우스([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Data warehouse (DW)](https://janghoo.notion.site/Data-warehouse-DW-555519fa404e4a7dbd2784794fc6454f))에 저장될 것이라고 생각할 수 있다.
어떤 목적으로 사용될지 어떤 형태로 다시 가공되어야 할지 잘 모르는 채 일단 데이터를 적재만 해 두었다가 연구라는 목적이 명확히 세워지고 나서, 연구에 편한 OCRDataset 형태로 원시데이터를 가공하는 방법을 제시한 MMOCR 프레임워크(from2)의 사례는 일종의 ELT([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Extract, Load, Transform (ELT)](https://janghoo.notion.site/Extract-Load-Transform-ELT-ac69bfc53bdc4fb0949aea6d805be80c)) 라고 해석할 수 있다(from1).
MMOCR 이 연구에 특화되어 있는 것인지는 잘 모른다.
parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.
None
from : 과거의 어떤 생각이 이 생각을 만들었는가?
supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?
None
opposite : 어떤 새로운 생각이 이 문서에 작성된 생각과 대조되는가?
None
to : 이 문서에 작성된 생각이 어떤 생각으로 발전되고 이어지는가?
None