<aside> 〰️ terminology

정의

데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형입니다. 데이터 레이크를 사용하면 정제되지 않은 데이터를 볼 수 있습니다. 데이터 레이크는 데이터 저장을 위해 전체적인 대규모 리포지토리를 원하는 기업의 데이터 관리 전략으로 널리 이용되고 있습니다.


이 단어를 발견한 곳

  1. 3:00 이런 perception 기술 고도화를 위해서는 수많은 데이터가 필요하다. Data lake 라는 곳에 저장되고 필요한 상황에 맞추어 자율주행 기술개발이 진행되고 있다. 만약 특수차량에 대한 인식을 못한다고 하면, 비슷한 이미지를 찾아내서 (retrieve) 자율주행이 취약한 부분을 추가학습시킨다.
  2. 1. 추출(Extraction): 온프레미스 애플리케이션, SaaS 애플리케이션, 데이터베이스 등의 분산된 소스에서 원시 데이터 세트를 수집한다. 2. 로드(Loading): 데이터 스키마 및 타입을 포함해 타깃 시스템에 데이터를 직접 로드한다. 추출된 데이터는 데이터 레이크, 웨어하우스 또는 비관계형 데이터베이스 등 데이터 저장소에 로드된다. 3. 변환(Transformation): 변환은 타깃 시스템에서 이뤄진다. 보고 및 기타 용도로 서드파티 도구를 사용한다. 데이터 변환은 주로 스크립트를 사용하여 데이터 레이크 또는 웨어하우스에서 수행된다.