피처 저장소([[[SW Environment](https://janghoo.notion.site/Environment-d73d08b95a824b3f957eb0134f8ced1f) MLOps](https://janghoo.notion.site/MLOps-1be9e881d5444f268fde8c1ea7e00f59) Feature Store](https://janghoo.notion.site/Feature-Store-15843dbb6be94c1d9cfffe6427cc64a6))는 모델에 입력될 수 있는 형태의 전처리 결과물 등을 재활용할 수 있도록 만들어둔 저장소이다(참고4).

그림(참고5): 피처 저장소에서 의미하는 ‘피처’ 가 무엇인가

Untitled

예를 들어 원시 데이터로부터 (1)우버를 호출할 것으로 예상되는 고객의 위치, (2)그 당시 근처 우버 운전자의 위치, (3)고객과 우버 운전자의 매칭 여부가 10분간 1분 단위로 상대적 위치를 계산한 10차원 데이터(x)와 정답값(y)로 변환된 후 미켈란젤로의 피처 저장소에 자동으로 적재되는 ETL 파이프라인이 있다고 생각해 보자. 데이터 과학자들은 모델을 학습시키고자 할 때 전처리에 대한 큰 고민 없이 피처 저장소에 잘 정제된 데이터를 꺼내서 사용하기만 하면 될 것이다.

피처 저장소를 사용하면 데이터 사이언티스트와 데이터 엔지니어의 업무가 잘 분리되어 각자의 일에 더욱 집중할 수 있고, 특정 프로젝트에 의존되지 않을 수 있다는 장점이 있다(참고2,3). 피처 저장소에 데이터를 쌓아 주는 쪽은 데이터 엔지니어, 피처 저장소에 들어있는 데이터를 적극적으로 이용하는 쪽은 데이터 사이언티스트에 가깝다.

그림 (참고1)

Untitled


parse me : 언젠가 이 글에 쓰이면 좋을 것 같은 재료들.

  1. chapter5, Heavily related to KaizenML, i.e., continuously improving machine learning, is the concept of a Feature Store.
  2. 우버(uber)에서는 2017년부터 자체 머신러닝 플랫폼 Michelangelo 에 Palette라는 feature store를 개발, 현재 만개 이상의 feature를 저장하며 사내 많은 data scientist들이 공유할 수 있는 환경을 구축하였습니다. 그 외에도 Goject/Google의 Feast, Logical Clocks 의 Hopsworks 그리고 Netflix의 Mefaflow 등 다양항 형태의 feature store가 개발되고 활용이 되고 있습니다.
  3. The real utility of a feature store shines when we need to have up-to-date features for an entity that we continually generate predictions for. For example, a user's behavior (clicks, purchases, etc.) on an e-commerce platform or the deliveries a food runner recently made today, etc.
  4. Q. Does it make sense to have a feature store for pure image classification/segmentation models? A. If you are doing pure image classification/segmentation, I would say no. Q. What features should be stored in the feature store? Output of convolution layers? but then they cannot be reused during the training since during training these will be rebuild by the convolution layers. A. I would not store the output of convolution layers, noramlly. In principle, the output of models can be stored in the feature store, however

from : 과거의 어떤 생각이 이 생각을 만들었는가?


supplementary : 어떤 새로운 생각이 이 문서에 작성된 생각을 뒷받침하는가?