AN IMAGE IS WORTH 16X16 WORDS:

TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

paper: https://arxiv.org/pdf/2010.11929.pdf

들어가기에 앞서

Transformer

트랜스포머는 시퀀스 투 시퀀스 모델로

기존의 RNN이나 Convolution을 이용하여 문장을 묶어 이용하는 것이 아닌 self attention 방법을 이용한 기법으로 시퀀스 정보를 묶어 활용합니다.

입력 소스 시퀀스 정보를 압축하는 인코더와, 인코더가 보내준 정보를 받아 타겟 시퀀스를 생성하는 디코더로 이루어져있습니다.

image.gif

부제, 이렇지 않을까 하며 시작.