image-to-image translation task에서 general하게 쓰일 수 있는 conditional GAN 모델을 만들고자 하였음. pix2pix는 input → output mapping과 이 mapping에서의 loss function을 같이 학습하게 됨.
CNN 모델이 predicted와 ground truth 간의 L2 거리를 최소화하는 방식으로 학습됨 → output을 전체적으로 평균화시켜 blurring 유발.
$G : z → y$
$z$ : random noise vector
$y$ : generated image
$G : ( x, z ) → y$
$x$ : observed image
$z$ : random noise vector
$y$ : generated image