논문 영어가 너무 어렵다 ㅜㅜ🤯
실제 분포와 generative의 분포의 차이를 줄여나가는 방식으로 학습 (Loss만 바뀜)
$$ \nabla \theta_d \frac{1}{m} \sum_{i=1}^m [ \log D(x^{(i)}) + \log (1-D(G(z^{(i)}))) ] $$
$$ \nabla \theta_g \frac{1}{m} \sum_{i=1}^m [ \log (1-D(G(z^{(i)}))) ] $$
$$ \nabla_w \frac{1}{m} \sum_{i=1}^m [ f_w(x^{(i)}) - f_w(g_\theta(z^{(i)})) ] $$
$$ -\nabla_\theta \frac{1}{m} \sum_{i=1}^m [ f_w(g_\theta(z^{(i)})) ] $$
손실함수를 바꾸고, 훈련을 하니 잘되더라
K = 1 # in paper using K=1
for epoch in range(EPOCH):
for k in range(K):
# mini batch update using gradiant descent
trainD()
train_w = clip(-c, c)
trainG()
학습을 시키기 위해서는 f의 노름이 1보다 작아야하는데, 그 방법을 가중치를 -c부터 c까지로 제한하는 것으로 함.
그러면 여기서 설명하는 KL distribution (distance) 란 무엇인가?