Adam Optimization은 2014년에 발표된 논문에서 잘 설명되어 있습니다. https://arxiv.org/abs/1412.6980 저는 Yolov5를 이용하면서 학습을 하며, SGD보다 Adam이 더 효율적이라는 것을 확인하였고, Warmup Epoch과도 잘 맞는것을 확인하였습니다. Adam Optimization의 기본 pseudo code는 다음과 같습니다. 다음을 설명하기 위해서는, Momentum, exponentionally weighted averages, RMS Props 등을 알면 훨씬 더 쉽게 설명될 수 있을것 같습니다. 이 이외에도 NAG, Adagrad, AdaDelta, 많은 설명은 Coursera의 Deep Learning Specialization 의 세 번째 코스..