Optimizer란 무엇인가? 손실을 따라 파라미터를 움직이는 '길잡이'

728x90

Loss Function이 손실을 수치로 알려준다면,
**Optimizer(최적화기)**는 이 손실 값을 줄이기 위해 모델의 파라미터(가중치)를 업데이트하는 알고리즘입니다.

즉, Optimizer는 “어떻게 하면 손실을 줄일 수 있을까?”를 계산해서
파라미터를 조정해주는 엔진입니다.

가장 기본적인 Optimizer는 바로 Gradient Descent입니다.
수학적으로 말하면 손실 함수의 **기울기(gradient)**를 계산해 반대 방향으로 파라미터를 조정합니다.

수식으로 보면:

scss

복사편집

θ ← θ - η * ∇L(θ)

즉, 손실이 감소하는 방향으로 조금씩 이동하는 과정이죠.

실무에서는 순수 Gradient Descent는 거의 사용하지 않고, 다음과 같은 개선된 Optimizer들이 많이 사용됩니다:

Optimizer특징

SGD (Stochastic Gradient Descent)	미니배치로 빠르고 가볍게 학습
Momentum	이전 업데이트 방향을 고려하여 더 부드러운 이동
RMSProp	학습률을 자동 조정, 진동 줄임
Adam	Momentum + RMSProp의 장점을 결합, 가장 널리 사용됨
Adagrad / Adadelta	드물게 업데이트되는 파라미터에 더 큰 학습률 부여

💡 대부분의 딥러닝 프레임워크에서는 기본 Optimizer로 Adam을 사용합니다.

728x90

Regularization이란? 모델이 ‘적당히’ 똑똑해지게 만드는 기술 (0)	2025.06.17
Overfitting vs Underfitting: '학습을 잘했다'는 착각의 함정 (0)	2025.06.17
Learning Rate: 너무 빠르면 폭주, 너무 느리면 정체되는 학습의 속도계 (0)	2025.06.16
Loss Function이란? 모델이 학습하는 '방향감'의 본질 (0)	2025.06.15
인공지능은 ‘함수 근사기’다: Neural Network의 본질 (2)	2025.06.15

(─━┘_└━─)/