728x90
반응형
🧭 모델이 움직이기 시작하는 순간
Loss Function이 손실을 수치로 알려준다면,
**Optimizer(최적화기)**는 이 손실 값을 줄이기 위해 모델의 파라미터(가중치)를 업데이트하는 알고리즘입니다.
즉, Optimizer는 “어떻게 하면 손실을 줄일 수 있을까?”를 계산해서
파라미터를 조정해주는 엔진입니다.
📉 Gradient Descent: 기울기를 따라 내려가기
가장 기본적인 Optimizer는 바로 Gradient Descent입니다.
수학적으로 말하면 손실 함수의 **기울기(gradient)**를 계산해 반대 방향으로 파라미터를 조정합니다.
수식으로 보면:
scss
복사편집
θ ← θ - η * ∇L(θ)
- θ: 모델 파라미터
- η: 학습률 (learning rate)
- ∇L(θ): 손실 함수의 파라미터에 대한 기울기
즉, 손실이 감소하는 방향으로 조금씩 이동하는 과정이죠.
⚙️ 다양한 Optimizer들
실무에서는 순수 Gradient Descent는 거의 사용하지 않고, 다음과 같은 개선된 Optimizer들이 많이 사용됩니다:
Optimizer특징
SGD (Stochastic Gradient Descent) | 미니배치로 빠르고 가볍게 학습 |
Momentum | 이전 업데이트 방향을 고려하여 더 부드러운 이동 |
RMSProp | 학습률을 자동 조정, 진동 줄임 |
Adam | Momentum + RMSProp의 장점을 결합, 가장 널리 사용됨 |
Adagrad / Adadelta | 드물게 업데이트되는 파라미터에 더 큰 학습률 부여 |
💡 대부분의 딥러닝 프레임워크에서는 기본 Optimizer로 Adam을 사용합니다.
🧪 실무적 팁: Optimizer 튜닝은 ‘성격 맞추기’다
- Adam은 대부분 잘 동작하지만, RMSProp이 더 안정적인 경우도 존재합니다. (특히 RNN류 모델)
- GAN, Reinforcement Learning 같이 불안정한 구조에서는 Optimizer 선택이 성능을 크게 좌우합니다.
- Learning rate와 함께 조정하지 않으면 Optimizer의 효과가 사라집니다.
🔁 학습 과정 요약: 모델이 배우는 전체 흐름
- 입력 데이터를 받아서 예측 ŷ 생성
- Loss(ŷ, y) 계산 (예측과 정답의 차이)
- ∇Loss 계산 (기울기)
- Optimizer가 파라미터를 업데이트
- 이 과정을 반복하면서 점점 더 나은 모델이 만들어짐
✨ 마무리 요약
- Optimizer는 Loss를 줄이기 위한 학습 방향과 보폭을 결정한다.
- Gradient Descent는 기본, 실무에선 대부분 Adam, RMSProp 등 개선형 Optimizer를 사용한다.
- 파라미터가 Loss 함수 지형에서 더 낮은 지점으로 이동하는 것이 학습의 핵심 메커니즘이다.
728x90
반응형
'AI > AI Info' 카테고리의 다른 글
Regularization이란? 모델이 ‘적당히’ 똑똑해지게 만드는 기술 (0) | 2025.06.17 |
---|---|
Overfitting vs Underfitting: '학습을 잘했다'는 착각의 함정 (0) | 2025.06.17 |
Learning Rate: 너무 빠르면 폭주, 너무 느리면 정체되는 학습의 속도계 (0) | 2025.06.16 |
Loss Function이란? 모델이 학습하는 '방향감'의 본질 (0) | 2025.06.15 |
인공지능은 ‘함수 근사기’다: Neural Network의 본질 (2) | 2025.06.15 |