Learning Rate: 너무 빠르면 폭주, 너무 느리면 정체되는 학습의 속도계

AI/AI Info

HEAD1TON 2025. 6. 16. 19:15

학습률(Learning Rate, η)은 Optimizer가 파라미터를 얼마나 크게 업데이트할지를 결정하는 계수입니다.

손실 함수를 따라 내려가야 하는데,
“얼마만큼 한 걸음씩 내딛을 것인가?”를 결정하는 것이 학습률입니다.

앞서 본 Optimizer 식을 다시 보면:

scss

복사편집

θ ← θ - η * ∇L(θ)

여기서 η가 바로 학습률입니다.

상황증상그래프 형태

실무에서는 종종 학습률이 잘못 설정되어서 모델이 전혀 학습되지 않는 경우가 많습니다.

가장 먼저 튜닝해야 할 하이퍼파라미터
- 성능이 안 나올 땐 우선적으로 학습률을 점검하세요.
Learning Rate Scheduler 활용
- 학습이 진행될수록 η를 점점 줄이는 방식
- Exponential decay, Step decay, Cosine annealing 등 다양함
Warmup 기법
- 초반 몇 epoch 동안 η를 천천히 키워서 모델이 안정적으로 수렴하게 함
- 특히 Transformer 구조에 중요
One-cycle Policy (Leslie Smith)
- 학습률을 한 번 올렸다가 천천히 줄이는 스케줄
- 최근 고성능 비전/텍스트 모델에서 널리 사용

# PyTorch 예시 (fastai 스타일)

from fastai.callback.schedule import lr_find learn.lr_find()