"ML 기초 학습 (7/9) — 딥러닝 학습 기법: 옵티마이저·정규화·초기화"

6편의 MLP를 만들었어도, 실제로 학습이 잘 되게 만드는 일은 별도 기술이다. 어떤 옵티마이저, 어떤 정규화, 어떤 초기화, 어떤 학습률 — 이 결합이 어긋나면 깊은 네트워크는 아예 학습이 안 된다. 이번 편은 그 손기술 카탈로그다. 식·논문 인용·코드까지 한 자리에서.

0. 학습 목표

SGD·Momentum·Nesterov·Adam의 업데이트 식을 비교해 쓸 수 있다.
Dropout, BatchNorm, LayerNorm의 작동 방식과 적용 위치를 안다.
Xavier·He 초기화의 분산 공식을 유도하고 활성함수에 맞게 고른다.
학습률 스케줄 (step, cosine, warmup) 의 의미와 PyTorch 구현을 안다.
gradient clipping이 왜 RNN·트랜스포머 학습에 필요한지 설명한다.
가장 흔한 학습 실패 (NaN, 수렴 정체, 과적합) 의 원인과 첫 대응을 안다.

1. 핵심 요약

SGD: $w \leftarrow w - \eta \nabla$. Momentum + Nesterov가 평탄·진동 영역에서 가속.
Adam: 1차·2차 moment를 함께 추적해 좌표별 학습률을 적응적으로 조절. 깊은 네트워크의 기본값.
Dropout: 학습 시 뉴런 일부를 무작위로 0. 추론 시는 활성. 데이터 의존적 정규화.
BatchNorm: 배치 단위로 평균/분산 정규화 → 학습 안정·가속. 추론 시 running stats 사용.
LayerNorm: 샘플 단위 정규화. 트랜스포머의 표준.
초기화: Xavier (tanh) — $\text{Var}(W) = 1/n_{\text{in}}$. He (ReLU) — $2/n_{\text{in}}$.
학습률 스케줄: warmup → 본 학습 → cosine decay가 트랜스포머 시대의 기본.
Gradient clipping: 폭주 방지. RNN·트랜스포머에서 사실상 의무.

2. 직관 — 왜 그냥 SGD로 안 되는가

2.1 손실 지형의 모양

신경망 손실 $\mathcal{L}(w)$는 비컨벡스, 안장점 많음, 골짜기 좁고 평탄 영역 넓음이다.

좁은 골짜기: 한 방향은 가파르고 다른 방향은 평탄. 일반 SGD는 가파른 방향으로 진동하며 평탄 방향 진전이 느리다.
안장점: 그래디언트가 작아 SGD가 멈춘 듯 보이지만 손실은 아직 크다.
평탄 영역: 그래디언트가 0에 가까워 학습 거의 정지.

Momentum과 Adam은 이 지형 특성을 다루도록 설계됐다.

2.2 좌표마다 학습률이 달라야 한다

피처별로 그래디언트 스케일이 다르다 (희소 피처 vs 빽빽한 피처). 모든 좌표에 같은 $\eta$를 쓰면 한 쪽은 폭주, 한 쪽은 정지. Adam이 좌표별 학습률을 자동으로 조정한다 — 이것이 채택의 핵심.

2.3 초기화는 왜 결정적인가

깊은 네트워크에서 forward 신호의 분산이 단을 거치며 증폭/감쇠하면, 그래디언트도 똑같이 폭주/소실한다. 초기화는 forward 신호의 분산을 단을 거쳐도 유지하도록 가중치 분산을 맞추는 일이다.

3. 정의와 표기 — 옵티마이저

3.1 SGD

$$ w_{t+1} = w_t - \eta \, g_t, \quad g_t = \nabla_w \mathcal{L}(w_t) $$

미니배치 SGD는 매 스텝마다 무작위로 $B$개 표본의 그래디언트를 추정.

3.2 Momentum (Polyak 1964)

$$ \begin{aligned} v_{t+1} &= \mu v_t + g_t \ w_{t+1} &= w_t - \eta v_{t+1} \end{aligned} $$

$\mu \in [0, 1)$ (보통 0.9). 과거 그래디언트의 지수 이동 평균이 관성처럼 작동.

3.3 Nesterov Accelerated Gradient (NAG)

미리 $\mu v_t$만큼 이동한 자리에서 그래디언트를 잰다.

$$ \begin{aligned} v_{t+1} &= \mu v_t + \nabla \mathcal{L}(w_t - \eta \mu v_t) \ w_{t+1} &= w_t - \eta v_{t+1} \end{aligned} $$

좁은 골짜기에서 진동을 줄여 준다.

3.4 Adam (Kingma & Ba 2014)

$$ \begin{aligned} m_t &= \beta_1 m_{t-1} + (1 - \beta_1) g_t \quad \text{(1차 moment)} \ v_t &= \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \quad \text{(2차 moment, 원소별)} \ \hat{m}_t &= \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \ w_{t+1} &= w_t - \eta \, \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} \end{aligned} $$

기본값: $\beta_1 = 0.9, \beta_2 = 0.999, \epsilon = 10^{-8}$. AdamW (Loshchilov & Hutter 2019)는 weight decay를 손실에서 분리해 더 안정적. 트랜스포머의 사실상 표준.

옵티마이저	강점	약점
SGD	단순, 일반화 좋음	학습률 튜닝 까다로움
Momentum SGD	가속	여전히 튜닝
Adam	즉시 동작, 좌표별 lr	일반화에서 SGD에 가끔 짐
AdamW	Adam + 안정적 weight decay	트랜스포머에 표준

4. 수식과 메커니즘 — 정규화 기법

4.1 Dropout (Srivastava et al. 2014)

학습 시 각 뉴런을 확률 $p$로 끈다.

$$ h_i' = \frac{m_i}{1 - p} \, h_i, \quad m_i \sim \mathrm{Bernoulli}(1 - p) $$

$1/(1-p)$ 스케일링은 추론 시 따로 처리하지 않아도 되게 (inverted dropout). 추론 시는 $m_i = 1$ 고정.

직관: 네트워크가 특정 뉴런 조합에 의존하지 못하게 강제 → 앙상블 효과.

4.2 BatchNorm (Ioffe & Szegedy 2015)

배치 내에서 각 채널의 평균과 분산을 정규화:

$$ \hat{h}_i = \frac{h_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad y_i = \gamma \hat{h}_i + \beta $$

$\gamma, \beta$는 학습 가능한 스케일·시프트. 학습 시는 배치 통계, 추론 시는 running mean/var.

이점: 학습 안정, 큰 학습률 허용, 내부 covariate shift 완화. 다만 배치 크기가 작으면 통계가 noisy. RNN·트랜스포머처럼 배치 차원이 까다로운 경우엔 LayerNorm.

4.3 LayerNorm (Ba, Kiros, Hinton 2016)

샘플마다 (배치 차원 없이) 모든 채널을 정규화:

$$ \hat{h}_i = \frac{h_i - \mu_{\text{layer}}}{\sqrt{\sigma_{\text{layer}}^2 + \epsilon}} $$

$\mu, \sigma$는 한 샘플 내에서 계산. 배치 크기에 무관. 트랜스포머·LLM의 표준.

정규화	통계의 축	주 사용처
BatchNorm	배치 + 공간	CNN
LayerNorm	채널 (한 샘플)	트랜스포머, RNN
GroupNorm	그룹 채널	작은 배치 CNN
InstanceNorm	한 샘플, 한 채널	스타일 전이
RMSNorm	LayerNorm 분산 부분만	LLaMA 등 최근 LLM

4.4 초기화

Xavier (Glorot & Bengio 2010): tanh·sigmoid 대상.

$$ \text{Var}(W) = \frac{2}{n_{\text{in}} + n_{\text{out}}} $$

He (He et al. 2015): ReLU 대상. ReLU가 음수 절반을 죽이므로 분산을 두 배 더 크게.

$$ \text{Var}(W) = \frac{2}{n_{\text{in}}} $$

PyTorch:

nn.init.kaiming_normal_(W, nonlinearity="relu")
nn.init.xavier_normal_(W)

nn.Linear의 기본 초기화는 He uniform 변형.

5. 다이어그램

6. 원리 워크스루 — 학습 루프 한 줄이 5가지 결정을 숨긴다

표준 학습 루프는 단순해 보이지만, 그 한 줄 뒤에 옵티마이저 / 정규화 / 초기화 / 학습률 스케줄 / 그래디언트 클리핑 다섯 가지 결정이 동시에 작동한다. 각 결정의 왜 가 7장에서 변형으로 확장된다.

6.1 표준 학습 루프 — 다섯 결정의 압축

model = MLPWithReg(in_dim=64, hidden=128, out_dim=10, p_drop=0.2)   # ① 초기화 + 정규화
opt = AdamW(model.parameters(), lr=1e-3, weight_decay=1e-4)          # ② 옵티마이저
sched = LambdaLR(opt, lr_lambda=cosine_warmup_fn)                    # ③ 학습률 스케줄
for step in range(10_000):
    loss = F.cross_entropy(model(xb), yb)
    opt.zero_grad(); loss.backward()
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0) # ④ gradient clipping
    opt.step(); sched.step()

각 줄의 결정이 신경망 학습의 본체다.

6.2 Adam — 왜 모멘텀과 RMSProp을 합쳤는가

관찰되는 패턴 - SGD: 한 방향으로만 한 걸음. 노이즈가 많은 그래디언트에서 진동. - Momentum: 과거 그래디언트의 EMA로 가속. 같은 방향이면 빨라지고 반대면 느려진다. 1차 moment $m_t$. - RMSProp: 각 파라미터별로 학습률을 적응적으로. 빈번히 업데이트되는 파라미터는 작게, 드물면 크게. 2차 moment $v_t$. - Adam (Kingma & Ba 2015): 둘을 동시에. $m_t$ (방향) + $v_t$ (스케일) + bias correction.

왜 NLP·트랜스포머의 표준이 되었나 파라미터별 스케일 적응이 분포가 매우 다른 임베딩·attention·FFN 가중치에 자연스럽게 맞는다. 비전에서는 여전히 SGD+Momentum이 일반화에 유리한 경우가 많지만, 트랜스포머는 사실상 AdamW가 표준.

다음 단계로의 연결 Lion (Google 2023), Sophia (Liu 2024) 같은 메모리 효율 + 가속 변형이 대규모 LLM 학습에서 등장. 핵심은 2차 정보를 더 영리하게 활용하는 방향.

6.3 BatchNorm vs LayerNorm — 무엇이 다른가, 왜 둘 다 필요한가

무엇이 다른가 - BatchNorm: 배치 안의 샘플 차원을 평균·분산으로 정규화. CNN의 표준. - LayerNorm: 각 샘플의 채널 차원을 평균·분산으로 정규화. Transformer의 표준.

왜 BatchNorm은 트랜스포머에서 안 쓰는가 - 시퀀스 길이가 가변. 시퀀스 단위 통계가 의미 약함. - 배치 크기가 작은 LLM 학습에서 BatchNorm 통계 noisy. - 추론 시 각 입력별로 정규화하는 게 자연스러움.

핵심 시각: 둘 다 각 layer의 입력 분포를 안정화 한다는 목적은 같다. 어느 차원에서 정규화하느냐만 데이터 구조에 따라 다르다.

6.4 학습률 스케줄 — cosine warmup 이 LLM의 표준이 된 이유

관찰되는 패턴 - warmup (처음 N step): 학습률을 0에서 peak로 선형 증가. 초기 큰 그래디언트가 가중치를 망치는 것을 방지. - cosine annealing (peak 이후): 학습률을 cosine 곡선으로 부드럽게 0까지 감소. 후반에 미세 조정.

왜 이 조합이 표준이 되었나 - Linear warmup이 초기 안정성을 보장. - Cosine annealing이 후반 부드러운 수렴을 보장. - GPT-3 (Brown et al. 2020), LLaMA (Touvron et al. 2023) 모두 이 조합.

다음 단계로의 연결 8편 LLM 학습은 학습률 스케줄과 데이터 순서가 모델 품질을 결정한다는 시각으로 확장.

6.5 Gradient Clipping — 터지지 않게 막는 안전 장치

무엇을 막는가 RNN·트랜스포머는 gradient explosion에 특히 취약. 한 step의 그래디언트 노름이 비정상적으로 크면 가중치가 튕겨 학습이 무너진다.

원리 clip_grad_norm_(params, max_norm=1.0) 는 그래디언트 노름이 1.0을 넘으면 비례 축소. 방향은 보존, 크기만 제한.

왜 표준이 되었나 - LLM 학습에서 NaN 손실의 가장 흔한 원인이 폭주 그래디언트. - max_norm=1.0이 대부분의 트랜스포머 학습에서 안전한 기본값.

7. 변형과 사례 — 학습 기법은 상호작용하는 가족이다

학습 기법은 따로따로 고르는 게 아니라 함께 결정한다. 옵티마이저·정규화·초기화·스케줄·gradient clipping이 서로 영향을 미친다.

7.1 옵티마이저 가족 — 메모리·일반화·속도의 절충

이름	핵심	어디서 쓰이나
SGD + Momentum	단순, 일반화 강점	비전 (ResNet, 비전 트랜스포머의 vanilla)
Adam (Kingma 2015)	1차·2차 moment 적응	NLP 기본
AdamW (Loshchilov 2019)	weight decay를 옵티마이저와 분리	트랜스포머 표준
Adafactor (Shazeer 2018)	2차 moment 메모리 절감	T5·PaLM·대형 LLM
Lion (Google 2023)	sign 기반, AdamW 동등 + 메모리 ↓	GPT-J·일부 대형 모델
Sophia (Liu 2024)	2차 정보 (Hessian 대각)	대형 LLM 가속

핵심 시각: 모델 크기가 커질수록 옵티마이저 자체의 메모리가 학습 비용을 좌우. Adafactor·Lion이 등장한 이유.

7.2 정규화 가족 — 여러 메커니즘의 합주

이름	어디서 작동	효과
Dropout (Srivastava 2014)	매 forward	무작위 ensemble
DropPath / Stochastic Depth	layer 단위	깊은 망의 일반화
Label smoothing (Szegedy 2016)	손실 함수	과신 방지, calibration ↑
Mixup (Zhang 2018)	입력 측	두 이미지 보간
CutMix (Yun 2019)	입력 측	이미지 영역 교환
EMA	추론 시점	가중치 평균으로 일반화 ↑
Weight decay	옵티마이저	L2 정규화

핵심 시각: 신경망 정규화는 데이터·모델·학습·추론 네 단계에서 동시 개입. 한 단계만 강하면 다른 단계의 효과가 무너진다.

7.3 초기화 가족 — 활성함수와 짝지어진다

이름	짝 활성함수	발견자
Xavier / Glorot	sigmoid, tanh	Glorot & Bengio 2010
He / Kaiming	ReLU 계열	He et al. 2015
Orthogonal	RNN, gated	Saxe et al. 2014
Identity	residual block	He et al. 2016 (ResNet)
MUP (Yang 2021)	모든 활성, 모델 크기 적응	μ-parametrization

핵심 시각: 초기화는 활성함수의 분산 특성과 짝을 이뤄야 한다. ReLU는 음수 영역에서 0이라 입력 분산의 절반만 통과 → He init은 $\sqrt{2/n_{\text{in}}}$. Xavier는 sigmoid의 가운데 영역에 맞춰 $\sqrt{1/n_{\text{in}}}$.

7.4 학습률 스케줄 — 어떻게 감소 시키느냐의 정책

스케줄	특징	사용처
Step decay	epoch마다 $\eta / 10$	비전 초기 표준
Cosine annealing (Loshchilov 2017)	부드러운 감소	비전·트랜스포머
One-cycle (Smith 2018)	빠른 초기 가속 후 감소	fast.ai 권장
Cosine + warm restarts	주기적 재시작	다중 모델 평균
Linear warmup + cosine	초기 안정성 + 후반 부드러움	LLM의 사실상 표준
Polynomial decay	학습률을 다항식으로	BERT 학습

핵심 시각: 학습률은 정적인 하이퍼파라미터가 아니라 시간에 따라 변하는 함수. 같은 모델이 다른 스케줄에서 큰 차이를 보인다.

7.5 산업 사례 — LLM 학습 한 줄 표

모델	옵티마이저	스케줄	정규화	초기화
BERT (2018)	AdamW	linear warmup + decay	dropout 0.1	트렁크 정규
GPT-3 (2020)	AdamW (β=0.9, 0.95)	cosine + warmup	dropout 0	scaled 정규
LLaMA (2023)	AdamW (β=0.9, 0.95)	cosine, lr=3e-4	RMSNorm, no dropout	트렁크 정규
LLaMA 2	AdamW	cosine	RMSNorm	μP 영향
Mixtral	AdamW	cosine	RMSNorm, MoE 별도	트렁크

핵심 시각: GPT 시대 이후 dropout이 사라지고 (또는 매우 약화) BatchNorm 대신 LayerNorm/RMSNorm이 표준. 학습 기법은 진화한다.

8. 한계와 실패 양상

8.1 NaN 손실

왜 본질적 한계인가 부동소수점은 $\exp$, $\log$, 큰 그래디언트에서 쉽게 overflow/underflow. 한 번 NaN이 나오면 전파 되어 모든 가중치를 망친다.

어떻게 진단하는가 loss가 inf 또는 NaN. step 단위로 어디서 발생했는지 추적.

다음 단계 - 학습률 $/10$, gradient clip max_norm=1.0 - 입력 정규화 (StandardScaler) - mixed precision 학습 시 GradScaler 사용 - LayerNorm/RMSNorm으로 안정화

8.2 손실 정체

왜 본질적 한계인가 학습이 진행되지 않는다 — 학습률 과소, dead ReLU, 작은 모델 등 여러 원인.

어떻게 진단하는가 loss 곡선이 평평. 그래디언트 노름이 거의 0.

다음 단계 - 학습률 $\times 3$ 시도 - 활성함수 sigmoid → ReLU 또는 GELU - 모델 hidden 키우기 - warmup 길이 줄이기

8.3 train↓ test↑ (과적합)

왜 본질적 한계인가 모델 capacity > 데이터 정보량. 7.2의 정규화 합주가 부족.

어떻게 진단하는가 train acc 99%, test acc 70%.

다음 단계 Dropout p↑, weight decay↑, 데이터 증강 강화, early stopping. 그래도 안 되면 모델 축소.

8.4 BatchNorm + 작은 배치

왜 본질적 한계인가 BatchNorm은 배치 통계를 사용. 배치 크기 < 16에서 통계가 noisy해 학습이 불안정.

어떻게 진단하는가 같은 모델이 큰 배치에서는 잘 되고 작은 배치에서 안 됨.

다음 단계 LayerNorm (트랜스포머), GroupNorm (CNN), 또는 SyncBatchNorm (분산 학습).

8.5 Adam vs SGD — 일반화의 역설

왜 본질적 한계인가 Adam이 학습 속도 는 빠르지만 일반화 는 SGD+Momentum이 종종 우세 (Wilson et al. 2017 The Marginal Value of Adaptive Gradient Methods). 비전에서 특히.

어떻게 진단하는가 같은 모델에서 Adam이 train R²/acc는 좋은데 test는 SGD가 좋음.

다음 단계 SGD+Momentum + cosine schedule 시도. 트랜스포머는 여전히 AdamW가 표준.

8.6 분산 학습의 통계 동기화

왜 본질적 한계인가 BatchNorm은 각 GPU의 로컬 배치만 보면 통계가 GPU별로 다름. 정규화가 일관성 없어진다.

어떻게 진단하는가 단일 GPU와 다중 GPU에서 학습 곡선이 다름.

다음 단계 torch.nn.SyncBatchNorm.convert_sync_batchnorm(model) — 모든 GPU 간 통계 동기화. 또는 LayerNorm으로 전환.

한계가 알려주는 흐름

학습 기법의 6가지 한계가 LLM 시대의 학습 표준을 정확히 압축한다: - NaN → mixed precision + grad clip 1.0 - 정체 → cosine warmup - 과적합 → dropout 약화 + augmentation 강화 - BatchNorm 한계 → LayerNorm/RMSNorm - Adam 일반화 → AdamW + weight decay - 분산 통계 → SyncBN 또는 LN

9. 정리된 결론 — 보지 않고 답해 보라

이 글이 답한 핵심 질문 5개. 먼저 답을 가린 채로 한 줄로 답해 본 뒤 정답과 비교.

Q1. Adam이 트랜스포머의 표준이 된 진짜 이유는?

정답 파라미터별 적응 학습률 이 분포가 매우 다른 임베딩·attention·FFN 가중치에 자연스럽게 맞는다. 왜 1차 moment(방향) + 2차 moment(스케일) + bias correction이 동시에 작동. SGD는 모든 파라미터에 같은 학습률을 적용하지만 트랜스포머는 그게 부적합. 단, 비전에서는 일반화 면에서 SGD+Momentum이 종종 우세 (Wilson et al. 2017). (본문 6.2, 8.5)

Q2. 트랜스포머가 BatchNorm 대신 LayerNorm을 쓰는 이유는?

정답 시퀀스 길이가 가변, 배치 크기가 작은 LLM 학습에서 BatchNorm 통계가 noisy. 각 입력별로 정규화하는 LayerNorm이 자연스러움. 왜 BatchNorm은 배치 차원, LayerNorm은 채널 차원. CNN의 이미지 배치에는 BatchNorm이, 트랜스포머의 토큰 시퀀스에는 LayerNorm이 맞는다. RMSNorm은 LayerNorm의 더 간단한 변형 (LLaMA). (본문 6.3, 8.4)

Q3. He init과 Xavier init의 차이는? 왜 활성함수에 따라 짝지어야 하나?

정답 Xavier: $\sqrt{1/n_{\text{in}}}$ (sigmoid·tanh용). He: $\sqrt{2/n_{\text{in}}}$ (ReLU용). 왜 ReLU는 음수 영역에서 0이라 입력 분산의 절반만 통과 — 출력 분산을 유지하려면 가중치 분산을 두 배로. 초기화 변동을 잘못하면 깊은 층의 활성/그래디언트가 지수적으로 폭주하거나 사라진다. (본문 7.3)

Q4. LLM 학습에서 "linear warmup + cosine annealing"이 표준이 된 이유는?

정답 Warmup이 초기 큰 그래디언트로부터 가중치를 보호, cosine annealing이 후반 부드러운 수렴 유도. 왜 학습 초기에는 그래디언트가 noisy → 큰 학습률이 가중치를 망친다. 학습률을 점진적으로 키운 뒤 (warmup), 후반에는 미세 조정을 위해 부드럽게 감소 (cosine). GPT-3·LLaMA 모두 이 조합. (본문 6.4, 7.4)

Q5. NaN 손실이 나왔다. 첫 대응 4가지는?

정답 (1) 학습률 $/10$, (2) gradient clip max_norm=1.0, (3) 입력 정규화, (4) mixed precision이면 GradScaler 확인. 왜 NaN의 가장 흔한 원인은 폭주 그래디언트 + 부동소수점 한계. 안정화 4종 세트가 LLM 학습의 표준 안전 장치. LayerNorm/RMSNorm 추가도 도움. (본문 6.5, 8.1)

5개를 한 줄로 답할 수 있었다면 신경망 학습의 5가지 결정이 자리잡은 것이다.

10. 추가 학습

1차 자료

Kingma, D. P., Ba, J. Adam: A Method for Stochastic Optimization. ICLR 2015. arXiv:1412.6980 — Adam 원논문.
Loshchilov, I., Hutter, F. Decoupled Weight Decay Regularization. ICLR 2019. arXiv:1711.05101 — AdamW.
Srivastava, N. et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. JMLR 15 (2014): 1929–1958.
Ioffe, S., Szegedy, C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. ICML 2015. arXiv:1502.03167.
Ba, J. L., Kiros, J. R., Hinton, G. E. Layer Normalization. arXiv:1607.06450 (2016).
Glorot, X., Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. AISTATS 2010. — Xavier 초기화.
He, K. et al. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV 2015. arXiv:1502.01852 — He 초기화 + PReLU.
Smith, L. N. Cyclical Learning Rates for Training Neural Networks. WACV 2017. arXiv:1506.01186 — one-cycle.

공식 docs

PyTorch optimizers: https://pytorch.org/docs/stable/optim.html
LR schedulers: https://pytorch.org/docs/stable/optim.html#how-to-adjust-learning-rate
BatchNorm / LayerNorm: https://pytorch.org/docs/stable/nn.html#normalization-layers

보조 자료

Goodfellow, Bengio, Courville. Deep Learning. 8장.
Bottou, Curtis, Nocedal. Optimization Methods for Large-Scale Machine Learning. SIAM Review 60(2), 223–311 (2018).

다음 편(8/9)에서는 딥러닝 아키텍처 한 바퀴를 돈다. CNN (LeNet → AlexNet → ResNet), RNN/LSTM, Attention의 등장, 그리고 왜 결국 트랜스포머로 갔는가까지 — 현대 AI를 만든 구조들을 한 페이지에 본다.

시리즈 전체 안내: 시리즈 목차

스케줄	특징	사용처
Step decay	epoch마다 \(\eta / 10\)	비전 초기 표준
Cosine annealing (Loshchilov 2017)	부드러운 감소	비전·트랜스포머
One-cycle (Smith 2018)	빠른 초기 가속 후 감소	fast.ai 권장
Cosine + warm restarts	주기적 재시작	다중 모델 평균
Linear warmup + cosine	초기 안정성 + 후반 부드러움	LLM의 사실상 표준
Polynomial decay	학습률을 다항식으로	BERT 학습