"ML 기초 학습 (4/9) — 로지스틱 회귀와 분류: 확률을 만드는 법"

이름은 "회귀"지만 사실은 분류 모델이다. 3편의 선형 결합 $w^\top x + b$를 sigmoid 함수에 한 번 통과시키는 것 — 그 한 단계로 출력이 0과 1 사이의 확률이 된다. 이 작은 변화 위에 cross-entropy 손실, softmax 다중 분류, MLE 추정의 모든 출발점이 올라간다. 신경망의 최종 출력층은 거의 예외 없이 이 형태다.

0. 학습 목표

로지스틱 함수 $\sigma(z)$의 정의·도함수·해석을 식과 그림으로 설명한다.
베르누이 가능도에서 cross-entropy 손실을 유도한다.
다중 클래스 분류에서 softmax + cross-entropy로 자연스럽게 확장한다.
결정경계 $w^\top x + b = 0$이 왜 직선·초평면인지 안다.
분류 임계값을 바꿔 가며 ROC와 AUC를 그릴 수 있다.
클래스 불균형 상황에서 정확도 대신 어떤 지표를 보고 어떻게 다뤄야 하는지 안다.

1. 핵심 요약

로지스틱 회귀: $P(y=1 \mid x) = \sigma(w^\top x + b)$, 여기서 $\sigma(z) = 1 / (1 + e^{-z})$.
손실: 음의 로그가능도 = binary cross-entropy.

$$ \mathcal{L}(w, b) = -\frac{1}{n}\sum_{i} \big[ y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i) \big] $$

다중 클래스: sigmoid → softmax, binary CE → categorical CE.
결정경계는 $w^\top x + b = 0$, 즉 입력 공간의 초평면.
닫힌 해는 없다. 경사하강 또는 IRLS (반복 가중 최소제곱) 로 푼다. 손실이 컨벡스라 전역 최적해가 보장된다.
출력이 확률이므로 임계값을 조절해 precision/recall 균형을 직접 다룰 수 있다.

2. 직관 — sigmoid가 하는 일

2.1 선형 출력에 확률 모자 씌우기

3편의 선형 회귀는 $\hat{y} = w^\top x + b$를 곧바로 출력한다. 분류에서는 0 또는 1이 정답이고, 출력이 0~1 사이 확률이면 좋다. 그래서 출력에 sigmoid 함수를 한 번 통과시킨다.

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

성질:

$\sigma(0) = 0.5$
$z \to +\infty$이면 $\sigma \to 1$
$z \to -\infty$이면 $\sigma \to 0$
도함수: $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ — backprop 때 다시 본다.

z = w^T x + b라는 점수(score)를 확률로 부드럽게 압축하는 변환이다.

2.2 왜 0.5가 결정경계인가

$P(y=1 \mid x) > 0.5$일 때 1로 예측. $\sigma(z) > 0.5$는 $z > 0$과 동치이므로 결정경계는 $w^\top x + b = 0$. 이것이 입력 공간의 초평면이다. 임계값을 0.5 대신 다른 값으로 바꾸면 초평면이 평행이동한다.

2.3 왜 cross-entropy가 손실인가

선형 회귀의 제곱 손실이 가우스 노이즈 가정의 MLE였다. 분류에서도 같은 논리를 적용한다.

라벨 $y \in \{0, 1\}$이 베르누이 분포를 따른다 가정:

$$ P(y \mid x; w, b) = \hat{p}^{y} (1 - \hat{p})^{1 - y}, \quad \hat{p} = \sigma(w^\top x + b) $$

데이터의 음의 로그가능도(NLL)는

$$ -\log \mathcal{L} = -\sum_i \big[y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i)\big] $$

이것이 이진 cross-entropy. $n$으로 나누면 평균 손실이 된다. 가우스 → 제곱, 베르누이 → cross-entropy. 두 경우 모두 NLL이다.

3. 정의와 표기

3.1 이진 로지스틱 회귀

입력: $x \in \mathbb{R}^d$
가중치: $w \in \mathbb{R}^d$, 편향: $b \in \mathbb{R}$
점수: $z = w^\top x + b$
확률: $\hat{p} = \sigma(z)$
예측: $\hat{y} = \mathbb{1}[\hat{p} > 0.5]$ (또는 임의 임계값)

3.2 손실 (binary cross-entropy)

$$ \mathcal{L}(w, b) = -\frac{1}{n}\sum_{i=1}^{n} \big[y_i \log \sigma(z_i) + (1 - y_i) \log(1 - \sigma(z_i))\big] $$

3.3 다중 클래스: softmax

$C$개 클래스. 각 클래스마다 가중치 벡터:

$$ z_c = w_c^\top x + b_c, \quad c = 1, \dots, C $$

softmax:

$$ \hat{p}_c = \frac{e^{z_c}}{\sum_{c'=1}^{C} e^{z_{c'}}} $$

손실 (categorical cross-entropy):

$$ \mathcal{L} = -\frac{1}{n}\sum_{i=1}^{n}\sum_{c=1}^{C} y_{i,c} \log \hat{p}_{i,c} $$

$y_{i,c}$는 one-hot. 이 식이 LLM의 next-token 예측 손실과 똑같은 구조다(LLM 핵심 학습 5편 참조).

4. 수식과 메커니즘

4.1 그래디언트 유도 (이진)

음의 로그가능도를 $w$로 미분하기 위해 체인 룰을 쓴다.

$$ \frac{\partial \mathcal{L}}{\partial z_i} = \hat{p}_i - y_i $$

이 단순함이 핵심이다. cross-entropy + sigmoid 조합의 그래디언트는 단지 "예측 - 정답".

$$ \frac{\partial \mathcal{L}}{\partial w} = \frac{1}{n} \sum_i (\hat{p}_i - y_i) x_i = \frac{1}{n} X^\top (\hat{p} - y) $$

$$ \frac{\partial \mathcal{L}}{\partial b} = \frac{1}{n} \sum_i (\hat{p}_i - y_i) $$

선형 회귀의 그래디언트 $\tfrac{1}{n}X^\top (X\beta - y)$와 모양이 같다. $X\beta$가 $\hat{p}$로 바뀌었을 뿐.

4.2 손실은 컨벡스

$\nabla^2 \mathcal{L}$이 양반정부호. 따라서 지역 최적이 곧 전역 최적. 어떤 초기값에서도 경사하강이 같은 최적해로 수렴한다 (충분히 작은 lr 가정).

이건 신경망에는 없는 사치다. 그러므로 로지스틱 회귀는 그 자체로 매우 안정적이고, 신경망 최종 분류층의 출력에서 동일한 수학이 그대로 다시 등장한다.

4.3 IRLS — 뉴턴 방법

뉴턴 방법:

$$ \beta^{(t+1)} = \beta^{(t)} - H^{-1} g $$

여기서 $g$는 그래디언트, $H$는 헤시안. 로지스틱 회귀의 헤시안은

$$ H = \frac{1}{n} X^\top W X, \quad W = \mathrm{diag}\big(\hat{p}_i(1 - \hat{p}_i)\big) $$

이 업데이트가 반복 가중 최소제곱 (Iteratively Reweighted Least Squares, IRLS) 이다. sklearn의 기본 솔버(liblinear, lbfgs, saga)는 이 류의 2차 방법 또는 그 근사를 쓴다.

4.4 결정경계와 마진

결정경계 $w^\top x + b = 0$. 모든 $c$에 대해

$$ \{x : w_c^\top x + b_c = w_{c'}^\top x + b_{c'}\} $$

가 두 클래스 사이의 경계 (다중 클래스). 모두 초평면이다.

선형으로 분리 불가능한 데이터에서는 어떤 $w, b$를 골라도 일부 오답이 남는다. 그 자체로 비선형 결정경계가 필요하다는 신호다. 다항 피처 또는 신경망 (6편) 으로 확장.

5. 다이어그램

다중 클래스는 sigmoid → softmax로 갈아 끼우고 출력 노드를 $C$개로 늘리면 그대로다.

6. 원리 워크스루 — 로짓·sigmoid·cross-entropy의 연결고리

코드 자체는 한 줄이다. 그 안에 들어 있는 로짓 → sigmoid → cross-entropy → MLE라는 한 흐름이 이 글의 학습 가치다. 이 흐름이 신경망 분류 헤드의 그대로 닿는다.

6.1 표준 호출 한 줄

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(max_iter=10000).fit(X_tr, y_tr)
y_prob = clf.predict_proba(X_te)[:, 1]

predict_proba가 반환하는 값이 sigmoid 통과 후의 확률이다. predict는 단지 임계값 0.5에서 자른 결과 — 임계값을 비즈니스 비용에 맞춰 옮기는 게 핵심 결정 (6.3에서 다시).

6.2 sigmoid 도함수가 깔끔한 이유

관찰되는 패턴 $\sigma(z) = 1/(1 + e^{-z})$의 도함수가 $\sigma'(z) = \sigma(z)\,(1 - \sigma(z))$ 라는 함수값만으로 계산 가능한 형태로 나온다.

왜 이게 중요한가 - backpropagation에서 활성함수의 도함수가 매 layer 곱해진다 (7편). $\sigma$는 도함수가 자기 함수값만 알면 되니까, forward 결과를 캐싱하면 backward가 추가 계산 없이 진행된다. - 그러나 $\sigma'$의 최댓값은 $z=0$에서 $0.25$. 여러 층을 곱하면 $0.25^L$로 폭락 → 그래디언트 소실 (vanishing gradient) 의 원인. 7편에서 이 한계가 ReLU 채택으로 이어진다.

다음 단계로의 연결 6편의 MLP에서 sigmoid는 은닉층 활성으로는 거의 사라지고, 분류 출력 헤드로만 살아남는다. cross-entropy + sigmoid 페어는 신경망 분류의 표준 출력 헤드다.

6.3 ROC와 임계값 — 모델이 아니라 임계값이 결정한다

무엇을 보는가 같은 모델이 임계값 $\tau$에 따라 다른 confusion matrix를 만든다. $\tau = 0.5$는 임의적 — 실제로는 비즈니스 비용이 결정해야 한다.

핵심 시각 - ROC 곡선: 모든 $\tau$에서 (FPR, TPR)을 추적. AUC = 1이면 완벽 분류 능력, 0.5면 동전 던지기. 모델의 분류 능력 자체를 임계값과 분리해 측정. - PR 곡선: precision vs recall. 클래스 불균형에서 더 유용 (ROC는 음성이 많으면 너무 낙관적). - $\tau$를 0.5 → 0.3으로 낮추면 recall ↑, precision ↓. 의료 진단(recall 우선) vs 스팸 필터(precision 우선) 같은 비용 비대칭 결정.

다음 단계로의 연결 임계값 선택은 모델 학습 후의 결정. 7편 학습 기법에서는 학습 중에 클래스 불균형을 다루는 방법 — focal loss, weighted loss — 으로 일반화된다.

6.4 cross-entropy는 왜 로지스틱 회귀의 손실인가

베르누이 분포 $p(y \mid x) = \hat{p}^y (1 - \hat{p})^{1-y}$의 최대 우도 추정 (MLE) 을 풀면, 음의 로그 우도가 정확히 cross-entropy:

$$ \mathcal{L}(\beta) = -\frac{1}{n} \sum_i \big[y_i \log \hat{p}_i + (1 - y_i) \log(1 - \hat{p}_i)\big] $$

즉 cross-entropy는 임의로 고른 손실이 아니라 베르누이 가정에 따른 MLE의 결과물이다. 같은 발상이 softmax + categorical cross-entropy로 일반화 (다중 분류), 가우스 가정으로 가면 회귀의 MSE가 된다. 모든 손실 함수는 분포 가정의 그림자라는 관점이 GLM(3편 7.2)·신경망(6편)에서 다시 확인된다.

7. 변형과 사례 — 확률을 출력하는 모델의 무게

로지스틱 회귀가 1958년 (Cox) 이후에도 살아남는 이유는 정확도가 아니라 잘 보정된 확률을 생산한다는 점에 있다. 이 확률은 그 자체로 의사결정의 입력이 된다.

7.1 정규화된 로지스틱 회귀 — $C$는 무엇인가

무엇이 바뀌나 손실에 $L_2$ 또는 $L_1$ 페널티를 더한다. sklearn API에서 C = 1/\\lambda — 작은 C가 강한 정규화. (C는 "confidence in the data" 시각, lambda는 "penalty strength" 시각.)

왜 등장했나 의료·금융 같은 작은-표본·고-피처 도메인에서 MLE는 완벽 분리 (perfect separation) 라는 병리 상태에 빠진다 — 계수가 $\pm\infty$로 발산. 1996년 Tibshirani의 Lasso, 1970년 Hoerl-Kennard의 Ridge가 그 즉시 로지스틱에도 적용되었다.

무엇이 가능해졌나 - L2: 다중공선성 보정, 계수 안정화. 광고 CTR 모델의 표준. - L1: 피처 선택. 텍스트 분류에서 vocabulary가 수십만일 때 몇 백 개만 살아남는다. - ElasticNet: 상관 높은 피처 묶음에서 그룹 단위 살아남기.

한계와 다음 단계 5편 정규화가 같은 원리를 회귀에 적용한 모습을 다룬다. 신경망에서는 weight decay·dropout·early stopping이 같은 가족으로 일반화 (7편).

7.2 클래스 불균형 — 임계값 조정 vs 손실 가중

무엇이 바뀌나 양성 비율 1% 데이터에서 그대로 학습하면 모델이 "모두 음성"이라 답한다. 대응 4가지:

방법	어디서 개입	핵심
`class_weight="balanced"`	손실 함수	양성 표본 1개 = 음성 99개의 손실 가중
임계값 낮추기	추론 시점	0.5 → 0.2 (recall 우선)
오버샘플링 (SMOTE)	데이터	양성을 합성으로 늘림
평가 지표 변경	측정	accuracy 대신 F1, PR-AUC

왜 등장했나 Provost & Fawcett 1997 Analysis and Visualization of Classifier Performance가 클래스 불균형의 평가 문제를 정량화했다. 2002년 SMOTE (Chawla et al.) 가 데이터 측면 대응의 표준이 됨.

무엇이 가능해졌나 - 사기 거래 탐지 (양성 0.1%): class_weight + 임계값 조정의 조합이 표준. - 의료 진단 (recall 우선): 임계값을 의도적으로 낮춰 양성을 빼놓지 않게. - 광고 CTR (음성 99% but 음성에서 학습할 정보가 풍부): 단순 가중치보다 negative sampling 으로 유익한 음성만 사용.

한계와 다음 단계 가중치로 다 해결되지는 않는다 — 극단적 불균형(<0.1%)에서는 모델 구조 자체 변경 (anomaly detection 시각) 이 필요. 7편 focal loss (Lin et al. 2017)가 어려운 표본에 더 집중 하는 학습 시점 대응.

7.3 확률 보정 (Calibration) — 얼마나 자신 있게 답해야 하나

무엇이 바뀌나 모델이 "확률 0.9"라고 답할 때, 실제 그 답의 정답률이 0.9에 가까운가? 그렇다면 잘 보정된 모델. 0.9라고 했는데 실제 0.65라면 과신 (overconfident).

왜 등장했나 의료 진단, 보험 청구, 신용 평가 같은 분야는 확률 자체가 의사결정 입력이다. 0.95와 0.99의 차이가 보험료를 결정하는데, 모델이 그 차이를 잘 측정하는지가 핵심 — Platt 1999, Niculescu-Mizil & Caruana 2005 Predicting Good Probabilities with Supervised Learning.

무엇이 가능해졌나 - Reliability diagram 시각화로 보정 상태 진단. - Platt scaling (sigmoid 후보정), Isotonic regression (단조 회귀 후보정). - sklearn CalibratedClassifierCV로 한 줄에 후보정 적용. - 보정된 모델은 임계값 결정도 더 신뢰할 만하다 (precision-recall trade-off가 진짜 비용에 맞춰짐).

한계와 다음 단계 신경망은 일반적으로 과신하는 경향이 있다 (Guo et al. 2017 On Calibration of Modern Neural Networks). 7편의 temperature scaling이 표준 후보정.

7.4 신경망과의 직접 연결 — 단층 = 로지스틱

핵심 관점 로지스틱 회귀 = sigmoid 활성을 가진 1층 신경망. 6편 MLP는 이 구조를 여러 층 쌓고 비선형 활성을 끼운 결과. 즉 로지스틱 회귀의 cross-entropy + sigmoid 페어가 신경망 분류 헤드의 직계 조상.

왜 이 시각이 중요한가 신경망의 마지막 층은 거의 항상 (선형) → sigmoid (이진) 또는 (선형) → softmax (다중). 로지스틱 회귀를 이해한다 = 신경망 분류의 출력단을 이해한다.

7.5 산업 사례

신용 평가: 로지스틱 회귀의 가장 오래된 응용. 해석 가능성 + 보정된 확률 둘 다 요구.
광고 CTR (Click-Through Rate): 매일 수십억 예측. 단순함이 곧 속도 — 더 복잡한 모델보다 우선 채택.
의료 진단 (Apgar score, MELD score 등): 로지스틱 회귀의 직접 후예. 해석 가능한 위험 점수.
이메일 스팸 필터의 최초 단계: 후 단계 신경망에 들어가기 전 빠른 필터.
A/B 테스트의 전환율 모델링: covariate-adjusted 로지스틱 회귀로 처치 효과 보정.

8. 한계와 실패 양상 — 선형성·포화·보정이 결정한다

8.1 선형 분리 불가능 데이터

왜 본질적 한계인가 로지스틱 회귀의 결정경계는 $w^\top x + b = 0$ — 입력 공간의 초평면이다. XOR 같은 비선형 분리 문제는 어떤 $w, b$로도 풀리지 않는다.

어떻게 진단하는가 PCA로 2D 시각화 후 클래스가 비선형 패턴이면 의심. 또는 학습 후 정확도가 비합리적으로 낮음.

다음 단계 비선형 피처 엔지니어링 (다항·상호작용 항), 커널 트릭(SVM), 또는 6편 신경망. 신경망의 본질이 피처를 학습한 뒤 선형 분류이다.

8.2 sigmoid 포화 (Saturation)

왜 본질적 한계인가 $|z|$가 크면 $\sigma(z) \approx 0$ 또는 $1$이 되어 도함수가 0에 수렴. 손실에 큰 잔차가 있어도 그래디언트가 흐르지 않아 학습이 멈춘다.

어떻게 진단하는가 학습 곡선이 평평한데 손실은 높음 → 포화 의심. 가중치의 절댓값이 매우 큼.

다음 단계 정규화로 $|w|$ 억제, 이상치 제거. 신경망에서는 ReLU/GELU 같이 포화하지 않는 활성으로 대체 (7편 6.3).

8.3 다중공선성

왜 본질적 한계인가 3편 8.3과 동일 — 상관 높은 피처가 가중치 분산을 폭발시킨다.

어떻게 진단하는가 VIF, 상관 행렬, 또는 정규화 강도를 약간 바꿀 때 가중치가 크게 흔들림.

다음 단계 L2 (Ridge-like) 정규화. 텍스트·게놈 같은 $p \gg n$ 도메인에서는 L1 (Lasso-like) + sparse 가중치.

8.4 클래스 불균형

왜 본질적 한계인가 손실 함수가 균등 표본 가정에 묶여 있어 다수 클래스에 압도된다. 7.2에서 다룬 대응이 필요.

어떻게 진단하는가 양성 클래스 recall이 0에 가까움. PR-AUC가 낮음.

다음 단계 class_weight="balanced", SMOTE, 임계값 조정, focal loss (7편).

8.5 확률 보정 오차 (Calibration Error)

왜 본질적 한계인가 정확도와 보정은 별개의 문제다. 모델이 90%로 답하는 케이스의 실제 정답률이 65%라면, 정확도가 높아도 의사결정 입력으로는 부적합.

어떻게 진단하는가 reliability diagram — $x$축 예측 확률, $y$축 실제 정답률. 대각선에서 벗어나면 보정 오차.

다음 단계 CalibratedClassifierCV (Platt scaling or isotonic). 신경망은 temperature scaling.

8.6 $p \gg n$ 또는 클래스당 표본 부족

왜 본질적 한계인가 MLE가 완벽 분리 상태로 빠지면 가중치가 $\pm\infty$로 발산한다. 학습이 너무 잘 되는 병리.

어떻게 진단하는가 정규화 없는 학습에서 가중치 절댓값이 비현실적으로 큼. 학습 loss는 0에 수렴하지만 일반화 성능은 무너짐.

다음 단계 정규화는 옵션이 아니라 필수. 5편의 정규화 도구들이 정면 답.

한계가 알려주는 흐름

로지스틱 회귀의 6가지 한계가 신경망 분류 헤드의 디자인 결정을 정확히 압축한다: - 선형 분리 불가 → 은닉층 (6편 MLP) - sigmoid 포화 → ReLU/GELU (7편 활성함수 비교) - 다중공선성 → weight decay (7편 정규화) - 클래스 불균형 → focal loss (7편 손실 설계) - 보정 오차 → temperature scaling (7편 후보정) - MLE 발산 → 정규화 필수 (5편)

9. 정리된 결론 — 보지 않고 답해 보라

이 글이 답한 핵심 질문 5개. 먼저 답을 가린 채로 한 줄로 답해 본 뒤 정답과 비교.

Q1. 로지스틱 회귀의 "회귀"가 사실은 분류 모델인 이유는?

정답 출력이 확률 $\hat{p}(y=1 \mid x)$ — 연속값을 회귀하지만 그 회귀 대상이 확률이고, 임계값에서 자르면 분류가 된다. 왜 로짓 $\log\frac{\hat{p}}{1-\hat{p}} = w^\top x + b$는 선형 회귀, sigmoid가 그것을 $[0,1]$로 변환. GLM(3편 7.2)의 베르누이 + 로짓 연결함수 케이스. (본문 6.4, 7.4)

Q2. cross-entropy는 왜 임의로 고른 손실이 아닌가?

정답 베르누이 분포 가정에서 최대 우도 추정(MLE) 을 풀면 음의 로그 우도가 정확히 cross-entropy로 나온다. 왜 "모든 손실 함수는 분포 가정의 그림자" — 회귀의 MSE는 가우스 가정, 다중분류의 categorical cross-entropy는 카테고리 가정. 손실 선택 = 분포 가정 선택. (본문 6.4)

Q3. 임계값 0.5는 어디서 왔는가? 왜 그것을 옮겨야 하는가?

정답 0.5는 임의적이다. 진짜 임계값은 비즈니스 비용이 결정해야 한다. 왜 의료 진단처럼 거짓 음성 비용이 매우 크면 $\tau$를 낮춰 recall ↑. 스팸 필터처럼 거짓 양성이 비싸면 $\tau$를 높여 precision ↑. ROC/PR 곡선은 모든 $\tau$에서 모델 성능을 한꺼번에 보여 준다. (본문 6.3, 7.2)

Q4. sigmoid의 도함수가 $\sigma(z)(1-\sigma(z))$인 게 신경망에서 왜 문제가 되는가?

정답 최댓값이 0.25 → 깊은 망에서 $0.25^L$로 그래디언트가 폭락 → 학습이 멈춤 (vanishing gradient). 왜 7편에서 ReLU 채택의 직접 동기. ReLU의 도함수는 양수 영역에서 정확히 1 → 그래디언트가 그대로 통과. 단, sigmoid는 출력 헤드에서는 여전히 살아남는다. (본문 6.2)

Q5. "정확도 95%"인 모델이 의료 의사결정에 부적합할 수 있는 이유는?

정답 확률이 보정되지 않으면 임계값을 잘못 잡거나 위험 점수가 부정확해진다. 정확도와 보정은 별개의 문제. 왜 모델이 "0.9 확신"이라고 답하는 케이스의 실제 정답률이 0.65라면 의사결정 입력으로 부적합. reliability diagram으로 진단, Platt/isotonic으로 후보정 (Niculescu-Mizil & Caruana 2005). (본문 7.3, 8.5)

4~5개를 한 줄로 답할 수 있었다면 로지스틱 회귀의 핵심 — 로짓 → sigmoid → cross-entropy → MLE → 보정 흐름이 자리잡은 것이다.

10. 추가 학습

1차 자료

Cox, D. R. The Regression Analysis of Binary Sequences. Journal of the Royal Statistical Society, Series B, 20(2), 215–242 (1958). — 로지스틱 회귀의 출발점.
McCullagh, P., Nelder, J. A. Generalized Linear Models, 2nd ed., Chapman & Hall (1989). — GLM 체계 정리.
Krishnapuram, B. et al. Sparse Multinomial Logistic Regression: Fast Algorithms and Generalization Bounds. IEEE TPAMI 27(6), 957–968 (2005). — 다중 클래스 + 정규화.

공식 docs

sklearn LogisticRegression: https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
확률 보정: https://scikit-learn.org/stable/modules/calibration.html
ROC & PR: https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

보조 자료

Hastie, Tibshirani, Friedman. ESL. 4장.
Bishop. PRML. 4.3장.

다음 편(5/9)에서는 정규화와 모델 선택을 다룬다. 선형·로지스틱 회귀에서 보았던 $L_1$·$L_2$ 페널티를 정식으로 정의하고, Ridge·Lasso·ElasticNet의 식과 그림을 본다. 그리고 cross-validation과 정보 기준(AIC·BIC)으로 모델을 어떻게 고르는지 본다.

시리즈 전체 안내: 시리즈 목차