"ML 기초 학습 (3/9) — 선형 회귀: 최소제곱부터 경사하강까지"

데이터에 직선을 긋는 일은 200년 전 가우스와 르장드르가 이미 풀었다. 그런데 그 풀이는 지금도 현대 딥러닝의 손실 함수 설계와 옵티마이저 흐름의 출발점이다. 선형 회귀는 작아 보이지만 ML 전체 구조의 축소판이다. 이번 편에서 손실, 최적화, 정규화의 기본을 한 식에서 본다.

0. 학습 목표

선형 회귀의 가설 함수 $\hat{y} = w^\top x + b$를 행렬로 풀어 쓸 수 있다.
잔차 제곱합(RSS)을 손실로 잡는 이유를 통계적 가정 (가우스 노이즈) 으로 설명한다.
정규방정식 $w^* = (X^\top X)^{-1} X^\top y$를 유도하고, 언제 못 쓰는지 안다.
경사하강을 한 단계 손으로 계산할 수 있다.
다항 회귀가 여전히 선형 모델인 이유를 설명한다.
잔차 분석으로 모델이 충분한지 점검할 수 있다.

1. 핵심 요약

선형 회귀는 $\hat{y} = w^\top x + b$ 꼴의 함수를 찾는다. 단순하지만 가장 잘 이해된 모델이다.
손실: 잔차 제곱합 $\sum (y_i - \hat{y}_i)^2$. 가우스 노이즈 가정에서의 최대우도 추정과 동치다.
닫힌 해: $w^* = (X^\top X)^{-1} X^\top y$. 작은 $d$면 한 줄로 끝난다.
닫힌 해가 깨지는 경우 (큰 $d$, 다중공선성): 경사하강 또는 정규화 (5편).
다항·상호작용 특성을 만들면 모델은 여전히 선형이지만 입력 공간이 비선형이 되어 곡선을 학습할 수 있다.

2. 직관 — 잔차 제곱을 왜 줄이는가

2.1 점 흩어진 데이터에 선을 긋기

산점도에 점이 흩어져 있다. 어떤 직선이 "가장 잘" 지나가는가? 직관은 단순하다: 점들로부터 떨어진 거리를 가능한 한 작게 만드는 선.

"거리"를 어떻게 측정할지가 결정 포인트다.

절댓값 합 $\sum |y_i - \hat{y}_i|$ → MAE 회귀 (이상치에 강건)
제곱 합 $\sum (y_i - \hat{y}_i)^2$ → 최소제곱 회귀 (수학적으로 다루기 쉽고 미분 가능)
절댓값 분위수 → quantile regression

이 시리즈에서는 제곱 합을 표준으로 쓴다. 미분이 깔끔하고, 가우스 노이즈 가정에서 최대우도 추정과 같다.

2.2 왜 제곱이 자연스러운가 (가우스 노이즈 가정)

데이터 생성 모델을 다음과 같이 가정하자.

$$ y_i = w^\top x_i + b + \varepsilon_i, \quad \varepsilon_i \sim \mathcal{N}(0, \sigma^2) $$

$\varepsilon_i$가 독립인 평균 0 가우스 노이즈라면, 데이터의 가능도(likelihood)는

$$ \mathcal{L}(w, b) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi}\sigma} \exp\!\Big(-\frac{(y_i - w^\top x_i - b)^2}{2\sigma^2}\Big) $$

로그를 취하면

$$ \log \mathcal{L} = -\frac{n}{2}\log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (y_i - w^\top x_i - b)^2 $$

가능도를 최대화하는 $w, b$는 RSS를 최소화하는 $w, b$ 와 같다. 즉 "제곱을 줄여라"는 그냥 직관이 아니라 가우스 노이즈 가정의 최대우도 추정이다.

2.3 역사 한 줄

Legendre, A.-M. Nouvelles méthodes pour la détermination des orbites des comètes (1805) — "최소제곱"이라는 용어 최초 사용.
Gauss, C. F. Theoria Motus Corporum Coelestium (1809) — 가우스 분포 가정 하에서 최소제곱이 최적이라는 정당화.

천체 궤도를 맞추던 시절의 수학이 그대로 현대 머신러닝에 살아 있다.

3. 정의와 표기

3.1 선형 모델 행렬 표기

데이터 $\{(x_i, y_i)\}_{i=1}^{n}$, $x_i \in \mathbb{R}^d$, $y_i \in \mathbb{R}$.

설계행렬(design matrix)을 다음과 같이 정의한다. 절편 $b$를 흡수하기 위해 1 열을 추가한다.

$$ X = \begin{bmatrix} 1 & x_{1,1} & \cdots & x_{1,d} \ 1 & x_{2,1} & \cdots & x_{2,d} \ \vdots & & & \vdots \ 1 & x_{n,1} & \cdots & x_{n,d} \end{bmatrix} \;\in\; \mathbb{R}^{n \times (d+1)} $$

$$ \beta = \begin{bmatrix} b \ w_1 \ \vdots \ w_d \end{bmatrix} \;\in\; \mathbb{R}^{d+1} $$

그러면 예측은

$$ \hat{y} = X \beta $$

손실 함수는

$$ \mathcal{L}(\beta) = \frac{1}{2n} \|y - X\beta\|_2^{2} $$

($\tfrac{1}{2n}$ 상수는 미분 이후 깔끔함을 위한 관용 — 최적해는 같다.)

3.2 두 가지 풀이 방법

방법	식	사용 조건
정규방정식	$\beta^* = (X^\top X)^{-1} X^\top y$	$X^\top X$가 가역, $d$ 작음
경사하강	반복 업데이트	큰 $d$, 큰 $n$, 또는 비선형 손실

4. 수식과 메커니즘

4.1 정규방정식 유도

$\mathcal{L}(\beta) = \tfrac{1}{2n}\|y - X\beta\|^2$에서 $\beta$에 대한 그래디언트:

$$ \nabla_\beta \mathcal{L} = \frac{1}{n} X^\top (X\beta - y) $$

0으로 놓으면

$$ X^\top X \beta = X^\top y $$

$$ \boxed{\beta^* = (X^\top X)^{-1} X^\top y} $$

이것이 정규방정식 (normal equation) 이다.

언제 못 쓰는가

$X^\top X$가 특이행렬 (다중공선성, $d > n$인 경우): 역행렬이 없거나 불안정. → Ridge (5편) 또는 SVD (np.linalg.lstsq).
$d$가 매우 크면 $(d+1)^3$의 역행렬 비용이 부담. → 경사하강.

4.2 경사하강

학습률 $\eta$로 반복 업데이트:

$$ \beta^{(t+1)} = \beta^{(t)} - \eta \nabla_\beta \mathcal{L}(\beta^{(t)}) = \beta^{(t)} - \frac{\eta}{n} X^\top (X\beta^{(t)} - y) $$

수렴 조건 (선형 회귀 손실은 컨벡스): $\eta < 2 / \lambda_{\max}(X^\top X / n)$ 이면 수렴.

미니배치 경사하강 (mini-batch SGD)은 매번 $B$개 표본만 써서 그래디언트를 추정한다. 7편에서 본격적으로 다룬다.

4.3 결정계수 R²

학습 결과의 적합도를 한 숫자로 보고 싶다면:

$$ R^2 = 1 - \frac{\sum_i (y_i - \hat{y}_i)^2}{\sum_i (y_i - \bar{y})^2} $$

분자는 잔차 제곱합 (residual sum of squares), 분모는 총 제곱합 (total sum of squares). R²는 모델이 평균보다 얼마나 더 분산을 설명했는가를 나타낸다.

R² = 1: 완벽
R² = 0: 평균 예측과 같은 수준
R² < 0: 평균 예측보다 나쁨

4.4 다항 회귀 — 여전히 선형이다

$\hat{y} = w_0 + w_1 x + w_2 x^2 + w_3 x^3$도 선형 모델이다. 왜?

피처를 $\phi(x) = (1, x, x^2, x^3)$로 변환하면 모델은 $\hat{y} = w^\top \phi(x)$ — $w$에 대해서는 여전히 선형이다.

이 기저 함수 (basis function) 트릭은 매우 강력하다. 다항식, 삼각함수, RBF 등 어떤 비선형 변환이든 가능하고, 모델은 변환된 공간에서 직선/초평면을 긋는다. 단, $d$가 커지면 정규화가 필수가 된다 (5편).

5. 다이어그램

잔차 그래프 형태로 진단:

잔차가 0 주변에 무작위로 흩어짐 → 적합 양호
잔차에 패턴(U자, 깔때기) 보임  → 모델 잘못, 추가 항 필요

6. 원리 워크스루 — sklearn 한 줄을 해부하다

코드 자체는 사실 거의 한 줄이다. 더 중요한 것은 그 한 줄 뒤에서 무엇이 일어나고 있는가이다.

6.1 표준 호출 한 줄

from sklearn.linear_model import LinearRegression
reg = LinearRegression().fit(X_tr, y_tr)

이 한 줄이 호출하는 것은 np.linalg.lstsq — SVD 기반의 최소제곱 해를 구하는 LAPACK 루틴이다. 정규방정식 $\beta^{*} = (X^{\top}X)^{-1} X^{\top} y$ 의 닫힌 해를 직접 역행렬로 풀지 않고 SVD로 푸는 이유는 다음 절에서 본다.

6.2 두 가지 풀이 — 정규방정식과 경사하강은 언제 갈리는가

무엇을 비교하는가 같은 손실 $\mathcal{L}(\beta) = \tfrac{1}{2n}\|y - X\beta\|_2^2$를 두 가지로 풀 수 있다. (a) 닫힌 해 $(X^{\top}X)^{-1} X^{\top} y$, (b) 반복 갱신 $\beta \leftarrow \beta - \eta \nabla \mathcal{L}$. 결과는 같은데 비용 구조가 다르다.

왜 두 가지가 모두 살아남았는가 정규방정식의 비용은 $O(d^3)$ — 피처 $d$에만 의존, 표본 $n$에는 한 번 곱하기. $d$가 작으면(수십 ~ 수백) 이 쪽이 압도적으로 빠르다. 반대로 $d$가 크면(수만~수백만; 텍스트·이미지·게놈) $O(d^3)$이 불가능하고, 경사하강의 $O(n d k)$ (반복 $k$) 가 유일한 길이 된다. 결국 데이터 규모가 알고리즘을 결정한다.

SVD가 $(X^{\top}X)^{-1}$ 자리를 차지한 이유 $X^{\top}X$가 거의 특이행렬(다중공선성)이면 역행렬이 폭발한다. SVD $X = U \Sigma V^{\top}$ 를 쓰면 $\beta^{*} = V \Sigma^{+} U^{\top} y$ — 작은 특이값을 자동으로 truncate해 수치적 안정성을 얻는다. sklearn LinearRegression이 SVD를 쓰는 이유. 이 동일한 SVD 시각이 5편(정규화)에서 Ridge의 동작을 설명하는 도구가 된다.

다음 단계로의 연결 경사하강이 표본 단위로 쪼개진 형태가 확률적 경사하강 (SGD) — 6편 신경망부터는 모든 학습이 이 변형으로 진행된다. 결국 선형회귀의 경사하강은 신경망 학습의 가장 단순한 예시다.

6.3 다항회귀와 과적합의 첫 등장

다항회귀는 $x$ 대신 $x, x^2, \ldots, x^d$를 피처로 넣는다는 사소한 변경이다. 그러나 $d$가 커질수록 피처 수가 $\binom{d+p}{p}$로 폭발하고, 모델은 훈련 데이터를 외워 버린다. 이 한 가지 관찰이 5편(정규화)의 모든 동기다. 선형 회귀라는 이름이 피처를 고정하지 않고 계수를 선형으로 둔다는 뜻임을 다시 떠올린다.

6.4 잔차로 진단하기

잔차 $r_i = y_i - \hat{y}_i$가 예측값과 무상관 + 정규분포에 가까우면 가우스 노이즈 가정이 데이터에 어느 정도 들어맞는다는 신호다. 잔차에 패턴이 보이면(예: 예측값이 클수록 잔차가 커지면) 가정 위반 — 8장에서 이를 이분산성·비선형성으로 다시 만난다.

7. 변형과 사례 — 왜 이 모델이 끝없이 변형되는가

선형회귀가 200년 넘게 살아남은 이유는 단순함이 아니라 확장 가능성 때문이다. 가정 한 줄을 갈아 끼우면 다른 도메인의 표준 도구가 된다.

7.1 가중 최소제곱 (Weighted Least Squares, WLS)

무엇이 바뀌는가 모든 잔차를 동등하게 제곱하는 대신, 표본마다 가중치 $w_i$를 부여한다.

$$ \mathcal{L}(\beta) = \frac{1}{2n} \sum_i w_i (y_i - x_i^\top \beta)^2 $$

닫힌 해: $\beta^{*} = (X^{\top} W X)^{-1} X^{\top} W y$, $W = \mathrm{diag}(w_1, \dots, w_n)$.

왜 등장했는가 물리·천문 관측에서 표본마다 측정 정확도가 다르다. 1809년 가우스가 천체 궤도 추정에서 이미 비슷한 아이디어를 다뤘고, 19세기 측지학(Bessel, Helmert)에서 표준 도구가 되었다. "신뢰할 만한 표본에 더 강한 발언권을 준다"는 발상.

무엇이 가능해졌는가 - 이분산 데이터(잔차 분산이 입력에 따라 다른): 분산이 큰 표본의 가중치를 줄여 일반 OLS의 편향을 보정. - 시계열의 최근 가중: 최근 표본에 더 큰 $w_i$를 주면 지수가중 회귀(EWMA + regression) 가 된다. - 비용 함수가 표본별로 다른 산업: 거짓 양성·거짓 음성 비용이 다르면 가중치로 표현.

한계와 다음 단계 가중치 $w_i$는 외부에서 주어져야 한다 — 모델이 학습으로 정하지 못한다. 이를 데이터에서 추론하게 만든 것이 GLS (Generalized Least Squares) 와 반복 재가중 최소제곱 (IRLS) — 4편 로지스틱 회귀의 학습 알고리즘이 이 패턴이다.

7.2 일반화 선형 모델 (Generalized Linear Models, GLM)

무엇이 바뀌는가 출력 $y$의 분포 가정을 가우스에서 다른 지수족(exponential family)으로 확장한다. 선형 결합 $\eta = w^{\top} x + b$와 평균 $\mu = \mathbb{E}[y]$을 연결함수 (link function) $g(\mu) = \eta$ 로 잇는다.

출력 데이터	분포	연결 함수	모델 이름
연속 실수	가우스	항등 $g(\mu) = \mu$	선형 회귀
이진 (0/1)	베르누이	로짓 $\log\frac{\mu}{1-\mu}$	로지스틱 회귀 (4편)
카운트 (0,1,2,…)	푸아송	로그 $\log \mu$	푸아송 회귀
양수 연속	감마	역수 $1/\mu$	감마 회귀

왜 등장했는가 Nelder & Wedderburn 1972, Generalized Linear Models (JRSS-A) 가 이 통합 시각을 처음 제시했다. 그 전에는 각 분포별로 별도 추정 알고리즘이 흩어져 있었다. 하나의 학습 알고리즘 (IRLS) 이 모든 분포를 다룬다는 발견이 통계학 교과서의 구조를 바꾸었다.

무엇이 가능해졌는가 - 의학: 사망률 회귀(베르누이), 발병 건수 회귀(푸아송). - 보험: 청구 빈도(푸아송) + 청구 금액(감마)의 두 단계 모델. - 마케팅: 클릭률(로지스틱), 구매 금액(감마). - 4편이 로지스틱 회귀를 GLM의 한 사례로 다시 볼 수 있게 한다.

한계와 다음 단계 GLM은 선형 결합을 고집한다. 비선형 관계는 다항식 또는 GAM(Generalized Additive Models)으로 확장하거나, 6편 신경망으로 넘어간다. 신경망은 사실상 학습된 표현 + GLM 출력 헤드의 구조다.

7.3 강건 회귀 (Robust Regression) — Huber, Quantile

무엇이 바뀌는가 제곱 손실 대신 이상치에 둔감한 손실을 쓴다.

Huber 손실: 작은 잔차는 제곱, 큰 잔차는 절댓값. 두 영역의 경계가 매개변수 $\delta$.
분위수 회귀 (Quantile): 평균이 아니라 $\tau$-분위수를 추정. $\tau = 0.5$이면 중앙값 회귀.

왜 등장했는가 Huber 1964, Robust Estimation of a Location Parameter (Ann. Math. Stat.) 가 강건 통계의 출발. 제곱 손실이 이상치 한 개에 의해 무너지는 현상 — 가우스 가정이 깨졌을 때의 OLS 취약성 — 을 정량화한 첫 결과.

무엇이 가능해졌는가 - 금융: 가격 시계열의 극단 사건이 평균 회귀를 망치는 문제 회피. - 리스크 모델링: 평균이 아니라 95% 분위수(VaR)를 직접 추정. - 부동산: 평균 가격이 아니라 시장 하단·상단을 별도 추정해 가격 범위 제시.

한계와 다음 단계 강건 회귀는 어떤 손실을 쓸지 결정하는 일이 도메인 지식에 의존한다. 7편(딥러닝 학습 기법)에서 손실 함수 설계가 신경망에서 어떻게 일반화되는지 본다 (focal loss, contrastive loss 등).

7.4 Bayesian Linear Regression

무엇이 바뀌는가 계수 $\beta$에 사전 분포를 두고 사후 분포를 추정한다. 단일 $\beta^{*}$ 대신 $p(\beta \mid \text{data})$ 전체를 얻는다.

왜 등장했는가 작은 표본에서 OLS의 점추정은 신뢰구간 폭이 비현실적이다. Bayesian 시각은 불확실성을 데이터로 줄여 나가는 추론 절차를 명시적으로 표현한다. 가우스 사전을 두면 사후도 가우스 — 닫힌 해가 존재 — 이고, 그 평균이 곧 Ridge 회귀의 해와 같다는 동치가 5편(정규화)에서 나온다.

무엇이 가능해졌는가 - 작은 표본 의학 연구의 신뢰구간. - 베이지안 A/B 테스트 (효과 크기의 사후 분포). - 능동 학습 (active learning): 사후 분산이 큰 점을 우선 측정.

한계와 다음 단계 사전 분포 선택이 결과에 영향을 미친다. 그래도 사전이 명시적으로 적혀 있다는 점이 OLS의 암묵적 가정보다 솔직하다는 평을 받는다.

7.5 어디서 쓰이는가

부동산 가격 예측: 면적·위치·연식의 선형 결합 + 다항 항.
의학 — 용량-반응: 약물 용량과 효과의 첫 모델로 시작, 후에 GLM 또는 mixed-effect 모델로 확장.
경제 지표 추세: GDP·실업률의 시계열 추세 추정.
A/B 테스트의 보정: 처치 효과를 공변량 회귀로 추정 (CUPED).
LLM 학습 손실 곡선: 학습률 스케줄을 간단한 선형 추세로 적합해 수렴 시점 예측.
물리·천문 관측: 가우스가 1809년 천체 궤도 추정에 처음 도입한 그 자리에서 200년째 사용 중.

8. 한계와 실패 양상 — 한계가 다음 모델을 낳는다

8.1 선형 가정 위반

진짜 관계가 곡선이면 직선이 따라가지 못한다. R²가 낮고, 잔차에 곡선 패턴이 보인다.

왜 본질적 한계인가 선형 모델은 피처의 선형 결합만 표현한다. 입력 사이의 곱(상호작용)이나 비선형 변환은 피처가 미리 주어져야 한다. 가우스가 1809년에 도입한 시점부터 똑같이 안고 있는 본원적 제약이다.

어떻게 진단하는가 잔차 vs 예측값 산점도에서 곡선·U자 패턴. R²가 낮고 train·test R²가 둘 다 낮으면 과소적합.

다음 단계 다항회귀 → GAM(스플라인) → 신경망(6편)으로 이어지는 표현력 확장 트랙. 핵심 발상: 피처를 학습하면 선형 모델은 여전히 살아 있다.

8.2 이상치 민감성

제곱 손실은 큰 잔차를 더 크게 키운다. 이상점 하나가 회귀선 전체를 끌어당긴다.

왜 본질적 한계인가 가우스 분포의 꼬리는 $\exp(-x^2/2)$로 빠르게 떨어진다 — 데이터 생성 분포가 가우스라는 가정과 큰 잔차에 더 큰 페널티가 일관성을 이룬다. 그래서 실제 데이터의 꼬리가 두꺼우면 OLS는 그 두꺼움을 모델 추정의 편향으로 흡수한다.

어떻게 진단하는가 Cook's distance, leverage, studentized residual로 영향력 큰 표본을 식별. 잔차 Q-Q plot이 꼬리에서 정규선을 이탈.

다음 단계 7.3의 Huber·Quantile 회귀, 또는 RANSAC(Random Sample Consensus) 같은 강건 추정.

8.3 다중공선성 (Multicollinearity)

피처들이 서로 강하게 상관되면 $X^{\top}X$가 거의 특이행렬이 되어 계수의 분산이 폭발한다.

왜 본질적 한계인가 "동일 정보를 두 피처가 공유"하는 상황에서 모델은 어느 피처에 가중치를 줄지 결정할 근거가 없다. 데이터 살짝 흔들리면 계수가 크게 흔들린다.

어떻게 진단하는가 VIF (Variance Inflation Factor) > 5~10이면 경고. 상관행렬에서 0.9 이상 페어 검출.

다음 단계 5편 정규화에서 Ridge가 이 문제를 정면으로 해결한다 — $\lambda I$를 더해 강제로 가역화하면서 모든 특이값을 같은 비율로 축소. Lasso는 한 발 더 나아가 다중공선 그룹에서 한 변수만 살아남게 한다.

8.4 이분산성 (Heteroscedasticity)

잔차 분산이 입력에 따라 변한다. 가우스 노이즈 가정의 분산이 상수다라는 부분이 깨진다.

왜 본질적 한계인가 OLS의 표준오차·신뢰구간이 잘못 계산된다. 점추정 $\hat{\beta}$은 일관적(consistent)이지만 추정의 불확실성을 잘못 보고하게 된다.

어떻게 진단하는가 잔차 vs 예측값 그래프에서 부채꼴(funnel) 모양. Breusch–Pagan 검정, White 검정.

다음 단계 7.1 WLS 또는 GLS, 그리고 보다 일반적으로는 GLM (7.2) 의 분산 함수 명시적 지정.

8.5 외삽 (Extrapolation)

훈련 범위 밖 입력에서는 어떤 모델도 신뢰할 수 없다.

왜 본질적 한계인가 모델은 본 데이터의 영역에서만 학습된 함수다. 그 밖에서는 모델 구조가 외삽 행동을 결정 — 선형 회귀는 직선을 밖으로 뻗고, 다항 회귀는 차수에 따라 극단으로 발산한다. 어떤 선택도 "진실"이 아니다.

어떻게 진단하는가 입력의 distance-to-training-distribution 측정 (Mahalanobis distance, kNN distance).

다음 단계 보정된 불확실성(예측구간, Conformal Prediction), Bayesian 회귀의 사후 분산 — 외삽 영역에서 분산이 자동으로 커진다.

8.6 $p \gg n$ — 피처가 표본보다 많음

$X^{\top}X$가 비가역이 되어 닫힌 해 자체가 정의되지 않는다.

왜 본질적 한계인가 미정해(under-determined) 시스템 — 무한히 많은 $\beta$가 훈련 데이터를 완벽히 맞춘다. 모델이 어떤 해를 선택할지는 가정 또는 정규화가 결정해야 한다.

어떻게 진단하는가 $d > n$이면 즉시. 텍스트(BoW 차원 수만 → 수십만), 게놈, 고해상도 영상에서 표준 상황.

다음 단계 5편 정규화의 모든 도구 — Lasso(희소 해), Ridge(축소 해), ElasticNet(둘 다). 또는 차원 축소(PCA, 6편의 임베딩 학습) 후 회귀.

한계가 알려주는 흐름

선형회귀 한 모델의 6가지 한계가 곧 ML의 다음 6가지 발전을 압축한다: 비선형성 → 신경망(6편) · 이상치 → 강건 통계 · 다중공선성 → 정규화(5편) · 이분산성 → GLM(7.2) · 외삽 → 불확실성 추정 · $p \gg n$ → 희소 추정(5편).

9. 정리된 결론 — 보지 않고 답해 보라

이 글이 답한 핵심 질문 5개. 먼저 답을 가린 채로 한 줄로 답해 본 뒤 정답과 비교한다.

Q1. 정규방정식과 경사하강은 결과가 같은데 왜 둘 다 쓰는가?

정답 데이터 규모가 비용 구조를 바꾸기 때문이다. 왜 정규방정식 $O(d^3)$은 피처 $d$가 작을 때 압도적으로 빠르지만, $d$가 수만~수백만이면 불가능해진다. 경사하강 $O(n d k)$는 큰 $d$에서 유일한 길. 6편 신경망의 SGD가 이 변형이다. (본문 6.2)

Q2. sklearn `LinearRegression`은 왜 $(X^{\top}X)^{-1}$을 직접 계산하지 않는가?

정답 $X^{\top}X$가 거의 특이행렬일 때 역행렬이 폭발하기 때문. 대신 SVD를 쓴다. 왜 $X = U\Sigma V^{\top}$ 분해 후 작은 특이값을 자동으로 truncate하면 다중공선성이 있어도 수치적으로 안정적인 해를 얻는다. 같은 SVD 시각이 5편 Ridge의 동작도 설명한다. (본문 6.2)

Q3. 다항회귀에서 차수 $d$를 키울수록 train R²는 오르는데 왜 test R²는 어느 시점부터 떨어지는가?

정답 과적합. 피처 수가 $\binom{d+p}{p}$로 폭증해 모델이 훈련 데이터를 외워 버린다. 왜 표본 수 $n$이 고정인 상태에서 파라미터가 늘면 모델 분산이 커진다(1편 편향-분산 분해). 5편 정규화가 이 문제의 정면 답. (본문 6.3, 8.6)

Q4. 잔차 plot에서 부채꼴(funnel) 모양이 보이면 어떤 가정이 깨진 것인가? 무엇으로 대응하나?

정답 이분산성(heteroscedasticity) — 잔차 분산이 입력에 따라 변한다는 신호. 점추정은 살아남지만 신뢰구간이 잘못 보고된다. 대응은 WLS 또는 GLM. 왜 가우스 노이즈 가정의 분산이 상수다 부분이 깨진 것. 가중 최소제곱은 noisy 표본을 down-weight하고, GLM은 분산 함수를 분포로 명시적으로 둔다. (본문 8.4, 7.1, 7.2)

Q5. 선형회귀의 6가지 한계 중 외삽만 다른 모델로 풀리지 않는 이유는?

정답 외삽은 모델 능력이 아니라 데이터 영역의 문제이기 때문. 왜 다른 5가지는 모델을 바꿔(비선형·정규화·강건 손실 등) 해결할 수 있다. 외삽은 본 적 없는 영역에서의 예측이라 어떤 모델도 진실을 보장 못 한다. 대신 불확실성을 정직하게 보고하는 방향 — Bayesian 사후 분산, Conformal Prediction — 이 답이 된다. (본문 8.5)

자가점검 4~5개 이상 한 줄로 즉시 답이 떠올랐다면 본문이 머릿속에 들어온 것이다. 막힌 질문이 있다면 본문 해당 챕터(괄호 안 표기)로 돌아가 다시 읽기.

10. 추가 학습

1차 자료

Legendre, A.-M. Nouvelles méthodes pour la détermination des orbites des comètes (1805). — 최소제곱 최초 명명.
Gauss, C. F. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium (1809). — 가우스 분포 + 최소제곱 정당화.
Stigler, S. M. The History of Statistics: The Measurement of Uncertainty Before 1900, Harvard 1986. — 최소제곱 역사.

공식 docs

sklearn LinearRegression: https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares
np.linalg.lstsq: https://numpy.org/doc/stable/reference/generated/numpy.linalg.lstsq.html

보조 자료

Hastie, Tibshirani, Friedman. Elements of Statistical Learning. 3장.
Bishop. Pattern Recognition and Machine Learning. 3장.

다음 편(4/9)은 로지스틱 회귀다. "회귀"라고 부르지만 사실은 분류 모델이다. 선형 결합 $w^\top x + b$를 sigmoid에 통과시켜 확률로 만든다는 발상 하나로, cross-entropy, softmax, MLE 추정의 모든 출발점이 잡힌다.

시리즈 전체 안내: 시리즈 목차

방법	식	사용 조건
정규방정식	\(\beta^* = (X^\top X)^{-1} X^\top y\)	\(X^\top X\)가 가역, \(d\) 작음
경사하강	반복 업데이트	큰 \(d\), 큰 \(n\), 또는 비선형 손실

출력 데이터	분포	연결 함수	모델 이름
연속 실수	가우스	항등 \(g(\mu) = \mu\)	선형 회귀
이진 (0/1)	베르누이	로짓 \(\log\frac{\mu}{1-\mu}\)	로지스틱 회귀 (4편)
카운트 (0,1,2,…)	푸아송	로그 \(\log \mu\)	푸아송 회귀
양수 연속	감마	역수 \(1/\mu\)	감마 회귀