"LLM 핵심 학습 (6/6) — 학습 로드맵: 단계별 코스·논문 10편·저장소 10선"

시리즈 1~5편은 원리를 다뤘다. 이 편은 그 원리를 손에 익히기 위한 순서다. 12주 코스 → 핵심 논문 10편 → 실습 저장소 10선 → 자기 평가 체크 → 다음 단계 후보.

0. 학습 목표

12주 코스에서 어떤 주에 무엇을 할지가 한눈에 보인다.
핵심 논문 10편을 왜 그 순서로 읽는지 안다.
저장소 10선을 어떤 목적으로 어떤 단계에 손에 잡는지 안다.
자가 평가 체크로 다음 학습 단계(에이전트, RAG 엔지니어링, 학습 인프라 등)를 결정한다.

1. 12주 코스

이 시리즈 5편이 끝났다는 가정으로, 그 다음 12주를 구성한다. 매주 3가지 활동: 읽기 → 코드 모작 → 실험.

1.1 0~2주차 — 기본 트랜스포머 손으로 짓기

읽기: Vaswani 2017 + 1편 복습.
모작: nanoGPT를 처음부터 빈 파일에 옮겨 쓴다.
실험: tiny shakespeare에서 perplexity가 10 이하로 떨어지는지 확인.

1.2 3~4주차 — 토크나이저 + 임베딩

읽기: Sennrich 2016 (BPE), Kudo & Richardson 2018 (SentencePiece).
모작: BPE를 50줄 미만으로 직접 구현.
실험: 한국어·영어 코퍼스에서 어휘 크기 변경에 따른 압축률 비교.

1.3 5~6주차 — 디코딩 전략

읽기: Holtzman 2020 (Top-p), Leviathan 2023 (Speculative).
모작: Greedy/Beam/Top-p/Min-p 4개 디코더를 한 모듈로.
실험: 같은 입력에 대해 4개 디코더의 BLEU·반복률 비교.

1.4 7~8주차 — 파인튜닝 (LoRA · QLoRA)

읽기: Hu 2021 (LoRA), Dettmers 2023 (QLoRA).
모작: 7B 모델 + LoRA로 한국어 instruction 데이터 학습.
실험: rank \(r \in \{4, 8, 32\}\)에서 학습 손실·MMLU 비교.

1.5 9~10주차 — RAG

읽기: Lewis 2020 (RAG), Karpukhin 2020 (DPR).
모작: FAISS + BGE-M3 + LLM으로 RAG 파이프라인 빌드.
실험: 검색 청크 크기·top-k 변화의 답변 사실성 영향.

1.6 11~12주차 — 평가와 운영

읽기: 4편의 RAGAS 가이드 + 5편 perplexity·calibration 절.
모작: 자기 RAG에 평가 하네스 추가.
실험: 환각률·latency·비용 3-축 보드.

각 주 끝에는 체크포인트 노트를 남긴다. 노트 형식: 무엇을 만들었나 / 무엇이 안 됐나 / 다음 주 학습 신호.

2. 핵심 논문 10편 — 읽는 순서

각 논문은 시리즈에서 어디에 해당하는지와 함께 표기한다.

Vaswani et al., 2017, Attention Is All You Need — 1편의 출발. arXiv:1706.03762.
Sennrich et al., 2016, Neural Machine Translation of Rare Words with Subword Units — BPE의 원전. arXiv:1508.07909.
Su et al., 2021, RoFormer: Rotary Position Embedding — 1편 6장. arXiv:2104.09864.
Hu et al., 2021, LoRA — 2편. arXiv:2106.09685.
Dettmers et al., 2023, QLoRA — 2편 후반. arXiv:2305.14314.
Holtzman et al., 2020, The Curious Case of Neural Text Degeneration — 3편. arXiv:1904.09751.
Lewis et al., 2020, Retrieval-Augmented Generation — 4편. arXiv:2005.11401.
Wei et al., 2022, Chain-of-Thought Prompting — 4편 후반. arXiv:2201.11903.
Fedus et al., 2022, Switch Transformer — 4편 MoE. arXiv:2101.03961.
He et al., 2016, Deep Residual Learning — 5편 학습 안정성. arXiv:1512.03385.

읽는 순서의 원칙: 모델 내부 → 학습 → 활용 → 시스템. 시간 여유가 있으면 다음 5편을 보너스로:

Brown 2020 (GPT-3). 12. Ouyang 2022 (InstructGPT). 13. Rafailov 2023 (DPO). 14. Touvron 2023 (LLaMA 2). 15. Liu 2023 (Lost in the Middle).

3. 실습 저장소 10선

저장소는 직접 코드를 읽고 한 부분이라도 손대 보는 것이 핵심이다.

karpathy/nanoGPT — 250줄 GPT. 1편 모든 식이 한 파일에. github.com/karpathy/nanoGPT.
karpathy/minbpe — BPE 토크나이저 미니 구현. github.com/karpathy/minbpe.
huggingface/transformers — 실서비스급 트랜스포머 표준 라이브러리. generation/utils.py가 3편의 모든 디코더를 담는다. github.com/huggingface/transformers.
huggingface/peft — LoRA/Adapter/Prefix-Tuning 표준 구현. github.com/huggingface/peft.
TimDettmers/bitsandbytes — QLoRA의 NF4·양자화 백엔드. github.com/TimDettmers/bitsandbytes.
Dao-AILab/flash-attention — FlashAttention v2·v3. github.com/Dao-AILab/flash-attention.
vllm-project/vllm — 프로덕션 LLM 서빙. PagedAttention·Speculative 지원. github.com/vllm-project/vllm.
facebookresearch/faiss — 벡터 검색 표준. github.com/facebookresearch/faiss.
langchain-ai/langchain — RAG·에이전트 오케스트레이션. github.com/langchain-ai/langchain. (가벼움이 필요하면 llama-index/llama_index.)
mistralai/mistral-common + mistralai/mistral-inference — Mixtral 등 MoE 모델의 공식 추론 구현. github.com/mistralai/mistral-inference.

읽는 순서 권장: 1 → 2 → 3 → 4 → 5 → 6 → 7 → (8, 9 병행) → 10.

4. 자가 평가 체크리스트

4.0 시리즈 종합 — 보지 않고 답해 보라 (정답 포함)

이 시리즈가 답한 핵심 5질문. 30문항 상세 평가에 들어가기 전 한 줄로 답해 보고 정답과 비교.

Q1. 트랜스포머 한 블록의 4가지 핵심 구성 요소는?

정답 토큰화·임베딩·Self-Attention(+위치 인코딩)·Feed-Forward MLP. 그 사이를 Residual + LayerNorm이 묶음. 왜 1편이 다룬 내부 흐름 의 전부. FFN이 모델 파라미터의 약 2/3 — attention은 정보 라우팅, MLP는 의미 변환. (1편 §7 종합)

Q2. 풀 파인튜닝 대비 QLoRA가 메모리를 어떻게 10배 가까이 줄이는가?

정답 세 가지 동시 적용: (a) base 가중치를 4-bit NF4로 고정 — 학습 안 함, (b) LoRA로 0.1% 파라미터만 학습, (c) Paged Optimizer로 옵티마이저 상태를 CPU↔GPU swap. 왜 풀 파인튜닝의 56GB가 옵티마이저 상태 4× 에서 옴 (2편 §3). QLoRA는 학습 파라미터를 줄여 옵티마이저 상태 비용 자체를 제거. (2편 §6)

Q3. 디코딩 알고리즘 선택의 핵심 trade-off는?

정답 확신 있는 분포(번역·요약) 는 Beam/Greedy, 창의적 생성(글쓰기) 은 Top-p + Temperature. Speculative Decoding은 latency를 직접 줄임 (어떤 알고리즘과도 결합 가능). 왜 Determinism vs Diversity 축. + Latency 축이 별도. Beam은 결정론적이지만 다양성 부족, stochastic은 그 반대. Repetition penalty가 두 축 모두에서 보조 (3편 §3·§4·§5·§6).

Q4. 4가지 고급 기법 (RAG·CoT·MoE·ICL) 의 조합 전략은?

정답 RAG로 외부 지식 주입, CoT로 추론 단계 명시, MoE로 효율 + 표현력, ICL로 적응. 각 기법은 다른 문제를 풀므로 함께 적용 가능. 왜 한 기법을 만능 처방으로 쓰면 실패. 예: RAG만으로는 추론 불가, CoT만으로는 외부 지식 부족. 현대 LLM 시스템은 보통 RAG + CoT + ICL을 함께 사용. (4편 §6)

Q5. LLM 학습·추론을 받치는 수학적 5가지 기둥은?

정답 Softmax-CE (분류 표준 + 깔끔한 그래디언트 \(p-y\)) · KL Divergence (분포 거리, 비대칭) · Perplexity (\(e^{\mathrm{CE}}\), 평가 메트릭) · Residual + LayerNorm/RMSNorm (그래디언트 흐름 + 분포 안정화) · AdamW (decoupled weight decay). 왜 5가지가 모든 트랜스포머 학습에 동시 작동. 하나라도 빠지면 깊은 망 학습이 무너짐. (5편 §2·§3·§4·§5·§6·§7·§8)

답하지 못한 질문이 있다면 해당 편 9장 (또는 5편 9장)으로 돌아가 재독.

4.1 상세 자가 평가 — 30문항 (각 30초 안에 답할 수 있어야 함, 편별 5문항)

1편 (Fundamentals)

토큰화의 정의를 함수 시그니처로 적는다.
\(\sqrt{d_k}\) 스케일링이 빠지면 무엇이 일어나는가.
Multi-Head Attention의 헤드 수와 파라미터 수의 관계를 적는다.
RoPE와 ALiBi의 작용 위치를 한 줄로 비교한다.
Lost in the Middle을 정성적으로 설명한다.

2편 (Fine-tuning)

AdamW 옵티마이저 상태가 가중치 대비 메모리를 몇 배 잡는가.
LoRA의 \(A, B\) 모양과 초기화 규칙을 적는다.
LoRA를 베이스에 합치는 식을 적는다.
NF4가 INT4와 다른 점을 한 줄로 답한다.
Distillation의 \(T^2\) 인자가 왜 필요한지 설명한다.

3편 (Decoding)

Greedy와 Beam의 출력 결정성을 비교한다.
Top-p가 Top-k보다 동적이라는 의미를 설명한다.
Frequency vs Presence Penalty의 차이를 적는다.
Speculative Decoding의 수락 식을 적는다.
AR과 MLM의 학습 목표 차이를 비교한다.

4편 (Advanced)

DPR의 대조 학습 손실 식을 적는다.
Cross-Encoder Reranker가 어떤 단계에 들어가는지 답한다.
CoT가 어떤 규모의 모델에서 emergent했는지 답한다.
Switch와 Mixtral의 라우팅 차이를 적는다.
ICL의 zero/one/few-shot을 구분한다.

5편 (Math)

softmax-CE 그래디언트가 \(p - y\)인 이유를 유도한다.
KL이 비대칭인 의미를 설명한다.
Perplexity와 cross-entropy의 관계를 적는다.
잔차 연결이 그래디언트 흐름에 미치는 영향을 설명한다.
LayerNorm과 RMSNorm 식의 차이를 적는다.

시스템 종합

7B 모델 LoRA 학습의 메모리 분해(4분할)를 적는다.
KV 캐시 크기를 시퀀스·헤드 수·헤드 차원으로 계산한다.
Mixtral 8x7B의 활성 파라미터를 추정한다.
RAG가 통하지 않는 경우를 두 개 든다.
"1M 컨텍스트면 RAG는 불필요한가"에 답한다.

답하지 못한 문항은 해당 편의 자가 점검 체크리스트 절로 돌아가서 복습한다.

5. 다음 단계 — 어디로 가는가

기본 LLM 원리가 손에 잡혔다면 다음 4갈래 중 하나로 깊게 들어갈 수 있다.

5.1 Inference Engineering

핵심 자료: vLLM, TensorRT-LLM, GPTQ/AWQ 양자화.
다룰 주제: KV 캐시 페이징, FlashAttention v3, Speculative + MoE.

5.2 RAG / Search Engineering

핵심 자료: ColBERT(late-interaction), 하이브리드 검색(BM25 + 벡터), 청킹·메타데이터·필터링.
다룰 주제: 검색 평가, 멀티모달 RAG, agentic RAG.

5.3 Post-Training / Alignment

핵심 자료: InstructGPT(Ouyang 2022), DPO(Rafailov 2023), Constitutional AI, Reward Model.
다룰 주제: 안전·정직·유용성의 다목적 최적화.

5.4 Agent / Orchestration

핵심 자료: ReAct, Toolformer, Function Calling, ReST^EM, Multi-Agent 구조.
다룰 주제: 도구 호출, 메모리 시스템, 평가 하네스.

6. 추가 학습 — 통합 자료

Deep Learning (Goodfellow et al., 2016): 6, 8, 10장.
Speech and Language Processing (Jurafsky & Martin), 3판 8~12장.
Stanford CS336 Language Modeling from Scratch (2024+) 강의 시리즈.
Andrej Karpathy, Let's build GPT, Let's build the GPT Tokenizer (YouTube). 1, 2편 시각 동반.
Anthropic, Building Effective Agents (2024). Agent 패턴.
OpenAI, Spec for the OpenAI API (developers.openai.com). 디코딩 파라미터 표준 정의.

7. 시리즈 마무리

이 6편은 원리 → 학습 → 활용 → 시스템의 사다리를 한 줄로 세웠다. 다음에 던지는 주제가 무엇이든(예: MoE 라우터 안정화, 멀티모달 attention, 8-bit KV 캐시, longest-prefix 캐싱) 이 5편의 골격으로 다시 풀어 쓸 수 있다. 질문을 던지면 같은 강의 포맷으로 한 편이 더 붙는다.

학습은 여기서 끝이 아니라 시작이다.

이 글은 LLM 핵심 학습 시리즈의 6/6 편이자 마지막이다. 1~6편을 손에 익히면 다음 시리즈(추론 엔지니어링/RAG/얼라인먼트/에이전트)로 이어진다.

시리즈 전체 안내: 시리즈 목차

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"

- 5월 13, 2026

이 블로그 검색

MaJu's Note