"LLM 핵심 학습 (6/6) — 학습 로드맵: 단계별 코스·논문 10편·저장소 10선"

시리즈 1~5편은 원리를 다뤘다. 이 편은 그 원리를 손에 익히기 위한 순서다. 12주 코스 → 핵심 논문 10편 → 실습 저장소 10선 → 자기 평가 체크 → 다음 단계 후보.


0. 학습 목표

  • 12주 코스에서 어떤 주에 무엇을 할지가 한눈에 보인다.
  • 핵심 논문 10편을 왜 그 순서로 읽는지 안다.
  • 저장소 10선을 어떤 목적으로 어떤 단계에 손에 잡는지 안다.
  • 자가 평가 체크로 다음 학습 단계(에이전트, RAG 엔지니어링, 학습 인프라 등)를 결정한다.

1. 12주 코스

이 시리즈 5편이 끝났다는 가정으로, 그 다음 12주를 구성한다. 매주 3가지 활동: 읽기 → 코드 모작 → 실험.

1.1 0~2주차 — 기본 트랜스포머 손으로 짓기

  • 읽기: Vaswani 2017 + 1편 복습.
  • 모작: nanoGPT를 처음부터 빈 파일에 옮겨 쓴다.
  • 실험: tiny shakespeare에서 perplexity가 10 이하로 떨어지는지 확인.

1.2 3~4주차 — 토크나이저 + 임베딩

  • 읽기: Sennrich 2016 (BPE), Kudo & Richardson 2018 (SentencePiece).
  • 모작: BPE를 50줄 미만으로 직접 구현.
  • 실험: 한국어·영어 코퍼스에서 어휘 크기 변경에 따른 압축률 비교.

1.3 5~6주차 — 디코딩 전략

  • 읽기: Holtzman 2020 (Top-p), Leviathan 2023 (Speculative).
  • 모작: Greedy/Beam/Top-p/Min-p 4개 디코더를 한 모듈로.
  • 실험: 같은 입력에 대해 4개 디코더의 BLEU·반복률 비교.

1.4 7~8주차 — 파인튜닝 (LoRA · QLoRA)

  • 읽기: Hu 2021 (LoRA), Dettmers 2023 (QLoRA).
  • 모작: 7B 모델 + LoRA로 한국어 instruction 데이터 학습.
  • 실험: rank \(r \in \{4, 8, 32\}\)에서 학습 손실·MMLU 비교.

1.5 9~10주차 — RAG

  • 읽기: Lewis 2020 (RAG), Karpukhin 2020 (DPR).
  • 모작: FAISS + BGE-M3 + LLM으로 RAG 파이프라인 빌드.
  • 실험: 검색 청크 크기·top-k 변화의 답변 사실성 영향.

1.6 11~12주차 — 평가와 운영

  • 읽기: 4편의 RAGAS 가이드 + 5편 perplexity·calibration 절.
  • 모작: 자기 RAG에 평가 하네스 추가.
  • 실험: 환각률·latency·비용 3-축 보드.

각 주 끝에는 체크포인트 노트를 남긴다. 노트 형식: 무엇을 만들었나 / 무엇이 안 됐나 / 다음 주 학습 신호.


2. 핵심 논문 10편 — 읽는 순서

각 논문은 시리즈에서 어디에 해당하는지와 함께 표기한다.

  1. Vaswani et al., 2017, Attention Is All You Need — 1편의 출발. arXiv:1706.03762.
  2. Sennrich et al., 2016, Neural Machine Translation of Rare Words with Subword Units — BPE의 원전. arXiv:1508.07909.
  3. Su et al., 2021, RoFormer: Rotary Position Embedding — 1편 6장. arXiv:2104.09864.
  4. Hu et al., 2021, LoRA — 2편. arXiv:2106.09685.
  5. Dettmers et al., 2023, QLoRA — 2편 후반. arXiv:2305.14314.
  6. Holtzman et al., 2020, The Curious Case of Neural Text Degeneration — 3편. arXiv:1904.09751.
  7. Lewis et al., 2020, Retrieval-Augmented Generation — 4편. arXiv:2005.11401.
  8. Wei et al., 2022, Chain-of-Thought Prompting — 4편 후반. arXiv:2201.11903.
  9. Fedus et al., 2022, Switch Transformer — 4편 MoE. arXiv:2101.03961.
  10. He et al., 2016, Deep Residual Learning — 5편 학습 안정성. arXiv:1512.03385.

읽는 순서의 원칙: 모델 내부 → 학습 → 활용 → 시스템. 시간 여유가 있으면 다음 5편을 보너스로:

  1. Brown 2020 (GPT-3). 12. Ouyang 2022 (InstructGPT). 13. Rafailov 2023 (DPO). 14. Touvron 2023 (LLaMA 2). 15. Liu 2023 (Lost in the Middle).

3. 실습 저장소 10선

저장소는 직접 코드를 읽고 한 부분이라도 손대 보는 것이 핵심이다.

  1. karpathy/nanoGPT — 250줄 GPT. 1편 모든 식이 한 파일에. github.com/karpathy/nanoGPT.
  2. karpathy/minbpe — BPE 토크나이저 미니 구현. github.com/karpathy/minbpe.
  3. huggingface/transformers — 실서비스급 트랜스포머 표준 라이브러리. generation/utils.py가 3편의 모든 디코더를 담는다. github.com/huggingface/transformers.
  4. huggingface/peft — LoRA/Adapter/Prefix-Tuning 표준 구현. github.com/huggingface/peft.
  5. TimDettmers/bitsandbytes — QLoRA의 NF4·양자화 백엔드. github.com/TimDettmers/bitsandbytes.
  6. Dao-AILab/flash-attention — FlashAttention v2·v3. github.com/Dao-AILab/flash-attention.
  7. vllm-project/vllm — 프로덕션 LLM 서빙. PagedAttention·Speculative 지원. github.com/vllm-project/vllm.
  8. facebookresearch/faiss — 벡터 검색 표준. github.com/facebookresearch/faiss.
  9. langchain-ai/langchain — RAG·에이전트 오케스트레이션. github.com/langchain-ai/langchain. (가벼움이 필요하면 llama-index/llama_index.)
  10. mistralai/mistral-common + mistralai/mistral-inference — Mixtral 등 MoE 모델의 공식 추론 구현. github.com/mistralai/mistral-inference.

읽는 순서 권장: 1 → 2 → 3 → 4 → 5 → 6 → 7 → (8, 9 병행) → 10.


4. 자가 평가 체크리스트

4.0 시리즈 종합 — 보지 않고 답해 보라 (정답 포함)

이 시리즈가 답한 핵심 5질문. 30문항 상세 평가에 들어가기 전 한 줄로 답해 보고 정답과 비교.

Q1. 트랜스포머 한 블록의 4가지 핵심 구성 요소는?

정답 토큰화·임베딩·Self-Attention(+위치 인코딩)·Feed-Forward MLP. 그 사이를 Residual + LayerNorm이 묶음. 1편이 다룬 내부 흐름 의 전부. FFN이 모델 파라미터의 약 2/3 — attention은 정보 라우팅, MLP는 의미 변환. (1편 §7 종합)

Q2. 풀 파인튜닝 대비 QLoRA가 메모리를 어떻게 10배 가까이 줄이는가?

정답 세 가지 동시 적용: (a) base 가중치를 4-bit NF4로 고정 — 학습 안 함, (b) LoRA로 0.1% 파라미터만 학습, (c) Paged Optimizer로 옵티마이저 상태를 CPU↔GPU swap. 풀 파인튜닝의 56GB가 옵티마이저 상태 4× 에서 옴 (2편 §3). QLoRA는 학습 파라미터를 줄여 옵티마이저 상태 비용 자체를 제거. (2편 §6)

Q3. 디코딩 알고리즘 선택의 핵심 trade-off는?

정답 확신 있는 분포(번역·요약) 는 Beam/Greedy, 창의적 생성(글쓰기) 은 Top-p + Temperature. Speculative Decoding은 latency를 직접 줄임 (어떤 알고리즘과도 결합 가능). Determinism vs Diversity 축. + Latency 축이 별도. Beam은 결정론적이지만 다양성 부족, stochastic은 그 반대. Repetition penalty가 두 축 모두에서 보조 (3편 §3·§4·§5·§6).

Q4. 4가지 고급 기법 (RAG·CoT·MoE·ICL) 의 조합 전략은?

정답 RAG로 외부 지식 주입, CoT로 추론 단계 명시, MoE로 효율 + 표현력, ICL로 적응. 각 기법은 다른 문제를 풀므로 함께 적용 가능. 한 기법을 만능 처방으로 쓰면 실패. 예: RAG만으로는 추론 불가, CoT만으로는 외부 지식 부족. 현대 LLM 시스템은 보통 RAG + CoT + ICL을 함께 사용. (4편 §6)

Q5. LLM 학습·추론을 받치는 수학적 5가지 기둥은?

정답 Softmax-CE (분류 표준 + 깔끔한 그래디언트 \(p-y\)) · KL Divergence (분포 거리, 비대칭) · Perplexity (\(e^{\mathrm{CE}}\), 평가 메트릭) · Residual + LayerNorm/RMSNorm (그래디언트 흐름 + 분포 안정화) · AdamW (decoupled weight decay). 5가지가 모든 트랜스포머 학습에 동시 작동. 하나라도 빠지면 깊은 망 학습이 무너짐. (5편 §2·§3·§4·§5·§6·§7·§8)

답하지 못한 질문이 있다면 해당 편 9장 (또는 5편 9장)으로 돌아가 재독.


4.1 상세 자가 평가 — 30문항 (각 30초 안에 답할 수 있어야 함, 편별 5문항)

1편 (Fundamentals)

  • 토큰화의 정의를 함수 시그니처로 적는다.
  • \(\sqrt{d_k}\) 스케일링이 빠지면 무엇이 일어나는가.
  • Multi-Head Attention의 헤드 수와 파라미터 수의 관계를 적는다.
  • RoPE와 ALiBi의 작용 위치를 한 줄로 비교한다.
  • Lost in the Middle을 정성적으로 설명한다.

2편 (Fine-tuning)

  • AdamW 옵티마이저 상태가 가중치 대비 메모리를 몇 배 잡는가.
  • LoRA의 \(A, B\) 모양과 초기화 규칙을 적는다.
  • LoRA를 베이스에 합치는 식을 적는다.
  • NF4가 INT4와 다른 점을 한 줄로 답한다.
  • Distillation의 \(T^2\) 인자가 왜 필요한지 설명한다.

3편 (Decoding)

  • Greedy와 Beam의 출력 결정성을 비교한다.
  • Top-p가 Top-k보다 동적이라는 의미를 설명한다.
  • Frequency vs Presence Penalty의 차이를 적는다.
  • Speculative Decoding의 수락 식을 적는다.
  • AR과 MLM의 학습 목표 차이를 비교한다.

4편 (Advanced)

  • DPR의 대조 학습 손실 식을 적는다.
  • Cross-Encoder Reranker가 어떤 단계에 들어가는지 답한다.
  • CoT가 어떤 규모의 모델에서 emergent했는지 답한다.
  • Switch와 Mixtral의 라우팅 차이를 적는다.
  • ICL의 zero/one/few-shot을 구분한다.

5편 (Math)

  • softmax-CE 그래디언트가 \(p - y\)인 이유를 유도한다.
  • KL이 비대칭인 의미를 설명한다.
  • Perplexity와 cross-entropy의 관계를 적는다.
  • 잔차 연결이 그래디언트 흐름에 미치는 영향을 설명한다.
  • LayerNorm과 RMSNorm 식의 차이를 적는다.

시스템 종합

  • 7B 모델 LoRA 학습의 메모리 분해(4분할)를 적는다.
  • KV 캐시 크기를 시퀀스·헤드 수·헤드 차원으로 계산한다.
  • Mixtral 8x7B의 활성 파라미터를 추정한다.
  • RAG가 통하지 않는 경우를 두 개 든다.
  • "1M 컨텍스트면 RAG는 불필요한가"에 답한다.

답하지 못한 문항은 해당 편의 자가 점검 체크리스트 절로 돌아가서 복습한다.


5. 다음 단계 — 어디로 가는가

기본 LLM 원리가 손에 잡혔다면 다음 4갈래 중 하나로 깊게 들어갈 수 있다.

5.1 Inference Engineering

  • 핵심 자료: vLLM, TensorRT-LLM, GPTQ/AWQ 양자화.
  • 다룰 주제: KV 캐시 페이징, FlashAttention v3, Speculative + MoE.

5.2 RAG / Search Engineering

  • 핵심 자료: ColBERT(late-interaction), 하이브리드 검색(BM25 + 벡터), 청킹·메타데이터·필터링.
  • 다룰 주제: 검색 평가, 멀티모달 RAG, agentic RAG.

5.3 Post-Training / Alignment

  • 핵심 자료: InstructGPT(Ouyang 2022), DPO(Rafailov 2023), Constitutional AI, Reward Model.
  • 다룰 주제: 안전·정직·유용성의 다목적 최적화.

5.4 Agent / Orchestration

  • 핵심 자료: ReAct, Toolformer, Function Calling, ReST^EM, Multi-Agent 구조.
  • 다룰 주제: 도구 호출, 메모리 시스템, 평가 하네스.

6. 추가 학습 — 통합 자료

  • Deep Learning (Goodfellow et al., 2016): 6, 8, 10장.
  • Speech and Language Processing (Jurafsky & Martin), 3판 8~12장.
  • Stanford CS336 Language Modeling from Scratch (2024+) 강의 시리즈.
  • Andrej Karpathy, Let's build GPT, Let's build the GPT Tokenizer (YouTube). 1, 2편 시각 동반.
  • Anthropic, Building Effective Agents (2024). Agent 패턴.
  • OpenAI, Spec for the OpenAI API (developers.openai.com). 디코딩 파라미터 표준 정의.

7. 시리즈 마무리

이 6편은 원리 → 학습 → 활용 → 시스템의 사다리를 한 줄로 세웠다. 다음에 던지는 주제가 무엇이든(예: MoE 라우터 안정화, 멀티모달 attention, 8-bit KV 캐시, longest-prefix 캐싱) 이 5편의 골격으로 다시 풀어 쓸 수 있다. 질문을 던지면 같은 강의 포맷으로 한 편이 더 붙는다.

학습은 여기서 이 아니라 시작이다.


이 글은 LLM 핵심 학습 시리즈의 6/6 편이자 마지막이다. 1~6편을 손에 익히면 다음 시리즈(추론 엔지니어링/RAG/얼라인먼트/에이전트)로 이어진다.

시리즈 전체 안내: 시리즈 목차

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"