AI 운영 경제학 (4/4) — 컨텍스트 관리 패턴: auto-compact·Memory·RAG 비용 비교

AI 운영 경제학 (4/4) — 컨텍스트 관리 패턴: auto-compact·Memory·RAG 비용 비교

컨텍스트는 비용이다. 줄이는 방법은 셋 — 압축하거나, 외부에 두거나, 검색해서 가져오거나.


핵심 요약

  • 세 가지 패턴: auto-compact (자동 요약) / Memory (외부 파일 + 인덱스) / RAG (벡터 검색 + 주입)
  • 1차 자료: Claude Code compact docs, RAG 원논문 (Lewis et al., 2020), 자체 운영 측정값
  • 비용 순서 (일반): RAG ≤ Memory < auto-compact (긴 작업에서). 짧은 작업에서는 거꾸로
  • 의사결정 룰: 작업 길이·신선도·정확도 요구의 3축
  • 함정: auto-compact는 결정의 근거를 잃을 수 있고, RAG는 실패 시 비용·정확도 모두 손해

1. 컨텍스트 비용의 본질

LLM은 매 호출마다 컨텍스트 전체에 토큰 단가를 매긴다. 컨텍스트가 200K가 되면, 한 번 호출에 200K × 입력 단가가 든다. 컨텍스트를 줄이는 것이 비용 절감의 가장 직접적 방법이다.

세 가지 전략은 어떻게 줄이느냐가 다르다.

전략 메커니즘 컨텍스트 길이 비고
auto-compact 모델이 자기 컨텍스트를 요약 압축 후 ~30~50%로 감소 결정의 근거 손실 위험
Memory 자주 안 쓰는 정보를 외부 파일로 인덱스만 컨텍스트에 (수 KB) 명시적 참조 필요
RAG 질의 시점에 관련 문서 검색·주입 필요한 K개만 (수~수십 KB) 검색 인프라 필요

2. auto-compact — 자동 요약

메커니즘: 컨텍스트가 한도에 가까워지면 LLM이 자기 자신의 과거 토큰을 요약 형태로 압축. Claude Code는 자동으로 트리거된다.

비용 구조: - 압축 자체가 추가 LLM 호출. 200K 토큰 입력 + 압축된 요약 출력. - 압축 후의 컨텍스트는 더 짧지만, 압축 시점의 청구가 한 번 발생. - 적용 시점부터는 새 컨텍스트로 시작 → 비용이 다시 누적.

장점: - 자동 — 사용자가 신경 쓸 필요 없음. - 작업이 연속되어 있는 경우 자연스러움.

단점 / 함정: - 결정의 근거가 압축 과정에서 사라질 수 있다. "왜 그렇게 결정했지?"가 다음 단계에 영향을 주는 작업이라면 위험. - 압축은 손실 변환이다. 정확한 인용이 필요한 작업(법률·의료·금융)에 부적합. - 압축이 자주 발생하면 그 자체로 비용이 큼. 200K 컨텍스트의 압축은 사실상 한 번의 큰 호출.

언제 쓰는가: 일반적인 코딩 / 글쓰기 / 대화에서 기본 옵션. 정확성과 추적성이 핵심인 작업에서는 우회.


3. Memory — 외부 파일 + 인덱스

메커니즘: 자주 참조되지 않는 정보를 디스크의 마크다운 파일로 저장. 인덱스 파일(MEMORY.md)만 컨텍스트에 두고, 필요할 때만 개별 파일을 읽어서 컨텍스트에 추가.

비용 구조: - 인덱스: 한 번에 1~3K 토큰 정도. 캐시 가능. - 개별 파일 읽기: 필요한 메모리 1~10K 토큰만 컨텍스트에 추가. - 효과: 큰 메모리 풀(수백 KB)이 있어도 평균 컨텍스트는 수 KB 수준.

장점: - 손실 없음. 원본이 보존됨. - 사람이 직접 편집 가능. 잘못된 메모리를 수정하기 쉽다. - 캐시와 잘 어울림 (인덱스가 캐시되므로).

단점: - 명시적 참조가 필요. 모델이 "어느 메모리를 읽어야 할지" 결정해야 함 — 룰이 없으면 빠뜨린다. - 대규모 메모리에는 비효율. 메모리가 1MB 넘어가면 인덱스만으로도 부족.

언제 쓰는가: 사용자 선호·과거 결정·외부 시스템 좌표처럼 명시적이고 간헐적인 참조에 적합. 시리즈 A 1편에서 다룬 3계층 메모리 패턴이 표준.


4. RAG — 벡터 검색 + 주입

메커니즘: 모든 문서를 임베딩해 벡터 DB에 저장. 질의 시점에 질의를 임베딩 → top-K 문서 검색 → 컨텍스트에 주입 → 답변 생성.

비용 구조: - 임베딩 비용: 문서를 한 번 임베딩 (선형). 1M 토큰 임베딩 ≈ $0.10 (저렴). - 벡터 DB: 운영 비용 (Qdrant·Pinecone 호스팅 또는 자체). - 검색 시 LLM 호출: 임베딩(질의) + LLM 답변 생성. - 컨텍스트: 검색된 K개만 (보통 5~20K 토큰).

장점: - 대규모 지식 베이스 (수백만 문서)에서도 컨텍스트는 작게 유지. - 신선도 — 인덱스만 갱신하면 모델 재학습 없이 새 정보 반영. - 출처 추적 — 어떤 문서가 답변의 근거인지 명시 가능.

단점: - 검색 실패 시 답변 품질 추락. 검색이 빠뜨린 정보는 모델이 모른다. - 검색·임베딩·DB 운영이라는 추가 인프라. 작은 팀에는 부담. - 청킹·임베딩 모델·재정렬 등 튜닝 변수가 많다.

언제 쓰는가: 대규모 외부 지식(문서 라이브러리, FAQ, 위키)이 있고 모델 학습으로 다 흡수할 수 없을 때. 사실 정확성·출처 추적이 중요한 도메인.


5. 비용 비교 — 같은 작업, 세 가지 길

가상 시나리오: "조직 위키 1만 문서 중 관련 정보를 찾아 답변"

전략 컨텍스트 길이 호출당 비용 (Sonnet 기준) 비고
전체 컨텍스트 (50M 토큰) 컨텍스트 한도 초과 → 불가능 불가능 그래서 어떤 전략이든 필요
auto-compact (반복 압축) ~150K $0.45 (입력) + $0.15 (압축 자체) 정보 손실, 결정 근거 흐림
Memory (인덱스 + 필요시 읽기) ~10K $0.03 어느 메모리를 읽을지 필요
RAG (top-10 검색) ~15K $0.05 + 검색 인프라 비용 검색 인프라 운영비 별도

관찰: - 짧은 작업(1회성)에서는 RAG가 인프라 오버헤드 때문에 더 비싸다. - 반복 작업에서는 RAG가 압도적으로 싸다. - Memory는 중간 규모(수백 문서)에서 sweet spot.


6. 의사결정 룰

3축으로 본다:

작업 특성 추천
짧고 일회성 / 검색할 외부 지식 없음 auto-compact
사용자/프로젝트별 명시적 정보가 반복 등장 Memory
대규모 외부 지식 + 신선도 중요 RAG
정확한 출처 인용 필수 RAG
정확한 결정의 근거 추적 필요 Memory (auto-compact 회피)

조합 패턴: - 작은 시스템: auto-compact + Memory (인덱스 1~3K, 필요시 파일 로드). - 중간 시스템: Memory + 작은 RAG (사내 위키만). - 큰 시스템: 3개 모두. auto-compact는 인터랙티브에서, Memory는 사용자 컨텍스트에, RAG는 지식 베이스에.


7. 흔한 함정

7.1 RAG가 모든 답이라고 생각

  • 작은 데이터(<1만 문서)에 RAG 도입 → 인프라 비용이 절감을 상쇄.
  • 해결: Memory로 시작 → 데이터가 커지면 RAG로 전환.

7.2 auto-compact 의존

  • 압축이 결정 근거를 흐려 재시도가 늘어남.
  • 해결: 중요한 결정 직전에는 수동 컨텍스트 정리. 결정 근거를 메모리/세션 로그로 외부화.

7.3 Memory를 코드로 사용

  • Memory는 비-자명한 정보를 위한 것. 코드에서 도출 가능한 사실은 코드를 읽어 확인.
  • 해결: Memory에 저장하기 전에 "코드에서 알 수 있나?"를 자문.

8. 한눈에 정리

패턴 주된 비용 데이터 규모 정확도 추적 운영 부담
auto-compact LLM 압축 호출 한 세션 내 약함 (손실) 낮음 (자동)
Memory 인덱스 토큰 수 MB 이하 강함 中 (룰 필요)
RAG 검색 인프라 + 임베딩 수 GB 이상 매우 강함 高 (인프라)

핵심 원칙: 데이터 규모 + 정확도 요구 + 운영 능력의 교차점에서 결정. 한 패턴에 집착하지 않는다.


시리즈 마무리 — C 시리즈 (4/4)

AI 운영 경제학 4편은 비용을 예측 가능하게 만든 뒤(1편), 능동적으로 줄이는 세 가지 레버 — 라우팅(2편), 캐싱(3편), 컨텍스트 관리(4편)를 차례로 쌓았다. 4 레버를 모두 적용하면 자체 측정 기준 같은 작업이 원래 비용의 10~30% 수준으로 떨어지는 게 일반적이다.

A 시리즈(코딩 에이전트 실전 5편)와 결합하면 워크플로우 + 비용의 두 축이 완성된다. 다음 캠페인은 측정과 운영의 다음 단계 — 평가(eval)로 갈 가능성이 크다.


참고 자료

  • Anthropic, Auto-compact in Claude Code — code.claude.com/docs/sessions (2026-05-05 확인).
  • Anthropic, Memory and Sessions — code.claude.com/docs/memory (2026-05-05 확인).
  • Lewis et al., 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
  • 시리즈 1편 (토큰 비용), 2편 (라우팅), 3편 (캐싱).

이 글은 AI 운영 경제학 시리즈의 4/4 편이자 마지막 편입니다.

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"