AI 운영 경제학 (4/4) — 컨텍스트 관리 패턴: auto-compact·Memory·RAG 비용 비교
컨텍스트는 비용이다. 줄이는 방법은 셋 — 압축하거나, 외부에 두거나, 검색해서 가져오거나.
핵심 요약
- 세 가지 패턴: auto-compact (자동 요약) / Memory (외부 파일 + 인덱스) / RAG (벡터 검색 + 주입)
- 1차 자료: Claude Code compact docs, RAG 원논문 (Lewis et al., 2020), 자체 운영 측정값
- 비용 순서 (일반): RAG ≤ Memory < auto-compact (긴 작업에서). 짧은 작업에서는 거꾸로
- 의사결정 룰: 작업 길이·신선도·정확도 요구의 3축
- 함정: auto-compact는 결정의 근거를 잃을 수 있고, RAG는 실패 시 비용·정확도 모두 손해
1. 컨텍스트 비용의 본질
LLM은 매 호출마다 컨텍스트 전체에 토큰 단가를 매긴다. 컨텍스트가 200K가 되면, 한 번 호출에 200K × 입력 단가가 든다. 컨텍스트를 줄이는 것이 비용 절감의 가장 직접적 방법이다.
세 가지 전략은 어떻게 줄이느냐가 다르다.
| 전략 | 메커니즘 | 컨텍스트 길이 | 비고 |
|---|---|---|---|
| auto-compact | 모델이 자기 컨텍스트를 요약 | 압축 후 ~30~50%로 감소 | 결정의 근거 손실 위험 |
| Memory | 자주 안 쓰는 정보를 외부 파일로 | 인덱스만 컨텍스트에 (수 KB) | 명시적 참조 필요 |
| RAG | 질의 시점에 관련 문서 검색·주입 | 필요한 K개만 (수~수십 KB) | 검색 인프라 필요 |
2. auto-compact — 자동 요약
메커니즘: 컨텍스트가 한도에 가까워지면 LLM이 자기 자신의 과거 토큰을 요약 형태로 압축. Claude Code는 자동으로 트리거된다.
비용 구조: - 압축 자체가 추가 LLM 호출. 200K 토큰 입력 + 압축된 요약 출력. - 압축 후의 컨텍스트는 더 짧지만, 압축 시점의 청구가 한 번 발생. - 적용 시점부터는 새 컨텍스트로 시작 → 비용이 다시 누적.
장점: - 자동 — 사용자가 신경 쓸 필요 없음. - 작업이 연속되어 있는 경우 자연스러움.
단점 / 함정: - 결정의 근거가 압축 과정에서 사라질 수 있다. "왜 그렇게 결정했지?"가 다음 단계에 영향을 주는 작업이라면 위험. - 압축은 손실 변환이다. 정확한 인용이 필요한 작업(법률·의료·금융)에 부적합. - 압축이 자주 발생하면 그 자체로 비용이 큼. 200K 컨텍스트의 압축은 사실상 한 번의 큰 호출.
언제 쓰는가: 일반적인 코딩 / 글쓰기 / 대화에서 기본 옵션. 정확성과 추적성이 핵심인 작업에서는 우회.
3. Memory — 외부 파일 + 인덱스
메커니즘: 자주 참조되지 않는 정보를 디스크의 마크다운 파일로 저장. 인덱스 파일(MEMORY.md)만 컨텍스트에 두고, 필요할 때만 개별 파일을 읽어서 컨텍스트에 추가.
비용 구조: - 인덱스: 한 번에 1~3K 토큰 정도. 캐시 가능. - 개별 파일 읽기: 필요한 메모리 1~10K 토큰만 컨텍스트에 추가. - 효과: 큰 메모리 풀(수백 KB)이 있어도 평균 컨텍스트는 수 KB 수준.
장점: - 손실 없음. 원본이 보존됨. - 사람이 직접 편집 가능. 잘못된 메모리를 수정하기 쉽다. - 캐시와 잘 어울림 (인덱스가 캐시되므로).
단점: - 명시적 참조가 필요. 모델이 "어느 메모리를 읽어야 할지" 결정해야 함 — 룰이 없으면 빠뜨린다. - 대규모 메모리에는 비효율. 메모리가 1MB 넘어가면 인덱스만으로도 부족.
언제 쓰는가: 사용자 선호·과거 결정·외부 시스템 좌표처럼 명시적이고 간헐적인 참조에 적합. 시리즈 A 1편에서 다룬 3계층 메모리 패턴이 표준.
4. RAG — 벡터 검색 + 주입
메커니즘: 모든 문서를 임베딩해 벡터 DB에 저장. 질의 시점에 질의를 임베딩 → top-K 문서 검색 → 컨텍스트에 주입 → 답변 생성.
비용 구조: - 임베딩 비용: 문서를 한 번 임베딩 (선형). 1M 토큰 임베딩 ≈ $0.10 (저렴). - 벡터 DB: 운영 비용 (Qdrant·Pinecone 호스팅 또는 자체). - 검색 시 LLM 호출: 임베딩(질의) + LLM 답변 생성. - 컨텍스트: 검색된 K개만 (보통 5~20K 토큰).
장점: - 대규모 지식 베이스 (수백만 문서)에서도 컨텍스트는 작게 유지. - 신선도 — 인덱스만 갱신하면 모델 재학습 없이 새 정보 반영. - 출처 추적 — 어떤 문서가 답변의 근거인지 명시 가능.
단점: - 검색 실패 시 답변 품질 추락. 검색이 빠뜨린 정보는 모델이 모른다. - 검색·임베딩·DB 운영이라는 추가 인프라. 작은 팀에는 부담. - 청킹·임베딩 모델·재정렬 등 튜닝 변수가 많다.
언제 쓰는가: 대규모 외부 지식(문서 라이브러리, FAQ, 위키)이 있고 모델 학습으로 다 흡수할 수 없을 때. 사실 정확성·출처 추적이 중요한 도메인.
5. 비용 비교 — 같은 작업, 세 가지 길
가상 시나리오: "조직 위키 1만 문서 중 관련 정보를 찾아 답변"
| 전략 | 컨텍스트 길이 | 호출당 비용 (Sonnet 기준) | 비고 |
|---|---|---|---|
| 전체 컨텍스트 (50M 토큰) | 컨텍스트 한도 초과 → 불가능 | 불가능 | 그래서 어떤 전략이든 필요 |
| auto-compact (반복 압축) | ~150K | $0.45 (입력) + $0.15 (압축 자체) | 정보 손실, 결정 근거 흐림 |
| Memory (인덱스 + 필요시 읽기) | ~10K | $0.03 | 어느 메모리를 읽을지 룰 필요 |
| RAG (top-10 검색) | ~15K | $0.05 + 검색 인프라 비용 | 검색 인프라 운영비 별도 |
관찰: - 짧은 작업(1회성)에서는 RAG가 인프라 오버헤드 때문에 더 비싸다. - 반복 작업에서는 RAG가 압도적으로 싸다. - Memory는 중간 규모(수백 문서)에서 sweet spot.
6. 의사결정 룰
3축으로 본다:
| 작업 특성 | 추천 |
|---|---|
| 짧고 일회성 / 검색할 외부 지식 없음 | auto-compact |
| 사용자/프로젝트별 명시적 정보가 반복 등장 | Memory |
| 대규모 외부 지식 + 신선도 중요 | RAG |
| 정확한 출처 인용 필수 | RAG |
| 정확한 결정의 근거 추적 필요 | Memory (auto-compact 회피) |
조합 패턴: - 작은 시스템: auto-compact + Memory (인덱스 1~3K, 필요시 파일 로드). - 중간 시스템: Memory + 작은 RAG (사내 위키만). - 큰 시스템: 3개 모두. auto-compact는 인터랙티브에서, Memory는 사용자 컨텍스트에, RAG는 지식 베이스에.
7. 흔한 함정
7.1 RAG가 모든 답이라고 생각
- 작은 데이터(<1만 문서)에 RAG 도입 → 인프라 비용이 절감을 상쇄.
- 해결: Memory로 시작 → 데이터가 커지면 RAG로 전환.
7.2 auto-compact 의존
- 압축이 결정 근거를 흐려 재시도가 늘어남.
- 해결: 중요한 결정 직전에는 수동 컨텍스트 정리. 결정 근거를 메모리/세션 로그로 외부화.
7.3 Memory를 코드로 사용
- Memory는 비-자명한 정보를 위한 것. 코드에서 도출 가능한 사실은 코드를 읽어 확인.
- 해결: Memory에 저장하기 전에 "코드에서 알 수 있나?"를 자문.
8. 한눈에 정리
| 패턴 | 주된 비용 | 데이터 규모 | 정확도 추적 | 운영 부담 |
|---|---|---|---|---|
| auto-compact | LLM 압축 호출 | 한 세션 내 | 약함 (손실) | 낮음 (자동) |
| Memory | 인덱스 토큰 | 수 MB 이하 | 강함 | 中 (룰 필요) |
| RAG | 검색 인프라 + 임베딩 | 수 GB 이상 | 매우 강함 | 高 (인프라) |
핵심 원칙: 데이터 규모 + 정확도 요구 + 운영 능력의 교차점에서 결정. 한 패턴에 집착하지 않는다.
시리즈 마무리 — C 시리즈 (4/4)
AI 운영 경제학 4편은 비용을 예측 가능하게 만든 뒤(1편), 능동적으로 줄이는 세 가지 레버 — 라우팅(2편), 캐싱(3편), 컨텍스트 관리(4편)를 차례로 쌓았다. 4 레버를 모두 적용하면 자체 측정 기준 같은 작업이 원래 비용의 10~30% 수준으로 떨어지는 게 일반적이다.
A 시리즈(코딩 에이전트 실전 5편)와 결합하면 워크플로우 + 비용의 두 축이 완성된다. 다음 캠페인은 측정과 운영의 다음 단계 — 평가(eval)로 갈 가능성이 크다.
참고 자료
- Anthropic, Auto-compact in Claude Code — code.claude.com/docs/sessions (2026-05-05 확인).
- Anthropic, Memory and Sessions — code.claude.com/docs/memory (2026-05-05 확인).
- Lewis et al., 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401.
- 시리즈 1편 (토큰 비용), 2편 (라우팅), 3편 (캐싱).
이 글은 AI 운영 경제학 시리즈의 4/4 편이자 마지막 편입니다.
댓글
댓글 쓰기