AI 운영 경제학 (2/4) — 모델 라우팅 전략: 비용·품질·지연 3축 의사결정

AI 운영 경제학 (2/4) — 모델 라우팅 전략: 비용·품질·지연 3축 의사결정

"가장 비싼 모델"이 답이 아닌 이유는 단순하다 — 같은 결과를 1/10 비용으로 얻을 수 있는 작업이 80% 이상이기 때문이다.


핵심 요약

  • 라우팅은 작업과 모델을 매칭하는 룰 시스템. 즉흥 선택이 아니다
  • 3축: 비용 / 품질 / 지연 — 모든 라우팅 결정은 이 셋의 trade-off
  • 1차 자료: Anthropic·OpenAI 가격 페이지, 사용자 자체 라우팅 시스템 운영 데이터
  • 출발점: "이 작업이 실패해도 다시 하면 되는가?" — 그렇다면 작은 모델로 시작
  • 자동화는 classifier가 작업을 분류하면 라우터가 모델을 정함. 사람의 즉흥 결정은 라우팅이 아님

1. 왜 라우팅인가

LLM 모델은 같은 프로바이더 안에서도 단가 차이가 크다.

모델 입력 단가 (1M 토큰) 출력 단가
Claude Opus 4.7 $15 $75
Claude Sonnet 4.6 $3 $15
Claude Haiku 4.5 $0.80 $4

1M 토큰 입력 기준 Opus는 Haiku의 ~19배. 같은 분류 작업을 Opus로 돌리는 것은 19배의 청구서를 받는다는 뜻이다.

질문은 "Haiku가 충분한가"이지 "Opus가 더 좋은가"가 아니다. 충분히 좋은 가장 싼 모델을 고르는 것이 라우팅의 핵심.


2. 3축 — 비용·품질·지연

라우팅 결정은 항상 세 축의 trade-off다.

2.1 비용

  • 단가 + 토큰 사용량의 곱.
  • 캐싱·라우팅·짧은 출력으로 최대 ~95% 절감 가능 (편 1/4 + 5/A 참고).

2.2 품질

  • 재시도 빈도로 측정한다. 작은 모델이 같은 작업을 3번 만에 통과하면 실효 비용은 3배.
  • 품질은 정확도 임계가 아니라 재시도 함수로 본다.

2.3 지연

  • 작은 모델이 빠르다. 사용자가 5초 안에 답을 받아야 하는 인터랙션이면 큰 모델은 후보에서 빠진다.
  • 백그라운드 작업은 지연 가중치 0이다.

3축 통합 공식 (개념):

실효 비용 = (단가 × 토큰) × (1 + 재시도율) + (지연 × 사용자 인내 페널티)

복잡해 보이지만 실제로는 룰 테이블로 환원된다.


3. 작업 × 모델 매핑 룰

다음은 일반적인 출발점이다. 자체 측정으로 조정한다.

작업 추천 모델 이유
분류 / 라벨링 / 의도 추출 Haiku 또는 oMLX 로컬 단순, 재시도 비용 낮음
요약 (≤5K 입력) Haiku 또는 Sonnet Haiku로 시작, 품질 부족 시 Sonnet
일반 코드 변경 / PR 작성 Sonnet 품질·비용 균형점
복잡한 디버깅 / 설계 / 멀티 단계 추론 Opus 재시도 줄이는 편이 더 싸다
백그라운드 모니터링 / 폴링 Haiku 또는 로컬 빈도 높고 지연 무관
사용자 대화형 챗 Sonnet (스트리밍) 지연 ≤2초 필요

핵심 룰: 작은 모델로 시작 → 측정 → 필요할 때만 큰 모델로 승격. 반대 방향(큰 모델로 시작)은 거의 항상 과지출이다.


4. 멀티 프로바이더 라우팅

Anthropic 단일 생태계가 아니라 OpenAI·Anthropic·로컬을 섞는다면 프로바이더 간 라우팅이 추가 레버다.

프로바이더 선택 축: - 데이터 위치: 코드·문서가 외부 API로 나가도 되는가? 안 된다면 로컬. - 모델 강점: 코드 = Anthropic 강한 편, 일부 reasoning = OpenAI o-시리즈 강한 편 (벤치마크와 자체 측정으로 결정). - 가용성: 한 프로바이더가 5xx를 내면 자동으로 다른 쪽으로 fallback.

fallback 전략: - 1차: 가장 비용 효율적인 프로바이더. - 2차: 1차 실패 시 다른 프로바이더의 동급 모델. - 3차: 둘 다 실패하면 상위 모델로 escalate (재시도가 더 비싸도 작업 자체는 통과해야 함).

측정: provider × model × success_rate를 일별로 본다. fallback이 자주 발동되는 작업은 1차 선택을 재검토.


5. Classifier 기반 자동 라우팅

사람이 매 작업마다 모델을 고르는 것은 라우팅이 아니라 즉흥 선택이다. 진짜 라우팅은 classifier로 자동화된다.

최소 classifier: - 입력: 사용자 요청 텍스트 + 메타데이터 (작업 길이, 도구 카탈로그 등). - 출력: {model: "haiku-4.5", reason: "classification task"}. - 구현: 룰 기반(키워드)으로 시작 → 측정 후 작은 LLM(Haiku)으로 업그레이드.

라우터 구조:

[사용자 요청] → [Classifier] → [모델 선택] → [LLM 호출] → [결과]
                     │                              │
                     └─[로깅: task_type, model, cost, latency]

자체 라우터 운영 시 classifier 자체의 비용도 토큰을 소모하므로, classifier에는 가장 작은 모델 또는 룰 기반을 쓴다. classifier가 호출 비용의 10% 이상이면 룰로 간소화 검토.


6. 실측 — 무엇을 보는가

라우팅 효과는 다음 지표로 측정한다:

  • 모델별 호출 분포: 작업 종류별로 어느 모델이 어느 비율로 호출됐나.
  • 재시도율: 모델별 재시도 빈도. 작은 모델이 30% 이상 재시도면 모델이 너무 작다.
  • fallback 발동율: 너무 자주면 1차 모델 신뢰도 낮음.
  • 평균 비용 / 작업: classifier 도입 전후 비교.

경험적 룰: classifier 도입 후 평균 비용이 50% 이상 감소하는 게 일반적이다. 그렇지 않으면 classifier 룰이 너무 conservative (작은 모델로 못 보내고 있음).


7. 함정 — 라우팅이 망가지는 4가지 패턴

7.1 작은 모델 영구 회귀

  • "Haiku가 빠르고 싸다"라고 모든 작업을 Haiku로 보냄.
  • 결과: 재시도 폭증 → 비용은 같거나 더 든다.

7.2 큰 모델 default

  • "Opus가 안전하다"라고 default 선택.
  • 결과: 80% 작업이 과지출.

7.3 측정 없는 라우팅

  • 일단 도입했지만 효과를 측정 안 함.
  • 결과: 6개월 후 라우터의 룰이 현실과 어긋나도 모름.

7.4 너무 많은 모델

  • 5개 프로바이더 × 3개 모델 = 15개 옵션.
  • 결과: classifier가 어디로 보낼지 예측 불가, fallback 체인이 복잡해 디버깅 곤란.

8. 한눈에 정리

단계 핵심 측정 신호
1. 작업 분류 룰 기반 또는 classifier task_type 분포
2. 모델 매핑 작은 모델부터 시작 재시도율
3. 멀티 프로바이더 데이터·강점·가용성 fallback 발동율
4. 자동화 Classifier + 라우터 평균 비용/작업 추이
5. 모니터링 provider × model × 일별 success_rate, latency

라우팅은 한 번 짜고 끝이 아니다. 모델 라인업·가격·내부 작업 분포가 바뀌므로 매 분기 재검토가 적절하다.


다음 편

다음 편(3/4)은 컨텍스트 캐싱 가이드 — 1시간 vs 5분이다. 라우팅이 모델을 결정한다면 캐싱은 입력 토큰을 결정한다. 두 레버가 함께 가야 비용 절감이 완성된다.


참고 자료

  • Anthropic, Pricing — claude.com/pricing (2026-05-05 확인).
  • OpenAI, Pricing — platform.openai.com/pricing (2026-05-05 확인).
  • AI Coding Agents in Practice (5/5) — 비용 관리 4가지 레버 (시리즈 A 마지막 편).
  • 시리즈 1편 — 토큰 비용 구조와 실측 함정.

이 글은 AI 운영 경제학 시리즈의 2/4 편입니다.

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"