AI 에이전트 프로필로 비용 구조 재설계 — 모델 라우팅 전략
여러 에이전트를 프로필 단위로 축소한 Hermes의 비용 아키텍처
핵심 요약
- 이 글은 다중 에이전트 시스템에서 역할 기반 프로필 통합과 모델 라우팅 전략이 어떻게 작동하는지 정리한다.
- 핵심 결론: 오케스트레이터 모델은 고정(최상위), 반복 조회는 무료/저비용 모델, 메모리 처리는 로컬 오프로드.
- 유료 지출은 ChatGPT Plus 구독 1건(~$20/월)에 수렴하고, Gemini 무료 티어와 oMLX 로컬이 나머지를 메운다.
- smart routing(오케스트레이터 동적 다운그레이드)은 품질 손실이 비용 절감을 상회하므로 비활성화한다.
이 글에서 가져갈 수 있는 것
- 에이전트 다수를 역할 프로필로 묶는 통합 패턴
- 프로필별 모델 선정의 판단 기준(판단 깊이 × 호출 빈도 × 비용)
- 3단계 Fallback 체인 설계 — 비용 → 품질 → 로컬 오프라인 순
- 오케스트레이터에 smart routing을 적용하면 안 되는 이유와 적용 경계
배경: 에이전트 분산 구조의 한계
초기 OpenClaw는 여러 에이전트가 각자 독립 설정으로 돌았다. 에이전트마다 사용 모델이 달랐고, 일부는 역할이 중복됐다. 이 구조의 실제 병목은 비용보다 관리 복잡도였다. 모델 교체 한 번에 설정 변경 지점이 여러 군데로 흩어져 있어, 라우팅 품질을 일관되게 유지하기 어려웠다.
Hermes 재설계의 출발점은 여기다. 에이전트를 줄이는 것이 목적이 아니라, 모델 결정을 한 곳에서 관리할 수 있는 단위로 묶는 것이 목적이었다. 역할 단위로 재분류한 결과 개별 에이전트 설정이 프로필 단위 추상화로 수렴했다.
프로필과 모델 매핑
| 프로필 | 모델 | 역할 |
|---|---|---|
| default (mir) | gpt-5.4 | 오케스트레이터. 범용 판단, 라우팅 결정 |
| coder | gpt-5.3-codex | 코드 생성, 디버깅 |
| researcher | gemini-3.1-flash-lite | 검색, 정보 수집 |
| monitor | gemini-3.1-flash-lite | 시스템 상태 감시 |
| memory | gemini-2.5-flash | 메모리 읽기/쓰기, 요약 |
| memory-runner | gemma-4-26b (oMLX 로컬) | 로컬 메모리 처리 |
초안 단계에서 더 많은 프로필이 거론됐으나 실제 구현에서는 분리 기준이 약한 프로필을 상위 프로필로 흡수하며 수렴시켰다.
모델 선택 논리
프로필별 모델 선정은 세 축으로 판단한다: 판단 깊이, 호출 빈도, 비용 탄력성.
오케스트레이터: gpt-5.4 고정
오케스트레이터(default/mir)는 최상위 모델을 쓴다. 원칙은 단순하다: 오케스트레이터는 항상 최고 모델.
smart_model_routing을 활성화해서 작업 복잡도에 따라 오케스트레이터 모델을 gpt-4o-mini로 다운그레이드하는 구성을 시험했고, 이후 비활성화했다. 오케스트레이터가 낮은 모델로 내려가면 판단 품질 저하가 전체 파이프라인 하류로 전파된다. 비용 절감폭보다 품질 저하의 영향 범위가 더 넓다는 것이 핵심이다.
Gemini: 반복 조회 작업에 투입
researcher, monitor는 gemini-3.1-flash-lite. 검색·상태 감시처럼 고빈도 · 저판단 작업에 적합하다. 판단 복잡도가 낮으므로 모델 상향에 따른 한계 효용이 작고, 호출 빈도가 높아 무료 티어의 가치가 극대화된다. Gemini 무료 티어 범위 내에서 운영되므로 추가 비용이 붙지 않는다.
memory: gemini-2.5-flash
메모리 요약과 읽기/쓰기는 문맥 이해가 필요하지만 창의적 판단 비중은 낮다. gemini-2.5-flash가 이 구간에 들어맞는다. 컨텍스트 압축에는 openrouter의 gemini-2.5-flash:free 엔드포인트를 활용한다.
memory-runner: gemma-4-26b (로컬)
oMLX 위에서 로컬로 실행. 엔드포인트는 127.0.0.1:8001.
- 모델:
gemma-4-26b-a4b-it-4bit(4bit 양자화) - 임베딩:
bge-m3-mlx-fp16
외부 API를 쓰지 않으므로 추가 비용이 없다. 레이턴시는 존재하지만, 메모리 처리는 실시간 응답이 강제되지 않는 비동기 작업이라 이 트레이드오프가 성립한다.
Fallback 체인
단일 모델 의존은 API 장애 시 전체 정지로 직결된다. Hermes는 3단계 폴백 체인을 구성한다.
gemini-pro → claude-sonnet-4-6 → omlx/gemma-4
- 1차: gemini-pro (비용 효율, 빠른 응답)
- 2차: claude-sonnet-4-6 (품질 보장)
- 3차: omlx/gemma-4 (완전 로컬, 외부 의존 없음, 최후 보루)
폴백은 API 오류 또는 응답 타임아웃 시 자동 트리거된다. 체인의 순서는 비용 → 품질 → 가용성 축으로 정렬된다. 끝단에 로컬 모델을 두면 네트워크 장애 시에도 최소 기능이 유지된다.
월 지출 구조
| 항목 | 비용 |
|---|---|
| ChatGPT Plus (mir + coder) | ~$20/월 |
| Gemini (researcher, monitor, memory) | $0 (무료 티어) |
| oMLX 로컬 (memory-runner) | $0 |
| 합계 | ~$20/월 |
OpenClaw 시절과의 직접 비용 비교는 문서화된 수치가 없다. 초기 논의에서 "90% 절감"이라는 표현이 등장했지만 검증된 데이터가 없으므로 기재하지 않는다.
현재 구조에서 확인 가능한 사실은 하나: 유료 지출은 ChatGPT Plus 구독 한 줄에 수렴한다.
통합이 가져온 구조적 효과
숫자 자체는 표면적 지표에 불과하다. 실제 효과는 두 지점에서 발생한다.
1. 라우팅 결정의 명확화
에이전트가 많을수록 "어떤 에이전트가 이 작업을 처리하는가"를 오케스트레이터가 매번 판단해야 한다. 프로필 단위로 묶으면 역할 경계가 뚜렷해서 라우팅 모호성이 줄고, 잘못된 프로필로 분기되는 빈도가 감소한다.
2. 모델 교체의 지역성 확보
특정 프로필에 연결된 모델을 교체할 때 해당 프로필 설정 한 곳만 바꾸면 된다. 이전 구조에서는 에이전트별 모델 설정이 분산돼 있어, 동일한 모델 교체 작업이 다수 지점의 동기화 문제로 번졌다.
smart_model_routing의 적용 경계
smart_model_routing은 작업 복잡도를 감지해 투입 모델을 동적으로 선택하는 기능이다. 단순 조회는 저가 모델, 복잡한 판단은 상위 모델로 자동 전환한다.
오케스트레이터에 적용했을 때의 관찰:
- 오케스트레이터가 낮은 모델로 내려가면 라우팅 판단 품질이 눈에 띄게 저하
- 판단 오류는 하류 에이전트로 전파되므로, 절감액 대비 복구 비용이 커짐
- 원칙 복원: 오케스트레이터는 gpt-5.4 고정
결론: smart_model_routing은 에이전트 내부 작업(researcher, memory 등 단일 역할)에는 유효하지만, 전체 흐름을 결정하는 오케스트레이터에는 적합하지 않다. 판단 품질이 하류로 전파되는 계층에는 고정 모델이 정답이다.
요약표
| 항목 | 결정 |
|---|---|
| 프로필 구성 | default, coder, researcher, monitor, memory, memory-runner |
| 오케스트레이터 모델 | gpt-5.4 고정 |
| 무료 활용 | Gemini 무료 티어, oMLX 로컬 |
| 월 지출 | ~$20 (ChatGPT Plus) |
| 폴백 체인 | gemini-pro → claude-sonnet-4-6 → omlx/gemma-4 |
| smart routing | 오케스트레이터 비활성화, 하위 에이전트에만 선택 적용 |
적용 가능 범위와 열린 질문
적용 가능 범위
- 다중 LLM 에이전트를 운영하는 개인/소규모 시스템
- 유료 API와 무료 티어, 로컬 모델을 혼합해 비용 곡선을 평탄화하려는 구성
- 오케스트레이터–워커 구조에서 판단 품질이 하류로 전파되는 파이프라인
열린 질문
- 하위 에이전트의 smart routing은 어떤 임계치로 분기할 때 안정적인가
- 폴백 체인이 2차 → 3차로 내려갔을 때 품질 저하를 사용자에게 어떻게 시그널할 것인가
- 프로필을 더 줄일 때 역할 경계가 다시 모호해지는 지점은 어디인가
이 세 질문이 다음 반복의 설계 축이 된다.
댓글
댓글 쓰기