AI 에이전트 프로필로 비용 구조 재설계

AI 에이전트 프로필로 비용 구조 재설계 — 모델 라우팅 전략

- 4월 12, 2026

여러 에이전트를 프로필 단위로 축소한 Hermes의 비용 아키텍처

핵심 요약

이 글은 다중 에이전트 시스템에서 역할 기반 프로필 통합과 모델 라우팅 전략이 어떻게 작동하는지 정리한다.
핵심 결론: 오케스트레이터 모델은 고정(최상위), 반복 조회는 무료/저비용 모델, 메모리 처리는 로컬 오프로드.
유료 지출은 ChatGPT Plus 구독 1건(~$20/월)에 수렴하고, Gemini 무료 티어와 oMLX 로컬이 나머지를 메운다.
smart routing(오케스트레이터 동적 다운그레이드)은 품질 손실이 비용 절감을 상회하므로 비활성화한다.

이 글에서 가져갈 수 있는 것

에이전트 다수를 역할 프로필로 묶는 통합 패턴
프로필별 모델 선정의 판단 기준(판단 깊이 × 호출 빈도 × 비용)
3단계 Fallback 체인 설계 — 비용 → 품질 → 로컬 오프라인 순
오케스트레이터에 smart routing을 적용하면 안 되는 이유와 적용 경계

배경: 에이전트 분산 구조의 한계

초기 OpenClaw는 여러 에이전트가 각자 독립 설정으로 돌았다. 에이전트마다 사용 모델이 달랐고, 일부는 역할이 중복됐다. 이 구조의 실제 병목은 비용보다 관리 복잡도였다. 모델 교체 한 번에 설정 변경 지점이 여러 군데로 흩어져 있어, 라우팅 품질을 일관되게 유지하기 어려웠다.

Hermes 재설계의 출발점은 여기다. 에이전트를 줄이는 것이 목적이 아니라, 모델 결정을 한 곳에서 관리할 수 있는 단위로 묶는 것이 목적이었다. 역할 단위로 재분류한 결과 개별 에이전트 설정이 프로필 단위 추상화로 수렴했다.

프로필과 모델 매핑

프로필	모델	역할
default (mir)	gpt-5.4	오케스트레이터. 범용 판단, 라우팅 결정
coder	gpt-5.3-codex	코드 생성, 디버깅
researcher	gemini-3.1-flash-lite	검색, 정보 수집
monitor	gemini-3.1-flash-lite	시스템 상태 감시
memory	gemini-2.5-flash	메모리 읽기/쓰기, 요약
memory-runner	gemma-4-26b (oMLX 로컬)	로컬 메모리 처리

초안 단계에서 더 많은 프로필이 거론됐으나 실제 구현에서는 분리 기준이 약한 프로필을 상위 프로필로 흡수하며 수렴시켰다.

모델 선택 논리

프로필별 모델 선정은 세 축으로 판단한다: 판단 깊이, 호출 빈도, 비용 탄력성.

오케스트레이터: gpt-5.4 고정

오케스트레이터(default/mir)는 최상위 모델을 쓴다. 원칙은 단순하다: 오케스트레이터는 항상 최고 모델.

smart_model_routing을 활성화해서 작업 복잡도에 따라 오케스트레이터 모델을 gpt-4o-mini로 다운그레이드하는 구성을 시험했고, 이후 비활성화했다. 오케스트레이터가 낮은 모델로 내려가면 판단 품질 저하가 전체 파이프라인 하류로 전파된다. 비용 절감폭보다 품질 저하의 영향 범위가 더 넓다는 것이 핵심이다.

Gemini: 반복 조회 작업에 투입

researcher, monitor는 gemini-3.1-flash-lite. 검색·상태 감시처럼 고빈도 · 저판단 작업에 적합하다. 판단 복잡도가 낮으므로 모델 상향에 따른 한계 효용이 작고, 호출 빈도가 높아 무료 티어의 가치가 극대화된다. Gemini 무료 티어 범위 내에서 운영되므로 추가 비용이 붙지 않는다.

memory: gemini-2.5-flash

메모리 요약과 읽기/쓰기는 문맥 이해가 필요하지만 창의적 판단 비중은 낮다. gemini-2.5-flash가 이 구간에 들어맞는다. 컨텍스트 압축에는 openrouter의 gemini-2.5-flash:free 엔드포인트를 활용한다.

memory-runner: gemma-4-26b (로컬)

oMLX 위에서 로컬로 실행. 엔드포인트는 127.0.0.1:8001.

모델: gemma-4-26b-a4b-it-4bit (4bit 양자화)
임베딩: bge-m3-mlx-fp16

외부 API를 쓰지 않으므로 추가 비용이 없다. 레이턴시는 존재하지만, 메모리 처리는 실시간 응답이 강제되지 않는 비동기 작업이라 이 트레이드오프가 성립한다.

Fallback 체인

단일 모델 의존은 API 장애 시 전체 정지로 직결된다. Hermes는 3단계 폴백 체인을 구성한다.

gemini-pro → claude-sonnet-4-6 → omlx/gemma-4

1차: gemini-pro (비용 효율, 빠른 응답)
2차: claude-sonnet-4-6 (품질 보장)
3차: omlx/gemma-4 (완전 로컬, 외부 의존 없음, 최후 보루)

폴백은 API 오류 또는 응답 타임아웃 시 자동 트리거된다. 체인의 순서는 비용 → 품질 → 가용성 축으로 정렬된다. 끝단에 로컬 모델을 두면 네트워크 장애 시에도 최소 기능이 유지된다.

월 지출 구조

항목	비용
ChatGPT Plus (mir + coder)	~$20/월
Gemini (researcher, monitor, memory)	$0 (무료 티어)
oMLX 로컬 (memory-runner)	$0
합계	~$20/월

OpenClaw 시절과의 직접 비용 비교는 문서화된 수치가 없다. 초기 논의에서 "90% 절감"이라는 표현이 등장했지만 검증된 데이터가 없으므로 기재하지 않는다.

현재 구조에서 확인 가능한 사실은 하나: 유료 지출은 ChatGPT Plus 구독 한 줄에 수렴한다.

통합이 가져온 구조적 효과

숫자 자체는 표면적 지표에 불과하다. 실제 효과는 두 지점에서 발생한다.

1. 라우팅 결정의 명확화

에이전트가 많을수록 "어떤 에이전트가 이 작업을 처리하는가"를 오케스트레이터가 매번 판단해야 한다. 프로필 단위로 묶으면 역할 경계가 뚜렷해서 라우팅 모호성이 줄고, 잘못된 프로필로 분기되는 빈도가 감소한다.

2. 모델 교체의 지역성 확보

특정 프로필에 연결된 모델을 교체할 때 해당 프로필 설정 한 곳만 바꾸면 된다. 이전 구조에서는 에이전트별 모델 설정이 분산돼 있어, 동일한 모델 교체 작업이 다수 지점의 동기화 문제로 번졌다.

smart_model_routing의 적용 경계

smart_model_routing은 작업 복잡도를 감지해 투입 모델을 동적으로 선택하는 기능이다. 단순 조회는 저가 모델, 복잡한 판단은 상위 모델로 자동 전환한다.

오케스트레이터에 적용했을 때의 관찰:

오케스트레이터가 낮은 모델로 내려가면 라우팅 판단 품질이 눈에 띄게 저하
판단 오류는 하류 에이전트로 전파되므로, 절감액 대비 복구 비용이 커짐
원칙 복원: 오케스트레이터는 gpt-5.4 고정

결론: smart_model_routing은 에이전트 내부 작업(researcher, memory 등 단일 역할)에는 유효하지만, 전체 흐름을 결정하는 오케스트레이터에는 적합하지 않다. 판단 품질이 하류로 전파되는 계층에는 고정 모델이 정답이다.

요약표

항목	결정
프로필 구성	default, coder, researcher, monitor, memory, memory-runner
오케스트레이터 모델	gpt-5.4 고정
무료 활용	Gemini 무료 티어, oMLX 로컬
월 지출	~$20 (ChatGPT Plus)
폴백 체인	gemini-pro → claude-sonnet-4-6 → omlx/gemma-4
smart routing	오케스트레이터 비활성화, 하위 에이전트에만 선택 적용

적용 가능 범위와 열린 질문

적용 가능 범위

다중 LLM 에이전트를 운영하는 개인/소규모 시스템
유료 API와 무료 티어, 로컬 모델을 혼합해 비용 곡선을 평탄화하려는 구성
오케스트레이터–워커 구조에서 판단 품질이 하류로 전파되는 파이프라인

열린 질문

하위 에이전트의 smart routing은 어떤 임계치로 분기할 때 안정적인가
폴백 체인이 2차 → 3차로 내려갔을 때 품질 저하를 사용자에게 어떻게 시그널할 것인가
프로필을 더 줄일 때 역할 경계가 다시 모호해지는 지점은 어디인가

이 세 질문이 다음 반복의 설계 축이 된다.

이 블로그 검색

MaJu's Note