OpenClaw 구축·운영 (22/26) — OpenClaw vs Hermes: 18개 카테고리 비교

OC 63/90 vs Hermes 75/90, 점수 너머의 의사결정 기준


핵심 요약

  • 에이전트 플랫폼 두 개를 18개 카테고리에서 0~5점으로 비교하는 프레임워크. 결과: Hermes 75/90(83%), OpenClaw 63/90(70%).
  • 분포: OpenClaw 우위 7개(운영 Ops 중심), Hermes 우위 7개(자율성·확장), 무승부 2개.
  • 핵심 정보: 플랫폼 점수는 "어디서 이기는가"보다 "이기는 능력이 이식 가능한가"를 묻는 도구다. 이식 가능한 강점과 구조적 강점은 다르게 취급해야 한다.

이 글이 전달하는 것

에이전트 플랫폼 선택 시, 단일 점수 비교는 의사결정 근거로 약하다. 이 글은 (1) 18개 카테고리 스코어카드 구조, (2) 점수를 "이식 가능성"과 "아키텍처 고정성"으로 이원화하는 해석 기법, (3) 플랫폼 마이그레이션에서 어느 강점이 지켜지고 어느 약점이 사라지는지 판단하는 기준을 정리한다.

점수화 프레임워크의 목적

"A가 더 낫다"는 감상은 마이그레이션 결정의 근거로 충분하지 않다. 카테고리를 18개로 분해해 각각 0~5점을 부여하면 승·패 위치가 수치로 드러난다. 이때 점수의 역할은 답이 아니라 질문을 만드는 것이다 — "이 카테고리에서 지는 것이 감당 가능한가?"

18 카테고리 스코어카드

OpenClaw 우위 (7개)

카테고리 OC Hermes 차이 비고
채널/게이트웨이 5 4 +1 Discord+Telegram Forum 6토픽 세밀 라우팅
에이전트 관리 5 4 +1 8계층 바인딩(도구/모델/권한/채널/격리)
메모리 5 3 +2 4-tier + U-tag + Reflect 6-phase + 의미검색
스케줄링 4 3 +1 cron 9개 + LaunchAgent 7개 + micro-cycle
플러그인 4 3 +1 oMLX 통합, Scrapling, custom hooks
설정 관리 4 3 +1 config-drift 감지, agent-linter
컨텍스트 관리 4 3 +1 safeguard compaction, softThreshold 6000

Hermes 우위 (7개)

카테고리 OC Hermes 차이 비고
스킬 자동생성 1 5 -4 사용 패턴에서 스킬 자동 생성
학습 루프 2 5 -3 DSPy + GEPA self-evolution
실행 백엔드 2 5 -3 Docker/E2B/Modal/Fly.io/Lambda/로컬 6종
음성 0 4 -4 음성 입출력 네이티브
서브에이전트 2 4 -2 profile spawning + delegation 네이티브
ML/연구 1 4 -3 trajectory 분석, 실험 프레임워크
IDE 통합 1 4 -3 VS Code/JetBrains 네이티브

무승부 (2개)

카테고리 OC Hermes
모델 라우팅 4 4
도구 시스템 4 4

합계

  • OpenClaw: 63/90 (70%)
  • Hermes: 75/90 (83%)

점수 해석: 이식 가능성과 아키텍처 고정성

1. 플랫폼 고유 강점과 커스텀 레이어의 분리

OC의 메모리 5점, Hermes의 메모리 3점이라는 차이는 플랫폼 자체의 설계 우열이 아니다. OpenClaw 위에 올린 커스텀 레이어(memcore, U-tag, Reflect 6-phase)가 점수의 실체다. 즉, 이 강점은 플랫폼에 고정된 속성이 아니라 위에 얹힌 층이므로 다른 플랫폼 위로 이식 가능하다.

적용 패턴: 카테고리 점수에서 "플랫폼 기본기"와 "운영 중 덧붙인 커스텀"을 분리해 라벨링하면, 마이그레이션 시 잃는 것과 옮기는 것이 구분된다.

2. 아키텍처 고정 강점은 이식 불가 영역

Hermes 우위 카테고리 중 학습 루프(DSPy+GEPA), 6종 실행 백엔드, 음성, trajectory 분석은 "시간을 더 투입해 OpenClaw에 덧붙인다"는 해법이 성립하지 않는다. 이들은 프레임워크 아키텍처 수준에서 결정된 기능이며, 외부에서 모사하려면 플랫폼을 다시 만드는 것과 유사한 비용이 발생한다.

판단 기준: 특정 능력이 "레이어로 붙이면 되는 것"인지 "아키텍처 내장인지"를 먼저 분류한 뒤 점수를 해석해야 한다.

3. 약점이 이식으로 상쇄되는 구조

Hermes 메모리 3점은 MEMORY.md 2,200자 한계에서 비롯된다. OpenClaw에서 이 한계를 넘기 위해 만든 memcore가 같은 약점을 메우는 레이어라면, 마이그레이션 후 Hermes + memcore 조합의 메모리 점수는 5점에 수렴한다.

원리: 커스텀 레이어로 해결된 약점은 플랫폼을 바꿔도 같은 레이어를 얹어 해결할 수 있다. 따라서 점수표의 약점 칸은 "이식 가능한 해법이 이미 존재하는지"를 함께 체크해야 한다.

한계와 적용 범위

  • 0~5점 평가는 정성 지표 위에 주관이 개입한다. 동일 프레임워크를 다른 팀에 적용하면 점수가 ±1 수준에서 흔들릴 수 있다.
  • 18개 카테고리는 에이전트 플랫폼 도메인에 맞춘 분할이다. 다른 도메인(예: 일반 PaaS 비교)에서는 카테고리 재설계가 필요하다.
  • "이식 가능성"과 "아키텍처 고정성"의 경계는 항상 명확하지 않다. 중간 영역(예: 플러그인 시스템 위에 쌓인 기능)은 개별 평가가 필요하다.

열린 질문

  • 플랫폼 점수가 동률에 가까울 때, 의사결정을 가르는 다음 축은 무엇인가 — 유지보수 비용, 커뮤니티, 업스트림 변화 속도?
  • 이식 가능한 커스텀 레이어가 점점 두꺼워질 때, 그 레이어 자체를 "플랫폼 독립 구성요소"로 추출하는 시점은 언제인가?

후속 항목은 같은 측정 포맷으로 별도 기록에서 이어진다.

시리즈 전체 안내: 시리즈 목차

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"