"OpenAI vs Claude 비교 (3/3) — AI 에이전트 하네스 설계는 무엇이 다른가"

OpenAI와 Claude를 비교할 때 모델 성능표부터 펼치면 중요한 것을 놓치기 쉽다. 실무에서 먼저 갈리는 것은 모델 IQ보다 하네스를 어디에 두는가다. OpenAI는 API, tools, MCP, SDK를 조합해 런타임을 짜는 쪽에 가깝고, Claude Code는 CLAUDE.md, skills, hooks, permissions, subagents를 통해 작업 공간 자체를 운영하는 쪽에 더 가깝다. 둘 다 에이전트를 만든다. 하지만 에이전트가 서는 바닥의 철학은 다르다.

핵심 요약

OpenAI 하네스는 기본적으로 플랫폼 조립형이다. Responses API, tools, function calling, remote MCP, Agents SDK를 조합해 우리 런타임을 만든다.
Claude 하네스는 더 작업 공간 운영형에 가깝다. CLAUDE.md, skills, hooks, permissions, subagents가 에이전트의 행동 규칙과 작업 환경을 직접 조직한다.
그래서 OpenAI 쪽 질문은 보통 "어느 계층에 어떤 런타임 책임을 둘까"가 되고, Claude 쪽 질문은 "어느 층에서 어떤 작업 규율과 권한 경계를 강제할까"가 된다.
이는 우열 문제가 아니다. 제품에 내장할 에이전트 백엔드를 만들고 싶다면 OpenAI 철학이 자연스럽고, 로컬 레포나 팀 워크스페이스에서 작업형 에이전트를 길들이고 싶다면 Claude 철학이 더 직접적일 수 있다.
B3의 핵심은 모델 비교가 아니라 운영 철학 비교다.

1. 같은 에이전트여도 출발점이 다르다

B1과 B2를 이어서 보면 두 플랫폼은 출발 질문부터 조금 다르다.

OpenAI 문서 표면은 대체로 이렇게 읽힌다.

모델 응답을 어떻게 만들 것인가
어떤 tools를 붙일 것인가
대화 상태와 tool loop를 어떻게 연결할 것인가
handoff, tracing, guardrails를 어떤 SDK 층에서 관리할 것인가

반면 Claude Code 문서 표면은 더 이렇게 읽힌다.

이 프로젝트에서 에이전트가 어떤 규칙으로 행동해야 하는가
어떤 절차를 skills로 분리할 것인가
어떤 검증을 hooks로 자동 개입시킬 것인가
어떤 행동을 permissions로 허용·질문·차단할 것인가

즉, 둘 다 agentic system을 다루지만 감각이 다르다.

OpenAI는 에이전트 런타임을 조립하는 도구 상자
Claude는 에이전트가 일하는 작업 환경을 운영하는 체계

2. OpenAI는 런타임 중심 철학이 강하다

OpenAI 공식 표면을 보면 중심은 Responses API, tools, remote MCP, Agents SDK, tracing 같은 조합형 런타임이다. 이것은 매우 강력하다. 하지만 동시에 개발자에게 묻는 질문도 분명하다.

당신은 어떤 런타임을 만들고 싶은가?

예를 들어 OpenAI에서는 아래를 우리가 설계해야 한다.

어떤 요청에서 어떤 tools를 노출할지
어떤 함수 schema를 어떤 경계로 자를지
state를 API에 얼마나 맡기고 artifact로 얼마나 분리할지
언제 handoff와 orchestration을 SDK 층으로 올릴지
어떤 평가와 관측 계층을 바깥에 둘지

이 구조는 제품 백엔드를 짜는 사람에게 자연스럽다. 에이전트를 앱 내부 컴포넌트처럼 넣고 싶을 때, OpenAI 쪽 철학은 꽤 잘 맞는다.

대신 이 철학은 에이전트의 생활 규칙을 우리 쪽에서 더 많이 명시해야 한다. OpenAI는 잘 조립된 런타임 부품을 준다. 그러나 "이 레포에서 어떻게 행동해야 하는가"는 상대적으로 우리 설계물이 된다.

3. Claude는 작업 환경 중심 철학이 강하다

Claude Code 쪽은 출발이 조금 다르다. 에이전트가 바로 파일을 읽고, 수정하고, 명령을 실행하는 작업형 동료라는 전제가 강하다. 그래서 설계 표면도 런타임 호출 그 자체보다 작업 규율과 환경 경계 쪽으로 발달했다.

대표적으로 분리되는 층은 이렇다.

CLAUDE.md: 정체성, hard rule, read-first
skills: 반복 절차 패키지
hooks: 실행 전후 자동 검문소
permissions/settings: 접근 경계와 안전 정책
subagents: 역할 격리와 위임

여기서 Claude 쪽이 우리에게 묻는 질문은 보통 이것이다.

이 에이전트가 이 작업 공간에서 어떻게 행동해야 하는가?

이 철학은 로컬 레포, 내부 문서 저장소, 운영 디렉터리, 장시간 handoff 같은 환경에서 특히 직접적이다. 에이전트를 제품 안에 넣는 일보다, 에이전트가 우리 작업장 안에서 사고 없이 일하게 만드는 일에 초점이 더 잘 맞는다.

4. 핵심 차이는 "지능"보다 "바닥"에 있다

비교를 단순화하면 아래 표가 가장 실무적이다.

비교 축	OpenAI 쪽 감각	Claude 쪽 감각
기본 철학	플랫폼 조립형	작업 환경 운영형
중심 질문	어떤 agent runtime을 만들까	이 workspace에서 어떻게 일하게 할까
강한 표면	API, tools, MCP, SDK, tracing	instruction files, skills, hooks, permissions
개발자 역할	런타임 아키텍트	작업 규율 설계자
잘 맞는 환경	제품 백엔드, 서비스 내장형 에이전트	로컬 레포, 팀 워크스페이스, 운영형 코딩 에이전트
실패 양상	orchestration과 state가 난잡해짐	instruction 파일 비대화, 권한/절차 분리 실패

여기서 중요한 점은 어느 쪽이 더 "똑똑하다"가 아니다. 하네스 엔지니어링에서는 에이전트가 서 있는 바닥이 다르면, 같은 모델 계열이어도 체감 품질이 달라질 수 있다.

5. 문서 철학도 다르다: 조립 설명서 vs 생활 규칙표

OpenAI 스타일 하네스에서는 문서가 자주 이런 역할을 한다.

API 사용 규약
tool schema 설명
orchestration 설계 메모
eval과 tracing 설계 문서

즉 문서는 런타임 부품을 조립하는 설계도에 가깝다.

반대로 Claude 스타일 하네스에서는 문서가 더 직접적으로 행동을 바꾼다.

CLAUDE.md
skill 문서
hook 설정
permission 정책
handoff artifact

즉 문서는 설계도이면서 동시에 생활 규칙표다.

이 차이는 실제 운영에서 크게 느껴진다. OpenAI는 설계 문서를 읽고 코드를 짜는 감각이 강하고, Claude는 문서 구조 자체가 이미 에이전트 행동 표면인 경우가 많다.

6. 안전 표면도 강조점이 다르다

두 플랫폼 모두 안전과 guardrail을 다루지만, 어디서 주로 체감되는지는 다르다.

OpenAI 쪽에서는 보통 이런 층이 중심이다.

tool exposure 범위
schema 제약
guardrails
trace와 eval
승인 루프를 둘 애플리케이션 계층

Claude 쪽에서는 아래가 더 직접적이다.

permissions.allow/ask/deny
민감 경로 차단
hook 기반 사전·사후 검사
subagent별 역할 분리
workspace 경계 설정

쉽게 말해 OpenAI는 행동 능력의 표면을 제어하는 감각이 강하고, Claude는 작업 공간 접근의 표면을 제어하는 감각이 강하다.

7. 컨텍스트 철학도 다르다

OpenAI 하네스에서는 컨텍스트를 런타임 레벨에서 설계하는 느낌이 강하다.

어떤 입력을 넣을지
어느 시점에 검색을 붙일지
state를 이전 응답 ID와 artifact 중 어디에 둘지
tool 결과를 어떻게 요약할지

Claude 하네스에서는 컨텍스트가 작업장 구조와 더 강하게 연결된다.

어떤 CLAUDE.md가 먼저 읽히는지
어떤 skill을 호출할지
어떤 handoff 문서가 다음 세션 출발점이 되는지
어떤 디렉터리 규칙이 현재 작업을 지배하는지

즉 OpenAI는 컨텍스트를 요청과 런 단위의 조립 문제로 다루기 쉽고, Claude는 컨텍스트를 프로젝트와 세션의 생활 구조 문제로 다루기 쉽다.

8. 그래서 어떤 상황에서 어느 철학이 자연스러운가

OpenAI 쪽이 더 자연스러운 경우

제품 안에 들어갈 agent backend를 직접 만들고 있다
API, tools, MCP, tracing을 코드로 조립하고 싶다
역할별 모델 라우팅과 실행 흐름을 우리 서비스 안에서 통제하고 싶다
local workspace보다 서비스 런타임이 중심이다

Claude 쪽이 더 자연스러운 경우

에이전트가 이미 레포와 문서를 직접 다루는 작업형 동료다
팀 규칙, 경로 제약, handoff, 승인 흐름이 중요하다
instruction, hook, permission을 분리해 작업 문화를 만들고 싶다
"어떻게 빌드할까"보다 "어떻게 사고 없이 일하게 할까"가 핵심이다

이 구분은 절대 규칙이 아니다. 다만 실무에서 가장 덜 헷갈리는 선택 기준이다.

9. 흔한 오해

"OpenAI는 API라서 하네스가 약하다"

그렇지 않다. 오히려 런타임 조립 자유도가 높다. 다만 작업 공간 규율은 기본 제공보다 우리 설계 몫이 더 크다.

"Claude는 코딩 도구라서 제품 에이전트에는 안 맞는다"

이도 과하다. Claude 쪽 철학에서도 MCP, subagent, permissions, long-running workflow를 통해 충분히 넓은 운영 구조를 만들 수 있다. 다만 기본 감각이 workspace-native에 더 가깝다.

"결국 모델 성능이 다 결정한다"

부분적으로만 맞다. 실제 운영 품질은 종종 모델 점수보다 하네스의 계층 분리, 도구 표면, 권한 경계, 평가 루프에서 갈린다.

10. 비교의 결론: 모델보다 운영 철학을 먼저 맞춰야 한다

OpenAI와 Claude는 둘 다 에이전트 시대의 주요 선택지다. 하지만 하네스 관점에서 보면 더 중요한 차이는 기능 체크리스트보다 아래에 있다.

OpenAI는 agent runtime을 조립하게 만드는 철학
Claude는 agent workspace를 운영하게 만드는 철학

그래서 선택 질문도 달라진다.

제품 안에 들어갈 실행 엔진을 짜는가
아니면 작업장 안에서 에이전트가 따를 규율과 경계를 짜는가

좋은 비교는 벤치마크 표보다 이 질문을 먼저 통과한다. 실제로는 두 철학을 함께 쓰는 팀도 많다. OpenAI로 서비스 런타임을 만들고, Claude 계열 도구로 내부 작업 하네스를 운영하는 식이다.

결론은 단순하다.

모델 비교보다 먼저, 당신이 필요한 것이 런타임 조립인지 작업 환경 운영인지부터 정해야 한다.

참고 자료

OpenAI Docs, Responses
https://platform.openai.com/docs/api-reference/responses?api-mode=responses
OpenAI Docs, Using tools
https://platform.openai.com/docs/guides/tools?api-mode=responses
OpenAI Docs, Agents SDK
https://platform.openai.com/docs/guides/agents-sdk/
Anthropic Docs, Claude Code settings
https://docs.anthropic.com/en/docs/claude-code/settings
Anthropic Docs, Hooks reference
https://docs.anthropic.com/en/docs/claude-code/hooks
Anthropic Docs, Subagents
https://docs.anthropic.com/en/docs/claude-code/sub-agents
drafts/blog/260519_OpenAI하네스B01_ResponsesAPI와AgentsSDK_블로그.md
drafts/blog/260519_Claude하네스B02_CLAUDEmd_Skills_Hooks_Permissions_블로그.md
docs/blog_series_하네스엔지니어링_총괄_design.md
sources/260518_하네스엔지니어링_15장_블로그활용노트.md

이 글은 OpenAI·Claude 구현 시리즈의 3/3 편입니다. 후속 읽기: 에이전트 평가 하네스, 장시간 에이전트 운영, 하네스가 전부다.

시리즈 전체 안내: 하네스 엔지니어링 시리즈 안내

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"

- 5월 13, 2026

이 블로그 검색

MaJu's Note