"하네스 엔지니어링 시리즈 안내 — AI 에이전트를 제대로 설계·운영하려면 무엇부터 읽어야 하나"

- 5월 18, 2026

📚 하네스 엔지니어링 전체 지도 — 7개 시리즈 29편

에이전트 하네스를 입문부터 부록까지 단계별로 읽는 안내입니다.

1. 입문·기초

① 하네스 엔지니어링 (6편) — 컨텍스트·메모리·도구·라우팅·평가, 에이전트를 둘러싼 모든 것
② 하네스 엔지니어링 기초 (4편) — 모델보다 중요한 실행 환경과 에이전트 루프

2. 구현

③ OpenAI·Claude 구현 (3편) — Responses API와 CLAUDE.md를 운영 표면으로

3. 운영

④ 평가·운영·메모리 (4편) — handoff·권한·메모리 소유권으로 장시간 운영 안정화
⑤ AI 운영 경제학 (4편) — 비용·라우팅·캐싱·컨텍스트 운영 결정

4. 전략

⑥ 패턴·전략·사례 (4편) — 반복 가능한 구조·설계 결정·ACI·실전 사례

5. 부록

⑦ 부록 컴패니언 (4편) — 용어집·출처 검증·워크시트·멀티에이전트 Q&A

이 시리즈는 "좋은 모델을 붙이면 좋은 에이전트가 된다"는 기대에서 한 걸음 더 나아가, 실제로는 지시 파일, 도구 표면, 권한, 검증, handoff, 메모리 같은 작업 환경이 에이전트 품질을 어떻게 갈라놓는지 설명하기 위해 만들었다. 총 19편이며, 입문자부터 운영 설계 담당자까지 각자 필요한 지점부터 들어올 수 있게 5개 트랙으로 나누었다.

영문판 안내: Harness Engineering Series Guide — Where Should You Start If You Want to Design and Run AI Agents Properly?

이 시리즈는 누구를 위한 것인가

이 시리즈는 아래 독자에게 맞춘다.

AI 에이전트를 처음 도입하지만 프롬프트 너머의 구조가 궁금한 사람
OpenAI와 Claude를 "모델 성능"이 아니라 "운영 표면"으로 비교하고 싶은 사람
장시간 작업, 권한 관리, 평가 루프, 메모리 소유권까지 포함해 실무형 하네스를 설계하려는 사람
AGENTS.md, CLAUDE.md, MCP, handoff, subagent 같은 용어를 한 체계 안에서 정리하고 싶은 사람

반대로, 단순 모델 소개나 API 입문만 찾는다면 이 시리즈는 조금 더 운영 쪽으로 기울어져 있다.

이 시리즈를 읽으면 얻는 것

이 시리즈가 다루는 핵심은 세 가지다.

에이전트 품질은 모델 자체보다 하네스 설계에서 더 크게 갈린다.
좋은 하네스는 더 많은 기능이 아니라 더 명확한 작업 경계와 검증 루프를 만든다.
장시간 운영과 멀티에이전트 설계는 "똑똑한 모델"보다 artifact, handoff, permission, memory ownership 같은 운영 구조에 더 의존한다.

그래서 이 시리즈는 단순 요약보다 다음 질문에 답하도록 구성했다.

모델이 아니라 작업 환경을 설계한다는 말은 정확히 무슨 뜻인가
OpenAI와 Claude는 하네스를 어디에 두고 어떻게 나누는가
평가, 권한, 샌드박스, 감사 로그는 어느 계층에서 설계해야 하는가
메모리를 소유하지 못하면 왜 에이전트도 소유하지 못하는가
언제는 subagent면 충분하고, 언제는 agent team이 필요한가

먼저 읽는 순서

가장 무난한 순서는 A -> B -> C -> D -> E다.

A는 전체 언어와 개념 지도를 만든다.
B는 OpenAI와 Claude 구현 표면을 비교하게 해 준다.
C는 실제 운영에서 부딪히는 평가, handoff, 안전, 메모리 문제를 다룬다.
D는 패턴, 전략, 공개 사례를 통해 시야를 넓힌다.
E는 용어집, 검증법, 워크시트, Q&A를 companion asset처럼 붙여 준다.

다만 모든 독자가 처음부터 순서대로 읽을 필요는 없다. 아래처럼 시작해도 된다.

입문자: A1 -> A2 -> A3 -> A4
OpenAI/Claude 비교가 급한 사람: B1 -> B2 -> B3
운영 설계 담당자: C1 -> C2 -> C3 -> C4
구조 비교와 사례가 궁금한 사람: D1 -> D2 -> D3 -> D4
실무 정리와 워크시트가 필요한 사람: E1 -> E2 -> E3 -> E4

트랙별 안내

A. 기초 시리즈

이 트랙은 "하네스란 무엇인가"를 설명한다. 프롬프트와 하네스의 차이, 에이전트 루프, 컨텍스트 설계, MCP와 도구 표면까지 기본 언어를 먼저 맞춘다.

B. OpenAI·Claude 구현 시리즈

이 트랙은 두 생태계를 "누가 더 좋다"가 아니라 "어디에 하네스를 두는가" 관점으로 읽는다. Responses API, Agents SDK, CLAUDE.md, skills, hooks, permissions가 어떤 운영 철학을 드러내는지 비교한다.

C. 평가·운영·메모리 시리즈

이 트랙은 실무 운영 표면에 가깝다. 평가 루프, handoff, 권한, 샌드박스, 감사 로그, 메모리 소유권처럼 "실제 서비스에서 어떻게 버티게 만들 것인가"를 다룬다.

D. 패턴·전략·사례 시리즈

이 트랙은 부분 기능이 아니라 전체 구조를 보는 데 유용하다. 패턴 언어, 아키텍처 결정, ACI 관점, 공개 사례 비교를 통해 에이전트 시스템을 더 큰 지도에서 본다.

E. 부록 컴패니언 시리즈

이 트랙은 본편을 보조하는 실전 자산이다. 헷갈리는 용어를 다시 정리하고, 출처 검증법을 분리하고, 직접 업무를 하네스로 바꾸는 워크시트를 제공하며, 멀티에이전트 판단 기준까지 정리한다.

시간이 없다면 이렇게 읽으면 된다

짧은 시간에 핵심만 잡고 싶다면 아래 6편이면 충분하다.

A1 모델보다 하네스가 중요한 이유
A4 MCP와 도구 엔지니어링
B3 OpenAI vs Claude 비교
C2 장시간 에이전트 운영과 handoff
C4 메모리 소유권
D4 공개 사례 비교

이 6편만 읽어도 "좋은 에이전트는 모델보다 운영 구조에서 갈린다"는 시리즈의 중심 메시지는 거의 잡힌다.

이 시리즈가 강조하는 한 가지

이 시리즈는 계속 같은 말을 다른 각도에서 반복한다.

AI 에이전트의 품질은 모델 자체보다, 그 모델이 일하는 작업 환경을 어떻게 설계했는가에 더 크게 좌우된다.

그래서 하네스 엔지니어링은 프롬프트를 잘 쓰는 테크닉이 아니라, 에이전트가 실패하기 어렵고 실패해도 빨리 드러나게 만드는 운영 설계에 가깝다.

좋은 모델을 붙이는 것만으로는 충분하지 않다. 무엇을 읽히고, 어떤 도구를 보이고, 어디서 멈추게 하고, 누가 승인하고, 어떤 흔적을 남기게 할지까지 설계해야 한다. 이 시리즈는 바로 그 문제를 19편에 걸쳐 나눠서 다룬다.

다음 읽기

시리즈를 처음 시작한다면 하네스 엔지니어링 기초 (1/4) — AI 에이전트에서 모델보다 하네스가 중요한 이유부터 읽는 편이 가장 자연스럽다. 이미 OpenAI나 Claude를 쓰고 있다면 OpenAI vs Claude 비교 (3/3) — AI 에이전트 하네스 설계는 무엇이 다른가로 바로 들어가도 된다.

영문 독자를 연결하려면 영문판 랜딩 글을 함께 보면 된다.

이 블로그 검색

MaJu's Note