온톨로지와 메모리 시스템 (7/13) — 장시간 운영에서는 handoff 설계가 메모리보다 먼저다

긴 작업에서 가장 자주 깨지는 것은 모델의 기억력이 아니라 작업의 연속성이다. 세션이 바뀌고, 사람이 개입하고, 컨텍스트가 잘리고, 다음 실행이 이어질 때 무엇을 먼저 읽어야 하는지가 흐려진다. 그래서 장시간 에이전트 운영의 핵심은 memory 일반론보다 먼저 handoff를 어떻게 구조화할 것인가에 있다.


핵심 요약

  • 장시간 작업의 진짜 문제는 망각보다 단절이다.
  • 좋은 handoff는 "요약문"이 아니라 다음 행동을 바로 시작할 수 있게 만드는 재개 구조다.
  • progress file, session note, handoff note는 같은 문서가 아니다. 역할을 분리할수록 재개 비용이 줄어든다.
  • Managed Agents가 장시간 실행을 도와줄 수는 있어도, 무엇을 어떻게 이어붙일지는 여전히 로컬 설계다.

1. 장시간 작업의 진짜 문제는 망각보다 단절이다

긴 작업을 할 때 흔히 "메모리를 잘 넣으면 된다"고 생각한다. 하지만 실제로 더 자주 깨지는 건 아래다.

  • 지금 어디까지 했는지 모른다
  • 무엇이 확정이고 무엇이 미확정인지 흐리다
  • 다음 세션이 무엇부터 읽어야 할지 모른다
  • 사람이 중간 개입하면 재개점이 사라진다

즉 문제의 핵심은 많이 기억하느냐보다 어디서 다시 시작할 수 있느냐다.

2. 왜 handoff가 memory보다 먼저 와야 하나

memory는 넓은 개념이다. 장기 지식, 사용자 선호, 프로젝트 규칙, 과거 사실까지 다 포함할 수 있다. 반면 handoff는 훨씬 더 좁고 실용적이다.

handoff가 답해야 하는 질문은 대개 이렇다.

  • 지금 작업 목표는 무엇인가
  • 마지막으로 끝난 단계는 어디인가
  • 다음 행동은 무엇인가
  • 미검증 위험은 무엇인가

즉 handoff는 "많이 기억하기"보다 바로 이어 일하기를 위한 구조다.

3. 좋은 handoff는 요약문이 아니라 재개 구조다

많은 handoff가 요약문 수준에서 끝난다. "오늘은 무엇을 했고, 다음에 뭘 하면 좋다"는 정도다. 이건 나쁘진 않지만 충분하지 않다.

좋은 handoff는 아래를 포함하는 편이 낫다.

항목 이유
현재 목표 작업 중심축 유지
마지막 완료 단계 재시작 위치 고정
다음 한 단계 모호한 재개 방지
미검증 항목 사실과 가정 분리
참고 파일/경로 탐색 비용 감소

즉 handoff는 감상 요약이 아니라, 다음 세션의 실행 준비물이어야 한다.

4. 다음 세션이 가장 먼저 알아야 할 정보는 무엇인가

좋은 handoff는 모든 걸 다 담으려 하지 않는다. 다음 세션이 가장 먼저 알아야 할 것만 남긴다.

보통 우선순위는 이렇다.

  1. 현재 목표
  2. 지금 멈춘 이유
  3. 다음 한 단계
  4. 미검증 위험
  5. 꼭 읽어야 할 파일

이 순서가 흐려지면 다음 세션은 다시 워밍업부터 시작하게 된다.

5. progress file, session note, handoff note의 역할 분리

이 셋을 같은 문서로 섞어 두면 곧 읽는 비용이 커진다.

문서 역할
progress file 현재 상태와 남은 작업
session note 이번 세션에서 실제로 한 일
handoff note 다음 실행 주체가 바로 이어받기 위한 요약

같은 내용을 조금씩 반복하더라도, 읽는 목적이 다르기 때문에 역할을 분리하는 편이 낫다.

6. 사람이 중간 개입했을 때도 이어지게 만드는 법

장시간 운영이 어려운 진짜 이유 중 하나는 사람 개입 때문이다. 사람이 계획을 바꾸고, 우선순위를 조정하고, 일부 결과를 승인하거나 거절하면 원래 흐름이 깨지기 쉽다.

이때 좋은 handoff는 단순 로그보다 강하다.

  • 무엇이 바뀌었는지
  • 어떤 판단이 사람에 의해 내려졌는지
  • 그 결과 다음 행동이 어떻게 달라졌는지

를 남겨야 다음 주체가 혼동하지 않는다.

7. Managed Agents의 장시간 실행이 자동으로 해결하지 못하는 것

Managed runtime은 세션을 더 오래 살릴 수 있고, 일부 상태를 유지할 수 있다. 하지만 그것만으로 handoff가 해결되진 않는다.

플랫폼은 대개 아래를 대신 못 정한다.

  • 어떤 정보가 다음 주체에게 핵심인가
  • 무엇이 사실이고 무엇이 미확정인가
  • 어떤 파일을 먼저 읽어야 하나
  • 어떤 위험을 다시 검증해야 하나

즉 장시간 실행은 실행 시간 문제를 줄일 수는 있어도, 재개 구조 문제를 자동으로 해결하진 못한다.

8. handoff 품질을 검증하는 더 나은 기준

좋은 handoff인가를 보려면 "길게 잘 적었나"보다 아래를 보면 된다.

  • 다음 세션이 추가 질의 없이 첫 행동을 시작할 수 있는가
  • 미검증 상태와 확정 상태가 분리돼 있는가
  • 꼭 읽어야 할 파일이 선명한가
  • 사람이 개입한 변경점이 남아 있는가

이 기준을 통과하지 못하면, handoff는 기록은 남겼지만 재개 구조는 못 만든 것이다.

9. 결론: 긴 작업을 살리는 것은 memory의 양보다 handoff의 구조다

장시간 운영에서 중요한 것은 더 많이 기억하는 것이 아니다.

  • 어디서 멈췄는가
  • 무엇이 확정인가
  • 다음 행동은 무엇인가
  • 어떤 위험이 남았는가

이 네 가지를 다음 세션이 바로 이어받을 수 있어야 한다.

즉 긴 작업의 핵심은 memory보다 먼저 handoff 구조다.

함께 읽으면 좋은 글

참고 자료

시리즈 전체 안내: 시리즈 목차

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"