에이전트 운영 설계 노트 (5/9) — 에이전트 평가는 점수표보다 회귀 테스트에 가깝다

에이전트 평가를 이야기하면 종종 벤치마크 점수나 데모 성능부터 떠올린다. 하지만 실제 운영에서는 더 중요한 질문이 따로 있다. 새 모델, 새 프롬프트, 새 도구, 새 권한 정책을 붙인 뒤에 원래 되던 것이 다시 깨졌는가. 이 질문에 답하는 구조가 바로 회귀 테스트에 가까운 에이전트 평가다.


핵심 요약

  • 에이전트 평가는 "얼마나 좋아졌나"보다 먼저 무엇이 다시 깨졌나를 잡아내야 한다.
  • deterministic check, rule-based validation, rubric, LLM-as-a-judge는 역할이 서로 다르다.
  • 실제 장애와 리뷰 지적에서 나온 실패 사례가 가장 강한 회귀 세트가 된다.
  • Managed Agents 시대에도 로컬 평가가 남는 이유는, 운영 실패의 정의가 조직마다 다르기 때문이다.

1. 왜 agent eval을 벤치마크처럼 보면 자주 실패하나

벤치마크는 비교에 좋다. 하지만 운영에는 보통 다음 정보가 더 필요하다.

  • 어떤 변경 뒤에
  • 어떤 종류의 작업이
  • 왜 다시 깨졌는가

에이전트는 단순 QA 시스템이 아니라, 도구 호출, 파일 수정, 승인 흐름, 장시간 작업까지 포함한다. 그래서 같은 점수라도 운영 실패 양상은 크게 다를 수 있다.

즉 운영에서 필요한 평가는 평균 성능표보다 회귀 감지 구조에 더 가깝다.

2. 첫 질문은 얼마나 좋아졌나가 아니라 무엇이 다시 깨졌나

새 모델을 붙였더니 문장 품질은 좋아졌는데 파일 범위 위반이 늘었다면? 새 권한 정책을 붙였더니 안전은 좋아졌는데 작업 완료율이 급감했다면?

이런 변화는 단순 점수표로는 잘 안 보인다.

운영 관점에서 첫 질문은 이쪽에 가깝다.

  • 기존에 통과하던 작업이 다시 실패했는가
  • 새로운 구조가 특정 실패 버킷을 늘렸는가
  • 겉보기에 좋아졌지만 비가역 실수는 커졌는가

즉 eval은 개선 자랑보다 먼저 회귀 감지에 강해야 한다.

3. deterministic check와 rubric은 역할이 다르다

좋은 평가 구조는 한 가지 평가 수단만으로 끝나지 않는다.

평가 방식 잘 잡는 것 한계
deterministic check 형식, 범위, 금지 행위, 승인 누락 의미 품질은 약함
rubric 완결성, 실용성, 설득력, 정확성 일관성 관리 필요
LLM-as-a-judge 대규모 의미 비교, 정성 평가 보조 판정 흔들림 가능
human review 고위험 판단, 정책 예외 비용 큼

중요한 건 하나가 다른 하나를 대체하지 않는다는 점이다.

운영에서는 보통:

  1. deterministic check로 명확한 실패를 먼저 걸러내고
  2. rubric이나 judge로 의미 품질을 보고
  3. 고위험 경계는 사람 리뷰로 마무리하는

식의 조합이 낫다.

4. 실제 실패 사례가 가장 좋은 회귀 세트가 되는 이유

많은 팀이 eval dataset을 새로 설계하려고만 한다. 물론 필요하다. 하지만 운영에서 가장 강한 회귀 세트는 대개 이미 존재한다.

  • 과거 장애 사례
  • 리뷰에서 반복 지적된 실수
  • 승인 누락 사례
  • 범위 위반 사례
  • 외부 발행/전송 사고 직전 사례

이런 케이스는 추상적 benchmark보다 훨씬 강하다. 왜냐하면 실제로 우리 시스템이 무너졌던 지점을 그대로 담고 있기 때문이다.

즉 회귀 세트의 출발점은 종종 "예쁜 문제집"이 아니라, 과거에 우리를 곤란하게 만든 실패 목록이다.

5. 평가 데이터셋은 보고서가 아니라 운영 자산이다

평가셋을 일회성 실험 파일로만 두면 곧 낡는다. 운영 자산으로 보려면 최소한 아래가 필요하다.

  • 어떤 실패 버킷을 대표하는지
  • 왜 이 케이스가 중요한지
  • 기대 결과가 무엇인지
  • 어느 변경 이후에 깨졌는지

즉 dataset은 점수표 생산 도구가 아니라, 조직이 무엇을 실패로 정의하는지 기억하는 구조여야 한다.

6. LLM-as-a-judge를 단독 판정자로 두면 생기는 문제

LLM judge는 강력하지만, 단독 판정자로 두면 몇 가지 문제가 있다.

  • 판정 근거가 흔들릴 수 있다
  • 형식 위반 같은 명확한 실패도 정성적으로 흘릴 수 있다
  • 모델이 바뀌면 평가 기준도 같이 흔들릴 수 있다

그래서 judge는 보통 더 아래쪽이 아니라 더 위쪽에 두는 편이 낫다.

  • 명확한 규칙 실패는 deterministic check
  • 의미 품질 보조는 judge
  • 정책 예외는 human review

이 순서가 더 안정적이다.

7. Managed Agents 시대에도 로컬 평가가 남는 이유

Managed Agents나 플랫폼 제공 평가는 공통 품질을 보기엔 유용하다. 하지만 로컬 운영 실패를 대신 정의해 주지는 못한다.

예를 들면 플랫폼은 아래를 잘 못 안다.

  • 우리 저장소에서 절대 만지면 안 되는 파일
  • 우리 조직에서 승인 없이 보내면 안 되는 메시지
  • 우리 블로그에서 허용되지 않는 발행 흐름
  • 우리 운영에서 치명적 실패로 보는 회귀 유형

즉 로컬 평가는 플랫폼과 경쟁하는 게 아니라, 플랫폼 위에서 우리 실패 정의를 붙잡는 구조다.

8. 작은 팀이 바로 시작할 수 있는 regression-first 평가법

아주 큰 프레임워크가 없어도 시작할 수 있다.

  1. 최근 실패 사례 10개를 모은다
  2. 형식/범위/승인 실패를 deterministic check로 자른다
  3. 완결성과 정확성을 rubric 3~5개로 본다
  4. 변경 전후 같은 케이스를 다시 돌린다
  5. "점수가 올랐나"보다 "다시 깨졌나"를 먼저 본다

이 정도만 해도 데모 중심 평가보다 훨씬 운영 친화적이다.

9. 결론: agent eval의 본질은 비교보다 재발 방지에 가깝다

좋은 에이전트 평가는 순위표를 예쁘게 만드는 구조가 아니다. 운영 관점에서는 오히려 더 소박하다.

  • 원래 되던 것이 다시 깨졌는가
  • 어떤 변경이 어떤 실패 버킷을 늘렸는가
  • 그 실패를 다음 릴리즈 전에 잡아낼 수 있는가

즉 agent eval은 벤치마크 대회보다, 재발 방지를 위한 회귀 테스트 체계에 더 가깝다.

함께 읽으면 좋은 글

참고 자료

시리즈 전체 안내: 시리즈 목차

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"