LLM과 스크립트의 협업 설계 — 판단은 AI에게, 실행은 코드에게

토큰 96% 절감을 달성한 AI 에이전트의 역할 분리 아키텍처

핵심 요약

AI 에이전트 시스템을 운영하면서 LLM의 한계를 반복적으로 경험했다. 단순 데이터 변환에도 막대한 토큰을 소비하고, 동일 입력에 다른 결과를 내놓으며, 산술 연산에서는 신뢰도가 떨어졌다. "모든 걸 LLM에게 맡기면 된다"는 접근은 비용과 정확도 양쪽에서 실패했다.

내가 도달한 원칙은 단순하다. 의미론적 판단이 필요한 작업은 LLM이, 엄격한 규칙 기반 작업은 Python/Bash 스크립트가 담당한다. 이 분리만으로 세 가지 성과를 얻었다.

스크립트는 성격에 따라 네 그룹으로 나뉜다.

메모리 시스템에서는 Recall 기반의 정확한 키워드 매칭과 임베딩(Embedding) 기반의 의미론적 검색을 함께 운용한다. 키워드 매칭은 정확도를, 임베딩 검색은 커버리지를 담당하여 서로의 약점을 보완한다.

초기에는 LLM에게 데이터 변환까지 맡겼다. 결과는 비결정론적이고 비쌌다. "LLM이 잘하는 것"과 "코드가 잘하는 것"의 경계를 명확히 긋는 데 시행착오가 필요했다. 핵심 기준은 하나다 — 판단이 필요한가, 규칙 적용이 필요한가.

LLM은 만능이 아니다. 판단과 실행을 분리하고, 각각에 최적화된 도구를 배치하는 것이 AI 에이전트 시스템의 비용과 신뢰성을 동시에 잡는 방법이다. 96%의 토큰 절감은 기술적 트릭이 아니라 아키텍처 설계의 결과였다.