맥미니 M4 + OpenClaw 하이브리드 AI 비서 아키텍처 설계기

- 3월 31, 2026

로컬 LLM을 필터로, 클라우드 API를 두뇌로 — 비용과 보안을 동시에 잡는 구조

핵심 요약

모든 요청을 외부 API로 보내면 비용 폭증 + 개인정보 유출 리스크가 생긴다
로컬 LLM(7~8B급)을 Gatekeeper로 배치해 데이터 정제 후 외부 API에 전달하는 "Filter & Brain" 구조를 설계했다
AI가 활용하기 좋은 데이터 계층(AI-Native PARA)까지 함께 설계해야 비로소 실용적인 개인 비서가 된다

배경

2026년 에이전트 환경에서 외부 API 의존도가 높아지면 두 가지 문제가 생긴다. 첫째, 에이전트가 자율적으로 사고를 반복할 때마다 토큰 비용이 기하급수적으로 증가한다. 둘째, 가계부, 일정, 소통 스타일 같은 민감 데이터가 가공 없이 외부 서버로 전송된다.

나는 이 문제를 해결하기 위해 로컬 LLM을 "필터", 외부 API를 "두뇌"로 쓰는 하이브리드 구조를 설계했다.

본문

아키텍처 선택: 왜 OpenClaw 중심인가

네 가지 구성안을 검토했다.

구성안	특징	채택 여부
로컬 LLM 선배치	입력을 먼저 가공 후 전달	OpenClaw 제어권 약화로 탈락
OpenClaw 중심	OpenClaw가 로컬/외부를 제어	채택
병렬 처리	두 모델에 동시 쿼리	자원 소모 극심으로 탈락
내장형	OpenClaw 내부에 모델 통합	유지보수 어려움으로 탈락

OpenClaw가 오케스트레이터 역할을 수행하며, 필요 시 로컬 모델에 데이터 정제를 시키고, 정제된 결과만 외부 모델에 보내는 방식이 가장 효율적이었다.

Filter & Brain 메커니즘

Local LLM (Gatekeeper) — 맥미니 M4의 GPU 가속 + Ollama 환경에서 구동: - 델타 요약: 이전 대화 맥락 중 변경된 핵심만 추출 - PII 마스킹: 주소, 계좌번호 등을 토큰화해 외부 유출 차단 - 포맷 정규화: 비정형 데이터를 JSON으로 구조화

이를 통해 외부 API로 전송되는 토큰 양을 상당히 절감할 수 있다.

External API (The Brain) — 정제된 고부가가치 데이터만 입력받아 복잡한 추론과 스킬 실행 계획을 수립한다.

데이터 계층 설계: AI-Native PARA

에이전트가 나를 잘 이해하려면 데이터가 체계적이어야 한다. 전통적인 PARA 방법론을 AI에 맞게 적용했다.

01_Profile: 사용자 페르소나, 업무 역할 (YAML)
02_Finances: 가계부, 고정 지출 (JSON)
05_Preferences: AI 말투, 보고 형식, 우선순위

핵심은 단순 저장이 아니라, AI가 즉시 RAG로 활용할 수 있는 구조화다.

시행착오 / 주의사항

보안 격리: OpenClaw는 Docker 컨테이너 내에 격리. gVisor 기반 샌드박스 환경 권장 (CVE-2026-25253 대응)
네트워크: 모바일과 맥미니를 Tailscale로 묶어 프라이빗 에이전트 망 구성
하드웨어는 맥미니 M4 32GB Unified Memory. Ollama GPU 가속 활용

마무리

OpenClaw + 로컬 LLM 결합은 "내 컴퓨터에 상주하는 디지털 대리인"을 만드는 과정이다. 나의 데이터를 가장 안전하게 다루면서 최소 비용으로 최적 결과를 내는 구조 — 이것이 2026년형 개인 AI 비서의 방향이라고 본다.

이 블로그 검색

MaJu's Note