맥미니 M4 + OpenClaw 하이브리드 AI 비서 아키텍처 설계기
로컬 LLM을 필터로, 클라우드 API를 두뇌로 — 비용과 보안을 동시에 잡는 구조
핵심 요약
- 모든 요청을 외부 API로 보내면 비용 폭증 + 개인정보 유출 리스크가 생긴다
- 로컬 LLM(7~8B급)을 Gatekeeper로 배치해 데이터 정제 후 외부 API에 전달하는 "Filter & Brain" 구조를 설계했다
- AI가 활용하기 좋은 데이터 계층(AI-Native PARA)까지 함께 설계해야 비로소 실용적인 개인 비서가 된다
배경
2026년 에이전트 환경에서 외부 API 의존도가 높아지면 두 가지 문제가 생긴다. 첫째, 에이전트가 자율적으로 사고를 반복할 때마다 토큰 비용이 기하급수적으로 증가한다. 둘째, 가계부, 일정, 소통 스타일 같은 민감 데이터가 가공 없이 외부 서버로 전송된다.
나는 이 문제를 해결하기 위해 로컬 LLM을 "필터", 외부 API를 "두뇌"로 쓰는 하이브리드 구조를 설계했다.
본문
아키텍처 선택: 왜 OpenClaw 중심인가
네 가지 구성안을 검토했다.
| 구성안 | 특징 | 채택 여부 |
|---|---|---|
| 로컬 LLM 선배치 | 입력을 먼저 가공 후 전달 | OpenClaw 제어권 약화로 탈락 |
| OpenClaw 중심 | OpenClaw가 로컬/외부를 제어 | 채택 |
| 병렬 처리 | 두 모델에 동시 쿼리 | 자원 소모 극심으로 탈락 |
| 내장형 | OpenClaw 내부에 모델 통합 | 유지보수 어려움으로 탈락 |
OpenClaw가 오케스트레이터 역할을 수행하며, 필요 시 로컬 모델에 데이터 정제를 시키고, 정제된 결과만 외부 모델에 보내는 방식이 가장 효율적이었다.
Filter & Brain 메커니즘
Local LLM (Gatekeeper) — 맥미니 M4의 GPU 가속 + Ollama 환경에서 구동: - 델타 요약: 이전 대화 맥락 중 변경된 핵심만 추출 - PII 마스킹: 주소, 계좌번호 등을 토큰화해 외부 유출 차단 - 포맷 정규화: 비정형 데이터를 JSON으로 구조화
이를 통해 외부 API로 전송되는 토큰 양을 상당히 절감할 수 있다.
External API (The Brain) — 정제된 고부가가치 데이터만 입력받아 복잡한 추론과 스킬 실행 계획을 수립한다.
데이터 계층 설계: AI-Native PARA
에이전트가 나를 잘 이해하려면 데이터가 체계적이어야 한다. 전통적인 PARA 방법론을 AI에 맞게 적용했다.
01_Profile: 사용자 페르소나, 업무 역할 (YAML)02_Finances: 가계부, 고정 지출 (JSON)05_Preferences: AI 말투, 보고 형식, 우선순위
핵심은 단순 저장이 아니라, AI가 즉시 RAG로 활용할 수 있는 구조화다.
시행착오 / 주의사항
- 보안 격리: OpenClaw는 Docker 컨테이너 내에 격리. gVisor 기반 샌드박스 환경 권장 (
CVE-2026-25253대응) - 네트워크: 모바일과 맥미니를 Tailscale로 묶어 프라이빗 에이전트 망 구성
- 하드웨어는 맥미니 M4 32GB Unified Memory. Ollama GPU 가속 활용
마무리
OpenClaw + 로컬 LLM 결합은 "내 컴퓨터에 상주하는 디지털 대리인"을 만드는 과정이다. 나의 데이터를 가장 안전하게 다루면서 최소 비용으로 최적 결과를 내는 구조 — 이것이 2026년형 개인 AI 비서의 방향이라고 본다.
댓글
댓글 쓰기