맥미니 M4 기반 하이브리드 AI 아키텍처 설계

맥미니 M4 기반 하이브리드 AI 아키텍처 설계

Qwen 32B 로컬 게이트키퍼와 데이터 TTL(유효기간) 관리 전략


핵심 요약

  • 맥미니 M4(32GB)를 헤드리스 서버로 운영하면 Qwen 2.5 32B(Q4_K_M)를 메인 로컬 엔진으로 쓸 수 있다
  • 로컬 LLM은 필터(PII 마스킹, 토큰 최소화, 스마트 라우팅), 클라우드는 두뇌로 역할을 분리했다
  • 저장된 지식에도 유통기한(TTL)을 부여해 정보 노후화 문제를 해결했다

배경

맥미니 M4(32GB)를 도입하면서 가장 고민한 건 자원 배분이었다. UI 없이 윈도우 PC에서 제어하는 헤드리스(Headless) 서버로 운영하기로 결정하면서 OS/OpenClaw이 약 6~8GB를 점유하고, 나머지 24~25GB를 LLM에 할당할 수 있게 됐다. 7B급 대신 훨씬 정교한 Qwen 2.5 32B를 선택한 이유다.

데이터 수문장(Gatekeeper) 전략

본문

데이터 수문장(Gatekeeper) 전략

로컬 LLM의 세 가지 핵심 역할:

  1. PII Masking: 개인정보(계좌, 주소 등)를 외부 전송 전에 마스킹 처리
  2. Token Minimizer: 원본 데이터를 요약/구조화(JSON/YAML)해 외부 API 비용 80% 이상 절감
  3. Smart Routing: 난이도별 처리 주체 결정
  4. 단순 요약/조사 → 로컬 LLM + Gemini 3 Flash (저비용)
  5. 코드/복잡한 추론 → Claude Code (고성능)

역할 분담:

구분 역할 주용도
Local (Qwen 32B) Gatekeeper 전처리, 보안, 1차 요약, TTL 관리
Cloud (Gemini Flash) Explorer 외부 인터넷 서핑, 실시간 정보 수집
Cloud (Claude) Specialist 복잡한 코딩, 아키텍처 설계, 심층 추론

지식의 유통기한: 동적 TTL

모든 로컬 데이터는 잠재적으로 부패할 수 있다. 지식에도 유통기한이 필요하다는 결론에 도달했다.

  • 휘발성 지식 (1~6시간): 날씨, 주가, 실시간 뉴스
  • 유동성 지식 (7~15일): SW 버전 정보, 영업시간
  • 안정성 지식 (1년+): 개인 이력, 제품 매뉴얼, 수학적 원리

검증 루프 (Validation Loop)

OpenClaw에 '지식 정원사(Janitor)' 스킬을 구현해 신선도를 유지한다.

  1. 만료 감지: 마크다운 파일의 TTL 경과 시 로컬 LLM이 인지
  2. 검증 요청: Gemini 3 Flash로 "여전히 유효한가?" 1-토큰 응답(Y/N) 확인
  3. 충돌 해결: 외부 정보와 로컬 정보가 충돌하면 로컬 LLM이 비교 분석 후 최신 지식으로 갱신

시행착오 / 주의사항

  • 7B 모델로 시작했다가 문맥 압축 품질이 부족해 32B로 교체했다. 모델 체급이 클수록 Context Compression 정교함이 비약적으로 상승한다.
  • TTL 설정이 너무 짧으면 불필요한 검증 요청이 늘어나고, 너무 길면 오래된 정보를 사실로 취급하게 된다. 지식 성격별 차등 적용이 핵심이다.

마무리

로컬 LLM(Qwen 32B)은 단순 챗봇이 아니라 지식 저장소의 기억 감정사다. 외부 API 비용은 최소화하되 정보 정확도는 클라우드급으로 유지하는 이 하이브리드 아키텍처가 개인 AI 비서의 실질적인 방향이라고 본다.

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"