로컬 AI 인프라 노트 (9/15) — 로컬 LLM 교체기: Qwen3.5에서 Gemma 4로

- 4월 06, 2026

MoE 모델 간 세대 교체. 속도, 메모리, 정확도, 컨텍스트 — 전 항목 개선 기록

핵심 요약

Mac Mini M4 32GB에서 Qwen3.5-35B-A3B-4bit을 gemma-4-26b-a4b-it-4bit으로 교체했다
속도 +7%, RAM -4GB, 정확도 94%→100%, 컨텍스트 4배(32K→131K), 비전 지원 추가
기존 파이프라인(recall-tree, retain-merge, micro-cycle 등) 전체 테스트 전부 통과

배경: 로컬 LLM이 필요한 상황

클라우드 LLM은 강력하지만 모든 워크로드에 적합하지는 않습니다. 반복적·자동적으로 수백 번 호출하는 메모리 관리, 분류, 요약 작업은 클라우드 LLM으로 돌리면 비용이 폭발합니다.

실제로 멀티에이전트 오케스트레이션 플랫폼의 메모리 관리 파이프라인을 클라우드 LLM에 연결하는 마이그레이션을 시도했을 때 토큰 소비가 제어 불가 수준으로 증가하는 사례를 직접 관측했습니다. 이후 안정화를 위해 로컬 모델로 분리 운영하는 구조를 채택했습니다. 로컬 LLM은 분류·요약·태그 추출 같은 기계적 작업을 담당하고, 클라우드 LLM은 전략적 판단이 필요한 작업에만 집중합니다.

이 분리 설계 위에서 Qwen3.5-35B-A3B(Alibaba)를 장기 운영했습니다. 안정적이었지만, Google이 Gemma 4를 출시하면서 같은 MoE 구조의 모델 간 세대 교체 가능성을 검토했습니다.

본문

1. 모델 스펙 비교

항목	Qwen3.5-35B-A3B (Alibaba)	Gemma-4-26B-A4B (Google)
총 파라미터	35B	26B
활성 파라미터	3B	3.8B
구조	MoE (35B/3B)	MoE (26B/3.8B, 128 experts, top-8)
양자화	4-bit GGUF	4-bit MLX safetensors
디스크	19GB	15GB
컨텍스트	32K	131K (256K 지원)
비전	없음	멀티모달 지원

총 파라미터는 Qwen이 크지만, 활성 파라미터는 Gemma가 더 큽니다 (3B vs 3.8B). MoE 모델에서 실제 성능을 결정하는 것은 활성 파라미터이기 때문에, 숫자만 보면 Gemma가 유리합니다.

디스크 사용량도 15GB vs 19GB로 Gemma가 가볍습니다. MLX safetensors 형식이라 Apple Silicon에서 네이티브로 실행됩니다.

Apple Silicon(Mac Mini M4)에서 로컬 LLM을 선택할 때 고려할 점: - 통합 메모리(unified memory) 구조에서는 VRAM/RAM 구분이 없어 모델 크기가 직접 RAM 점유로 이어집니다. - MLX 형식은 Apple Neural Engine을 활용하므로 GGUF 대비 같은 하드웨어에서 효율이 높습니다. - 32GB 시스템에서 15GB 모델은 OS/서비스 여유를 충분히 남깁니다. 19GB는 빡빡합니다.

2. 속도 벤치마크

Mac Mini M4 32GB, oMLX 0.3.4 환경에서 측정했습니다.

항목	Qwen3.5	Gemma 4	차이
생성 속도 (256토큰, 3회 평균)	27.3 tok/s	29.1 tok/s	+7%
oMLX 통계 평균	14.2 tok/s (장기 누적)	22.5 tok/s (초기 측정)	+58%
RAM 사용	~19GB	~15GB	-4GB
여유 RAM	~13GB	~17GB	+4GB

256토큰 단위 생성에서 7% 향상입니다. oMLX 통계 기반 평균에서는 58% 차이가 납니다. 단, 이 수치는 Qwen의 장기 운영 누적 평균(간헐적 지연 포함)과 Gemma의 초기 소수 측정 차이이므로 직접 비교는 공정하지 않습니다. 장기 운영 후 재측정이 필요합니다.

RAM 절약이 특히 유의미합니다. 19GB→15GB로 4GB가 여유로워지면 다른 서비스(대시보드, 모니터링, 임베딩 서버)에 할당할 수 있습니다.

3. 정확도 테스트

OpenClaw의 memory-runner 파이프라인에서 사용하는 T01-T14 테스트를 돌렸습니다.

테스트	Qwen3.5	Gemma 4
T01-T10 (기본 지시/파일 작업)	10/10	10/10
T13 (복수 태그 추출)	3/3	3/3
T14 (조건 분기)	2/3	3/3
총합	15/16 (94%)	16/16 (100%)

핵심 차이: T14 조건 분기 테스트입니다. Qwen3.5의 유일한 약점이었던 이 테스트를 Gemma 4가 완전 통과했습니다. 조건 분기는 메모리 관리에서 "이 정보를 어디에 저장할 것인가"를 결정하는 핵심 능력이기 때문에, 100% 통과는 의미가 큽니다.

4. 파이프라인 호환성

기존 파이프라인과의 호환성이 가장 중요합니다. 모델을 바꿨더니 파이프라인이 깨지면 의미가 없습니다.

전부 통과한 항목: - recall-tree: 전체 쿼리 테스트 통과 - retain-merge: TAG_ROUTING 키워드 분류 정상 - micro-cycle: 경량 증류 정상 - confidence-decay: 신뢰도 감쇠 계산 정상 - bank-lint: 지식 파일 무결성 검사 정상 - proactive-select: 브리핑 선택 로직 정상 - 임베딩 (bge-m3 1024d): 하이브리드 검색 정상

모델 교체가 파이프라인에 영향을 주지 않은 이유: 파이프라인들이 모델의 출력 형식(JSON, 태그)에 의존하지, 모델 자체에 의존하지 않기 때문입니다. 이 분리 설계가 모델 교체를 안전하게 만듭니다.

5. 컨텍스트 4배 확장의 의미

32K → 131K(최대 256K)로 컨텍스트가 4배 이상 늘었습니다. 이것이 실제로 의미하는 것:

memoryFlush: 더 긴 세션 요약을 한 번에 처리 가능
retain-merge: 더 많은 맥락을 보고 태그 분류 가능
Reflect 증류: 하루치 기억을 한 번에 처리할 여유 확보

다만 컨텍스트가 길어지면 토큰당 처리 시간도 늘어나므로, 무조건 길게 넣는 것이 답은 아닙니다. 필요할 때 여유가 있다는 것이 핵심입니다.

6. 로컬 LLM vs 클라우드 LLM — 선택 기준

로컬 LLM이 유리한 경우: - 반복 호출 빈도가 높은 작업: 분류, 태그 추출, 요약 등 기계적 작업을 자동화 파이프라인에서 수백~수천 회 실행할 때. 클라우드 LLM으로 대체하면 토큰 비용이 선형으로 증가합니다. - 레이턴시 허용: 27~29 tok/s는 실시간 대화에는 느릴 수 있지만, 백그라운드 배치 처리에는 충분합니다. - 프라이버시: 로컬에서 처리되므로 민감한 데이터가 외부로 나가지 않습니다.

클라우드 LLM이 유리한 경우: - 복잡한 추론: 전략적 판단, 멀티스텝 계획, 창의적 작성. - 최신 정보: 로컬 모델은 학습 컷오프 이후 정보가 없습니다. - 긴 컨텍스트 + 고속: 클라우드는 하드웨어 제약이 없습니다.

실용적인 접근: 기계적·반복적 작업은 로컬, 판단이 필요한 작업은 클라우드. 두 계층을 혼합하면 비용과 품질을 동시에 최적화할 수 있습니다.

시행착오

oMLX 통계의 샘플 편향: Qwen의 장기 누적 평균 vs Gemma의 초기 소수 측정을 직접 비교하는 것은 공정하지 않습니다. 장기 운영 후 재측정으로 보정이 필요합니다. 초기 결과에 과도하게 흥분하지 않는 것이 중요합니다.

양자화 형식 차이: GGUF(Qwen)와 MLX safetensors(Gemma)는 다른 런타임을 사용합니다. Mac Mini에서는 MLX가 네이티브이므로 Gemma에 유리합니다. 다른 환경(Linux, CUDA)에서는 결과가 다를 수 있습니다.

마무리

Gemma 4는 Qwen3.5의 모든 지표를 개선하면서 파이프라인 호환성까지 유지한, 이상적인 세대 교체 사례입니다. 특히 T14 조건 분기 100% 통과와 RAM 4GB 절약이 실질적인 가치를 만들었습니다.

로컬 LLM을 운영하는 개발자라면 두 가지를 권합니다. 첫째, 모델 교체 전 파이프라인 호환성 테스트를 반드시 먼저 수행할 것. 둘째, 파이프라인 설계 시 모델 출력 형식(JSON/태그)에만 의존하고 모델 자체에는 의존하지 않도록 설계할 것 — 이 분리가 교체 비용을 0에 가깝게 만듭니다.

시리즈 전체 안내: 시리즈 목차

이 블로그 검색

MaJu's Note