"로컬 LLM 입문 2026 — Ollama vs LM Studio, 그리고 내 컴퓨터에서 무엇이 돌아가나"
설치부터 모델 선택까지, 8GB·16GB·24GB·64GB 환경별 추천 + Mac/Windows 가이드
핵심 요약
- 대상 독자: API 비용·데이터 프라이버시 때문에 LLM을 본인 컴퓨터에서 돌려보고 싶은 일반 사용자 + 개발자.
- 얻을 것: 1) Ollama vs LM Studio 어느 걸 골라야 하나 2) 현재 RAM/VRAM에서 돌릴 수 있는 모델 (8GB·16GB·24GB·64GB) 3) Mac/Windows 설치 단계 4) 실제 사용 시나리오와 한계 5) 클라우드 LLM 대비 솔직한 비교.
- 한 줄 결론: GUI 처음 시도 → LM Studio. 자동화·서버·개발 → Ollama. 둘 다 무료. Mac M-시리즈가 8GB부터 의외로 잘 돌아간다.
1. 왜 로컬 LLM인가
| 이유 | 클라우드 | 로컬 |
|---|---|---|
| 비용 | 토큰당 과금 | 한 번 설치하면 무료 (전기·하드웨어만) |
| 프라이버시 | 외부 서버 전송 | 절대 컴퓨터 밖으로 안 나감 |
| 오프라인 | 네트워크 필요 | 가능 |
| 품질 | GPT-5.5 / Claude 4.7 / Gemini 3 | Llama 3 / Qwen 3 / Mistral (오픈소스 SOTA) |
| 속도 | 모델·네트워크에 따라 | 하드웨어에 따라 (일반 노트북 30~40 tok/s) |
| 멀티모달 | 풍부 (이미지·음성·영상) | 텍스트 + 일부 비전 모델만 |
로컬이 적합한 경우: - 민감 자료 (의료·법률·계약서) 처리 - API 비용 부담 (월 $30+ 쓰는 자동화) - 인터넷 없는 환경 - 학습·실험용 (모델 비교, 파인튜닝 시도)
클라우드가 더 적합한 경우: - 최고 품질이 필요한 전문 작업 - 멀티모달 (이미지·음성 입력 출력) - 가끔만 쓰는 일반 사용자
2. Ollama vs LM Studio
2.1 핵심 차이
| Ollama | LM Studio | |
|---|---|---|
| 인터페이스 | CLI (터미널) | GUI (데스크탑 앱) |
| 타겟 사용자 | 개발자·자동화 | 비개발자·실험자 |
| 모델 라이브러리 | 자체 큐레이션 (ollama.com/library) | HuggingFace 직접 통합 |
| Apple Silicon 최적화 | Metal (좋음) | MLX (더 빠름, M3 Ultra에서 1.6배) |
| GPU 자동 감지 | NVIDIA / AMD / Apple 자동 | 수동 설정 필요 |
| Docker | 공식 이미지 | ❌ |
| API 서버 | 기본 내장 (localhost:11434) |
별도 활성화 |
| n8n / LangChain 연동 | 우선 지원 | OpenAI 호환 API로 가능 |
| 무료 | ✅ | ✅ |
2.2 어느 걸 골라야 하나
- GUI로 모델 비교·실험 → LM Studio
- CLI · 자동화 · 서버 배포 → Ollama
- 둘 다 설치해도 됨 (충돌 없음). 일반적으로 처음 LM Studio → 익숙해지면 Ollama 추가.
2.3 속도 차이 (M3 Ultra 기준, Gemma 3 1B)
- LM Studio (MLX): 237 tok/s
- Ollama (Metal): 149 tok/s
Ollama도 곧 MLX 지원 예정. Apple Silicon이면 현재 LM Studio가 빠르다.
3. 내 컴퓨터에서 무엇이 돌아가나
3.1 RAM/VRAM별 추천 모델 (Q4_K_M 양자화 기준)
| 환경 | 추천 모델 | 메모리 사용 | 용도 |
|---|---|---|---|
| 8 GB VRAM (또는 Apple 8 GB unified) | Qwen 3.5 9B (기본 추천) | 6.6 GB | 일반 채팅, 요약, 번역 |
| 8 GB | Llama 3.1 8B | 5~6 GB | 영어 채팅 표준 |
| 8 GB | Mistral 7B | 4.5 GB | 가벼운 작업 |
| 16 GB | Qwen 3 14B Q5_K_M | 10.2 GB | 고품질 채팅 |
| 16 GB | Mistral Small 24B Q4 | 13.4 GB | 더 정교한 추론 |
| 24 GB | Mixtral 8x7B / 35B Q4 | 18~22 GB | 본격 작업 |
| 48+ GB | Llama 3.3 70B Q4 / Qwen 2.5 72B Q4 | 40~44 GB | 거의 클라우드급 |
| Apple M-Mac 64 GB+ | Llama 3.3 70B / Qwen 72B | unified memory 사용 | M5 Max 64 GB ≒ H100급 |
출처: LocalLLM.in VRAM 가이드, GitHub ollama/ollama.
3.2 양자화 (quantization) 한 줄 설명
Q4_K_M = 4비트 압축. FP16 원본 대비 메모리 75% 감소, 품질 손실 5~10%. 가장 흔한 선택. - Q8 / FP16 = 풀 품질 (메모리 4배 필요) - Q5_K_M = 약간 더 정확, 메모리 +20% - Q3 = 메모리 더 작지만 품질 눈에 띄게 하락
처음에는 Q4_K_M 고정, 만족 못 하면 한 단계 위(Q5)로.
3.3 Apple Silicon의 트릭
Unified memory 덕분에 GPU가 시스템 RAM을 다 쓴다. 64 GB MacBook Pro = 사실상 64 GB VRAM. NVIDIA RTX 4090(24 GB)으로는 못 돌리는 70B 모델이 M3/M4/M5 Max 64 GB에서는 돌아간다.
4. 설치 — Mac & Windows
4.1 Ollama (CLI)
Mac
brew install ollama
ollama run llama3.1:8b
Windows (10/11, ARM64 네이티브 지원) 1. ollama.com/download → Windows installer 2. 설치 후 PowerShell:
ollama run qwen3:9b
자주 쓰는 명령
ollama list # 설치된 모델
ollama pull mistral # 모델만 받고 실행 안 함
ollama rm llama3.1 # 삭제
ollama serve # API 서버 (기본 11434 포트)
4.2 LM Studio (GUI)
Mac & Windows 1. lmstudio.ai → 다운로드 → 설치 2. 실행 → 좌측 검색 아이콘 → 모델 검색 (예: "qwen 3.5 9b") 3. 다운로드 → "Chat" 탭에서 즉시 사용 4. (선택) "Local Server" 탭 → Start → OpenAI 호환 API 활성
LM Studio는 GPU·메모리 자동 감지가 더 친절하다. 모델 선택 시 "Will fit in your RAM/VRAM" 표시.
5. 실제 사용 시나리오 5가지
5.1 민감 자료 분석
법률 계약서·의료 기록·내부 문서를 외부로 보내지 않고 요약·번역. 8 GB Mac에서도 Qwen 3.5 9B가 충분.
5.2 코딩 보조
Llama 3.1 8B 또는 Qwen 2.5 Coder 7B → VS Code의 Continue 확장으로 연결. GitHub Copilot 대안.
5.3 RAG (자체 자료 질의응답)
Ollama API + LangChain/LlamaIndex로 본인 PDF·노트 인덱싱 → 자연어 질의. NotebookLM 자체 호스팅 버전.
5.4 자동화 (n8n + Ollama)
7편의 메일 분류 워크플로를 Claude Haiku 대신 로컬 Llama로 → 토큰 비용 0.
5.5 학습·실험
모델 간 응답 차이 비교, 파인튜닝 베이스 선정, 양자화 영향 측정.
6. 한계 — 솔직히 말하자면
- 품질 차이 분명: 70B 로컬 모델이 GPT-5.5 / Claude Opus 4.7과 같은 작업을 시켜도 미세한 품질 차이가 있다. 특히 추론·코드·외국어.
- 멀티모달 제한: 이미지·음성 입출력은 모델·도구 모두 제한. 클라우드만큼 매끈하지 않음.
- 컨텍스트 창: 보통 8K~32K (일부 128K). 클라우드 1M 시대와는 차이.
- 소음·발열·전기: 70B 모델 돌리면 노트북 팬 풀가동. 데스크탑은 전기료 약간.
- 첫 다운로드 시간: 모델당 4~80 GB. 와이파이로 30분~2시간.
- 모델 자체 검열·정렬은 클라우드보다 약함: 위험한 출력 방지 장치가 약하므로 개인 책임.
7. 첫 1주일 시작 가이드
| 일차 | 작업 |
|---|---|
| 1일 | LM Studio 설치 → Qwen 3.5 9B 다운로드 → 채팅 1시간. 클라우드와 체감 비교. |
| 2일 | Ollama 추가 설치 → 동일 모델 받아 CLI 실행 → API 서버 시작. |
| 3일 | OpenAI 호환 API로 본인 코드(Python 또는 n8n)에 연결. 클라우드 키 빼고 돌아가는지 확인. |
| 4~5일 | 본인 PDF 1개로 RAG 시도 (LM Studio 내장 또는 LangChain). |
| 6~7일 | 만족도 평가. 클라우드 대비 절약된 비용·놓친 기능 정리 → 유지/병행/포기 결정. |
8. 클라우드 vs 로컬 — 솔직한 비교
| 클라우드 (Claude / GPT / Gemini) | 로컬 (Llama / Qwen / Mistral) | |
|---|---|---|
| 품질 | 최상 | 좋음 (15~30% 격차) |
| 비용 | 사용량 비례 | 초기 0, 전기·하드웨어 |
| 속도 | 일정 (네트워크) | 일정 (하드웨어) |
| 프라이버시 | 약 (정책 의존) | 완전 |
| 멀티모달 | 풍부 | 제한적 |
| 컨텍스트 | 1M+ | 8K~128K |
| 확장 | 무한 | 하드웨어 한도 |
| 책임 | 회사 | 본인 |
현실적 추천: 클라우드 메인 + 민감 작업·자동화는 로컬. 둘 중 하나만 고집하는 것보다 상호 보완이 합리적.
개발자 팁
- Ollama API는 OpenAI 호환:
OPENAI_API_BASE=http://localhost:11434/v1환경변수 설정 후 OpenAI SDK 그대로 사용. 코드 수정 없이 클라우드 ↔ 로컬 전환. - 모델 라이센스 주의: Llama 3 (Meta), Qwen (Alibaba), Mistral 각각 라이센스 다름. 상업 사용 시 확인. 일부는 월 사용자 수 제한.
- n8n 통합: Ollama Chat 노드 또는 OpenAI Chat 노드 + Base URL 변경. 인덱스/검색은 LangChain 노드 사용.
- 파인튜닝: 8B 모델은 16GB VRAM에서 LoRA 가능. unsloth, axolotl 라이브러리 추천.
- 벤치마크 자동화: 본인 데이터셋으로 모델 비교 자동화. lm-eval-harness, MTEB 사용.
- 프로덕션 배포: vLLM(수십 동시 요청 처리), TGI(HuggingFace), llama.cpp 서버 등 Ollama보다 빠른 옵션 다수. Ollama는 개인용·MVP 적합.
- 에지 배포: Raspberry Pi 5 + 8 GB는 3B 모델까지 가능. 모바일은 Llama 3.2 1B/3B 양자화로 가능.
참고
- Ollama 공식
- Ollama 모델 라이브러리
- LM Studio 공식
- LocalLLM.in — Ollama VRAM 요구사항
- GitHub — ollama/ollama
- Continue (VS Code 확장)
이 글은 AI 입문 시리즈의 8/11 편입니다. 시리즈 완결. 시리즈 전체 목차는 블로그 메인 TOC 페이지에서 확인하세요.
댓글
댓글 쓰기