"로컬 LLM 입문 2026 — Ollama vs LM Studio, 그리고 내 컴퓨터에서 무엇이 돌아가나"

설치부터 모델 선택까지, 8GB·16GB·24GB·64GB 환경별 추천 + Mac/Windows 가이드


핵심 요약

  • 대상 독자: API 비용·데이터 프라이버시 때문에 LLM을 본인 컴퓨터에서 돌려보고 싶은 일반 사용자 + 개발자.
  • 얻을 것: 1) Ollama vs LM Studio 어느 걸 골라야 하나 2) 현재 RAM/VRAM에서 돌릴 수 있는 모델 (8GB·16GB·24GB·64GB) 3) Mac/Windows 설치 단계 4) 실제 사용 시나리오와 한계 5) 클라우드 LLM 대비 솔직한 비교.
  • 한 줄 결론: GUI 처음 시도 → LM Studio. 자동화·서버·개발 → Ollama. 둘 다 무료. Mac M-시리즈가 8GB부터 의외로 잘 돌아간다.

1. 왜 로컬 LLM인가

이유 클라우드 로컬
비용 토큰당 과금 한 번 설치하면 무료 (전기·하드웨어만)
프라이버시 외부 서버 전송 절대 컴퓨터 밖으로 안 나감
오프라인 네트워크 필요 가능
품질 GPT-5.5 / Claude 4.7 / Gemini 3 Llama 3 / Qwen 3 / Mistral (오픈소스 SOTA)
속도 모델·네트워크에 따라 하드웨어에 따라 (일반 노트북 30~40 tok/s)
멀티모달 풍부 (이미지·음성·영상) 텍스트 + 일부 비전 모델만

로컬이 적합한 경우: - 민감 자료 (의료·법률·계약서) 처리 - API 비용 부담 (월 $30+ 쓰는 자동화) - 인터넷 없는 환경 - 학습·실험용 (모델 비교, 파인튜닝 시도)

클라우드가 더 적합한 경우: - 최고 품질이 필요한 전문 작업 - 멀티모달 (이미지·음성 입력 출력) - 가끔만 쓰는 일반 사용자


2. Ollama vs LM Studio

2.1 핵심 차이

Ollama LM Studio
인터페이스 CLI (터미널) GUI (데스크탑 앱)
타겟 사용자 개발자·자동화 비개발자·실험자
모델 라이브러리 자체 큐레이션 (ollama.com/library) HuggingFace 직접 통합
Apple Silicon 최적화 Metal (좋음) MLX (더 빠름, M3 Ultra에서 1.6배)
GPU 자동 감지 NVIDIA / AMD / Apple 자동 수동 설정 필요
Docker 공식 이미지
API 서버 기본 내장 (localhost:11434) 별도 활성화
n8n / LangChain 연동 우선 지원 OpenAI 호환 API로 가능
무료

2.2 어느 걸 골라야 하나

  • GUI로 모델 비교·실험 → LM Studio
  • CLI · 자동화 · 서버 배포 → Ollama
  • 둘 다 설치해도 됨 (충돌 없음). 일반적으로 처음 LM Studio → 익숙해지면 Ollama 추가.

2.3 속도 차이 (M3 Ultra 기준, Gemma 3 1B)

  • LM Studio (MLX): 237 tok/s
  • Ollama (Metal): 149 tok/s

Ollama도 곧 MLX 지원 예정. Apple Silicon이면 현재 LM Studio가 빠르다.


3. 내 컴퓨터에서 무엇이 돌아가나

3.1 RAM/VRAM별 추천 모델 (Q4_K_M 양자화 기준)

환경 추천 모델 메모리 사용 용도
8 GB VRAM (또는 Apple 8 GB unified) Qwen 3.5 9B (기본 추천) 6.6 GB 일반 채팅, 요약, 번역
8 GB Llama 3.1 8B 5~6 GB 영어 채팅 표준
8 GB Mistral 7B 4.5 GB 가벼운 작업
16 GB Qwen 3 14B Q5_K_M 10.2 GB 고품질 채팅
16 GB Mistral Small 24B Q4 13.4 GB 더 정교한 추론
24 GB Mixtral 8x7B / 35B Q4 18~22 GB 본격 작업
48+ GB Llama 3.3 70B Q4 / Qwen 2.5 72B Q4 40~44 GB 거의 클라우드급
Apple M-Mac 64 GB+ Llama 3.3 70B / Qwen 72B unified memory 사용 M5 Max 64 GB ≒ H100급

출처: LocalLLM.in VRAM 가이드, GitHub ollama/ollama.

3.2 양자화 (quantization) 한 줄 설명

Q4_K_M = 4비트 압축. FP16 원본 대비 메모리 75% 감소, 품질 손실 5~10%. 가장 흔한 선택. - Q8 / FP16 = 풀 품질 (메모리 4배 필요) - Q5_K_M = 약간 더 정확, 메모리 +20% - Q3 = 메모리 더 작지만 품질 눈에 띄게 하락

처음에는 Q4_K_M 고정, 만족 못 하면 한 단계 위(Q5)로.

3.3 Apple Silicon의 트릭

Unified memory 덕분에 GPU가 시스템 RAM을 다 쓴다. 64 GB MacBook Pro = 사실상 64 GB VRAM. NVIDIA RTX 4090(24 GB)으로는 못 돌리는 70B 모델이 M3/M4/M5 Max 64 GB에서는 돌아간다.


4. 설치 — Mac & Windows

4.1 Ollama (CLI)

Mac

brew install ollama

ollama run llama3.1:8b

Windows (10/11, ARM64 네이티브 지원) 1. ollama.com/download → Windows installer 2. 설치 후 PowerShell:

ollama run qwen3:9b

자주 쓰는 명령

ollama list           # 설치된 모델
ollama pull mistral   # 모델만 받고 실행 안 함
ollama rm llama3.1    # 삭제
ollama serve          # API 서버 (기본 11434 포트)

4.2 LM Studio (GUI)

Mac & Windows 1. lmstudio.ai → 다운로드 → 설치 2. 실행 → 좌측 검색 아이콘 → 모델 검색 (예: "qwen 3.5 9b") 3. 다운로드 → "Chat" 탭에서 즉시 사용 4. (선택) "Local Server" 탭 → Start → OpenAI 호환 API 활성

LM Studio는 GPU·메모리 자동 감지가 더 친절하다. 모델 선택 시 "Will fit in your RAM/VRAM" 표시.


5. 실제 사용 시나리오 5가지

5.1 민감 자료 분석

법률 계약서·의료 기록·내부 문서를 외부로 보내지 않고 요약·번역. 8 GB Mac에서도 Qwen 3.5 9B가 충분.

5.2 코딩 보조

Llama 3.1 8B 또는 Qwen 2.5 Coder 7B → VS Code의 Continue 확장으로 연결. GitHub Copilot 대안.

5.3 RAG (자체 자료 질의응답)

Ollama API + LangChain/LlamaIndex로 본인 PDF·노트 인덱싱 → 자연어 질의. NotebookLM 자체 호스팅 버전.

5.4 자동화 (n8n + Ollama)

7편의 메일 분류 워크플로를 Claude Haiku 대신 로컬 Llama로 → 토큰 비용 0.

5.5 학습·실험

모델 간 응답 차이 비교, 파인튜닝 베이스 선정, 양자화 영향 측정.


6. 한계 — 솔직히 말하자면

  • 품질 차이 분명: 70B 로컬 모델이 GPT-5.5 / Claude Opus 4.7과 같은 작업을 시켜도 미세한 품질 차이가 있다. 특히 추론·코드·외국어.
  • 멀티모달 제한: 이미지·음성 입출력은 모델·도구 모두 제한. 클라우드만큼 매끈하지 않음.
  • 컨텍스트 창: 보통 8K~32K (일부 128K). 클라우드 1M 시대와는 차이.
  • 소음·발열·전기: 70B 모델 돌리면 노트북 팬 풀가동. 데스크탑은 전기료 약간.
  • 첫 다운로드 시간: 모델당 4~80 GB. 와이파이로 30분~2시간.
  • 모델 자체 검열·정렬은 클라우드보다 약함: 위험한 출력 방지 장치가 약하므로 개인 책임.

7. 첫 1주일 시작 가이드

일차 작업
1일 LM Studio 설치 → Qwen 3.5 9B 다운로드 → 채팅 1시간. 클라우드와 체감 비교.
2일 Ollama 추가 설치 → 동일 모델 받아 CLI 실행 → API 서버 시작.
3일 OpenAI 호환 API로 본인 코드(Python 또는 n8n)에 연결. 클라우드 키 빼고 돌아가는지 확인.
4~5일 본인 PDF 1개로 RAG 시도 (LM Studio 내장 또는 LangChain).
6~7일 만족도 평가. 클라우드 대비 절약된 비용·놓친 기능 정리 → 유지/병행/포기 결정.

8. 클라우드 vs 로컬 — 솔직한 비교

클라우드 (Claude / GPT / Gemini) 로컬 (Llama / Qwen / Mistral)
품질 최상 좋음 (15~30% 격차)
비용 사용량 비례 초기 0, 전기·하드웨어
속도 일정 (네트워크) 일정 (하드웨어)
프라이버시 약 (정책 의존) 완전
멀티모달 풍부 제한적
컨텍스트 1M+ 8K~128K
확장 무한 하드웨어 한도
책임 회사 본인

현실적 추천: 클라우드 메인 + 민감 작업·자동화는 로컬. 둘 중 하나만 고집하는 것보다 상호 보완이 합리적.


개발자 팁

  1. Ollama API는 OpenAI 호환: OPENAI_API_BASE=http://localhost:11434/v1 환경변수 설정 후 OpenAI SDK 그대로 사용. 코드 수정 없이 클라우드 ↔ 로컬 전환.
  2. 모델 라이센스 주의: Llama 3 (Meta), Qwen (Alibaba), Mistral 각각 라이센스 다름. 상업 사용 시 확인. 일부는 월 사용자 수 제한.
  3. n8n 통합: Ollama Chat 노드 또는 OpenAI Chat 노드 + Base URL 변경. 인덱스/검색은 LangChain 노드 사용.
  4. 파인튜닝: 8B 모델은 16GB VRAM에서 LoRA 가능. unsloth, axolotl 라이브러리 추천.
  5. 벤치마크 자동화: 본인 데이터셋으로 모델 비교 자동화. lm-eval-harness, MTEB 사용.
  6. 프로덕션 배포: vLLM(수십 동시 요청 처리), TGI(HuggingFace), llama.cpp 서버 등 Ollama보다 빠른 옵션 다수. Ollama는 개인용·MVP 적합.
  7. 에지 배포: Raspberry Pi 5 + 8 GB는 3B 모델까지 가능. 모바일은 Llama 3.2 1B/3B 양자화로 가능.

참고


이 글은 AI 입문 시리즈의 8/11 편입니다. 시리즈 완결. 시리즈 전체 목차는 블로그 메인 TOC 페이지에서 확인하세요.

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"