"LLM 기본 개념 2026 — 토큰·컨텍스트·환각, 처음부터 정확히"
ChatGPT·Claude·Gemini를 쓰기 전에 알아야 할 3가지 핵심
핵심 요약
- 대상 독자: AI 챗봇을 써봤지만 "토큰", "컨텍스트", "환각" 같은 단어가 모호한 일반 사용자 + 이제 막 API를 다루기 시작한 개발자.
- 얻을 것: 1) 토큰이 정확히 무엇이고 왜 한국어가 영어보다 비싼지 2) 컨텍스트 창의 의미와 2026년 4월 기준 주요 모델 한도 3) 환각이 왜 사라지지 않는지(OpenAI 공식 논문 요약) 4) 일반 사용자의 실전 대응법.
- 선행 조건: 없음. ChatGPT·Claude·Gemini 중 하나라도 써본 적 있으면 충분.
1. 토큰 — LLM이 글자 대신 보는 단위
LLM(Large Language Model, 거대 언어 모델)은 사람이 보는 "글자"가 아니라 토큰(token) 이라는 단위를 본다. 토큰은 단어보다 작고 글자보다 큰 조각이다. 영어로 "hello world"는 보통 2~3개 토큰이고, 한국어 "안녕하세요"는 5~10개 토큰까지 늘어날 수 있다.
1.1 왜 토큰을 알아야 하나
세 가지 이유에서다.
| 이유 | 영향 |
|---|---|
| 요금 계산 | API는 입력·출력 토큰 단위로 과금 |
| 길이 한도 | 각 모델은 처리 가능한 토큰 수 상한이 있음 (= 컨텍스트 창) |
| 응답 속도 | 토큰이 많을수록 처리·생성 시간 증가 |
ChatGPT·Claude·Gemini의 유료 플랜을 결제하더라도 무제한이 아니다. 백엔드에는 토큰 한도가 있고, 무제한처럼 보이는 건 UI가 자동으로 잘라주거나 압축하기 때문이다.
1.2 회사마다 토큰 방식이 다르다
| 회사 | 토크나이저 | 특징 |
|---|---|---|
| OpenAI (GPT) | tiktoken (cl100k_base / o200k_base) | 영어 효율 최상 |
| Anthropic (Claude) | 자체 BPE(Byte Pair Encoding) | 영어·코드 효율 좋음 |
| Google (Gemini) | SentencePiece | 다국어 비교적 균등 |
세 회사 모두 BPE 계열을 쓰지만 학습 코퍼스 분포가 다르기 때문에 같은 한국어 문장도 토큰 수가 다르다. 출처는 각 회사의 공식 Anthropic Claude API docs, OpenAI Tokenizer 등.
1.3 한국어가 비싼 이유
영어 1단어 ≈ 약 4글자 ≈ 1.3토큰. 한국어 1글자가 1~3토큰까지 잡힐 수 있다. 결과적으로 같은 의미의 문장을 한국어로 쓰면 영어 대비 토큰이 2~3배 든다. 이건 가격 차이로 직결된다 (2025년 다국어 토큰화 연구).
실전 결론은 단순하다. 장문을 자주 쓴다면 영어가 싸다. 모국어 표현이 더 정확하다고 판단되면 한국어로 쓰되, 단가가 2~3배 든다는 사실은 알고 있어야 한다.
2. 컨텍스트 창 — 모델의 작업 메모리
컨텍스트 창(context window) 은 LLM이 한 번의 응답을 만들 때 참조할 수 있는 모든 텍스트의 최대 양이다. 시스템 프롬프트, 대화 이력, 첨부 파일, 지금 하는 질문, 그리고 앞으로 만들 응답까지 전부 같은 한도 안에 들어간다.
흔한 오해: "컨텍스트 창은 학습한 지식 양이다." → 틀렸다. 학습 데이터(파라미터)와 컨텍스트 창은 별개다. 학습 데이터는 모델의 장기 기억, 컨텍스트 창은 단기 작업 메모리에 가깝다.
2.1 2026년 4월 기준 주요 모델 한도
| 모델 | 컨텍스트 창 | 출처 |
|---|---|---|
| Claude Opus 4.7 | 1,000,000 토큰 | Anthropic 공식 docs |
| Claude Sonnet 4.6 | 1,000,000 토큰 | 위 동일 |
| Claude Sonnet 4.5 | 200,000 토큰 | 위 동일 |
| Claude Haiku 4.5 | 200,000 토큰 | 위 동일 |
| GPT-5.5 | 1,000,000 토큰 | OpenAI 공식 |
| GPT-5.4 / 5.4 Pro | 약 1,050,000 토큰 | OpenAI 공식 |
| Gemini 2.5 Pro | 1,000,000 토큰 | Google AI 공식 |
2.2 "1M 토큰"이 실제로 얼마나 되는가
- 한국어로 약 30~50만자 (중장편 소설 1권 분량)
- A4 한글 문서 약 700~1,000페이지
- 영어 평균 소설 약 7~8권
대용량 문서·코드베이스를 한 번에 통째로 넣고 분석할 수 있다는 뜻이다. 다만 한도까지 채우는 것이 항상 좋은 건 아니다.
2.3 컨텍스트 로트(context rot) — 길수록 정확도 하락
Anthropic 공식 docs에 명시된 표현: "토큰 수가 늘면 정확도와 회상 능력이 저하된다(context rot)." 컨텍스트가 클수록 모델은 핵심을 놓치거나, 시작 부분 정보를 잊거나, 무관한 부분에 집중하는 경향이 생긴다.
따라서 실전 원칙은 "채우지 말고 큐레이션하라". - 관련 없는 이전 대화는 새 세션으로 분리 - 긴 문서는 핵심 발췌 + 원문 일부만 입력 - "이전 대화 요약해줘"로 압축 후 새 세션에서 재개
3. 환각 — 왜 LLM은 자신 있게 거짓말하는가
환각(hallucination) 은 LLM이 사실이 아닌 내용을 사실처럼 자신 있게 출력하는 현상이다. 2025년 9월 OpenAI가 정식 논문으로 "왜 사라지지 않는가"를 수학적으로 분석했다 (Kalai et al., arXiv:2509.04664).
3.1 핵심 원인: 학습이 추측을 보상한다
LLM은 다음 단어를 확률적으로 예측하도록 학습된다. 정답 라벨이 따로 없는 거대 텍스트로부터 패턴을 추출하기 때문에, "모른다"는 표현을 학습할 기회가 거의 없다.
게다가 평가 시점의 인센티브가 잘못됐다. OpenAI 논문이 지적한 핵심:
거의 모든 정확도 기반 벤치마크는 "잘못 답하기"보다 "안 답하기"에 더 큰 페널티를 준다. 그래서 모델은 모를 때도 자신 있게 추측하도록 학습된다.
쉽게 말해, 모델이 "모르겠다"고 답하면 점수가 0점인데, 찍어서 맞으면 1점을 받는다. 시험에서 모르는 문제도 일단 찍는 학생과 같은 구조다.
3.2 환각이 잘 일어나는 패턴
OpenAI 논문과 이후 Lakera 2026 분석을 종합하면:
| 패턴 | 예시 |
|---|---|
| 저빈도 사실 | "X 사람의 박사 논문 제목은?", "Y 책 N페이지 인용" |
| 최신 정보 | 학습 시점 이후 사건·가격·버전 |
| 특정 형식 강요 | "정확히 5개 항목으로", "각 항목 100자 이상" 같이 무리한 제약 |
| 긴 컨텍스트 끝부분 | 입력이 길수록 끝부분 정보 신뢰도 하락 |
3.3 일반 사용자의 실전 대응법
- 숫자·고유명사·날짜는 무조건 출처 확인 — LLM이 가장 잘 틀리는 영역
- "모르겠으면 모른다고 답하라"를 프롬프트에 명시 — 단순하지만 효과 있음 (관련 연구가 진행 중인 영역)
- 검증 가능한 형태로 요청 — "출처 URL과 함께 정리해줘" → URL 자체가 가짜일 수 있어 클릭으로 확인
- 답이 너무 매끈하면 의심 — 진짜 전문가는 "조건에 따라 다르다"라고 답하는 경우가 많다
- 중요한 결정은 두 모델 교차 — Claude와 GPT가 서로 다른 답을 내면 둘 다 의심
4. 정리 — 한 페이지 요약
| 개념 | 한 줄 정의 | 실전 함의 |
|---|---|---|
| 토큰 | LLM이 처리하는 글자보다 작고 단어보다 큰 단위 | 한국어는 영어보다 2~3배 비쌈 |
| 컨텍스트 창 | 한 번의 응답에 참조 가능한 토큰 총량 (입력+출력) | 1M 토큰 시대지만 길수록 정확도 하락 |
| 환각 | 학습 인센티브 구조상 사라지지 않는 자신감 있는 거짓 | 숫자·고유명사·날짜는 반드시 검증 |
개발자 팁
API를 직접 다룬다면 추가로 알아둘 것:
- 토큰 카운팅 사전 검증: Anthropic은 token counting API, OpenAI는
tiktoken라이브러리, Google은count_tokens()메서드 제공. 요청 보내기 전에 측정 → 한도 초과 방지. - 새 Claude 모델은 한도 초과 시 자동 잘라내지 않고 에러 반환 (Sonnet 3.7 이후). 이전 동작과 다름. 사전 측정 필수.
- 확장 추론(Extended thinking) 사용 시: 추론 토큰은 출력 토큰으로 과금되지만 다음 턴 입력에는 자동으로 빠진다. Claude API가 알아서 처리하므로 직접 strip할 필요 없음.
- 컨텍스트 압축: Claude는 server-side compaction (베타), OpenAI는 prompt caching, Gemini는 context caching API. 장기 대화는 압축이 사실상 필수.
- 환각 완화 패턴: 시스템 프롬프트에 "확실하지 않으면 '확인 필요'라고 답하라" 명시 + JSON Schema로 응답 강제 + 외부 검색 결과 grounding (RAG).
참고
- Anthropic — Context windows (Claude 공식 docs)
- OpenAI — Why Language Models Hallucinate (Kalai et al., 2025-09)
- Google AI — Long context (Gemini 공식 docs)
- OpenAI Tokenizer (실시간 토큰 카운트 도구)
- 다국어 토큰화 효율 연구 (PMC, 2025)
이 글은 AI 입문 시리즈의 1/11 편입니다. 다음 편: 무료 vs 유료 — ChatGPT/Claude/Gemini Plus, 누가 뭘 결제해야 하나.
댓글
댓글 쓰기