로컬 AI 인프라 노트 (14/15) — Nano Banana 2 실측 비용: Gemini 3.1 Flash Image

부제: 가격표 $0.067과 청구서 $0.08의 간극을 만드는 세 종류의 토큰


핵심 요약

  • 공식 가격표 기준 1K 이미지 = $0.067. 실측 청구서는 $0.08/장.
  • 차이의 주범은 thinking 토큰. 이미지 토큰만 카운트하면 약 17% 과소 추정.
  • 347장 배치 역산 시 $0.075/장. thinking 길이 편차로 $0.067 고정 가정보다 명백히 위.
  • 이 글은 Gemini 3.1 Flash Image의 토큰 과금 구조, 재설계한 예산식, 파이프라인 관점에서의 함정 3가지를 정리한다.

문제 정의 — 가격표와 청구서가 맞지 않는다

블로그 이미지 자동 생성 파이프라인은 Gemini 3.1 Flash Image (Nano Banana 2)를 사용한다. 한국어 블로그 121개 디렉터리, 총 347장 배치 생성 직후의 청구서는 36,400원(약 26달러).

흔히 인용되는 1K 이미지 단가 $0.067을 적용하면 347장은 약 23달러여야 한다. 실제 청구는 3달러 초과, 약 12% 차이. 단발 배치에선 무시할 수 있지만, 월 단위 누적·배치 확장 시 예측 오차로 직결된다.

원인은 가격표의 항목 누락이 아니라, 단일 단가로 요약된 요약식이 요청당 과금되는 세 종류의 토큰 중 두 가지를 감추고 있었기 때문이다.

작동 원리 — 요청당 과금되는 세 종류의 토큰

Gemini 3.1 Flash Image는 요청 한 건당 다음 세 채널에 토큰을 쓴다.

항목 단가 1K 이미지 1건 기준
Input (text/image) $0.50 / 1M ~200 토큰 → $0.0001
Output (text & thinking) $3.00 / 1M ~500 토큰 → $0.0015
Output (image) $60.00 / 1M ~1,300 토큰 → $0.078

핵심은 중간 행의 thinking 토큰이다. 모델은 이미지를 생성하기 전 내부 추론을 수행하며, 그 결과도 output 토큰으로 카운트된다. 평균 500 토큰 수준에서 단가 $3/1M이 곱해져 한 장당 약 $0.0015가 붙는다.

세 항목을 합산한 실측 단가는 이미지 토큰 $0.067~$0.078에 thinking과 input을 더해 약 $0.08/장. 청구서 역산치 $0.075/장은 이 범위 안에 들어오며, thinking 길이가 짧은 이미지가 섞였을 때의 하한에 가깝다.

재설계한 예산식

기존 식: 장수 × $0.067 수정 식: 장수 × $0.08

단일 계수 변경이지만 운영 파라미터가 연쇄 이동한다.

  • 단일 배치 상한선 $30 기준 → 약 375장 이하로 조정.
  • KR + EN 동시 발행 시 영문 포스트는 KR 이미지 재사용으로 추가 비용 $0 처리.
  • 주당 새 글 5편, 평균 30장/편 = 150장 → 약 12달러/주.

월 기준 $10(가격표 가정) → $12(실측 기준) 차이는 금액 자체보다는 예측 정확도의 문제다. 계수가 틀리면 청구서마다 편차가 재발생하고, 그 편차가 누적되면 배치 확장 결정이 왜곡된다.

파이프라인 관점 — 비용 외에 맞물리는 함정 셋

비용식과 함께 파이프라인 레벨에서 고정해야 할 운영 규칙 3가지.

1. 한국어 프롬프트는 이미지 내 텍스트가 깨진다

gemini-3.1-flash-image-preview에 한국어 프롬프트를 전달하면 생성 이미지 안의 렌더링 텍스트가 깨진 형태로 출력된다. 프롬프트 언어 전환(KR→EN) 단계가 파이프라인 상 필수 전처리로 들어가야 한다.

2. 이미지 생성 API는 generate_contentgenerate_images가 아니다

이미지 생성은 generate_content 경로를 사용한다. generate_images는 같은 Google 계열 API이지만 Imagen 대상이며, 잘못 호출해도 에러가 아니라 응답 모달리티가 달라진다. 추가로 response_modalities=['IMAGE']를 명시하지 않으면 이미지가 반환되지 않는다.

3. SynthID 워터마크는 비활성화 불가

생성 이미지에는 SynthID 워터마크가 자동 삽입되며 끌 수 없다. 시각적으로는 보이지 않지만 메타데이터에 잔존한다. 상업적 사용 자체는 허용되나, "AI 생성 흔적이 메타데이터에 남는다"는 조건은 유통 경로 결정 시 입력값에 포함해야 한다.

한계와 적용 범위

  • 단가 고정값: $0.08/장으로 운영 계수를 고정. $0.067은 1차 가격표 인용용으로만 보존.
  • 배치 상한: 단일 실행 375장. 초과 시 분할.
  • 의심 순서: 청구서가 예측과 어긋나면 ①계산식 → ②API 사용량(token usage 필드 출력) → ③청구서 순으로 검증. LLM 과금 영역에서 디폴트 의심 대상은 청구서가 아니라 계산식이다.
  • 적용 범위: 이 식은 Gemini 3.1 Flash Image에 한정된다. 다른 멀티모달 이미지 모델은 thinking 토큰 유무·단가 체계가 다르므로 토큰 사용량 필드 실측이 선행되어야 한다.

열린 질문

  • thinking 토큰 길이를 프롬프트 설계로 축소할 수 있는가? (프롬프트 단순화 대비 품질 트레이드오프 실측 필요)
  • 이미지 재사용 비율을 높이는 캐싱 레이어가 비용 곡선을 어디까지 낮추는가?
  • SynthID 메타데이터 잔존이 배포 채널별 정책에 어떤 제약으로 돌아오는가?

LLM 기반 이미지 생성의 단가는 단일 숫자로 요약되기 어렵다. 요청당 토큰 채널을 모두 드러내고, 실측으로 역산하는 과정이 최소 비용이다.

시리즈 전체 안내: 시리즈 목차

댓글

이 블로그의 인기 게시물

"LLM 핵심 학습 (1/6) — 기본: 토큰화·임베딩·어텐션·위치 인코딩"

"LLM 핵심 학습 (2/6) — 파인튜닝: LoRA·QLoRA·증류·Adapter"

"ML 기초 학습 (1/9) — 머신러닝과 sklearn: 학습의 좌표계"