MaJu's Note

글

3월, 2026의 게시물 표시

로컬 AI 인프라 노트 (6/15) — Mac Mini 홈서버 트러블슈팅: macOS 자동 재시작

- 3월 31, 2026

← 5/15 홈서버 대시보드 설계 📚 시리즈 목차 7/15 맥OS 로컬 LLM 추천 → 원격 접속 불가의 원인과 서버용 Mac 전원·업데이트 설정 체크리스트 핵심 요약 Mac Mini M4 홈서버가 원격 접속 불가 상태로 전환 — 원인은 macOS 소프트웨어 업데이트의 자동 재시작 재시작 후 로그인 화면에서 대기 → Tailscale과 에이전트가 미실행 → 장시간 다운 자동 업데이트 설치를 차단하고 다운로드만 허용 + 자동 로그인 설정으로 재발 방지 배경 Mac Mini M4를 Tailscale VPN으로 연결하여 원격 홈서버로 운영하는 환경에서, 다수의 에이전트와 자동화 스크립트가 상시 실행됩니다. 이 구성에서 안정성은 핵심 요구사항입니다. macOS 자동 업데이트로 시스템이 재부팅되면, 사용자 세션 로그인 전까지 LaunchAgent가 실행되지 않는다. 결과적으로 Tailscale VPN·SSH·에이전트 등 백그라운드 서비스가 모두 다운되며, 원격에서 원인을 진단할 수 없는 상태가 된다. 본문 1. 진단 과정 서버에 물리적으로 접근한 뒤, 원인을 추적합니다. macOS는 전원 이벤트와 소프트웨어 업데이트 이력을 각각 다른 로그 채널에 기록합니다. ① 재부팅 이력 확인 last reboot 예상치 못한 reboot 항목이 기록되어 있습니다. 직접 재시작한 기록이 없는 경우, 이 시각이 장애 시점입니다. ② 전원 관리 로그 확인 pmset -g log | grep -i "restart\|shutdown\|sleep" SoftwareUpdateNotificationManager 의 RestartCountdownOperationIdleSleep assertion이 확인됩니다. 이것이 소프트웨어 업데이트가 재시작을 트리거한 증거입니다. SoftwareUpdateNotificationManager 는 macOS가 업데이트 설치를 위해 재시작을 예약할 때 전원 관리 서브시스템에 등록하는 assert...

24시간 돌아가던 에이전트 전체가 동시에 멈췄다 — Claude Code OAuth 토큰 만료 장애 복구기

- 3월 31, 2026

장시간 무응답의 원인 분석과 5가지 재발 방지 조치까지 핵심 요약 텔레그램+디스코드에 연결된 다수의 에이전트가 장시간 동시 무응답 — 원인은 Claude Code OAuth 토큰 만료 이 문제는 특정 사례만의 문제가 아님 — GitHub Issue #12447에 24건+ 코멘트, 22+ 추천. Anthropic 공식 대응 없음 (이슈 제기 시점 기준) claude setup-token 으로 장기 토큰(1년) 설정 + 워치독 인증 체크 + 원격 인증까지 구축하여 재발 방지 체계 완성 배경 다수의 에이전트를 24시간 운영하면 코드 버그보다 인프라 레벨 장애가 더 조용하고 치명적으로 찾아옵니다. 텔레그램과 디스코드에 연결된 모든 에이전트가 동시에 응답을 멈춘 사례가 있었습니다. tmux 세션은 살아 있었고 메시지 수신도 되고 있었지만, Claude API 호출이 전부 실패하고 있었습니다. 장시간이 지나서야 이상이 감지되었습니다. 원인은 단순했습니다. OAuth 토큰 만료 . 본문 1. 장애 구조 단계 상태 장애 발생 전체 에이전트 무응답 시작 장애 지속 장시간 무응답 지속 복구 claude /login 재인증 → 전체 재시작 → 복구 증상만 보면 심각해 보이지만, 원인은 인증 토큰 하나였습니다. 2. 왜 이런 일이 발생하는가 Claude Code의 Max 구독 기본 인증 방식은 OAuth입니다. 이 토큰의 수명이 2~4시간 으로 짧고, 자동 갱신이 실패할 수 있는 구조입니다. 갱신이 실패하면 모든 세션이 동시에 인증 불가 상태가 됩니다. 구조적 취약점은 세 가지입니다: 만료 전 경고가 없습니다 토큰 TTL(남은 시간)을 확인할 방법이 없습니다 만료 시 실행 중인 모든 태스크가 불완전 상태로 중단됩니다 3. 커뮤니티에서 동일하게 보고된 문제 — GitHub 이슈 현황 이 문제는 GitHub에서 이미 다수 보고되어 있습니다. 이슈 내용 상태 #1244...

OpenClaw 비용 관리와 실전 운영 노하우 — 3개월 운영 회고

- 3월 31, 2026

역할 분리 기반 API 비용 최적화와 CLI 운영 팁 정리 핵심 요약 모든 작업을 3계층(Premium/Cheap/Free)으로 분류하고 모델을 매핑하면 비용을 구조적으로 통제할 수 있다 Reflect 파이프라인의 판단/실행 분리와 Thinking 모드 비활성화로 토큰 소비를 1/4로 압축했다 Fallback 설정이 "우상향"하지 않도록 반드시 성능·비용이 함께 낮아지는 구조로 설계해야 한다 배경 OpenClaw 기반 시스템을 구축하고 모든 에이전트에 Premium 모델을 연동했다. 일주일 만에 한 달치 API 예산을 초과했다. 로그를 분석해 보니 문제는 사용자 대화가 아니라, 30분마다 도는 Heartbeat와 새벽 Reflect 같은 백그라운드 자동화 작업이 최고가 모델의 토큰을 소비하고 있었다. 비용 최적화의 핵심은 모델 다운그레이드가 아니라 역할 배분과 실행 환경의 분리 에 있었다. 본문 모델 비용 3계층(Tier) 아키텍처 계층 모델 예시 비용 (1M Input) 적용 대상 Premium gpt-5.4, claude-sonnet-4.6 $10+ 사용자 대화, 복잡한 추론 Cheap gemini-flash-lite, haiku $0.1~$1 단순 리서치, 가벼운 크론 Free ollama/qwen3.5:9b 전기 요금 수준 Heartbeat, Reflect Runner 가장 드라마틱한 절감은 메인 에이전트(mir)의 설정 이원화에서 나왔다. 사용자 대화 시 gpt-5.4, Heartbeat 루프 시 로컬 qwen3.5:9b를 호출하도록 분기 처리했다. 하루 48회 발생하는 무의미한 API 과금을 원천 차단했다. { "mir": { "model": { "primary": "openai-codex/gpt-5.4" }, "heartbeat": {...