iBetter Books
수정

23장. 실무 심화 - 프로덕션 장애 패턴

21장이 컨텍스트 윈도우를 다루고 22장이 에스컬레이션과 신뢰성 장치를 다뤘다면, 이 장은 그 둘이 실제로 무너지는 순간을 사후 분석(post-mortem)의 시선으로 본다. 프로덕션 장애는 새로운 개념에서 오지 않는다. 컨텍스트가 누적되다 윈도우를 넘고, 에이전트 루프가 종료 조건을 잃고 돌고, 캐시가 깨진 채 토큰이 누적되며 비용이 폭증한다. 모두 앞 장에서 배운 한계가 운영 조건 아래에서 임계점을 넘은 결과다. CCA-F가 301레벨 아키텍트 자격증인 이유가 여기에 있다. 시험은 "에러 메시지를 어떻게 고치는가"가 아니라 "무엇이 근본 원인이었고 어떤 구조 변경이 재발을 막는가"를 묻는다.

이 장은 세 가지 대표 장애 패턴을 하나의 절 안에서 다룬다. 컨텍스트 오버플로, 종료 조건을 잃은 무한 루프, 캐시 붕괴와 재시도 증폭으로 인한 비용 폭증이다. 각 패턴을 증상에서 시작해 근본 원인을 짚고 해결 경로로 이어 정리한다. 핵심 사실은 세 가지로 고정된다. Anthropic API는 stateless라 누적 이력을 스스로 줄여 주지 않고, 에이전트 루프의 종료는 모델이 아니라 하네스가 책임지며, 프롬프트 캐시는 접두사가 한 글자라도 바뀌면 무효가 된다는 것이다. 이 세 불변 사실을 외면한 코드가 그대로 시험의 오답 보기로 출제된다.

이 장을 마치면 컨텍스트 오버플로를 stop_reason: "model_context_window_exceeded"와 토큰 카운팅으로 사전 진단하고 슬라이딩 윈도우·요약으로 흡수할 수 있으며, 종료 조건을 잃은 루프를 턴·반복 상한과 정지 기준으로 차단하고, 캐시 붕괴와 재시도 증폭으로 인한 비용 폭증을 캐시 접두사 안정화와 retry-after 준수로 막을 수 있다. 또한 각 장애 패턴이 시험에서 어떤 근본 원인 식별 문항과 함정 보기로 변형되어 출제되는지를 판별할 수 있다.

순서 핵심 주제
01 장애 사례와 해결 경로 컨텍스트 오버플로, 무한 루프, 비용 폭증의 증상·근본 원인·해결 경로