21장. 컨텍스트 윈도우 관리
컨텍스트 윈도우는 에이전트가 한 번의 호출에서 다룰 수 있는 토큰의 총량이며, 프로덕션 에이전트가 가장 먼저 부딪히는 물리적 한계다. 데모에서는 대화가 짧아 문제가 드러나지 않지만, 실제 에이전트는 시스템 프롬프트, 도구 정의, 누적된 대화 이력, 그리고 매 턴마다 불어나는 도구 호출 결과를 전부 다시 모델에게 보내야 한다. Messages API가 상태를 저장하지 않는 무상태(stateless) 구조이기 때문이다. 이 누적이 윈도우를 채우면 응답 품질이 떨어지고, 결국 입력이 잘리거나 호출이 실패한다. 아키텍트는 이 한계를 "언제, 어떤 전략으로" 흡수할지 설계로 답할 수 있어야 한다.
이 장은 토큰 한도의 본질을 먼저 정확히 이해한 뒤, 윈도우가 가득 찰 때 선택할 수 있는 세 가지 전략(요약·잘라내기·검색 기반 회상)의 트레이드오프를 의사결정 관점에서 다룬다. 마지막으로 비용과 지연을 동시에 줄이는 프롬프트 캐싱을 살펴본다. CCA-F의 "컨텍스트 관리와 신뢰성" 도메인(15%)에서 이 장은 "정상 경로"가 아니라 "한계와 경계 경로"를 묻는 문항의 출발점이다. 단순히 윈도우 크기를 외우는 것이 아니라, 가득 찼을 때 무엇을 버리고 무엇을 지킬지 판단하는 능력을 평가한다.
이 장을 마치면 다음을 할 수 있다.
- 컨텍스트 윈도우가 무엇이며 무상태 API에서 왜 누적되는지, claude-opus-4-8의 토큰 한도와 장문 컨텍스트 가격 구간을 설명할 수 있다.
- 요약(compaction)·잘라내기·검색 기반 회상의 동작과 트레이드오프를 구분하고, 상황에 맞는 전략을 의사결정 트리로 선택할 수 있다.
- 프롬프트 캐싱의 프리픽스 매칭 원리, 캐시 무효화 함정, 비용·TTL 구조를 이해하고 캐싱 적용 위치를 올바르게 판단할 수 있다.
| 순서 | 제목 | 핵심 주제 |
|---|---|---|
| 01 | 컨텍스트 윈도우의 이해 | 토큰 한도의 본질, 무상태 API와 이력 누적, 1M 윈도우와 장문 가격 구간 |
| 02 | 긴 대화 요약과 분할 전략 | 요약(compaction)·잘라내기·검색 기반 회상의 트레이드오프와 선택 기준 |
| 03 | 프롬프트 캐싱과 비용 최적화 | cache_control 프리픽스 매칭, 캐시 무효화 함정, TTL과 비용 구조 |