AI Mar 16, 2026

LLM의 컨텍스트 윈도우, 의사처럼 이해하기

#LLM#컨텍스트윈도우#AI기초#의료AI

…

한줄 요약

LLM의 컨텍스트 윈도우는 의사가 한 번에 펼쳐 볼 수 있는 진료 기록의 양과 같다.

LLM(Large Language Model)은 대화할 때 한 번에 처리할 수 있는 텍스트의 양이 정해져 있다. 이 한계를 컨텍스트 윈도우(Context Window) 라고 부르며, 단위는 토큰(token) 이다.

토큰은 단어와 비슷하지만 정확히 같지는 않다. 대략적으로:

GPT-4o의 컨텍스트 윈도우는 128,000토큰, Claude 3.5는 200,000토큰이다. 숫자가 클수록 더 긴 맥락을 한 번에 처리할 수 있다.

외래 진료를 생각해 보자. 환자가 들어왔을 때 우리가 참고할 수 있는 자료는:

하지만 진료실 책상 위에 동시에 펼쳐 놓을 수 있는 서류의 양은 유한하다. 10년치 기록을 한꺼번에 다 볼 수 없는 것처럼, LLM도 한 번의 대화에서 처리할 수 있는 텍스트 양이 정해져 있다.

1. 긴 논문 요약 요청 시 주의

논문 전문(full text)은 보통 5,000~15,000단어다. 한국어 번역 포함 시 토큰이 급증한다. 컨텍스트가 초과되면 LLM은 뒷부분을 자동으로 잘라낸다. 결론(Discussion/Conclusion) 이 누락될 수 있다.

→ 실전 팁: 논문을 통째로 붙여넣기보다 Abstract + Methods + Results만 먼저 요약 요청하고, 필요 시 Discussion을 별도로 요청한다.

2. 긴 대화가 이어질 때 품질 저하

컨텍스트 윈도우가 꽉 차면 가장 오래된 대화부터 삭제된다. 초반에 준 중요한 지시사항(“당신은 가정의학과 전문의입니다…”)이 사라진다.

→ 실전 팁: 중요한 맥락은 매 요청 시 앞에 다시 붙여넣거나, 새 대화를 열고 핵심 컨텍스트만 요약해서 전달한다.

3. RAG(Retrieval-Augmented Generation)의 등장 이유

컨텍스트 한계를 극복하기 위해 외부 데이터베이스에서 필요한 부분만 검색해 끌어오는 방식이 RAG다. 마치 진료 중 필요한 검사 결과만 전자차트에서 불러오는 것과 같다.

상황	권장 방법
긴 논문 전문 분석	Abstract → Methods → Results → Discussion 순서로 분할 요청
케이스 컨설팅	핵심 정보만 bullet로 압축 후 전달
반복 사용 세션	중요 지시사항을 매번 첫 줄에 포함
가이드라인 검색	RAG 기반 의료 AI 도구 활용 (예: Consensus, Elicit)