LLM의 컨텍스트 윈도우, 의사처럼 이해하기
한줄 요약
LLM의 컨텍스트 윈도우는 의사가 한 번에 펼쳐 볼 수 있는 진료 기록의 양과 같다.
본문
컨텍스트 윈도우란 무엇인가
LLM(Large Language Model)은 대화할 때 한 번에 처리할 수 있는 텍스트의 양이 정해져 있다. 이 한계를 컨텍스트 윈도우(Context Window) 라고 부르며, 단위는 토큰(token) 이다.
토큰은 단어와 비슷하지만 정확히 같지는 않다. 대략적으로:
- 영어: 1단어 ≈ 1~1.5토큰
- 한국어: 1단어 ≈ 2~4토큰
- A4 1장 분량 ≈ 약 500~800토큰
GPT-4o의 컨텍스트 윈도우는 128,000토큰, Claude 3.5는 200,000토큰이다. 숫자가 클수록 더 긴 맥락을 한 번에 처리할 수 있다.
진료 기록 비유로 이해하기
외래 진료를 생각해 보자. 환자가 들어왔을 때 우리가 참고할 수 있는 자료는:
- 현재 증상 (오늘의 주訴)
- 과거력, 투약력
- 최근 검사 결과
- 이전 외래 기록
하지만 진료실 책상 위에 동시에 펼쳐 놓을 수 있는 서류의 양은 유한하다. 10년치 기록을 한꺼번에 다 볼 수 없는 것처럼, LLM도 한 번의 대화에서 처리할 수 있는 텍스트 양이 정해져 있다.
| 개념 | 진료 비유 | LLM |
|---|---|---|
| 컨텍스트 윈도우 | 책상 위 서류 공간 | 처리 가능한 최대 토큰 수 |
| 토큰 | 서류 한 장 | 텍스트 조각 |
| 프롬프트 | 오늘의 질문/지시 | 사용자 입력 |
| 이전 대화 | 이전 외래 기록 | 대화 히스토리 |
왜 이게 임상적으로 중요한가
1. 긴 논문 요약 요청 시 주의
논문 전문(full text)은 보통 5,000~15,000단어다. 한국어 번역 포함 시 토큰이 급증한다. 컨텍스트가 초과되면 LLM은 뒷부분을 자동으로 잘라낸다. 결론(Discussion/Conclusion) 이 누락될 수 있다.
→ 실전 팁: 논문을 통째로 붙여넣기보다 Abstract + Methods + Results만 먼저 요약 요청하고, 필요 시 Discussion을 별도로 요청한다.
2. 긴 대화가 이어질 때 품질 저하
컨텍스트 윈도우가 꽉 차면 가장 오래된 대화부터 삭제된다. 초반에 준 중요한 지시사항(“당신은 가정의학과 전문의입니다…”)이 사라진다.
→ 실전 팁: 중요한 맥락은 매 요청 시 앞에 다시 붙여넣거나, 새 대화를 열고 핵심 컨텍스트만 요약해서 전달한다.
3. RAG(Retrieval-Augmented Generation)의 등장 이유
컨텍스트 한계를 극복하기 위해 외부 데이터베이스에서 필요한 부분만 검색해 끌어오는 방식이 RAG다. 마치 진료 중 필요한 검사 결과만 전자차트에서 불러오는 것과 같다.
핵심 정리
- 컨텍스트 윈도우 = LLM이 한 번에 처리할 수 있는 텍스트 한계 (단위: 토큰)
- 한계를 초과하면 오래된 내용부터 삭제되므로 긴 문서는 분할 요청할 것
- RAG는 이 한계를 극복하기 위한 대표적인 기술 아키텍처
임상 적용
| 상황 | 권장 방법 |
|---|---|
| 긴 논문 전문 분석 | Abstract → Methods → Results → Discussion 순서로 분할 요청 |
| 케이스 컨설팅 | 핵심 정보만 bullet로 압축 후 전달 |
| 반복 사용 세션 | 중요 지시사항을 매번 첫 줄에 포함 |
| 가이드라인 검색 | RAG 기반 의료 AI 도구 활용 (예: Consensus, Elicit) |
관련 글
- 토큰이란 무엇인가 — LLM의 언어 단위 이해하기
- 프롬프트 엔지니어링 기초 — 의사를 위한 실전 가이드
- RAG란 무엇인가 — 외부 지식을 LLM에 연결하는 법
© S-Reborn clinic | s-reborn-blog.pages.dev