AI Mar 15, 2026

토큰이란 무엇인가 — LLM의 언어 단위 이해하기

#토큰#LLM#토크나이저#AI기초

…

한줄 요약

LLM은 글자를 읽지 않는다. 토큰이라는 조각으로 쪼개서 숫자로 바꾼 뒤 처리한다.

우리가 “가정의학과 전문의”라고 쓰면 사람은 두 단어로 인식한다. 하지만 LLM은 이걸 더 잘게 쪼갠다.

"가정의학과 전문의"
→ ["가정", "의학", "과", " 전문", "의"]
→ [12847, 28903, 1024, 8291, 903]

이 쪼개는 과정을 토크나이징(Tokenizing) 이라 하고, 쪼개는 도구를 토크나이저(Tokenizer) 라고 부른다.

핵심은 이것이다: LLM은 숫자만 처리한다. 텍스트를 받으면 토큰으로 쪼개고, 각 토큰을 숫자(벡터)로 변환한 뒤 연산을 수행한다.

같은 의미를 전달해도 언어에 따라 토큰 수가 크게 달라진다.

한국어는 영어보다 1.5~2배 더 많은 토큰을 소비한다. 이게 왜 중요하냐면:

진료 현장에서 AI를 쓸 때, 토큰을 아끼면 비용도 줄고 품질도 올라간다.

나쁜 예 (토큰 낭비):

안녕하세요. 저는 가정의학과 전문의입니다.
오늘 환자분의 상태에 대해서 여쭤보고 싶은 것이 있는데요.
혈압이 지속적으로 높은 환자의 약물 치료 방침에 대해서
의견을 부탁드리겠습니다.

좋은 예 (토큰 절약):

[가정의학과 전문의]
- 상황: 고혈압 환자, 약물 치료 방침 문의
- 현재: BP 160/95, ACEi 복용 중, 2주째 조절 안됨
- 질문: 약물 변경 vs 추가 병합 중 권장 방법?

불필요한 인사와 존칭을 줄이고, 핵심 정보를 bullet으로 정리하면 토큰을 50% 이상 절약할 수 있다.

OpenAI의 Tokenizer 도구에 접속하면 텍스트가 어떻게 토큰으로 쪼개지는지 직접 볼 수 있다.

한국어 의학 용어를 넣어보면 재미있는 패턴이 보인다:

영어 의학 용어가 토큰 효율이 훨씬 높다. 그래서 임상 AI 도구에 영어로 질의하면 비용이 절반 이하로 줄 수 있다.