AI

AI 환각(Hallucination) — LLM은 왜 거짓말을 하는가

#환각#Hallucination#LLM#신뢰성#의료AI

한줄 요약

LLM은 “정답을 아는 것”이 아니라 “그럴듯한 다음 단어를 예측하는 것”이기 때문에 거짓말을 한다.

본문

환각이란 무엇인가

AI 환각(Hallucination)은 LLM이 사실이 아닌 내용을 사실인 것처럼 자신 있게 생성하는 현상이다.

실제 사례:

  • 존재하지 않는 논문을 저자, 저널, 연도까지 포함해서 인용
  • 없는 약물 상호작용을 경고
  • 실제와 다른 가이드라인 수치를 제시
  • 허구의 임상시험 결과를 보고

무서운 점은 틀린 답변의 형식이 맞는 답변과 완전히 동일하다는 것이다. 자신감도 동일하다. 사람이 검증하지 않으면 구별이 불가능하다.

왜 환각이 발생하는가

LLM의 작동 원리를 이해하면 환각은 당연한 현상이다.

LLM의 핵심 기능:
"앞에 나온 텍스트를 보고, 다음에 올 가장 그럴듯한 토큰을 예측한다"

LLM은 사실을 검증하는 기능이 없다. 데이터베이스를 조회하거나 논문을 찾아보지 않는다. 학습 과정에서 본 패턴을 기반으로 “이 맥락 다음에는 이런 단어가 올 확률이 높다”고 예측할 뿐이다.

의학으로 비유하면:

LLM의학 비유
학습 데이터수년간 읽은 교과서, 논문
토큰 예측기억에 의존한 답변
환각기억이 섞이거나 빈칸을 추론으로 채움
사실 검증 없음차트를 안 보고 기억만으로 답함

시험 볼 때 답을 모르면 빈칸으로 두는 게 아니라 아는 내용을 조합해서 그럴듯하게 쓰는 학생이 있다. LLM이 정확히 그렇다.

환각의 유형

1. 사실 왜곡 (Factual Error)

Q: "메트포르민의 최대 용량은?"
A: "메트포르민의 최대 권장 용량은 하루 3000mg입니다."
→ 실제: 2550mg (또는 2000mg, 제형에 따라 다름)

2. 출처 조작 (Source Fabrication)

Q: "고혈압과 수면의 관계에 대한 논문을 알려줘"
A: "Smith et al. (2023), 'Sleep Duration and Hypertension Risk',
    Journal of Clinical Hypertension, 25(3), 145-152."
→ 실제: 이 논문은 존재하지 않음

3. 논리 비약 (Logical Leap)

Q: "비타민D 보충이 코로나 예방에 효과가 있나?"
A: "여러 연구에서 비타민D 보충이 코로나19 감염 위험을
    유의하게 감소시키는 것으로 확인되었습니다."
→ 실제: 관찰 연구에서 연관성은 보였으나, RCT에서 일관된 결과 없음

4. 시간 착오 (Temporal Confusion)

Q: "현재 당뇨병 진단 기준은?"
A: "공복혈당 140mg/dL 이상입니다."
→ 실제: 126mg/dL (1997년 이후 변경). 구 기준과 혼동

의료 현장에서 환각을 걸러내는 5가지 방법

1. 숫자는 반드시 확인

AI가 제시하는 용량, 수치, 기준값은 100% 교차 확인한다. 특히 약물 용량은 생명과 직결된다.

2. “출처를 알려줘”라고 추가 질문

방금 답변의 근거가 되는 논문이나 가이드라인의
정확한 제목, 저자, 출판년도를 알려줘.

→ 여기서 다시 환각이 발생할 수 있으므로, 제시된 논문을 PubMed에서 직접 검색

3. 같은 질문을 다르게 2번 물어보기

환각은 일관성이 없다. 같은 내용을 다른 방식으로 물어보면 답이 달라진다면 환각 가능성이 높다.

4. RAG 기반 도구 사용

[[what-is-rag|RAG]]를 활용하면 실제 문서를 기반으로 답변하므로 환각이 크게 줄어든다. Consensus, Elicit 같은 도구가 대표적이다.

5. “모르면 모른다고 해”라는 지시 추가

확실하지 않은 정보는 "확인이 필요합니다"라고 표시해 주세요.
추측으로 답하지 마세요.

→ 완벽하지 않지만, 환각 빈도를 줄여준다.

환각은 사라질까?

현재 기술로는 완전히 제거 불가능하다. 토큰 예측이라는 근본 구조가 바뀌지 않는 한, 환각은 LLM의 본질적 한계다.

다만 다음 기술들이 환각을 줄여가고 있다:

  • RAG: 외부 문서 기반 답변
  • Chain-of-Thought: 추론 과정을 명시하게 해서 논리 오류 감소
  • Fine-tuning: 특정 도메인에 맞춤 학습
  • Constitutional AI: 자기 검증 메커니즘

의료인으로서 기억할 것: AI는 동료가 아니라 도구다. 청진기가 진단을 내리지 않듯, AI도 최종 판단을 내리지 않는다.

핵심 정리

  • 환각 = LLM이 사실이 아닌 내용을 자신 있게 생성하는 현상
  • 원인: 토큰 예측 기반이므로 사실 검증 기능이 없음
  • 대응: 숫자 교차확인, 출처 검증, RAG 도구 활용, “모르면 모른다고” 지시

임상 적용

위험도상황대응
🔴 높음약물 용량, 상호작용반드시 약전/UpToDate로 교차 확인
🔴 높음진단 기준 수치최신 가이드라인 원문 확인
🟡 중간감별진단 목록참고용으로만, 누락 여부 추가 검토
🟢 낮음교육자료 초안내용 검토 후 수정해서 사용

관련 글

  • [[what-is-rag|RAG란 무엇인가 — 외부 지식을 LLM에 연결하는 법]]
  • [[prompt-engineering-for-doctors|프롬프트 엔지니어링 기초 — 의사를 위한 실전 가이드]]
  • [[what-is-token-llm|토큰이란 무엇인가 — LLM의 언어 단위 이해하기]]
  • [[llm-context-window-explained|LLM의 컨텍스트 윈도우, 의사처럼 이해하기]]

© S-Reborn clinic | s-reborn-blog.pages.dev