99% 정확한 암 진단 키트가 양성일 때, 진짜 암일 확률은? 기저율 무시의 오류와 베이즈 정리 (False Positive Paradox)
당신은 건강 검진을 위해 병원을 찾았습니다. 의사는 아주 희귀한 질병에 대한 테스트를 권유하며 이렇게 말합니다. "이 질병은 1,000명 중 1명 꼴(0.1%)로 걸리는 아주 희귀한 병입니다. 하지만 걱정 마세요. 우리 병원의 진단 키트는 정확도가 무려 99%에 달합니다."
테스트를 받았는데, 충격적이게도 결과는 '양성(Positive)'이었습니다.
당신은 눈앞이 캄캄해집니다. "정확도가 99%라니, 내가 진짜로 이 희귀병에 걸렸을 확률이 99%라는 소리잖아!"라며 절망합니다. 하지만 통계학자는 당신의 어깨를 두드리며 이렇게 말할 것입니다. "진정하세요. 당신이 진짜로 병에 걸렸을 확률은 단 9%밖에 되지 않습니다."
정확도가 99%인데, 진짜 병에 걸렸을 확률이 9%라니요? 대체 무슨 마법일까요?
🧮 1. 직관을 깨부수는 베이즈 정리 (Bayes' Theorem)
이 충격적인 결과는 인간의 뇌가 범하는 '기저율 무시의 오류(Base Rate Fallacy)' 때문에 발생합니다. 우리는 99%라는 테스트의 '정확도'에 압도당해, 애초에 이 병에 걸릴 확률(기저율, 0.1%)이 미친 듯이 낮다는 사실을 계산에서 지워버립니다.
수학적으로 차근차근 따져봅시다. 이해하기 쉽게 인구 1,000만 명의 가상 도시를 예로 들어보겠습니다.
거짓 양성 패러독스 인포그래픽
(99% 정확한 테스트의 함정: 1명의 진짜 환자(빨간 점)를 찾아내는 과정에서, 멀쩡한 10명(주황색 점)이 거짓 양성 판정을 받습니다.)
[조건 정리]
- 총인구: 10,000,000명 (천만 명)
- 실제 발병률 (기저율): 0.1%
- 테스트 정확도: 99% (병에 걸린 사람을 양성이라 할 확률 99%, 멀쩡한 사람을 음성이라 할 확률 99%)
[계산 시작]
- 실제로 병에 걸린 사람 (True Disease): 천만 명의 0.1% = 10,000명
- 실제로 건강한 사람 (Healthy): 천만 명 중 나머지 = 9,990,000명
자, 이제 이 천만 명을 전부 모아놓고 '99% 정확도'의 테스트기를 돌려봅시다.
- 실제 환자 10,000명 중 99%는 정확히 '양성' 판정을 받습니다. (진짜 양성: 9,900명)
- 실제 건강한 9,990,000명 중 99%는 정확히 '음성' 판정을 받습니다.
- 문제는 여기입니다. 건강한 사람 중 1%는 오작동으로 인해 '양성' 판정을 받게 됩니다. 이를 '거짓 양성(False Positive)'이라고 합니다. 건강한 사람 9,990,000명의 1% = 99,900명 (거짓 양성)
💡 2. '양성' 그룹의 진실: 9% vs 91%
이제 의사 앞에는 '양성' 판정 결과지를 든 사람들이 모여 있습니다. 양성 판정을 받은 사람은 총 몇 명일까요?
- 진짜 양성: 9,900명
- 거짓 양성: 99,900명
- 양성 판정자 총합 = 109,800명
당신은 지금 이 109,800명의 무리 속에 섞여 있습니다. 이 무리 속에서 당신이 '진짜 환자(9,900명)'에 속할 확률은 얼마나 될까요?
9,900 / 109,800 = 약 0.09 (9%)
놀랍게도 양성 판정을 받은 사람 10명 중 9명(91%)은 멀쩡한데 테스트기가 오작동한 것이고, 단 1명(9%)만이 진짜 환자입니다. 테스트기의 성능이 99%로 뛰어나더라도, 애초에 멀쩡한 사람의 숫자(기저율)가 압도적으로 많기 때문에 '1%의 오작동'이 만들어내는 숫자가 진짜 환자 수를 압도해 버리는 현상, 이것이 바로 거짓 양성 패러독스(False Positive Paradox)입니다.
🚨 3. AI 시대, 베이즈 정리가 묻는 질문
이 패러독스는 단순히 병원 진단에만 쓰이는 것이 아닙니다. 현대 데이터 사이언스와 인공지능(AI) 분야에서 아주 치명적인 화두를 던집니다.
- AI 테러리스트 얼굴 인식 시스템
- 공항에 정확도 99%의 안면 인식 AI를 설치했습니다. 하지만 전 세계 인구 중 테러리스트의 비율은 극도로 낮습니다(기저율). 결과적으로 AI가 알람을 울릴 때, 그 사람이 진짜 테러리스트일 확률보다 평범한 관광객일 확률이 압도적으로 높습니다. 결국 공항 업무는 마비됩니다.
- 스팸 메일 필터링 (Naïve Bayes Classifier)
- 우리가 흔히 쓰는 구글, 네이버 메일의 스팸 필터는 바로 이 베이즈 정리를 활용해 "이 단어가 들어갔을 때 진짜 스팸일 확률"을 지속적으로 업데이트하며 확률을 계산합니다.
- 자율주행 자동차의 오작동
- 정확도 99%의 장애물 인식 센서가 있다고 칩시다. 고속도로에서 실제 보행자가 튀어나올 기저율은 극도로 낮습니다. 그래서 차가 급정거할 때, 진짜 사람이 있어서 멈출 확률보다 비닐봉지나 그림자를 보고 오작동(False Positive)했을 확률이 훨씬 큽니다.
🧭 4. 눈앞의 결과에 압도되지 마라
인간은 새로운 정보(99% 정확도, 양성 판정)가 들어오면, 기존에 가지고 있던 정보(0.1%의 기저율)를 새까맣게 잊어버리는 치명적인 인지 편향을 가지고 있습니다.
베이즈 정리(Bayes' Theorem)가 우리에게 알려주는 교훈은 명확합니다. "어떤 사건의 결과(데이터)를 해석할 때는, 그 사건이 애초에 얼마나 일어나기 쉬운 일이었는지(사전 확률, Prior Probability)를 절대 잊어서는 안 된다."
99%라는 강력한 숫자 앞에서도, 침착하게 전체 모수를 들여다볼 수 있는 냉정함. 그것이 바로 데이터를 다루는 사람에게 필요한 첫 번째 덕목입니다.
📚 참고자료 및 주석
- 베이즈 정리 (Bayes' Theorem) 및 기저율 무시의 오류 (Base Rate Fallacy)
- 거짓 양성 패러독스 (False Positive Paradox) 관련 의학 통계 사례
A/B 테스트와 통계적 유의성의 함정: p-value의 진실과 가짜 승리(False Positive) 피하기
현대 디지털 비즈니스에서 직관에 의존한 의사결정은 도박과 같습니다. 넷플릭스, 구글, 아마존과 같은 기업들이 성장을 멈추지 않는 이유는 천재적인 기획자 덕분이 아니라, 수천 개의 가설을 동시에 검증하는 강력한 **A/B 테스트(A/B Testing)** 인프라 덕분입니...
Vibe Coding 기반 광고 낭비 감시 자동화 시스템 구축 (n8n, Antigravity)
지금까지 11편의 포스트를 통해 디지털 마케팅에 숨겨진 거대한 예산 낭비 구멍(Cannibalization, MFA, 봇 트래픽, PMax 블랙박스 등)을 파헤쳤습니다. 이론을 알았다면 이제 남은 것은 단 하나, **실행(Execution)**입니다. 하지만 데이터 엔...
AI에 끌려가지 않는 '신호 설계자(Signal Designer)' 전략
구글 PMax(Performance Max)나 메타 Advantage+와 같은 극단적 자동화 캠페인의 시대입니다. 타겟팅, 입찰, 게재 위치 심지어 광고 소재 조립까지 AI가 다 알아서 해주는 세상에서 **"마케터의 새로운 역할은 무엇인가?"**라는 질문이 쏟아지고 있...
전문가도 속는 통계 오류: 상관/인과, 교란 변수, 유의성의 함정
"데이터는 거짓말을 하지 않는다." 마케터들이 흔히 하는 착각입니다. 데이터 자체는 거짓말을 하지 않을지 몰라도, **그 데이터를 해석하는 사람은 매일 거짓말에 속아 넘어갑니다.** 오늘은 마케터의 데이터 리터러시(Data Literacy)를 시험하는 가장 무서운 통계...
우리가 믿었던 '공부법'의 배신: 데이터가 폭로한 3가지 학습 신화
"사람은 각자 타고난 학습 스타일이 있다." "교과서에 형광펜으로 밑줄을 그으며 반복해서 읽는 것이 최고다." "어떤 분야든 1만 시간을 투자하면 세계적인 전문가가 될 수 있다." 우리는 살면서 이런 조언들을 무수히 듣고 자랐습니다. 하지만 데이터와 인지과학의 세계...
8만 명 중 1등 — 한국 대학생이 세계 퀀트 대회를 제패한 '32개 알고리즘'의 비밀
142개국 8만 명이 참가한 국제 퀀트 챔피언십(IQC)에서 UNIST 김민겸 학생이 한국인 최초로 우승했다. 200개 넘는 알고리즘 대신 32개만 쓴 그의 전략, 그리고 AI 시대 퀀트 투자의 본질을 분석한다.
하루 8잔? 물에 관한 가장 유명한 건강 신화의 탄생과 붕괴
우리가 수십 년간 믿어온 '하루 물 8잔' 규칙은 어디서 왔을까요? 1945년 단 하나의 보고서에서 시작된 거대한 오해가 과학, 미디어, 상업적 이해관계를 거쳐 어떻게 '건강 상식'으로 둔갑했는지, 그리고 누가 이 신화를 무너뜨렸는지 추적합니다.