Wook's AI and Marketing

니콜라스 케이지가 영화에 많이 나오면 익사자가 늘어난다? 가장 흔하게 속는 허위 상관관계 (Spurious Correlation)

Data 2026-04-30

"A가 증가하니 B도 증가하더라. 고로 A가 B의 원인이다!"

뉴스 기사나 비즈니스 보고서에서 정말 흔하게 볼 수 있는 문장입니다. 하지만 데이터 분석가들이 가장 경계하고 혐오하는 문장이기도 합니다. 왜냐하면 두 가지 현상이 동시에 일어난다는 상관관계(Correlation)가 곧 원인과 결과라는 인과관계(Causation)를 의미하지는 않기 때문입니다.

이를 가장 유쾌하고 뼈 때리게 보여주는 유명한 통계학 밈(Meme)이 하나 있습니다. 바로 '니콜라스 케이지와 익사자의 관계'입니다.


🎬 1. 완벽하게 일치하는 두 개의 그래프

하버드 대학교의 로스쿨 학생이었던 타일러 비겐(Tyler Vigen)은 세상의 수많은 통계청 데이터를 뒤져, 서로 아무런 관련이 없지만 우연히 그래프 모양이 완벽하게 일치하는 데이터들을 찾아내는 프로젝트를 진행했습니다.

그중 전 세계적으로 가장 유명해진 그래프가 바로 이것입니다.

허위 상관관계 인포그래픽허위 상관관계 인포그래픽 (니콜라스 케이지의 영화 출연 편수와 수영장 익사자 수의 상관관계. 완벽에 가깝게 같이 오르고 같이 떨어집니다.)

1999년부터 2009년까지 10년 치의 데이터를 분석한 결과:

  • 할리우드 배우 니콜라스 케이지가 그 해에 출연한 영화의 편수 (Cyan Line)
  • 미국에서 수영장에 빠져 익사한 사람의 수 (Red Line)

놀랍게도 두 선의 궤적은 기가 막히게 일치합니다. 니콜라스 케이지가 영화를 많이 찍은 해에는 익사자 수가 치솟고, 영화를 적게 찍으며 휴식을 취한 해에는 익사자 수도 뚝 떨어졌습니다. 이 두 데이터의 상관계수(R)는 0.66으로 통계적으로 아주 유의미한 수치입니다. (위 이미지에서는 시각적 효과를 위해 극단적인 일치를 보여줍니다.)

그렇다면 우리는 이 데이터를 보고 이런 결론을 내려야 할까요? "니콜라스 케이지의 연기가 사람들을 물에 빠져 죽게 만든다! 당장 그의 영화 출연을 금지해야 한다!"

당연히 미친 소리입니다. 이것이 바로 전형적인 '허위 상관관계(Spurious Correlation)'입니다.


🍦 2. 아이스크림이 상어를 부른다? (제3의 변수)

허위 상관관계가 발생하는 이유는 크게 두 가지입니다. 첫째는 니콜라스 케이지의 사례처럼 그야말로 '순수한 우연'이 겹친 경우입니다. 세상에 존재하는 수십억 개의 시계열 데이터 중 아무거나 두 개를 무작위로 뽑다 보면, 어쩌다 하나쯤은 저렇게 기막히게 맞아떨어지는 궤적을 보일 수 있습니다.

둘째는 조금 더 위험한 경우인데, 보이지 않는 '제3의 변수(Confounding Variable)'가 흑막처럼 숨어 있는 경우입니다.

가장 고전적인 예시는 "아이스크림 판매량과 상어의 인간 공격 횟수"입니다.

  • 데이터를 보니 아이스크림 판매량이 급증하는 달에 해변에서 상어에게 물리는 사람의 수도 급증합니다.
  • 오류적 결론: "아이스크림을 먹으면 몸에서 상어가 좋아하는 냄새가 나나 보다! 해변에서 아이스크림 판매를 금지하자!"

여기서 숨어있는 '제3의 변수'는 무엇일까요? 바로 '여름(더운 날씨)'입니다. 날씨가 더워지면 당연히 아이스크림이 잘 팔립니다. 그리고 날씨가 더워지면 바다로 피서를 가는 사람이 많아지고, 바다에 들어가는 사람이 많아지니 자연스레 상어와 마주칠 확률도 올라갑니다.

아이스크림과 상어는 서로 아무런 인과관계가 없지만, '더운 날씨'라는 제3의 변수가 두 숫자를 동시에 끌어올린 것입니다.


💡 3. 데이터가 낳은 확증 편향 (Confirmation Bias)

"에이, 누가 아이스크림이랑 상어를 엮어? 바보도 아니고."라고 생각하시나요? 하지만 일상과 비즈니스의 세계에서 우리는 매일 이런 바보 같은 결정을 내립니다.

  1. "아침을 챙겨 먹는 학생이 수능 성적이 높다!"
    • 그래서 정부는 아이들 성적을 올리겠다며 학교에서 아침밥 주기 캠페인을 합니다.
    • 하지만 진짜 원인(제3의 변수)은 '아침을 챙겨줄 만큼 여유롭고 교육열이 높은 가정 환경'일 확률이 높습니다. 밥만 억지로 먹인다고 성적이 오르진 않습니다.
  2. "사무실에 탁구대와 안마의자를 놓았더니 회사 매출이 올랐다!"
    • 그래서 망해가는 회사가 빚을 내서 안마의자를 삽니다.
    • 하지만 진짜 인과관계는 반대입니다. '회사가 돈을 많이 벌어서(매출 상승)' 그 돈으로 '복지 시설(안마의자)'을 샀을 뿐입니다.

📊 4. "Correlation does NOT imply Causation"

데이터 과학이나 통계학의 첫 수업에서 교수님들이 귀에 못이 박이도록 하는 라틴어 격언이 있습니다. "Cum hoc ergo propter hoc" (그것과 함께 일어났다고 해서, 그것 때문에 일어난 것은 아니다.)

데이터 대항해시대인 지금, 우리의 모니터에는 수많은 대시보드와 그래프가 화려하게 춤을 춥니다. 우상향 하는 두 개의 예쁜 그래프를 발견하고 "유레카!"를 외치기 전에, 스스로에게 한 번 더 냉정하게 질문을 던져야 합니다.

"이건 진짜 원인과 결과일까, 아니면 니콜라스 케이지의 마법일까?"


📚 참고자료 및 주석

  • Tyler Vigen, "Spurious Correlations" (허위 상관관계)
  • 니콜라스 케이지 영화 출연 횟수와 익사자 수의 상관관계 데이터

💡 Data 의 다른 글

전체보기

A/B 테스트와 통계적 유의성의 함정: p-value의 진실과 가짜 승리(False Positive) 피하기

현대 디지털 비즈니스에서 직관에 의존한 의사결정은 도박과 같습니다. 넷플릭스, 구글, 아마존과 같은 기업들이 성장을 멈추지 않는 이유는 천재적인 기획자 덕분이 아니라, 수천 개의 가설을 동시에 검증하는 강력한 **A/B 테스트(A/B Testing)** 인프라 덕분입니...

2026-05-10

Vibe Coding 기반 광고 낭비 감시 자동화 시스템 구축 (n8n, Antigravity)

지금까지 11편의 포스트를 통해 디지털 마케팅에 숨겨진 거대한 예산 낭비 구멍(Cannibalization, MFA, 봇 트래픽, PMax 블랙박스 등)을 파헤쳤습니다. 이론을 알았다면 이제 남은 것은 단 하나, **실행(Execution)**입니다. 하지만 데이터 엔...

2026-05-10

AI에 끌려가지 않는 '신호 설계자(Signal Designer)' 전략

구글 PMax(Performance Max)나 메타 Advantage+와 같은 극단적 자동화 캠페인의 시대입니다. 타겟팅, 입찰, 게재 위치 심지어 광고 소재 조립까지 AI가 다 알아서 해주는 세상에서 **"마케터의 새로운 역할은 무엇인가?"**라는 질문이 쏟아지고 있...

2026-05-10

전문가도 속는 통계 오류: 상관/인과, 교란 변수, 유의성의 함정

"데이터는 거짓말을 하지 않는다." 마케터들이 흔히 하는 착각입니다. 데이터 자체는 거짓말을 하지 않을지 몰라도, **그 데이터를 해석하는 사람은 매일 거짓말에 속아 넘어갑니다.** 오늘은 마케터의 데이터 리터러시(Data Literacy)를 시험하는 가장 무서운 통계...

2026-05-10

우리가 믿었던 '공부법'의 배신: 데이터가 폭로한 3가지 학습 신화

"사람은 각자 타고난 학습 스타일이 있다." "교과서에 형광펜으로 밑줄을 그으며 반복해서 읽는 것이 최고다." "어떤 분야든 1만 시간을 투자하면 세계적인 전문가가 될 수 있다." 우리는 살면서 이런 조언들을 무수히 듣고 자랐습니다. 하지만 데이터와 인지과학의 세계...

2026-05-09

8만 명 중 1등 — 한국 대학생이 세계 퀀트 대회를 제패한 '32개 알고리즘'의 비밀

142개국 8만 명이 참가한 국제 퀀트 챔피언십(IQC)에서 UNIST 김민겸 학생이 한국인 최초로 우승했다. 200개 넘는 알고리즘 대신 32개만 쓴 그의 전략, 그리고 AI 시대 퀀트 투자의 본질을 분석한다.

2026-05-05

하루 8잔? 물에 관한 가장 유명한 건강 신화의 탄생과 붕괴

우리가 수십 년간 믿어온 '하루 물 8잔' 규칙은 어디서 왔을까요? 1945년 단 하나의 보고서에서 시작된 거대한 오해가 과학, 미디어, 상업적 이해관계를 거쳐 어떻게 '건강 상식'으로 둔갑했는지, 그리고 누가 이 신화를 무너뜨렸는지 추적합니다.

2026-05-05