[데이터 리터러시 2편] A/B 테스트의 치명적 함정: 심슨의 역설 (Simpson's Paradox)
본 포스팅은 마케터들이 실무에서 흔히 저지르는 데이터 해석의 오류와 인과관계의 착각을 다루는 [디지털 마케터의 데이터 리터러시] 5부작 기획 시리즈의 두 번째 글입니다.
지난 1편에서는 고객들이 스스로를 선택함으로써 발생하는 '선택 편향(Selection Bias)'에 대해 알아보았습니다. 이번 2편에서는 퍼포먼스 마케터나 그로스 해커들이 매일같이 들여다보는 A/B 테스트 대시보드에 숨겨진 치명적인 통계적 착시 현상을 다루고자 합니다.
바로 전체 데이터를 뭉뚱그려 보았을 때와, 데이터를 쪼개어 보았을 때 결과가 정반대로 뒤집히는 마법, 심슨의 역설(Simpson's Paradox)입니다.
1. 완벽해 보였던 A/B 테스트의 배신
당신은 커머스 앱의 홈 화면 개편을 담당하는 마케터입니다. 기존 디자인(A안)과 새로운 디자인(B안) 중 어떤 것이 전환율(Conversion Rate)이 높은지 2주일 동안 A/B 테스트를 진행했습니다.
테스트 결과 대시보드는 다음과 같이 나왔습니다.
- A안 (기존 디자인): 10만 명 접속 -> 4,000명 전환 (전환율 4.0%)
- B안 (신규 디자인): 10만 명 접속 -> 5,000명 전환 (전환율 5.0%)
데이터는 너무나 명확하게 B안의 승리를 가리키고 있습니다. 당신은 당당하게 신규 디자인으로 앱을 전면 개편합니다. 그런데 한 달 뒤, 앱의 전체 매출과 전환율이 오히려 곤두박질치기 시작합니다. 도대체 무엇이 잘못된 것일까요?
2. 데이터를 쪼개면 진실이 보인다
이 미스터리를 풀기 위해, 우리는 사용자 트래픽을 기기별(PC vs Mobile)로 쪼개어(Segment) 보았습니다. 그리고 충격적인 진실을 마주하게 됩니다.
| 구분 | A안 (기존 디자인) | B안 (신규 디자인) | 누가 이겼나? |
|---|---|---|---|
| PC 유저 | 10,000명 중 1,000명 전환 (10.0%) | 90,000명 중 4,500명 전환 (5.0%) | A안 승리 |
| Mobile 유저 | 90,000명 중 3,000명 전환 (3.3%) | 10,000명 중 500명 전환 (5.0%) | A안 승리 (wait, 5.0% vs 3.3%? 표를 다시 봅시다) |
잠깐, 표의 수치를 직관적인 예시로 다시 구성해 보겠습니다.
| 기기 환경 | A안 (기존 디자인) | B안 (신규 디자인) | 실제 승자 |
|---|---|---|---|
| PC 환경 | 1,000명 중 100명 전환 (10.0%) | 90,000명 중 4,500명 전환 (5.0%) | A안 압승 (10% > 5%) |
| Mobile 환경 | 99,000명 중 3,900명 전환 (3.9%) | 10,000명 중 500명 전환 (5.0%) | B안 승리? 아니요, 모바일에서도 A안이 이길 수 있도록 데이터를 짜봅시다. |
다시 제대로 된 심슨의 역설 예시 수치를 보겠습니다.
- PC 환경: A안 전환율 10% (100/1,000) vs B안 전환율 8% (7,200/90,000) 👉 A안 승리
- 모바일 환경: A안 전환율 4% (3,960/99,000) vs B안 전환율 2% (200/10,000) 👉 A안 승리
그런데 이것을 모두 합치면 어떻게 될까요?
- A안 전체 합계: 총 100,000명 중 4,060명 전환 👉 전체 전환율 4.06%
- B안 전체 합계: 총 100,000명 중 7,400명 전환 👉 전체 전환율 7.40%
놀랍게도, PC에서도 A안이 이기고, 모바일에서도 A안이 이겼는데, 합쳐놓고 보니 B안이 이겼습니다. 이것이 바로 심슨의 역설입니다.
3. 왜 이런 역설이 발생하는가? (잠복 변수의 장난)
심슨의 역설 인포그래픽
전체 데이터를 뭉뚱그려 보면 파란색 큰 화살표처럼 우상향하는 것처럼 보이지만, 내부의 세부 그룹(빨간 화살표)을 뜯어보면 사실상 모든 지표가 하락하고 있는 현상을 직관적으로 보여줍니다. (AI Generated)
이런 말도 안 되는 역설이 발생하는 이유는 '모집단의 불균형(Mix Shift)'과 '잠복 변수(Lurking Variable)'를 무시했기 때문입니다.
위의 예시에서 숨겨진 사실은 두 가지입니다.
- PC 환경의 전환율이 모바일보다 원래 압도적으로 높다. (잠복 변수)
- B안 테스트는 트래픽의 90%가 전환율이 높은 PC 환경에 몰려 있었다. (트래픽 불균형)
즉, B안이 승리한 이유는 B안의 디자인이 훌륭해서가 아니라, 원래 전환율이 깡패인 'PC 유저'를 엄청나게 많이 배정받았기 때문입니다. 이것을 통제하지 않고 대시보드에 찍힌 최종 전환율(Aggregate Data)만 보고 의사결정을 내리면, 회사는 멀쩡히 잘 작동하던 A안을 버리고 성과가 떨어지는 B안을 선택하는 치명적인 실수를 저지르게 됩니다.
4. 마케팅 실무에서 심슨의 역설 피하기
마케팅 데이터 분석에서 심슨의 역설에 당하지 않으려면 세 가지 원칙을 기억해야 합니다.
① 쪼개고 또 쪼개라 (Segment, Segment, Segment)
GA4나 믹스패널(Mixpanel) 같은 툴에서 전체 평균 CTR이나 전환율만 보고 만족하지 마세요. 데이터를 반드시 다음과 같은 '세그먼트'로 쪼개어 보아야 합니다.
- 디바이스별: 모바일(iOS vs Android), PC
- 트래픽 소스별: 오가닉 검색, 유료 광고, 이메일, CRM
- 고객 유형별: 신규 방문자 vs 재방문자 (신규 유저는 늘 전환율이 낮습니다)
② 트래픽 믹스(Traffic Mix)의 변화를 의심하라
갑자기 전체 성과 지표가 튀었을 때(오르거나 내렸을 때), 마케팅 액션이 원인이 아니라 그저 '비싼 유저(고전환율 유저)'의 유입 비율 자체가 변했을 뿐일 수 있습니다. 페이스북 광고에서 전환율이 낮은 10대 유저의 트래픽 비중이 갑자기 높아지면, 캠페인 효율은 그대로인데 전체 평균 지표만 박살 날 수 있습니다.
③ A/B 테스트의 균등 분배(Randomization) 확인
A/B 테스트 툴을 맹신하지 마세요. A안과 B안에 할당된 유저의 특성(신규/재방문 비율, 기기 비율)이 완전히 동일하게 스플릿(Split)되었는지 반드시 교차 검증해야 합니다. 이 비율이 틀어졌다면 그 A/B 테스트 결과는 즉시 폐기해야 합니다.
결론: 숲만 보다가 길을 잃는 마케터들
우리는 흔히 "나무를 보지 말고 숲을 보라"고 배웁니다. 하지만 데이터 분석에서만큼은 숲(전체 데이터)만 보다가 수많은 나무(세그먼트)가 죽어가고 있는 것을 놓치는 경우가 훨씬 많습니다.
데이터가 "이 캠페인이 성공했다"고 말할 때, 훌륭한 마케터는 기뻐하기 전에 묻습니다. "어떤 타겟에게서 성공했으며, 그 타겟의 비중이 과대 대표되지는 않았는가?"
다음 3편에서는 성공한 유저들의 피드백만 듣다가 서비스 전체가 서서히 망가져 가는 현상, '생존자 편향(Survivorship Bias)'에 대해 알아보겠습니다.
📚 참고자료
- Pearl, J. (2014). Understanding Simpson’s Paradox. The American Statistician, 68(1), 8-13.
- Kohavi, R., Deng, A., Frasca, B., Longbotham, T., Walker, K., & Xu, Y. (2012). Trustworthy online controlled experiments: Five puzzling outcomes explained. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 786-794).
- Alipourfard, O., Fennell, P. G., & Lerman, K. (2018). Can you trust the trend? Discovering Simpson's paradoxes in social data. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (pp. 19-27).
💡 AI Learnings 의 다른 글
전체보기→[AI 개발 자동화] Gemini CLI Superpowers 완벽 가이드 및 실전 유스케이스
단순한 터미널 챗봇을 완벽하게 규율 잡힌 시니어 엔지니어로 바꿔주는 Gemini CLI Superpowers 확장의 14가지 핵심 스킬과 실전 활용법을 소개합니다.
[Antigravity 활용 가이드 3] 오픈소스 Skill로 코딩 자동화 파이프라인 구축하기
Gemini CLI의 꽃이라 할 수 있는 Skill 시스템을 이해하고, 오픈소스로 공개된 다양한 스킬을 확장하여 강력한 코딩 자동화 워크플로우를 구축하는 방법을 알아봅니다.
[AI 개발의 미래] Gemini CLI Superpowers vs Antigravity 에이전트 전격 비교
최근 인공지능(AI) 코딩 어시스턴트 시장은 단순한 '코드 자동 완성' 시대를 넘어, 개발자의 워크플로우를 주도적으로 설계하고 실행하는 **'에이전트 기반(Agentic) 개발'** 시대로 접어들었습니다 [1]. 그 중심에는 터미널 환경을 AI 통합 워크스페이스로 변모...
[AI 개발의 혁신] FastMCP란 무엇이며, 왜 사용해야 하는가?
**MCP(Model Context Protocol)**는 대규모 언어 모델(LLM)을 외부 데이터 소스 및 도구와 안전하게 연결해주는 개방형 표준 프로토콜로, 종종 'AI를 위한 USB-C 포트'에 비유됩니다 [1, 2]. 하지만 이 프로토콜의 스펙을 직접 구현하는...
Model Context Protocol (MCP) 완벽 가이드: AI 에이전트 통합의 새로운 표준
**Model Context Protocol (MCP)**는 2024년 11월 Anthropic이 발표한 오픈 소스 표준으로, AI 애플리케이션이 외부 시스템 및 데이터 소스와 원활하고 안전하게 연결될 수 있도록 돕는 범용 프로토콜입니다 [1], [2]. 과거에는 A...
[Antigravity 활용 가이드 2] 토큰 한계를 넘는 비법: YOLO 모드와 청킹(Chunking)
Gemini CLI의 강력한 기능인 YOLO 모드를 활용한 브레인스토밍 이터레이션 기법과 제한된 컨텍스트 윈도우를 효율적으로 극복하는 청킹(Chunking) 기술을 소개합니다.
[Antigravity 활용 가이드 1] Antigravity와 Gemini CLI, 어떻게 다르게 써야 할까?
Agentic AI 코딩 어시스턴트인 Antigravity와 강력한 터미널 도구인 Gemini CLI의 차이점을 알아보고, 각 도구를 어떤 상황에서 어떻게 활용해야 완벽한 시너지를 낼 수 있는지 분석합니다.