Wook's AI and Marketing

"데이터는 거짓말을 하지 않는다." 마케터들이 흔히 하는 착각입니다. 데이터 자체는 거짓말을 하지 않을지 몰라도, 그 데이터를 해석하는 사람은 매일 거짓말에 속아 넘어갑니다.

오늘은 마케터의 데이터 리터러시(Data Literacy)를 시험하는 가장 무서운 통계적 함정 세 가지를 살펴보겠습니다.

1. 교란 변수 (Confounding Variables)와 계절성의 무시

A/B 테스트나 광고 성과를 측정할 때 가장 흔히 범하는 실수는 외부 요인을 무시하는 것입니다.

예를 들어, "여름맞이 세일 광고"를 켰더니 매출이 200% 증가했다고 칩시다. 담당자는 광고 ROAS가 엄청나다며 기뻐하겠지만, 실제로는 갑자기 찾아온 무더위(교란 변수) 때문에 아이스크림 판매가 급증했을 뿐 광고 효과는 0이었을 수도 있습니다.

교란 변수란 원인(광고)과 결과(매출) 양쪽 모두에 영향을 미쳐 마치 둘 사이에 인과관계가 있는 것처럼 착각하게 만드는 숨은 요인입니다. 계절성, 요일, 경쟁사의 동시 세일, 경제 지표 등 수많은 교란 변수가 마케터의 성과를 왜곡합니다.

2. 심슨의 역설 (Simpson's Paradox)

심슨의 역설은 데이터 분석에서 일어나는 가장 기괴한 마술입니다. 전체 데이터로 보았을 때의 결과가, 데이터를 세부 그룹으로 나누어 보았을 때 정반대로 뒤집히는 현상을 말합니다.

A/B 테스트에서의 심슨의 역설 예시

새로운 광고 소재(B)를 기존 소재(A)와 테스트했습니다.

[전체 결과]

A 소재 전환율: 5%
B 소재 전환율: 4% -> A 소재 승리?

하지만 데이터를 기기별(PC/모바일)로 쪼개 보았습니다.

[세그먼트 결과]

PC 환경: A(6%) < B(7%)
모바일 환경: A(2%) < B(3%)

놀랍게도 PC와 모바일 모든 그룹에서 B 소재의 전환율이 더 높았습니다. 어떻게 이런 일이 가능할까요? 이는 트래픽의 불균형(Traffic Allocation Skew) 때문입니다. B 소재가 전환율이 원래 낮은 모바일 쪽에 압도적으로 많이 노출되었기 때문에, 전체 평균을 깎아먹은 것입니다.

이처럼 집계된 겉보기 데이터(Aggregate Data)만 보고 의사결정을 내리면 최악의 선택을 할 수 있습니다.

3. 통계적 유의성 (Statistical Significance)의 오해

A/B 테스트 솔루션(옵티마이즈 등)을 돌릴 때, "신뢰도 95% 달성"이라는 초록색 불이 켜지면 테스트를 바로 종료하고 승자를 선언하는 경우가 많습니다. 이를 Peeking(엿보기) 오류라고 합니다.

샘플 사이즈의 중요성: 테스트 초기에는 단 몇 건의 전환만으로도 우연에 의해 95% 유의성에 도달할 수 있습니다. 충분한 샘플 사이즈(Sample Size)가 모이기 전에 결과를 확정 짓는 것은 동전 던지기 세 번 연속 앞면이 나왔다고 "이 동전은 무조건 앞면만 나온다"고 결론 내리는 것과 같습니다.
기간의 중요성: 주말과 평일의 전환율 패턴은 다릅니다. 최소 1~2주의 전체 비즈니스 사이클(Business Cycle)을 채우기 전에 유의성에 도달했다고 테스트를 끄면 안 됩니다.

결론적으로, 데이터 기반 마케팅을 하려면 단순히 툴이 뱉어내는 숫자를 읽는 것을 넘어, "이 데이터가 어떻게 수집되었고, 어떤 변수가 숨어있는가?"를 비판적으로 묻는 통계적 사고방식이 필요합니다.

다음 포스트에서는 타겟팅에 얽매여 브랜드의 성장을 가로막는 심리적 편향과 바이런 샤프(Byron Sharp)의 조언을 살펴보겠습니다.

📚 참고자료

Lazer et al. (2014), The Parable of Google Flu: Traps in Big Data Analysis, Science.
Simpson's Paradox in A/B Testing, CXL Institute & GrowthBook.

전문가도 속는 통계 오류: 상관/인과, 교란 변수, 유의성의 함정

1. 교란 변수 (Confounding Variables)와 계절성의 무시

2. 심슨의 역설 (Simpson's Paradox)

A/B 테스트에서의 심슨의 역설 예시

3. 통계적 유의성 (Statistical Significance)의 오해

📚 참고자료

💡 Data 의 다른 글

A/B 테스트와 통계적 유의성의 함정: p-value의 진실과 가짜 승리(False Positive) 피하기

Vibe Coding 기반 광고 낭비 감시 자동화 시스템 구축 (n8n, Antigravity)

AI에 끌려가지 않는 '신호 설계자(Signal Designer)' 전략

우리가 믿었던 '공부법'의 배신: 데이터가 폭로한 3가지 학습 신화

8만 명 중 1등 — 한국 대학생이 세계 퀀트 대회를 제패한 '32개 알고리즘'의 비밀

하루 8잔? 물에 관한 가장 유명한 건강 신화의 탄생과 붕괴

"아침은 하루 중 가장 중요한 식사다" — 마케팅이 만든 의학적 진리