Wook's AI and Marketing

페이스북 광고 타겟팅은 정말 매출을 올렸을까? 대시보드의 착시와 A/B 테스트의 진실 (Gordon et al. 2019)

Data 2026-05-14

"최근 돌린 페이스북 타겟팅 광고 캠페인 전환율이 너무 좋아. ROAS가 무려 800%야! 우리 타겟팅이 적중했어!"

마케터라면 누구나 이런 말을 해보거나 들어본 적이 있을 것입니다. 성과 측정 대시보드를 열어보면, 특정 광고 캠페인의 전환율과 ROAS(광고비 대비 매출액)가 유독 높게 찍히는 아름다운 숫자들을 보게 됩니다.

하지만 과연 그 숫자들이 '순수하게 광고 덕분에 발생한 매출 증분(Incremental Lift)'일까요? 혹시 알고리즘이 '어차피 물건을 살 사람'에게만 광고를 보여준 뒤, 그들의 자연스러운 구매를 광고 성과로 둔갑시킨 것은 아닐까요?

이 근원적이고 도발적인 질문에 답을 내놓은 기념비적인 연구가 있습니다. 2019년 켈로그 경영대학원(Kellogg School of Management) 연구진과 페이스북 데이터 사이언스 팀이 공동으로 진행한 논문 "A Comparison of Approaches to Advertising Measurement: Evidence from Big Field Experiments at Facebook (Gordon et al., 2019)"입니다.

이 연구는 디지털 광고 성과 측정에 있어서 '상관관계'와 '인과관계'의 치명적인 간극을 실증적으로 증명해 냈습니다.


🔬 1. 연구 세팅: 15개의 대규모 캠페인과 5억 명의 데이터

연구진은 디지털 광고 업계에서 널리 쓰이는 두 가지 측정 방식을 정면으로 비교했습니다.

  1. 관측 데이터 방법론 (Observational Methods): 우리가 흔히 쓰는 대시보드 방식. 캠페인 기간 동안 광고를 본 사람(노출군)과 안 본 사람(비노출군)의 전환율을 단순히 비교하거나, 고객 데이터를 기반으로 통계적 보정(매칭)을 거친 성과 측정.
  2. 무작위 통제 실험 (RCT, Randomized Controlled Trials): 인과 추론의 '황금 표준'. 광고 캠페인 시작 전 사용자들을 무작위로 실험군(광고 노출)과 대조군(광고 원천 차단)으로 나누어, '광고를 껐을 때와 켰을 때'의 순수 증분을 측정하는 A/B 테스트.

연구진은 미국에서 집행된 15개의 거대 페이스북 광고 캠페인(총 5억 명의 사용자, 16억 회의 광고 노출)을 대상으로 이 두 방식의 결과를 비교 분석했습니다.

💥 2. 충격적인 결과: 대시보드는 실제 효과를 '3배'나 뻥튀기한다

업계의 흔한 믿음은 "페이스북의 방대한 고객 데이터를 활용해 통계적으로 잘 보정(Matching)하면, A/B 테스트 없이도 관측 데이터만으로 꽤 정확한 광고 효과를 잴 수 있다"는 것이었습니다.

하지만 연구 결과는 이 믿음을 산산조각 냈습니다.

  • 극심한 과대평가 (Overestimation): 대시보드의 관측 데이터 기반 모델들은 대부분의 경우 실제 A/B 테스트(RCT)를 통해 얻은 '진짜 광고 효과(Lift)'를 크게 과대평가했습니다.
  • 3배의 오차 (Factor of Three): 분석한 15개의 연구 중 절반 이상에서, 관측 모델이 뱉어낸 '구매(Checkout) 성과' 추정치는 실제 광고 효과와 무려 300%(3배) 이상 차이가 났습니다.

즉, 대시보드에서 "광고 때문에 100명이 물건을 샀습니다!"라고 외칠 때, 실제로 그중 70명은 '광고를 안 봤어도 어차피 샀을 충성 고객'이었다는 뜻입니다.


😈 3. 편향(Bias)은 왜 발생하는가? 대시보드를 오염시키는 3가지 원인

그렇다면 성별, 연령, 소득, 페이스북 활동량 등 수천 개의 변수를 통제했는데도 왜 이렇게 심각한 오차가 발생했을까요? 연구진은 3가지 주요 원인(내생성)을 지목합니다.

① 활동 편향 (Activity Bias)

광고에 노출되려면 일단 캠페인 기간에 페이스북 앱을 켜야 합니다. 휴가를 가거나 바빠서 접속하지 않은 사용자는 광고에 노출되지 않으며, 이들은 본질적으로 온라인 쇼핑을 할 확률 자체도 낮습니다. 즉, 대시보드의 '광고 노출 그룹'은 단순히 '평소에 폰을 많이 보고 온라인 활동이 활발해서 원래 물건을 잘 사는 집단'으로 구성되어 버립니다.

② 타겟팅 편향 (Targeting Bias) 🚨 가장 치명적!

페이스북(Meta), 구글 등의 광고 플랫폼 머신러닝 알고리즘은 극도로 똑똑합니다. 알고리즘의 목표는 광고주의 CPA(행동당 단가)를 낮추는 것이므로, 클릭이나 구매를 수행할 확률이 가장 높은 사용자에게 우선적으로 광고를 뿌립니다. 이로 인해 노출된 사용자는 애초에 구매 확률이 높은 사람들로 선별(Cherry-picking)됩니다. 마케터는 "알고리즘이 잠재 고객을 잘 찾았다"고 생각하지만, 통계적 관점에서는 "어차피 살 사람을 골라내어 성과를 훔쳤다(Selection Bias)"고 해석할 수 있습니다.

③ 경매/경쟁 편향 (Competition Bias)

디지털 광고는 실시간 경매(RTB)로 이루어집니다. 만약 경쟁사가 20대 여성 타겟에 천문학적인 입찰가를 부르면, 우리 브랜드 광고는 20대 여성에게 노출되지 못합니다. 즉, 광고 노출 여부가 '통제 불가능한 타사의 입찰 행동'이라는 외생 변수에 의해 심각하게 오염됩니다.


💡 4. 상위 퍼널과 하위 퍼널의 차이

이 연구에서 매우 흥미롭고 실무적인 팁이 하나 더 발견되었습니다. 관측 데이터의 오차는 마케팅 퍼널(Funnel)의 단계에 따라 극심한 차이를 보였습니다.

  • 상위 퍼널 (회원가입, 이벤트 랜딩 페이지 조회): 관측 데이터 모델이 실제 A/B 테스트 결과와 어느 정도 꽤 비슷한 결과를 냈습니다. 광고를 안 본 사람이 우연히 이벤트 랜딩 페이지를 스스로 검색해서 찾아갈 확률은 매우 낮기 때문입니다.
  • 하위 퍼널 (장바구니, 최종 결제): 관측 데이터 모델의 오차가 3배 이상으로 극심했습니다. 결제(Checkout)는 사용자가 원래 브랜드 공식 홈페이지를 통해 일상적으로 수행하던 행동이므로, 알고리즘의 편향 효과가 극대화되기 때문입니다.

📝 5. 데이터 주도 마케팅을 위한 핵심 시사점

빅데이터의 시대, 모든 것을 추적할 수 있다는 환상이 지배하는 디지털 마케팅 업계에 이 논문은 강력한 경종을 울립니다.

  1. "더 많은 데이터"가 마법의 해결책은 아닙니다. 마케터들은 흔히 자사 고객 데이터(1st Party Data)나 외부 써드파티 데이터를 끌어와 정교하게 매칭(Matching)하면 대시보드가 정확해질 것이라 믿습니다. 하지만 현존하는 세계 최고 수준의 예측 데이터(Facebook Match Score)를 쏟아부어도 타겟팅 편향을 완벽히 없애지 못했습니다. 정확성은 데이터의 '양'이 아니라 무작위성이 담보된 실험 '설계'에서 나옵니다.
  2. 진정한 증분(Incrementality)을 알기 위해서는 반드시 A/B 테스트(RCT)를 해야 합니다. 우리 광고 예산이 허공에 뿌려지고 있는지 확인하려면, 대시보드 숫자만 맹신하지 말고 주기적으로 플랫폼에서 제공하는 증분 테스트(Conversion Lift Test)광고 노출 통제 그룹(Holdout Group)을 설정하여 실험해야 합니다.
  3. 최종 성과 지표(매출)에 대한 대시보드 기여도를 보수적으로 평가하세요. 만약 RCT를 당장 실행하기 어려운 환경이라면, 최종 구매 전환율(Lower-funnel)에 찍힌 ROAS 성과는 실제 광고 효과보다 과장되어 있을 확률이 매우 높다는 사실을 전제로 보수적인 의사결정을 내려야 합니다.

대시보드 위의 우상향 그래프가 '마케팅의 성과(인과관계)'인지, 아니면 영리한 '알고리즘의 얌체 짓(허위 상관관계)'인지 구별해 내는 능력. 그것이 데이터 시대를 살아가는 마케터와 리더에게 가장 필요한 데이터 리터러시(Data Literacy)일 것입니다.


📚 참고자료 및 주석

  • Gordon, B. R., Zettelmeyer, F., Bhargava, N., & Chapsky, D. (2019). "A Comparison of Approaches to Advertising Measurement: Evidence from Big Field Experiments at Facebook". Marketing Science, 38(2), 193-225.
  • 관련 논문 링크 (Kellogg School of Management)

💡 More from Data

View all

AI를 맹신한 부동산 거인의 몰락: 질로우(Zillow)는 왜 6천억 원을 날렸나

완벽해 보이던 부동산 AI 예측 모델이 как 6,500억 원의 막대한 손실을 초래했을까요? '과적합'과 '승자의 저주', 그리고 무리한 성장 목표를 쫓다 통제력을 상실한 경영진의 뼈아픈 오판(Human-in-the-loop 실패)을 데이터 과학 관점에서 심층 해부합니다.

2026-05-14

A/B 테스트와 통계적 유의성의 함정: p-value의 진실과 가짜 승리(False Positive) 피하기

현대 디지털 비즈니스에서 직관에 의존한 의사결정은 도박과 같습니다. 넷플릭스, 구글, 아마존과 같은 기업들이 성장을 멈추지 않는 이유는 천재적인 기획자 덕분이 아니라, 수천 개의 가설을 동시에 검증하는 강력한 **A/B 테스트(A/B Testing)** 인프라 덕분입니...

2026-05-10

Vibe Coding 기반 광고 낭비 감시 자동화 시스템 구축 (n8n, Antigravity)

지금까지 11편의 포스트를 통해 디지털 마케팅에 숨겨진 거대한 예산 낭비 구멍(Cannibalization, MFA, 봇 트래픽, PMax 블랙박스 등)을 파헤쳤습니다. 이론을 알았다면 이제 남은 것은 단 하나, **실행(Execution)**입니다. 하지만 데이터 엔...

2026-05-10

AI에 끌려가지 않는 '신호 설계자(Signal Designer)' 전략

구글 PMax(Performance Max)나 메타 Advantage+와 같은 극단적 자동화 캠페인의 시대입니다. 타겟팅, 입찰, 게재 위치 심지어 광고 소재 조립까지 AI가 다 알아서 해주는 세상에서 **"마케터의 새로운 역할은 무엇인가?"**라는 질문이 쏟아지고 있...

2026-05-10

전문가도 속는 통계 오류: 상관/인과, 교란 변수, 유의성의 함정

"데이터는 거짓말을 하지 않는다." 마케터들이 흔히 하는 착각입니다. 데이터 자체는 거짓말을 하지 않을지 몰라도, **그 데이터를 해석하는 사람은 매일 거짓말에 속아 넘어갑니다.** 오늘은 마케터의 데이터 리터러시(Data Literacy)를 시험하는 가장 무서운 통계...

2026-05-10

우리가 믿었던 '공부법'의 배신: 데이터가 폭로한 3가지 학습 신화

"사람은 각자 타고난 학습 스타일이 있다." "교과서에 형광펜으로 밑줄을 그으며 반복해서 읽는 것이 최고다." "어떤 분야든 1만 시간을 투자하면 세계적인 전문가가 될 수 있다." 우리는 살면서 이런 조언들을 무수히 듣고 자랐습니다. 하지만 데이터와 인지과학의 세계...

2026-05-09

8만 명 중 1등 — 한국 대학생이 세계 퀀트 대회를 제패한 '32개 알고리즘'의 비밀

142개국 8만 명이 참가한 국제 퀀트 챔피언십(IQC)에서 UNIST 김민겸 학생이 한국인 최초로 우승했다. 200개 넘는 알고리즘 대신 32개만 쓴 그의 전략, 그리고 AI 시대 퀀트 투자의 본질을 분석한다.

2026-05-05