저는 이전에 마케터들이 (최소한) A/B 테스트를 올바르게 수행하기 위한 기본적인 통계 방법을 알고 있어야 한다는 글을 쓴 적이 있습니다. 약간의 지식을 자기 것으로 만든 상태에서는 바라건대 통계 불안으로 인해 마케팅 경력에 방해가 되는 일을 방지하고 약간 더 난이도가 높은 작업을 맡을 수 있게 될 것입니다. 그것은 A/B/C 테스트입니다.
A/B/C 테스트란?
A/B/C 테스트는 A/B 테스트와 마찬가지로 한 가지 형태의 통제된 실험입니다. A/B/C의 경우 변수(웹페이지, 페이지 요소, 이메일 등)의 버전이 두 개 이상 테스트됩니다(따라서 A/B에 “C”가 추가됨). 이것은 여러 개의 이메일을 전송하고 어떤 버전이 더 많은 참여를 유도하는지 확인하거나 다른 광고를 사용하여 클릭률을 측정하는 등 어떤 버전이 더 나은지 확인하기 위해 3가지 이상의 버전을 비교하는 데 사용할 수 있습니다. 한 가지 일반적인 사용 사례는 표준 또는 대조군에 대해 여러 버전을 기준으로 조사하는 것입니다. 예를 들어, 현재 웹페이지를 두 개의 대체 웹페이지 디자인과 비교하여 원래 또는 두 개의 비교 대상 중 어느 디자인이 더 많은 전환을 유도하는지 확인합니다.
앞서 설명한 바와 같이 여러 구성 요소를 동시에 테스트하는 도구 등 실행할 수 있는 다양한 테스트가 있습니다. 오늘은 단순한 A/B/C 테스트를 살펴보고 한 번의 측정으로 세 가지 버전을 비교합니다. 이는 이메일, 광고 또는 웹페이지의 조회율 또는 클릭률일 수 있습니다.
분류 및 회귀 트리에 대해 자세히 알아보기 - 예측 분석 문제를 해결하기 위한 강력한 접근법
이항 로지스틱 회귀 분석 소개
이항 로지스틱 회귀 분석은 예측 변수 집합과 이항 반응 간의 관계를 설명하는 데 사용됩니다. 이항 반응에는 합격 또는 불합격과 같은 두 가지 결과가 있습니다. 마케팅에서는 종종 클릭, 조회 또는 전환 수로 해석됩니다. 두 가지 접근법만 비교하는 경우, 양비율 테스트와 같은 더 단순한 방법이 있습니다.
A/B/C 검사 예시
마케팅 담당자가 소셜 미디어에서 정기 광고 캠페인을 실행하여 웹사이트 방문자를 유도한다고 가정해 보겠습니다. 이들은 어떤 광고가 가장 많은 클릭 수를 유도하는지 확인하기 위해 여러 버전의 광고로 A/B/C 테스트를 실행하기로 결정합니다. 광고당 20,000회의 노출를 목표로 하고 테스트를 실행합니다. 결과를 수집하고 그래프로 표시합니다. 개별 값 플롯에 따르면 버전 A가 원래 버전과 버전 B보다 더 저조한 결과를 보였습니다. 질문은 남아 있습니다. 차이가 원래 버전에서 다른 버전으로 바꿀만큼 통계적으로 유의합니까?
테스트 분석을 위한 이항 로지스틱 회귀 분석
데이터를 수집한 상태에서 Minitab을 사용하여 이항 로지스틱 회귀 모델을 맞출 수 있습니다.
통계 > 회귀 > 이항 로지스틱 회귀 > 이항 로지스틱 모델 맞춤으로 이동하면 Minitab이 '이벤트/시행 형식으로 응답'을 선택하고 이벤트 수(클릭 수)와 시행 수(노출 수)를 입력할 수 있는 대화 창을 표시합니다. 또한 테스트할 항목으로 광고를 선택하고 Minitab이 모델을 구축하도록 합니다!
결과 분석으로부터 얻은 결론
이제 통계를 좀 더 자세히 살펴보아야 합니다(많이는 아니고 조금! 뭔가를 배우러 여기에 온 것 아닌가요?). 아래 표를 보면 두 이벤트의 확률, 우리의 경우 다양한 광고를 클릭하는 것을 비교하는 승산비를 확인할 수 있습니다. Minitab은 수준 A와 수준 B, 두 열에 수준을 나열하여 비교를 설정합니다. 수준 B는 요인의 기준 수준입니다. 승산비가 1보다 크면 이벤트가 수준 A에서 발생할 가능성이 더 높음을 나타냅니다. 승산비가 1보다 작으면 수준 A에서 클릭할 가능성이 더 낮음을 나타냅니다.
표와 관련하여 버전 A와 원본을 비교할 때 승산비가 1보다 작으면 버전 A에서 클릭이 발생할 가능성이 더 낮다는 의미입니다. 표를 보면, 버전 B가 원본과 버전 A보다 클릭이 더 많다는 것을 알 수 있습니다. 이는 그래프와 비교를 검증하지만, 추가 정보는 어디에 있습니까?
두 번째 열인 95% 신뢰 구간을 보면 데이터에 대한 추가적인 인사이트를 얻을 수 있습니다. 이러한 유형의 분석에서 범위 내에 1이 포함된 신뢰 구간(예: 버전 B 대 95% CI가 0.9882,1.1038인 원래 버전)은 클릭함과 클릭하지 않음의 확률이 두 그룹에 대해 기본적으로 동일함을 나타냅니다.
그 결과, 이 테스트는 의심의 여지 없이 버전 A가 가장 성과가 나쁜 광고이며 계속 진행할 가치가 없다는 사실을 알려주었습니다. 하지만 버전 B를 원래 버전으로 자동으로 대체하는 것은 실수일 수 있습니다. 다음 단계는 a) 테스트를 원래 버전과 버전 B를 비교하는 A/B 테스트로 개선 또는 b) 결과 저하에 대해 걱정하지 않고 '일관된 메시지와 연결' 또는 '메시지 새로 고침'과 같은 질적인 이유로 원래 버전 또는 버전 B를 선택하는 것입니다.