Alguna vez escribí que los especialistas en mercadotecnia debían saber (al menos) un método estadístico básico para realizar correctamente una prueba A/B. Se espera que, con cierto conocimiento adquirido, usted ya no permita que la ansiedad estadística frene su carrera de mercadólogo y acepte un reto un poco más desafiante: las pruebas A/B/C.
Las pruebas A/B/C, al igual que las pruebas A/B, son una forma de experimento controlado. En el caso de las A/B/C, se ponen a prueba más de dos versiones (por eso se agrega la “C” a A/B) de una variable (página web, elemento de una página, correo electrónico, etc.). Esto se puede usar para comparar tres o más versiones de algo y determinar cuál de ellas funciona mejor; por ejemplo, enviar varios correos electrónicos para ver cuál genera más interés, o usar diferentes anuncios para medir cuál genera más visitas. Un caso de uso frecuente es comparar un grupo estándar o de control con una serie de variantes. Por ejemplo, comparar una página web actual con dos diseños alternativos, para ver cuál diseño provoca más conversiones: el original o las dos alternativas.
También he escrito que hay muchas pruebas diferentes que uno puede ejecutar, incluso herramientas que prueban varios componentes al mismo tiempo. Hoy analizaremos una prueba A/B/C sencilla, que compara tres versiones de una medición. Podría tratarse de tasas abiertas o de tasas de visitas en correos electrónicos, anuncios o páginas web.
El análisis de regresión logística binaria se utiliza para describir la relación entre un conjunto de predictores y una respuesta binaria. Una respuesta binaria solo tiene dos resultados: pasa o no pasa. En mercadotecnia, esto suele traducirse en visitas, aperturas o conversiones. Cuando solo se comparan dos estrategias, existen métodos más sencillos, como la prueba de dos proporciones .
Imagine que un mercadólogo realiza una campaña publicitaria ordinaria en las redes sociales para atraer visitantes a su sitio web. Se decide ejecutar una prueba A/B/C con diferentes versiones del anuncio para ver cuál generará más visitas. El objetivo es lograr 20,000 impresiones por anuncio y ejecutar la prueba. Se recopilan y grafican los resultados. Como se aprecia en la gráfica de valores individuales, está claro que la Versión A obtuvo peores resultados que la versión original y la Versión B. La pregunta sigue siendo: ¿son estas diferencias estadísticamente significativas para rechazar la versión original?
Con los datos recopilados, puedo usar Minitab para ajustar un modelo de regresión logística binaria.
Al ir a Estadísticas > Regresión > Regresión logística binaria > Ajuste de modelo logístico binario, Minitab me presenta una ventana de diálogo para que seleccione “Respuesta en formato de evento/tentativa” y complete mis eventos (visitas) y tentativas (impresiones). También selecciono Publicidad como el elemento que estoy probando y permito que Minitab construya mi modelo.
Ahora, tenemos que profundizar un poco en la estadística (no mucho, solo un poco; al fin y al cabo está aquí para aprender, ¿no es así?). Al examinar la siguiente tabla, vemos el cociente de probabilidades, que compara las probabilidades de dos eventos, en nuestro caso, visitas a los diferentes anuncios. Minitab establece la comparación presentando los niveles en dos columnas, Nivel A y Nivel B. El Nivel B es el nivel de referencia del factor. Los cocientes de probabilidades mayores que 1 indican que el evento, en nuestro caso las visitas, es más probable en el Nivel A. Los cocientes de probabilidades menores que 1 indican que es menos probable que haya una visita en el Nivel A.
Con respecto a nuestra tabla, al comparar la Versión A con la original, un cociente de probabilidades menor que 1 significa que es menos probable que haya una visita en la Versión A. Al descender por la tabla, vemos que es más probable que la Versión B genere una visita que la versión original y la Versión A. Esto valida la Versión A.
Al examinar la segunda columna, el intervalo de confianza de 95 %, encontramos más información acerca de nuestros datos. En estos tipos de análisis, los intervalos de confianza que incluyen el 1 en su intervalo (como la Versión B vs. la original, donde el IC de 95 % es de 0.9882, 1.1038) indican que las probabilidades de una visita vs. una omisión de visita son esencialmente las mismas para los dos grupos.
Como resultado, esta prueba nos ha enseñado que, sin duda alguna, la Versión A es la publicidad con el peor rendimiento y no vale la pena conservarla. Sin embargo, sería un error sustituir automáticamente la versión original con la Versión B. Nuestros próximos pasos deberán ser: a) refinar nuestra evaluación mediante una prueba A/B que compare la versión original con la Versión B; o b) seleccionar la versión original o la Versión B por razones cualitativas como, por ejemplo, “mantener la uniformidad de nuestros mensajes” o “actualizar nuestros mensajes”, sin preocuparse por los resultados.