Interpretación estadística de resultados

A la hora de analizar los resultados de un test de personalización, nos encontramos con distintas métricas, rangos y valores que las herramientas como Google Optimize o Adobe Target ofrecen por defecto. Así, descubrimos términos como significancia estadística o intervalos de confianzaque debemos interpretar, ya que la realización de estos experimentos tiene una base principalmente estadística.

¿Por qué es importante esto? Porque malinterpretar resultados es peor que no ejecutar el experimento. Sacar conclusiones equivocadas podría llevarnos a implementar cambios en nuestra web que tengan un impacto negativo.

Por ello vamos a analizar algunos términos importantes.

Contraste de hipótesis

A la hora de realizar un test planteamos una hipótesis, como podemos ver en este post de mi compañero Borja Pérez. Al reflejarlo en la herramienta correspondiente, estamos definiendo el siguiente contraste de hipótesis:

H0: Las versiones son iguales.
H1: Las versiones son significativamente distintas.

Así, la herramienta utilizará procedimientos (de forma automática) para contrastar dichas hipótesis, yendo más allá y ofreciéndonos cuál es la desviación entre ellas, es decir, el objetivo de nuestro test: cuál es la mejora que supone la versión alternativa sobre la original.

Pasamos así al siguiente concepto:

Intervalo de confianza

Se trata del rango de valores donde se va a encontrar nuestro parámetro, el ratio de conversión por ejemplo, con una determinada probabilidad o nivel de confianza. En el caso de Google Optimize, se trata de intervalos de confianza al 95%. ¿Qué quiere decir esto? Pues que vamos a poder encontrar el parámetro estimado (el ratio de conversión) en dicho intervalo con un 95% de certeza, es decir, bajo las mismas condiciones del test, podemos esperar que en el 95% de los casos el parámetro se encuentre en ese rango de valores.

Además, Google Optimize delimita todavía más esos valores, indicando los límites, dentro de ese intervalo, en los que vamos a poder encontrar el 50% de los mismos, representados en la zona rectangular del intervalo mostrado en la columna de Conversion Rate de la imagen.

Además, en la gráfica temporal, que refleja los distintos intervalos de confianza que se han ido obteniendo a lo largo del tiempo, podemos observar cómo al inicio del test estos rangos son bastante amplios y cómo, según se van recibiendo más datos, van siendo cada vez más precisos.

Significancia estadística

Quizá sea este el concepto más importante al analizar los resultados de un experimento y tratado previamente en esta publicación: se trata de la probabilidad de que los resultados obtenidos sean reales y no fruto de la aleatoriedad. Es este valor el que nos va a indicar la validez del experimento, puesto que valores muy pequeños nos van a impedir ofrecer resultados concluyentes.

Y para terminar, un pequeño apunte: como hemos estado viendo, los resultados obtenidos al realizar un experimento tienen una base estadística, por lo que es importante no cometer el error de ignorar los ratios de conversión que nos proporcionan las herramientas como Google Optimize y tratar de calcularlos nosotros mismos de la siguiente forma: total de conversiones / total de sesiones. Estaríamos así obteniendo simplemente el ratio de conversión medio para el periodo en el que el test ha estado activo y no un valor que podamos esperar conseguir al repetir el experimento bajo las mismas condiciones.

Conclusión: es importante conocer los distintos términos estadísticos que encontramos al realizar un test para poder interpretar correctamente los resultados y poder tomar decisiones que nos permitan mejorar nuestra web.