De un tiempo a esta parte, se escucha activamente que los datos son el nuevo petróleo de la economía, a lo que muy acertadamente alguien ha apostillado que sólo porque es sucio y difícil de extraer. No pudiendo estar más de acuerdo con esta información, el objetivo de este y sucesivos post es aportar un método de análisis de los datos disponibles, que nos permita afrontar el proceso de obtener el ansiado petróleo de forma estructurada. En este primer post nos centraremos por tanto en identificar, “poner nombre” y definir las tareas básicas de las primeras fases de un buen análisis de datos.
Analítica Horizontal
Definiremos la analítica horizontal como la primera fase del análisis, aquella que se centra en representaciones visuales de los datos que nos permitan obtener una impresión general sobre nuestros activos de forma sencilla e inmediata. Estas representaciones gráficas se han de corresponder con un KPI que esté alineado con nuestros objetivos de negocio y en el cual es común el uso de diferentes pictogramas, sencillas líneas de tendencia y adicionalmente algún valor porcentual o indicador a medida, que conjuntamente nos permitan visualizar de forma sintética los indicadores y valores que alimentan dicho KPI.
Para una correcta interpretación los KPI’s, se han de agrupar en dashboards bien definidos en cuanto que no incluyan más de 4 o 5 KPI’s, y que estos estén relacionados entre si, por ejemplo, por representar las ventas de nuestros canales online y offline y los beneficios. Aunque no es objetivo de este post entrar a la correcta y adecuada definición de KPI’s y dashboards, lo consideramos el primer y necesario paso para definir una buen modelo de análisis de datos. El porqué es claro, nuestro primer análisis ha de permitirnos distinguir fácilmente que indicadores pueden presentar situaciones que requieran de un análisis en mayor profundidad. Cambios repentinos de tendencias, comportamientos irregulares, identificación de patrones o estacionalidades, discrepancias con los objetivos definidos, etc, son candidatos a que entremos a una siguiente fase de análisis.
En este primer estadio en el que nos encontramos, lo más habitual es contar con alguna herramienta de analítica (web o de datos) donde tengamos configurados estos dashboards y KPI’s que a su vez se alimentan de datos online u offline que les sirve la propia herramienta.
Analítica Vertical
La siguiente fase de análisis pasa por profundizar o sumergirse dentro de los indicadores que hayamos seleccionado, es por ello que pasamos a denominarla analítica vertical. Esta fase requiere dejar por un momento la representación gráfica y bucear por las diferentes tablas de datos que alimentan nuestros KPI’s. La imagen de un iceberg es muy gráfica para describir este proceso. Mediante la Analítica Horizontal hemos visto la punta del iceberg, pero solo sumergiéndonos en la Analítica Vertical podremos comprender la totalidad del mismo.
Cada uno de los indicadores que están definidos dentro del KPI tienen que analizarse por separado(sin olvidarnos de cuál es su agregación e importancia en el KPI del que proviene) y cada conjunto de datos puede ser a su vez representado gráficamente para observar su comportamiento; fundamentalmente a través de gráficos de tendencias, diagramas de dispersión, gráficos de tarta o histogramas bien definidos, como se indicó en un post anterior, que nos aporten más información sobre el porqué de su comportamiento.
El uso de sencillos parámetros estadísticos, como pueden ser media, moda, dispersión, cuartiles, desviación típica, grado de correlación, etc, pueden ayudarnos a visualizar y comprender comportamientos anómalos. Pensemos por ejemplo en un indicador que presenta fluctuaciones irregulares a lo largo del tiempo. Si agrupamos los datos semanalmente por medio del cálculo de medias semanales con sus desviaciones típicas, podemos encontrar un patrón de tendencia que nos diga si este comportamiento irregular tiene una estacionalidad (las medias aumentan durante tres semanas, bajan en la cuarta para repetir este proceso) , si es mantenido en el tiempo (la media de los datos semanales es parecida) o si la irregularidad de los datos va en aumento (las desviaciones típicas van aumentando progresivamente). Este es un buen ejemplo de la potencia de análisis que tienen sencillos estadísticos aplicados sobre nuestros datos.
Habitualmente, en esta fase de análisis vertical nos apoyamos en la herramienta sobre la que descansan los datos para su exportación y posterior manejo con herramientas más sencillas, como puede ser hojas de cálculos o herramientas estadísticas como SPSS o R; siendo la hoja de cálculo la herramienta más popular por su sencillez y versatilidad.
Con los datos obtenidos sobre la mesa estamos en condiciones de, o bien identificar las causas que generen estos comportamientos, o de formular hipótesis sobre cuáles pueden ser estas causas (y querer comprobarlas). En ambos casos se requiere que entremos en un tercer nivel de análisis.
Analítica Diagonal
Cuando hablamos del análisis en diagonal nos estamos refiriendo al análisis de los datos en mayor profundidad, usualmente apoyados en métodos estadísticos más avanzados, que deviene a medida que nuestras necesidades de extraer el petróleo de los datos aumenta. El uso del término diagonal toma su sentido en este contexto, cuando en el análisis que realizamos recorremos diferentes indicadores, tablas y KPI’s para analizar la relación o dependencia que pueda existir entre ellos; pasamos por tanto de un análisis global pero de superficie (Analítica Horizontal) y de un análisis de profundidad pero centrado en uno o pocos indicadores (Analítica Vertical) a un análisis global y de profundidad (usamos el término global por cuanto que aplica a todos aquellos indicadores que consideramos puedan tener influencia en el comportamiento de la situación que queremos analizar) que involucra a varios o muchos conjuntos de datos de los cuales queremos analizar y comprender sus dependencias, su comportamiento actual, su posible evolución, etc.
Son propios del análisis en diagonal el uso de herramientas más avanzadas de análisis de datos, que van desde el SPSS al R, scrips propios en Python o cualquier otro lenguaje de programación similar. Son también varios los métodos estadísticos que se suelen utilizar, partiendo del estudio de correlaciones entre indicadores, el análisis factorial, estadística predictiva basada en series temporales, clusterización y clasificación (p.e. en modelos de atribución ), análisis bayesianos (contraste de resultados de campañas esperado/obtenido), test A/B, etc.
Entrar en el Análisis Diagonal requiere remangarse, estar dispuesto a ensuciarte con los datos y fundamentalmente tener la mente muy abierta y sin prejuicios sobre los resultados que podamos obtener, tanto porque confirmen nuestras peores sospechas, como porque nos aporten una información que choque frontalmente con las ideas concebidas a priori y nos obligue a replantearnos toda nuestra estrategia.
En los próximos posts de esta serie, iremos entrando en los diferentes métodos estadísticos y herramientas que podemos utilizar con ejemplos centrados en el ámbito de la Analítica Web que nos ayudarán a entrar en la analítica diagonal. Si tenéis sugerencias sobre aspectos estadísticos y/o de análisis de datos que queráis que se traten próximamente serán bienvenidas