¿Qué pasaría si en la monitorización de uno de tus activos digitales descubrieses un incremento de tráfico significativo e injustificado? ¿Y si alguien llegara y te dijera que un porcentaje de las impresiones de tus anuncios ni siquiera las está viendo un usuario real? Estos dos supuestos tienen un denominador común: bots. Y es que, ¿quién no ha oído hablar a día de hoy de ellos? Robots conversacionales, arañas web, bots “buenos”, bots “malos”… la Web está repleta de ellos. Sin embargo, pese a saber de su existencia, quizás no os habéis parado a pensar cómo afectan a vuestros datos. Quizás, igual que os protegéis de alguno de ellos mediante antivirus, queráis proteger vuestros activos de su influencia. En este post os contaré qué son los bots y los mecanismos de los que disponéis para preservar la integridad del dato.
Bots, ¿qué son?
Los bots, también llamados robots web, son programas que se ejecutan automáticamente a través de Internet replicando el comportamiento humano, pero a una velocidad muy superior. Su propósito depende de su creador, pero básicamente los podríamos dividir en los siguientes grupos:
Arañas (spiders): robots web que rastrean Internet buscando sitios y páginas nuevos. El máximo exponente de ellos son los bots de los motores de búsqueda, que indexan las páginas nuevas para que aparezcan en sus respectivos buscadores. También se englobarían dentro de este grupo los bots que rastrean los sites de e-commerce buscando ofertas.
Bots conversacionales (chatter bots, chatting bots): robots web programados para responder a preguntas de los usuarios, tratando de ofrecer un servicio de atención similar al de una persona al otro lado de un chat.
Bots maliciosos: robots diseñados para atacar sitios web o para lucrarse mediante su uso. Dentro de estos destacan las botnets, que son redes de ordenadores infectadas por estos bots y que en un momento dado pueden realizar un ataque de denegación de servicio (DoS, DDoS) sobre cualquier sitio web o utilizarse para lanzar spam masivo.
¿Cómo influyen en tus activos?
Para empezar, un dato de comScore. Según su informe de marzo de 2015 para Estados Unidos, el 21% de las campañas tiene un porcentaje de tráfico no humano superior al 5%, siendo responsable del 75% de las impresiones a tráfico no humano (bots maliciosos). Es decir, en base a este dato, una parte notable del gasto en compra de medios se está destinando a anuncios que ningún usuario llega a ver nunca. Es más, estos bots incluso son capaces de hacer clic en los diferentes anuncios para aumentar la facturación del anunciante.
Respecto al comportamiento on-site, los bots van saltando entre los diferentes enlaces internos del sitio web, visitando las diferentes páginas. Si estos bots tienen como objetivo perjudicar al sitio, lo harán de forma repetitiva y en varios instantes temporales, y serán capaces de rellenar formularios, completar procesos de tarificación y ejecutar los diferentes scripts de la página. Este último caso hace que ejecuten los tags de las herramientas de analítica y, por tanto, sean susceptibles de influir en los informes. El caso habitual es que, de repente, los datos de tráfico que aparecen en la herramienta de analítica se disparen, siendo especialmente notable el aumento de páginas vistas, pero aumentando también las conversiones por tarificación completada, generación de leads, etc.
¿Qué hacer para detenerlos?
Los bots “buenos” siguen el estándar de exclusión de robots o, lo que es lo mismo, el fichero robots.txt. Este no es más que un fichero que se instala en el servidor y que indica a los bots qué páginas pueden consultar y cuáles no. Además, no suelen ser capaces de ejecutar JavaScript, por lo que no impactarían en los datos recopilados.
Respecto a los bots maliciosos, el método más extendido para bloquearlos es el uso de los CAPTCHA, que son pequeños programas que generan y evalúan tests que cualquier persona puede completar, pero los programas actuales no. El test más común es la introducción del texto o los dígitos presentes en imágenes distorsionadas. Sin embargo, puesto que no vamos a llenar el site de CAPTCHAs, hay que buscar otras alternativas, como bloquear las conexiones que tengan User-Agents de robots conocidos, o en el peor de los casos, bloquear ciertas IPs. En cuanto a los bots que consumen impresiones de las campañas, poco podemos hacer salvo confiar en los distintos soportes para que los bloqueen lo antes posible.
Además, en el caso que los bots consigan acceder a tu sitio web, las mayor parte de herramientas de analítica te proporcionan la capacidad para eliminarlos de sus informes, mientras que si no lo haces, el análisis de los informes constituye un buen mecanismo de detección de bots.
Así pues, si nos centramos en las dos principales herramientas de analítica del mercado (Google Analytics y Adobe Analytics), estas son las posibilidades de eliminación que ofrecen:
Google Analytics: A nivel de vista, en su configuración se puede marcar el checkbox “Excluir todas las visitas de robots y de arañas conocidos” de la sección “Filtrado de robots”. Esto excluirá de la vista todos los hits que provengan de bots y arañas de la lista de IAB sobre bots y arañas conocidos.
Adobe Analytics: A nivel de report suite, se puede marcar el checkbox “Enable IAB Bot Filtering Rules” (Edit Settings > General > Bot Rules) que utiliza la “ IAB/ABCe International Spiders & Bots List” para eliminar el tráfico procedente de bots. Asimismo, se pueden crear reglas de exclusión de bots basándote en su User-Agent o su IP, así como subir ficheros CSV con listas de bots.
Es importante tener presente que en cualquiera de las herramientas, la eliminación del tráfico de bots de los informes puede representar un descenso notable de las métricas, así como un posible incremento de las tasas de conversión. Por esta razón, esta eliminación se debe realizar de forma muy controlada, es decir, prestando atención a la variación de los datos.
Si, por el contrario, se quiere dejar que el tráfico generado por estos bots sea recopilado porque se quiere utilizar la herramienta de analítica como método de detección, porque se utiliza alguna araña en el propio sitio web para rastrear posibles incidencias, o por cualquier otra razón, a continuación os indico algunos detalles a tener en cuenta:
– Los bots suelen generar un número muy elevado de páginas vistas en la misma visita. Por tanto, la tendencia de páginas vistas aumentará de manera muy abrupta, mientras que la de visitas aumentará en el mismo momento, pero de manera menos notable. En un informe de páginas, el KPI páginas vistas por visita se disparará. Con este sencillo análisis se puede detectar la posible presencia de robots maliciosos.
– Existen bots que pueden estar programados para realizar prácticamente cualquier interacción con el site, así que si veis cualquier incremento en una métrica que es difícil de explicar, visitas a horas no habituales, o cualquier otra situación muy extraña, tened siempre en cuenta que puede haber un bot detrás.
Y tú, ¿has detectado algún bot en tu sitio web?, ¿los estás bloqueando? Cualquier aportación será de utilidad 🙂