Como parte de la relación que nuestra compañía tiene con la Universidad, el equipo de ciencia de datos solemos dar unas sesiones dentro de las clases de un master de Big Data. De esta manera acercamos la realidad de la profesión a los estudiantes, y nosotros podemos observar directamente el talento de las nuevas generaciones.
Uno de los puntos que más atención y debate presenta siempre es cuando les explicamos los perfiles posibles dentro de los científicos de datos y las herramientas que más usamos. Aunque algunas herramientas permanecen año tras año, me doy cuenta de que la profesión evoluciona rapidísimamente. Aunque siempre les recomendamos algunos lenguajes de programación de moda como SQL, R o Python, el tema de las herramientas siempre nos cuesta un poco más.
Solemos aconsejar que tengan confianza en la estadística y la algoritmia, y que los lenguajes y las herramientas dependerán mucho del momento y de la empresa con la que trabajen.
El tema de los perfiles les suele apasionar. Se suelen quedar pensando en qué tipo de perfil es el que mejor encajaría para ellos y, entonces, nos lanzan preguntas y les describamos en profundidad qué hace cada tipo de científico de datos.
Este último año en mi investigación previa a la clase descubrí que los perfiles se mueven en los parámetros de negocio, estadística y modelización, ingeniería y programación. Y resultan en los perfiles de analista de datos, científico de datos, ingeniero de software, ingeniero de datos e ingeniero de aprendizaje automático.
Todos los perfiles los tenía identificados y los podía encontrar en Merkle, compañía para la que trabajo, salvo uno: el ingeniero de aprendizaje automático. En un primer momento, no entendía muy bien a qué se refería y pensaba que se trataba de otro nombre molón para la misma profesión. Pero, investigando un poco más y analizando la evolución y las necesidades actuales de Merkle, entendí a la perfección a qué se referían.
Los científicos de datos se clasificaban, hace unos pocos años, en ingenieros o modelizadores, según estuviesen más orientados a la infraestructura necesaria o al desarrollo de modelos. Pero el sector ya no está en ese punto, estamos en un momento en el que todas las empresas con vocación digital habían incorporado las grandes bases de datos a sus tecnologías, y todos habían desarrollado algún que otro modelo de aprendizaje automático. Ahora lo que las compañías como Merkle demandaban era replicar esos modelos e incluirlos en los procesos de la compañía de manera automática. Ahí es donde entraba en juego el ingeniero de aprendizaje automático.
Su tarea central es crear flujos automáticos que repliquen el procesado artesanal de los modelizadores dentro de la compañía. Enlazar automáticamente nuevos datos y reentrenar automáticamente los modelos.
La verdad que es un perfil exigente en cuanto a código e infraestructura. Hoy todavía no están estandarizadas las tecnologías triunfadoras aunque todos los proveedores cloud están ofreciendo herramientas muy intuitivas y potentes. Algunas cercanas a los notebooks Jupyter que se han establecido como pieza clave en la caja de herramientas del científico de datos. Con trasfondos de Kubernetes, como es el caso de Kubeflow, el ingeniero de aprendizaje automático tiene que convertirse, por el momento, en todo un administrador de sistemas para pilotar este tremendo bólido, pero seguro que llegaremos a la abstracción de muchos elementos y llegaremos al drag and drop en los flujos de aprendizaje automático.
Sin duda, un mundo apasionante en el que estos chicos pueden desarrollar su carrera o al menos comenzarla, pues no soy capaz de imaginarme de qué perfiles les hablaré en cinco años a estos jóvenes científicos de datos.
---------------------------------------------------------------------------------------------------------------------------------------------------------------
*Fuente imágenes: Unsplash