Nueve industrias que aplican la Ciencia de Datos para solucionar problemas reales

La Ciencia de Datos es una disciplina tan amplia como difícil de definir. En su origen está la analítica de datos, así como la aplicación de métodos estadísticos en su análisis. Si medimos el tiempo en escala tecnológica, no es precisamente reciente: las primeras menciones al análisis de datos y a la Ciencia de Datos datan de los años 60 y 70, respectivamente.

¿Quieres ser un data scientist? Apúntate al Datatón organizado por IMMUNE Technology Institute en colaboración con Spanish Startups y aprende con los mejores expertos en Data Science. Dos días (18 y 19 de septiembre) de formación online o presencial y un gran reto para poner a prueba esos conocimientos de Data Science. ¡No dejes escapar el premio!

Consejo ofrecido por la marca

De igual modo, hay una estrecha relación entre las Ciencias de la Computación y la Ciencia de Datos: el uso de los ordenadores es un elemento consustancial a la Ciencia de Datos. Y la aplicación de técnicas computacionales a la Estadística es otro de sus ingredientes esenciales.

Los datos, a su vez, están muy vinculados a la computación. "Dato" es un concepto que surge en los 40, la etapa de los primeros ordenadores, con la acepción de "información susceptible de ser transmitida y almacenada en un ordenador".

A partir de ahí, la evolución de los ordenadores y su capacidad para almacenar y procesar datos han ido modelando el concepto de análisis de datos primero y de Ciencia de Datos después, aumentando el alcance de los análisis y la fiabilidad de las predicciones.

La Ciencia de Datos no solo son datos y ordenadores

Si bien la potencia de cálculo de los ordenadores y datacenters actuales es un elemento sin el cual la Ciencia de Datos no tendría demasiado recorrido, estamos ante una disciplina donde convergen otras áreas de conocimiento que no siempre pueden definirse con claridad.

Data Science Vs Data Analytics Vs Machine Learning

Es un reto al que se enfrentan los centros de formación cuando diseñan los programas de grado o posgrado, como sucede con IMMUNE Technology Institute y su Máster en Data Science.

El plan académico de este máster es una buena forma de abordar las diversas áreas de conocimiento que caracterizan a la Ciencia de Datos. Si bien no hay una definición clara y concisa, existe una aproximación realizada en 2010 por Drew Conway en la que se llega al concepto de Ciencia de Datos a partir de las áreas de conocimiento que es necesario dominar:

Hacking Skills hace referencia a habilidades adquiridas para manejar diferentes tipos de datos en formatos distintos y para los que no hay un único método de integración en un proyecto de Ciencia de Datos. Son habilidades para "buscarse la vida" manejando fuentes de datos no siempre estructuradas, en busca de relaciones, predicciones o patrones útiles en un determinado sector o área de negocio.
Substantive Expertise atañe al conocimiento del área de actividad o el negocio de donde provienen los datos. Los mismos datos, en áreas de negocio diferentes, se manejan también de forma diferente. Por ejemplo, los datos de conducción de los coches pueden servir para diseñar estrategias de mantenimiento predictivo en un taller o para ofrecer seguros personalizados en función de la forma de conducir.
Disciplinas como Machine Learning o los métodos analíticos tradicionales son subconjuntos de áreas de conocimiento, mientras que la Ciencia de Datos las engloba a todas. Son piezas de un enorme rompecabezas e IMMUNE lo tiene en cuenta en su plan académico para el Máster en Data Science, donde se dedica un nivel a la Manipulación de Datos y Análisis.

Si todavía tienes dudas, puedes asistir a la sesión informativa online del Máster de Data Science de IMMUNE que se celebrará el próximo 24 de septiembre y preguntárselas a la directora, Mónica Villas. La responsable académica despejará cualquier interrogante y hará una semblanza del programa y de las empresas partners, recruiters y profesionales del sector con los que colabora IMMUNE para ayudarte a impulsar tu carrera.

De la estadística a la IA pasando por Machine Learning

A medida que la potencia de cálculo de los sistemas computacionales ha ido aumentando, la IA ha ido emergiendo en paralelo. Sin ir más lejos, la IA Watson de IBM se enfrentó en 2011 a personas reales en el concurso 'Jeopardy' usando la tecnología DeepQA (preguntas y respuestas profundas). En ella intervienen decenas de algoritmos diferentes para procesar el lenguaje natural, clasificar, buscar relaciones o categorizar la veracidad estadística de la respuesta. La IA ganó el concurso.

La “apariencia” de inteligencia emerge a partir del hardware capaz de hacer los cálculos lo suficientemente rápido como para que pareciese que estábamos ante un concursante humano. Watson usaba computación distribuida mediante Hadoop y bases de datos que se tuvieron que almacenar en memoria RAM para que la respuesta fuera rápida.

Deep Blue fue un proyecto anterior (1985) que en 1996 ganó a Gary Kasparov la primera partida en un torneo a seis. Perdió; pero, un año después, un Deep Blue actualizado triunfó con tres y medio frente a dos y medio de Kasparov. Deep Blue no usaba técnicas de deep learning, sino algoritmos relativamente simples con un alto grado de paralelismo.

Aplicaciones de la Ciencia de Datos

Hoy en día, la potencia de cálculo de los superordenadores y las estaciones de trabajo e incluso los ordenadores personales permite manejar ingentes cantidades de datos y ofrecer tiempos de respuesta tan reducidos como para integrar estos métodos en interfaces de usuario.

Es el caso de los asistentes personales, aunque también encontramos aplicaciones de la ciencia de datos en reconocimiento de imágenes, identificación de ciberamenazas o en los sistemas de recomendación de productos o servicios.

1. Ciberseguridad: identificación de ciberamenazas

La detección se realiza a partir de los datos de acceso a los sistemas y recursos de red. Se buscan patrones y se procede a dar la alerta cuando se detectan situaciones que no respondan a un patrón predefinido.

Los datos provienen de logs de actividad, con abrumadoras cantidades de datos recopilados en archivos históricos. De ellos, se extraen patrones de actividad para usarlos como referencia.

2. Finanzas: detección de fraudes

Un proceso similar se aplica en la detección de fraudes en pagos con tarjetas de crédito, por ejemplo. Aquí, los sistemas pueden cruzar datos de diferentes fuentes, como la actividad habitual de un cliente, junto con los "normales" de uso.

De esta forma, es posible identificar escenarios fraudulentos (tarjetas duplicadas/robadas o cobros indebidos/duplicados), paralizando o advirtiendo sobre una actividad irregular antes de que se produzca el daño.

3. Seguros: cálculo de primas

El sector de los seguros es otro que se beneficia de la Ciencia de Datos. Analizando los hábitos de conducción mediante sensores, una empresa aseguradora puede calcular los riesgos de accidente de un cliente y ofrecer una cuota personalizada para él. Incluso puede introducircon conceptos variables que dependan del análisis de sus rutinas en diferentes épocas del año.

4. Medicina: detección de tumores y búsqueda de tratamientos

Campos como el análisis de imagen en la identificación de enfermedades son perfectos candidatos para aplicar la Ciencia de Datos. Cuando se obtienen las imágenes en un TAC, radiografía o ecografía, los sistemas de reconocimiento empiezan a ser mejores incluso que los propios especialistas humanos.

Para conseguir una tasa de acierto tan elevada, es preciso elegir y procesar decenas de miles de exploraciones para entrenar estadísticamente los sistemas de reconocimiento de imagen basados en Machine Learning Supervisado. Precisamente, esta aplicación de la ciencia de datos en el campo de la medicina se estudia en el Nivel 4 del Máster en Data Science de IMMUNE Technology Institute dentro de su formación mediante 'Learning by doing'.

Imagen: Institute of Cancer Research, London.

Otro tanto de lo mismo se aplica para el descubrimiento de nuevos medicamentos o para ofrecer tratamientos personalizados.

5. Industria: mantenimiento predictivo o la salud de las máquinas

El mantenimiento predictivo es un ejemplo claro de aplicación de la Ciencia de Datos en la industria. Las máquinas, sistemas logísticos y demás elementos de una planta industrial integran miles de sensores que recogen datos sobre temperaturas, horas de funcionamiento, velocidades, distancias, nivel de ruido, etc.

Se generan cantidad de información que hay que preparar, filtrar, limpiar e introducir en los modelos de Machine Learning o Deep Learning para predecir fallos con antelación. Como consecuencia, se consiguen sustanciosos ahorros en revisiones periódicas o en compra de piezas de repuesto. Por no hablar de evitar que una planta de producción se pare por sorpresa.

6. Marketing: clasificación de los clientes y las audiencias

Actualmente, la Ciencia de Datos es capaz de usar como fuentes a las redes sociales en tiempo real. De esta manera, se puede desde predecir la demanda de un producto hasta crearla a partir de ofertas segmentadas por clase social, preferencias culturales, nivel adquisitivo, género, aficiones...

En los departamentos de marketing, estos datos ayudan a confeccionar informes previos a campañas, lanzamientos o promociones. Y la visualización de datos, por supuesto, es parte también de la oferta formativa en Ciencia de Datos de IMMUNE.

7. Buscadores: reconocimiento de imágenes

Valga Google Fotos como ejemplo. En esta plataforma, las fotos que subimos se analizan y clasifican automáticamente a partir de aquellos elementos que la IA de Google es capaz de identificar, ya sean coches, aviones, personas, flores, comida, animales, paisajes o lugares singulares, entre otros.

La Ciencia de Datos interviene en la elección de los mismos (imágenes) para entrenar a los modelos de Deep Learning. Para darnos cuenta de su importancia, recordemos que, cuando se pedía a Google que buscara gorilas, devolvía como resultado fotos de personas de color. Google lo resolvió inicialmente eliminando “gorila” de la búsqueda.

8. Automatización: coches que conducen solos y artistas digitales

Es uno de los territorios más ambiciosos de la Ciencia de Datos. No es lo mismo automatizar el aparcamiento de un coche que automatizar la conducción completa, por lo que aún queda un largo recorrido en esta vía.

9. Energía: asegurando el suministro

En el sector de la energía, la Ciencia de Datos se aplica a diferentes áreas, como la del mantenimiento predictivo de sus instalaciones e infraestructuras y redes de distribución, o la previsión de consumo, para programar las tareas de generación energética.

También se emplea para detectar el uso fraudulento del grid ─como pueden ser enganches ilegales─, prevenir caídas de suministro o tarificar en tiempo real.

El científico de datos: un perfil demandado y valorado

Después de todo lo que hemos visto, podemos entender que los científicos de datos son, ahora más que nunca, perfiles muy buscados y valorados. En un momento en el que las técnicas de IA se usan de forma masiva a través de las apps de los smartphones, los expertos en el tratamiento de datos para crear modelos predictivos en todo tipo de áreas de negocio cobran una relevancia notable.

Formarse como científico de datos es una tarea que hay que planificar con cuidado. Generalmente, el candidato será un profesional que venga de otras áreas y que desee especializar y extender su repertorio de conocimientos y habilidades para acceder a posiciones que demanden este tipo de perfil.

En lo que respecta a ese contacto con la realidad de mercado, el Master de Ciencia de Datos de IMMUNE ofrece un horario compatible con el trabajo y cuenta con profesores provenientes de diferentes ámbitos, desde grandes corporaciones, como Cepsa, IBM, Vodafone o Indra, al mundo académico, pasando por start ups dedicadas al universo de los datos. Todos ellos con perfiles multidisciplinares, con el objetivo de facilitar la transmisión de conocimiento a alumnos de todas las procedencias.

No olvidemos que la filosofía de este máster es la de "Learning by doing", una formación práctica para adquirir experiencia real en proyectos reales junto a unos conocimientos multidisciplinares. Se trata de prepararse para un futuro que el presente anuncia con claridad.

Imágenes | iStock/NicoElNino, Medium, Wikipedia, Codecentric, iStock/Zapp2Photo, Synopsys