Por qué fue necesario crear la Ciencia de Datos

Consejo Consultivo de Ciencias

22/05/2019 05:36

Dr. Adolfo Guzmán Arenas

El dinamismo actual de las empresas, el comercio, la industria, los sectores del gobierno, más la globalización de los fenómenos económicos, obligan a contar con mucha información actualizada, veraz, para la toma de decisiones acertadas. Incluso, a estos entes les encantaría “ver el futuro” para actuar decisivamente según sus intereses.

Por otra parte, cada vez hay más datos y documentos, con acceso y almacenamiento relativamente barato.

Todo lo cual apunta al análisis profundo y periódico de un gran volumen de datos históricos y recientes que digan “qué está pasando” y “qué es probable que ocurra pronto” en las labores sustantivas de nuestra organización.

Ante esta presión del mundo moderno y la disponibilidad de información relevante, surge la Ciencia de Datos, una disciplina de la Computación que cada vez cobra mayor fuerza. Analiza grandes conjuntos de datos para extraer conclusiones útiles, hallar tendencias, desviaciones, anomalías, situaciones interesantes, comportamientos típicosen un mar de datos, documentos, correos electrónicos y otros mensajes. ¿Qué nos dicen los datos? ¿Qué es probable que ocurra, qué se puede predecir con cierta confianza? Obtener de ellos información relevante, útil para tomar decisiones. Hacer análisis de opiniones, sentimientos, encuestas.

Ejemplos: análisis de noticias en la prensa; resultados de exámenes de conocimientos versus condición socioeconómica, familiar y escolar del estudiante; delitos cometidos en una zona durante varios años; compras en establecimientos comerciales; epidemias, con sus muertos, enfermos, vacunados y restablecidos; comportamiento de los asegurados con seguros de vida; mensajes de twitter; preferencias de películas, de bebidas, de comida chatarra; anuncios en canales de TV e internet versus compras por los televidentes.

Ejemplos concretos: patrones de viaje en bicicletas del sistema EcoBici de la Ciudad de México (Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN)); resultados del examen de Matemáticas a alumnos de tercer año de Secundaria con las pruebas PISA y EXCALE (CIC-IPN), Patrones del clima de divisiones políticas de México obtenidas usando árboles de clasificación (Centro de Ciencias de la Atmósfera, UNAM), Cómo reducir el espacio de búsqueda cuando se usa minería de datos en grandes bases (Instituto Tecnológico Autónomo de México, ITAM).

La Ciencia de Datos (llamada Minería de Datos cuando éstos se procesan en una sola máquina) descansa en tres pilares: las bases de datos (que nos permite manejar grandes volúmenes evitando redundancia), la Probabilidad y Estadística (que nos dice qué tan factible es que un hallazgo sea coincidencia o significativo) y la Inteligencia Artificial (que permite aplicar los métodos descubiertos ya, de clasificación, agrupamiento, asociación, aprendizaje, generalización, y otros). Usa la visualización (graficación, despliegue de gráficas) para mostrar en forma entendible los hallazgos.

A diferencia de una simple búsqueda en una base de datos (un comando en el lenguaje SQL), la minería organiza primero la información en concentrados útiles, llamados cuboides, cuyo conjunto forma una estructura conocida como cubo de datos.

A diferencia de la Estadística, que estudia las propiedades de una muestra, para de ella inferir las propiedades del todo, la Minería de Datos o Ciencia de Datos analiza todos los datos disponibles para ver mejor, para extraer patrones (regularidades discernibles). A diferencia de la Inteligencia Artificial, que normalmente maneja datos residentes en la memoria principal de una máquina, la Ciencia de Datos por lo regular procesa volúmenes que yacen en el disco porque no caben en memoria principal, por lo que trata de evitar trasiegos innecesarios de datos.

Otros nombres de la Ciencia de Datos: Minería de datos, Descubrimiento del conocimiento en bases de datos, minado del conocimiento, análisis de datos y hallazgo de patrones, filtrado selectivo de datos, analítica predictiva, inteligencia de negocios. En inglés se le conoce como Data Science e informalmente, como Big Data.

En México hay ya maestrías y doctorados en esta especialidad, como en el ITAM y en el Laboratorio de Ciencia de Datos y Tecnología de Software del CIC. En estos lugares existen grupos que hacen investigación y aplicaciones útiles, además de su labor de enseñanza en posgrado.

El Instituto Mexicano del Petróleo (IMP) pronto abrirá (con patrocinio de Conacyt y apoyo del CIC) el Diplomado A: Big Data e Internet de las cosas con procesamiento por medio de Supercómputo aplicado a la Exploración y Producción de Hidrocarburos. También hay licenciaturas en Ciencia de Datos, creadas hace poco, como en UNAM e ITAM. Recientemente, algunas empresas y consultores brindan servicios de limpieza, generalización y minería de datos.

Además de las herramientas comerciales para minería de datos, también las hay de uso libre. Populares: Weka (Preprocesamiento y minería de datos), Knime (Preprocesamiento y minería de datos), Keel (Preprocesamiento y minería de datos), Rapidminer (Preprocesamiento, minería de datos y visualización), Orange (Preprocesamiento, minería de datos y visualización), Pentaho (Cubos de datos y visualización), Tableau (Visualización). Hadoop con MapReduce analiza datos en varias computadoras.

Situaciones donde la Ciencia de Datos generalmente se aplica:

Datos con gran número de dimensiones (atributos). Enfermedades, hospitalizaciones, encuestas, ventas, reclamaciones, inmigrantes, turistas, …

Datos provenientes de torrentes de datos (los clics en una página web, llamadas telefónicas, solicitud de acceso a ciertas direcciones IP) y de sensores (cámaras, micrófonos…). Los datos se procesan conforme llegan, en vez de almacenarlos y procesar después.

Series de tiempo (señales), datos temporales, datos secuenciales.

Datos estructurados, gráficas, redes sociales (opiniones sobre personas, productos, películas…), o con muchas ligas entre sí (páginas web).

Bases de datos heterogéneas; bases de datos históricas o heredadas.

Datos espaciales, espaciotemporales, multimedia; textos; datos obtenidos de la Web.

Bitácoras del sistema operativo; simulaciones científicas.

Profesor/investigador, Laboratorio de Ciencia de Datos y Tecnología de Software, Centro de Investigación en Computación (CIC), Instituto Politécnico Nacional.