/Millones, millones y millones de datos

Millones, millones y millones de datos

¿Se puede predecir el futuro? Los científicos que analizan grandes cantidades de datos (Big Data) creen que sí. O al menos saben que se puede analizar el pasado para imaginarlo.
 

Según IBM el 90% de los datos existentes hoy en todo el mundo se crearon en los dos últimos años. Así de explosivo fue el cambio. Todo se registra y se archiva: imágenes de cámaras de seguridad, publicaciones en las redes sociales, transacciones electrónicas y un largo etcétera. Sería totalmente inútil guardar estos 2,5.1018 bytes que se generan cada día si nadie va a analizarlos, aunque también es cierto que ni toda la población del mundo trabajando las 24 horas en esto podría darle sentido a tanta información. Es necesario desarrollar algoritmos que filtren, analicen y den resultados en base a este mar de información en el que corremos el riesgo de naufragar.

Un mar de datos
Un mar de datos

Transformar datos en información útil para tomar decisiones comerciales o predecir un evento futuro es un proceso de varias etapas. Primero debemos identificar el problema a resolver y entender que datos podemos usar para ello. Puede tratarse de algo bien definido y con valores numéricos como predecir el precio de las acciones de una compañía o la temperatura media de agosto en Groenlandia, o algo mucho más complejo como entender por que ciertos clientes se borran de una tienda online. En este último caso podríamos analizar sus historiales de compra y los mensajes de queja que dejaron en la web, lo que se conoce como datos no estructurados (el lenguaje escrito o hablado es el ejemplo más claro). Esta etapa está a cargo de un científico de datos, que utiliza su experiencia en análisis y matemática para decidir que tipo de algoritmo se puede aplicar y cuales son los datos relevantes.

Una vez que está claro el camino a seguir, es necesario escribir el programa para que una computadora pueda analizar los datos. En general esto se deja a cargo de un programador profesional, que deberá seguir las instrucciones del científico. Para facilitar esta comunicación se creó un lenguaje especial llamado PMML, que permite expresar un modelo de análisis de forma estándar y de manera que sea independiente de que tipo de lenguaje de programación se usa o que computadora va a hacer el análisis. Es una especie de puente entre la abstracción del científico y la practicidad del programador.

Está claro que no se puede analizar un terabyte de datos en la PC de nuestras casas…no tenemos ni la capacidad de almacenamiento, ni memoria, ni un procesador tan rápido como para hacerlo en un tiempo razonable. Tal como está de moda hoy en día, el almacenamiento y proceso de datos se hace en la nube. De la misma manera que guardamos fotos en Flickr o Facebook, que subimos archivos varios a Google Drive o Dropbox y podemos tener acceso a ellos desde cualquier parte sin necesidad de llevarlos en nuestra computadora, los grandes datos se almacenan en compañías que venden el espacio en sus discos y el tiempo de sus procesadores para analizarlos.

Existen muchos algoritmos ya programados e incluso softwares comerciales que se pueden utilizar para el análisis de grandes cantidades de datos. Se trata de ver cual es la solución que mejor se adapta a la necesidad (y la economía) de cada uno. Se pueden buscar patrones en los datos, identificar comportamientos, conseguir que una red neuronal aprenda como aislar un conjunto de datos en particular. Hay un número enorme de posibilidades.

La última etapa es la interpretación de los resultados, que vuelve a estar a cargo del científico y que se utilizará para determinar un comportamiento futuro basado en lo que ya sabemos. De esta manera no es solo el programa el que analiza los datos, sino que la experiencia del ser humano detrás del análisis juega también un papel fundamental.

Algunos ejemplos de aplicación del análisis predictivo son:

  • Una compañía de análisis genéticos en California, EE. UU., utilizó más de 100 millones de muestras para descubrir la manera de diagnosticar posibles problemas en las arterias coronarias antes de la aparición de los síntomas.
  • El estudio del Universo visible mediante el análisis de grandes cantidades de datos producidos por los satélites y telescopios permiten un avance y una precisión jamás antes alcanzada por la Astronomía. La búsqueda de planetas extrasolares, el estudio de TODAS las galaxias y estrellas visibles en diferentes longitudes de onda, aparición de supernovas, candidatos a estrellas pulsantes…hay tantas aplicaciones como objetos en el espacio.
  • La evaluación de patrones de consumo energético, junto con las redes inteligentes, permiten optimizar la generación de energía, integrando las diferentes fuentes tradicionales o renovables.
  • Los grandes aceleradores como el LHC producen enormes cantidades de datos que deben estudiarse para encontrar rastros específicos, como los decaimientos del bosón de Higgs y otras partículas interesantes.

La próxima vea que una página web nos muestre un aviso que «casualmente» se corresponde con nuestros gustos, que alguien sepa si se habla mal o bien de un producto en Facebook o Twitter o que nos cuenten que la NSA analiza cada mail y llamada telefónica, sabremos de que están hablando.