El Big Data y la salud

Etiquetas

big data, biometric, Cisco, Hadooc, HBase, IBM, IBM Infosphere BigInsights, IBM Infosphere Streams, M2M, Mike 2.0, NASA, petabyte, terabyte

digital-388075_640

La explosión del “Big Data” está modificando los procesos de análisis de datos, para resolver problemas complejos relacionados con la investigación científica y biomédica, educación en la salud, etc.

Las empresas, los usuarios y dispositivos, generan gran cantidad de datos; que han crecido exponencialmente, cuyo análisis ayudará a conseguir ventajas competitivas. Es necesario una tecnología para mover el volumen de datos. También metodologías y procesos para acceder y explotar esta información.

Enviar correos electrónicos por e-mail, mensajes por WhatsApp, publicar un estado en Facebook, twittear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que generan datos y metadatos que pueden ser analizados.

Big Data o Datos masivos son una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. En 2012 se estimaba su tamaño de entre una docena de terabytes hasta varios petabytes en un único conjunto de datos. Suficientemente masivo, como para poner de relieve cuestiones referentes al anonimato.

Gibabyte: 1.000.000.000

Terabyte: 1.000.000.000.000

Petabyte: 1.000.000.000.000.000

Exabyte: 1000.000.000.000.000.000

Tipos principales de datos Big Data:

Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Ej.: Las bases de datos y las hojas de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de formato específicos: Ej.: e-mails, Pdf
Datos semiestructurados: datos que no se limitan a campos determinados, pero que contienen marcadores para separan los diferentes elementos. Poseen los propios metadatos semiestructurados Ej.: HTML, XML y JSON.

Además del gran volumen de información, hay que tener en cuenta en el manejo del Big Data la gran variedad de datos (dispositivos móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc.), y la velocidad de respuesta para obtener la información adecuada en el momento preciso.

Esta información es generada por las personas directa e indirectamente de forma continuada en cada una de las actividades que realizamos varias veces al día con los “smartphones”, transacciones financieras en línea y bases de datos con datos de la población. También en la comunicación entre ordenadores (M2M machine-to-machine).

Tipos de procedencia datos Big Data:

Web and Social Media: procedente de redes sociales como Facebook, Twitter, Linkedin, blogs, etc.
Machine-to-Machine (M2M): procedente de conexiones entre dispositivos, con transmisiones a través de redes alámbricas, inalámbricas o híbridas.
Big Transaction Data: registros de facturación, telecomunicaciones con registro de las llamadas (CDR).
Biometrics: información biométrica como reconocimiento facial, genética, etc.
Human generated: llamadas telefónicas, notas de voz, documentos electrónicos, etc.

Hay bases de datos OLTP (On Line Transaction Processing), dinámicas, donde la información se puede consultar y modificar en tiempo real y bases de datos OLAP (On Line Analytical Processing), estáticas, donde la información en tiempo real no está afectada.

Principales herramientas para trabajar con Big Data:

Son ecosistemas de proyectos que permiten simplificar, administrar, coordinar y analizar grandes volúmenes de información.

Hadoop: es un proyecto de alto nivel Apache, construido y usado por una comunidad global de contribuyentes, mediante programación Java. Un clúster típico Hadoop incluye un nodo maestro y múltiples nodos esclavos.

hadoop_1

El nodo maestro consiste en Jobtracker (rastreador de trabajos), Tasktracker (rastreador de tareas), Namenode (nodo de nombres), Datanode (nodo de datos); un nodo esclavo o compute node (nodo de cómputo) es un Datanode y un Tasktracker .

Hadoop MapReduce: es el núcleo de Hadoop, se refiere al proceso map (toma un conjunto de datos y lo convierte en otro conjunto), una fase intermedia es la denominada shuffle (obtiene las tuplas (pares de llave/valor) del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico.

Hadoop Common: son un conjunto de librerías que soportan varios subproyectos de Hadoop.

Avro: es un proyecto de Apache que provee servicios de serialización.

Cassandra: es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de “clave-valor”, desarrollada en Java.

Chukwa: diseñado para la colección y análisis a gran escala de “logs”.

Flume: su tarea principal es dirigir los datos de una fuente hacia otra localidad, hay tres entidades principales: sources (fuente), decorators (operación dentro del flujo de datos) y sinks( destinos).

HBase: base de datos columnar (column-oriented database) que se ejecuta en HDFS.

Hive: una infraestructura de data warehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados.

Jaql: fue donado por IBM a la comunidad de software libre. Formato JSON( Query Language for Javasript Object Notation) lenguaje funcional y declarativo, diseñado para procesar grandes volúmenes de información .

Lucene: proyecto de Apache para realizar búsquedas sobre textos.

Oozie: proyecto de código abierto que simplifica los flujos de trabajo y la coordinación entre cada uno de los procesos.

Pig: el lenguaje PigLatín diseñado para manejar cualquier tipo de dato y Pig es el ambiente de ejecución.

ZooKeeper: proyecto de código abierto de Apache que provee infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse procesos en los cluster serializados o sincronizados.

En la investigación biomédica, salud, educación hay proyectos donde se emplea análisis Big Data:

En la pandemia de la gripe A, el website Google Flu Trends, gracias a los resultados de las búsquedas de usuarios que contienen “Influenza-Like Illness Symptoms”, agregando ubicación y fecha, se predijo la actividad de la gripe con dos semanas de antelación. Los países con sistemas de predicción poco desarrollados pueden hacer uso, tomando las medidas oportunas.
En la esclerosis múltiple, una enfermedad que afecta a la médula espinal y al cerebro, la Universidad de Nueva York (SUNY), están aplicando análisis con big data.
Monitorización de bebes prematuros, en el instituto de Tecnología de la Universidad de Ontario (UOIT), análisis en tiempo real de IBM (IBM InfoSphere Streams).
Investigaciones relacionadas con el cáncer, por el Lineberger Comprehensive Cancer Center, utilizan Hadoop y HBase en el proyecto The Cancer Genome Atlas (TCGA).
Investigación de secuencias de proteínas, para determinar enlaces evolutivos se usa Hadoop en el PSG College of Technology, India.

Bibliografía: