lunes, 6 de febrero de 2017

Big Data



El ``Big Data´´ también llamado macrodatos o datos masivos, es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos.
La disciplina dedicada a los datos masivos se enmarca en el sector de las TICS y esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos, la gestión de estas cantidades de datos tiene una dificultad muy habitual y es que se centran en la recolección y el almacenamientos, búsqueda, compartición, análisis y visualización.
Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos. Estas herramientas tratan con algunos de los tres tipos de Big Data:
  • Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo.
  • Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, e-mails o documentos de texto.
  • Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Un ejemplo es el HTML, el XML o el JSON.