Los mejores productos al mejor precio

BIG DATA ¿QUE ES Y COMO FUNCIONA?

Buenas lectores, en este post le hablaremos del big data es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho»

Definicion

 Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés  macrodatos, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.

El uso moderno del término “big data” tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados.

 La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos.

 Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos,​ en las búsquedas, las comparticiones, y los análisis,​ y en las visualizaciones y representaciones.

 La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.​

El límite superior de procesamiento ha ido creciendo a lo largo de los años. Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.​

Comunicacion con los cientificos

 Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómicala conectómica (una aproximación al estudio del cerebro; en inglés:Connectomics; en francés: Conectoquel), las complejas simulaciones de procesos físicos y las investigaciones relacionadas con los procesos biológicos y ambientales.Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas de finanzas y a la informática de negocios.

 Los datasets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), las cámaras (sistemas de teledetección), los micrófonos, los lectores de identificación por radiofrecuencia.

La capacidad tecnologica

​ La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980.​ Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.

Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, a menudo tienen dificultades para manejar big data. Este trabajo puede requerir “un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores“.​ Lo que califica como “big data” varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen que big data sea un objetivo en movimiento.

 “Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante”.

Los repositorios de big data han existido en muchas formas, a menudo creadas por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecían sistemas de administración de bases de datos paralelos para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó un informe de base de datos más grande.

Comercializacion

Teradata Corporation en 1984, comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente según la Ley de Kryder. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017, hay unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte instaladas, la mayor de las cuales excede de 50 PB. 

Los sistemas hasta 2008 eran datos relacionales estructurados al 100 %. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML, JSON y Avro.

En 2000, Seisint Inc. (ahora LexisNexis Group) desarrolló un marco de intercambio de archivos distribuido basado en C++ para el almacenamiento y consultas de datos. El sistema almacena y distribuye datos estructurados, semiestructurados y no estructurados en varios servidores. Los usuarios pueden crear consultas en un dialecto de C++ llamado ECL. ECL utiliza un método de “aplicar esquema en lectura” para inferir la estructura de los datos almacenados cuando se consulta, en lugar de cuando se almacena.

 En 2004, LexisNexis adquirió Seisint Inc. y en 2008 adquirió ChoicePoint, Inc.y su plataforma de procesamiento paralelo de alta velocidad. Las dos plataformas se fusionaron en sistemas HPCC (o cluster de computación de alto rendimiento) y en 2011, HPCC fue de código abierto bajo la licencia Apache v2.0. Quantcast File System estuvo disponible aproximadamente al mismo tiempo.

El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados a través de computadoras de alto rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos de productos, que generalmente se refieren al movimiento actual de “big data”.

Map reduce

En 2004, Google publicó un documento sobre un proceso llamado MapReduce que utiliza una arquitectura similar.

 El concepto MapReduce proporciona un modelo de procesamiento en paralelo, y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso, por lo que otros quisieron replicar el algoritmo.

 Por lo tanto, una implementación del marco MapReduce fue adoptada por un proyecto de código abierto Apache llamado Hadoop.​Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones (no solo el mapa seguido de la reducción).

Mike2.0

MIKE2.0 es un enfoque abierto para la administración de la información que reconoce la necesidad de revisiones debido a las implicaciones de big data identificadas en un artículo titulado “Oferta de soluciones de Big Data”.​La metodología aborda el manejo de big data en términos de permutaciones útiles de fuentes de datos, complejidad en interrelaciones y dificultad para eliminar (o modificar) registros individuales.

Estudios de 2012

Los estudios de 2012 mostraron que una arquitectura de capas múltiples es una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el poder de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario.

Analisis de big data

El análisis de big data para aplicaciones de fabricación se comercializa como una arquitectura 5C (conexión, conversión, cibernética, cognición y configuración).

El lago de datos permite que una organización cambie su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la administración de la información. Esto permite una segregación rápida de datos en el lago de datos, lo que reduce el tiempo de sobrecarga

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *