Big data, un término de la industria de TI, se refiere a una colección de datos que no pueden ser capturados, administrados y procesados por herramientas de software convencionales dentro de un rango de tiempo determinado. Es un activo de información enorme, diverso y de alto crecimiento que requiere nuevos modelos de procesamiento con mayor poder de toma de decisiones, capacidades de conocimiento y descubrimiento, y capacidades de optimización de procesos.
Los conjuntos de datos a gran escala superan con creces las capacidades de las herramientas de software de bases de datos tradicionales en términos de adquisición, almacenamiento, gestión y análisis. Tienen cuatro características principales: escala de datos masiva, flujo de datos rápido y diversos tipos de datos. y características de baja densidad de valor. [3]
La importancia estratégica de la tecnología de big data no radica en dominar una gran cantidad de información, sino en el procesamiento profesional de estos datos significativos. En otras palabras, si se compara el big data con una industria, entonces la clave para la rentabilidad en esta industria es mejorar las "capacidades de procesamiento" de los datos y lograr el "valor agregado" de los datos a través del "procesamiento". [4]
Técnicamente hablando, la relación entre big data y computación en la nube es tan inseparable como las dos caras de una moneda. Los big data no pueden ser procesados por una sola computadora y deben utilizar una arquitectura distribuida. Su característica es la minería de datos distribuida de datos masivos. Pero debe depender del procesamiento distribuido, las bases de datos distribuidas, el almacenamiento en la nube y las tecnologías de virtualización de la computación en la nube. [1]
Con la llegada de la era de la nube, los big data han recibido cada vez más atención. El equipo de analistas cree que los big data se utilizan a menudo para describir las grandes cantidades de datos no estructurados y semiestructurados creados por una empresa, que, cuando se descargan en una base de datos relacional para su análisis, requieren demasiado tiempo y dinero. El análisis de big data a menudo se asocia con la computación en la nube porque el análisis en tiempo real de grandes conjuntos de datos requiere marcos como MapReduce para distribuir el trabajo a docenas, cientos o incluso miles de computadoras.