Colmena de almacén de datos

Diferentes proyectos de una empresa pueden utilizar diferentes fuentes de datos, algunos en MySQL, otros en MongoDB y algunos incluso requieren datos de terceros.

Pero ahora quiero integrar los datos y analizarlos. En este momento, el almacén de datos (DW) resulta útil. Puede filtrar e integrar diversos datos comerciales y puede usarse para análisis de datos, extracción de datos e informes de datos.

En términos generales, un almacén de datos integra datos de múltiples fuentes de datos según ciertos temas. Debido a que los datos anteriores son diferentes, es necesario extraerlos, limpiarlos y convertirlos.

Los datos integrados no se pueden modificar a voluntad, solo se pueden analizar y deben actualizarse periódicamente.

Como dijimos anteriormente, las fuentes de datos que recibe el data warehouse son diferentes. Si se desea integrar se requieren tres pasos: extracción, limpieza y transformación, que es ETL (extracción-transformación-carga).

El almacén de datos más utilizado en China es un almacén de datos de código abierto basado en Hadoop, llamado Hive, que puede consultar y analizar datos de archivos almacenados en HDFS.

Hive puede proporcionar HiveQL al mundo exterior, que es un lenguaje de consulta similar al lenguaje SQL. Las declaraciones de HiveQL se pueden convertir en tareas de MapReduce al realizar consultas y se pueden ejecutar en la capa de Hadoop.

La mayor ventaja de Hive es que es gratuito. ¿Qué pasa con otros almacenes de datos comerciales conocidos? Por ejemplo, Oracle y DB2, entre los cuales Teradata es el líder de la industria.

El almacén de datos de Teradata admite una plataforma de procesamiento paralelo masivo (MPP), que puede procesar datos masivos a alta velocidad. De hecho, su rendimiento es mucho mayor que el de Hive. Las empresas solo necesitan centrarse en los negocios, ahorrar energía en tecnología de gestión y maximizar el retorno de la inversión.

Como se mencionó anteriormente, Hive es el almacén de datos de código abierto más famoso y es una parte importante del ecosistema Hadoop.

En el ecosistema Hadoop, HDFS resuelve el problema del almacenamiento distribuido, MapReduce resuelve el problema de la informática distribuida y HBASE proporciona un método de almacenamiento NoSQL.

Sin embargo, si necesita consultar archivos HDFS o tablas HBASE, debe personalizar el método MapReduce. Por lo tanto, Hive es en realidad una capa intermedia sobre HDFS, que permite al personal empresarial realizar consultas directamente con SQL.

Entonces, Hive se carga mediante transformación de extracción de datos, que puede convertir SQL en tareas de MapReduce, que son directorios o archivos HDFS.

La imagen de arriba es la arquitectura de Hive.

Hive incluye principalmente los siguientes modelos de datos:

¿Por qué este artículo es un almacén de datos? Comentar