Revelando el secreto del lago de datos: la explicación detallada de Hu Di desde el núcleo hasta el combate real (1)

La introducción y construcción de Hu Di

Introducción a Hu Di

Hu Di traerá la transmisión de big data, proporcionará nuevos conjuntos de datos y será un dato más eficiente que el orden de procesamiento por lotes tradicional de magnitud.

Construcción rápida de Hu Di

Sube Apache-maven-3 6 .tar gz al directorio /opt/software.

Extraiga Apache-maven-3 .6 .1-bin tar .

Cambie el nombre de apache-maven-3.6.1 a maven.

Agregar variables de entorno a /etc/profile.

Prueba los resultados de la instalación.

Modifique settings.xml para especificar Alibaba Cloud.

Empiece a utilizar Spark-shell rápidamente.

El inicio de Spark-shell requiere especificar el módulo spark-avro porque no está disponible en el entorno predeterminado. La versión del módulo spark-avro debe corresponder a la versión de spark, aquí es 2.4.5.

Establece el nombre de la tabla, la ruta base y el generador de datos.

Agregue datos, genere algunos datos, cárguelos en un marco de datos y luego escriba el marco de datos en la tabla Woody.

El modo (sobrescribir) sobrescribirá la tabla recreada si ya existe. Puede comprobar si hay datos generados en la ruta /tmp/Hudi_trps_cow.

Debido a que la partición de datos de prueba es región/país/ciudad, cargue (ruta base "/*/*/*/*").

De manera similar a insertar nuevos datos, los generadores de datos se utilizan para generar nuevos datos para actualizar los datos históricos. Cargue los datos en un marco de datos y escriba el marco de datos en una tabla Woody.

Woody también ofrece la posibilidad de obtener marcas de tiempo de confirmación personalizadas para alterar el flujo de registros. Esto se puede lograr utilizando la consulta incremental de Woody y proporcionando una hora de inicio para iniciar el proceso para realizar el cambio.

Esto proporcionará los datos después de enviar startTime y Fare >:data20.

De acuerdo con la consulta de hora específica, puede señalar endTime a la hora específica y startTime a 000 (que indica la hora de envío más temprana).

La función de eliminación solo se admite en el modo de agregar.

Ecosistema tecnológico de big data

¿Cuáles son los mecanismos de corte del big data?

Implementación del clúster de Big Data de Kafka

Preguntas de la entrevista JUC sobre Big Data

Implementación de Hadoop para el aprendizaje de Big Data

ipt>