La federación HDFS puede resolver el acceso por streaming a los datos del sistema de archivos. HDFS proporciona permisos de archivos y autenticación.
Introducción a HDFS:
HDFS (Hadoop Distributed File System) es el subproyecto central del proyecto hadoop y la base para la gestión del almacenamiento de datos en la informática distribuida. Se desarrolla basándose en la necesidad de acceder y procesar archivos muy grandes en modo de transmisión de datos y puede ejecutarse en servidores comerciales económicos.
Sus características como alta tolerancia a fallas, alta confiabilidad, alta escalabilidad, alta disponibilidad y alto rendimiento brindan almacenamiento sin fallas para datos masivos y brindan soluciones para grandes conjuntos de datos (Large Data Set). El procesamiento de solicitudes brinda mucha comodidad.
HDFS es de código abierto y almacena los datos que serán procesados por las aplicaciones Hadoop. Es similar a los sistemas de archivos ordinarios de Unix y Linux. La diferencia es que implementa la idea del sistema de archivos GFS de Google. y es adecuado para aplicaciones a gran escala. Un sistema de archivos distribuido escalable para aplicaciones relacionadas con el procesamiento de datos distribuidos a gran escala.
Funciones de HDFS:
1) Almacenamiento y procesamiento distribuido de datos.
2) Hadoop proporciona una interfaz de comando para interactuar con HDFS.
3) Los servidores integrados para namenode y datanode ayudan a los usuarios a comprobar fácilmente el estado del clúster.
4) Acceso en streaming a los datos del sistema de archivos.
5) HDFS proporciona permisos de archivos y autenticación.