Colección
La recopilación de big data se refiere al uso de múltiples bases de datos para recibir datos de los clientes (Web, aplicación o formulario de sensor, etc.), y los usuarios pueden usar estas bases de datos para realizar Trabajo sencillo de consulta y procesamiento. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar los datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan comúnmente para la recopilación de datos.
Importación/preprocesamiento
Aunque el final de la colección en sí tendrá muchas bases de datos, si desea analizar de manera efectiva estos datos masivos, aún debe importar los datos desde el front-end a un archivo A. Base de datos distribuida centralizada a gran escala, o un clúster de almacenamiento distribuido, y puede realizar algunos trabajos simples de limpieza y preprocesamiento basados en la importación. Algunos usuarios también utilizarán Storm de Twitter para realizar cálculos de transmisión de datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas.
Estadística/Análisis
Las estadísticas y el análisis utilizan principalmente bases de datos distribuidas o grupos informáticos distribuidos para realizar análisis, clasificación y resumen ordinarios de los datos masivos almacenados en ellas, con el fin de satisfacer las necesidades más comunes. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle y Infobright de almacenamiento de columnas basado en MySQL, mientras que algunos requisitos de procesamiento por lotes o basados en datos semiestructurados se pueden utilizar. usado.
Minería
A diferencia de los procesos estadísticos y de análisis anteriores, la minería de datos generalmente no tiene temas preestablecidos y se basa principalmente en varios algoritmos de cálculo sobre los datos existentes, logrando así el efecto. de predicción, logrando así algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen K-Means para agrupación, SVM para aprendizaje estadístico y Naive Bayes para clasificación. Las principales herramientas utilizadas incluyen Hadoop's Mahout, etc.