Los usuarios del análisis de big data incluyen expertos en análisis de big data y usuarios comunes, pero su requisito más básico para el análisis de big data es el análisis visual, porque el análisis visual puede presentar intuitivamente las características de big data. Y al mismo tiempo, es fácil de ser aceptado por los lectores, como mirar imágenes para hablar.
2. Algoritmo de minería de datos
El núcleo teórico del análisis de big data es el algoritmo de minería de datos. Varios algoritmos de minería de datos pueden presentar las características de los datos de manera más científica basándose en diferentes tipos y formatos de datos. Es precisamente gracias a estos diversos métodos estadísticos (que pueden llamarse verdad) que los estadísticos de todo el mundo reconocen. ¿Podemos profundizar en los datos y descubrir el valor reconocido? Por otro lado, también se debe a que estos algoritmos de minería de datos pueden procesar big data más rápido. Si un algoritmo tarda años en llegar a una conclusión, se pierde el valor del big data.
3. Análisis predictivo
Una de las áreas de aplicación finales del análisis de big data es el análisis predictivo, que extrae características de big data. A través del modelado científico, se pueden incorporar nuevos datos a través del modelo para predecir datos futuros.
4. Motor semántico
La diversificación de los datos no estructurados trae nuevos desafíos al análisis de datos. Necesitamos un conjunto de herramientas para analizar y refinar sistemáticamente los datos. El motor semántico debe diseñarse con suficiente inteligencia artificial para extraer activamente información de los datos.
5. Calidad y gestión de datos. El análisis de big data es inseparable de la calidad y la gestión de los datos. Ya sea que se trate de investigación académica o aplicaciones comerciales, los datos de alta calidad y la gestión eficaz de los datos pueden garantizar la autenticidad y el valor de los resultados del análisis.
La base del análisis de big data son los cinco aspectos anteriores. Por supuesto, si profundiza en el análisis de big data, existen muchos métodos de análisis de big data más distintivos, más profundos y más profesionales.
Tecnología big data
Recopilación de datos: las herramientas ETL se encargan de extraer datos de fuentes de datos distribuidas y heterogéneas, como datos relacionales, archivos de datos planos, etc., al medio temporal. capa para el procesamiento La limpieza, la transformación y la integración, y finalmente la carga en un almacén de datos o mercado de datos, se convierten en la base para el procesamiento analítico en línea y la extracción de datos.
Acceso a datos: base de datos relacional, NOSQL, SQL, etc.
Infraestructura: almacenamiento en la nube, almacenamiento distribuido de archivos, etc.
Procesamiento de datos: PNL (procesamiento del lenguaje natural) es una disciplina que estudia cuestiones del lenguaje en la interacción persona-computadora. La clave para el procesamiento del lenguaje natural es permitir que la computadora "entienda" el lenguaje natural, por lo que el procesamiento del lenguaje natural también se denomina comprensión del lenguaje natural y lingüística computacional. Por un lado, es una rama del procesamiento de información del lenguaje y, por otro, es uno de los temas centrales de la inteligencia artificial.
Análisis estadístico: prueba de hipótesis, prueba de significancia, análisis de diferencias, análisis de correlación, prueba t, análisis de varianza, análisis chi-cuadrado, análisis de correlación parcial, análisis de distancia, análisis de regresión, análisis de regresión simple, análisis de regresión múltiple , regresión por pasos, predicción de regresión y análisis residual, regresión de crestas, análisis de regresión logística, estimación de curvas, análisis factorial, análisis de conglomerados, análisis de componentes principales, análisis factorial, método de agrupamiento rápido y método de agrupamiento.
Minería de datos: clasificación, estimación, predicción, agrupación por afinidad o reglas de asociación, clustering, descripción y visualización, descripción y visualización, minería de tipos de datos complejos (texto, Web, imágenes gráficas, vídeo, audio, etc. ).
Predicción de modelos: modelos predictivos, aprendizaje automático, modelado y simulación.
Resultados presentados: computación en la nube, nube de etiquetas, diagrama de relaciones, etc.
Procesamiento de big data
1. Uno de los procesamientos de big data: recopilación
La recopilación de big data se refiere al uso de múltiples bases de datos del cliente ( Web, App o sensor, etc.) recibe datos. ), los usuarios pueden realizar consultas y procesamientos simples a través de estas bases de datos. Por ejemplo, las empresas de comercio electrónico utilizan bases de datos relacionales tradicionales como MySQL y Oracle para almacenar datos de cada transacción. Además, las bases de datos NoSQL como Redis y MongoDB también se utilizan habitualmente para la recopilación de datos.
En el proceso de recopilación de big data, su principal característica y desafío es la alta concurrencia, porque miles de usuarios pueden acceder y operar al mismo tiempo, como los sitios web de venta de boletos de tren y Taobao, sus visitas simultáneas. llega a millones en las horas pico, por lo que es necesario implementar una gran cantidad de bases de datos en el extremo de la recopilación para respaldarlo. Cómo realizar el equilibrio de carga y la fragmentación entre estas bases de datos requiere un pensamiento y un diseño profundos.
2. Procesamiento de Big Data II: Importación/Preprocesamiento
Aunque el terminal de recolección en sí tiene muchas bases de datos, para poder analizar efectivamente estos datos masivos, es necesario transferirlos desde el front-end Importe a una base de datos distribuida centralizada a gran escala o a un clúster de almacenamiento distribuido, y se puede realizar una limpieza y preprocesamiento simples en función de la importación. Algunos usuarios también utilizan Storm de Twitter para transmitir datos al importarlos para satisfacer las necesidades informáticas en tiempo real de algunas empresas.
Las características y desafíos del proceso de importación y preprocesamiento son principalmente la gran cantidad de datos importados, que a menudo alcanza el nivel de cientos de megabytes o incluso gigabytes por segundo.
3. Procesamiento de Big Data III: Estadísticas/Análisis
El análisis estadístico utiliza principalmente bases de datos distribuidas o clústeres informáticos distribuidos para analizar y clasificar los datos masivos almacenados en ellas para cumplir con los análisis más comunes. necesidades. En este sentido, algunos requisitos en tiempo real utilizarán GreenPlum de EMC, Exadata de Oracle e Infobright basado en MySQL. Algunos requisitos de procesamiento por lotes o datos semiestructurados pueden utilizar Hadoop.
La principal característica y desafío de las estadísticas y el análisis es que el análisis involucra una gran cantidad de datos y ocupará una gran cantidad de recursos del sistema, especialmente E/S.
4. Procesamiento de Big Data IV: Minería
A diferencia de los procesos de análisis y estadísticas anteriores, la minería de datos generalmente no tiene un tema preestablecido y se basa principalmente en varios algoritmos para los datos existentes. Cálculo para lograr efectos de predicción y lograr algunos requisitos de análisis de datos de alto nivel. Los algoritmos típicos incluyen Kmeans para agrupación, SVM para aprendizaje estadístico y NaiveBayes para clasificación. La principal herramienta utilizada es Mahout de Hadoop. Las características y desafíos de este proceso son que los algoritmos utilizados para la minería son muy complejos y la cantidad de datos y cálculos involucrados es muy grande. Los algoritmos de minería de datos más utilizados son principalmente de un solo subproceso.
Todo el proceso general de procesamiento de big data debe cumplir al menos estos cuatro pasos para ser considerado un procesamiento de big data relativamente completo.