Siempre hemos oído hablar de términos profesionales como minería de datos, OLAP, estadísticas de datos, etc. en el campo del big data. Sin embargo, muchas personas no comprenden muy bien estos términos. En este artículo, le presentaremos los conocimientos relacionados con la minería de datos, big data, OLAP y estadísticas de datos, con el objetivo de ayudarlo a comprender inicialmente estas tecnologías.
1. El nivel de análisis de datos
El análisis de datos es un concepto amplio. En teoría, cualquier proceso de cálculo y procesamiento de datos para sacar conclusiones significativas se denomina análisis de datos. Desde la perspectiva de la complejidad de los datos en sí, así como la complejidad y profundidad del procesamiento de datos, el análisis de datos se puede dividir en cuatro niveles, a saber, estadísticas de datos, OLAP, minería de datos y big data.
2. Estadísticas de datos
La estadística de datos es el análisis de datos más básico y tradicional y existe desde la antigüedad. Se refiere a clasificar, filtrar, calcular, hacer estadísticas y otros procesamientos de datos mediante métodos estadísticos para sacar algunas conclusiones significativas.
3.OLAP
OLAP es procesamiento analítico en línea (OLAP), que se refiere al análisis estadístico multidimensional en línea basado en un almacén de datos. Permite a los usuarios observar un determinado valor métrico en línea desde múltiples dimensiones para brindar apoyo en la toma de decisiones. OLAP va un paso más allá y les dice qué pasará a continuación, qué pasará si tomo tales medidas.
4. Minería de datos
La minería de datos se refiere a encontrar reglas desconocidas, potencialmente útiles y ocultas a partir de datos masivos. Se puede realizar mediante análisis de correlación, análisis de conglomerados y análisis de series de tiempo. Espere a que varios algoritmos descubran algunas razones profundas que no se pueden determinar mirando el gráfico. Se pueden tomar medidas de gestión específicas para abordar esto.
5. Big data
Big data se refiere a conjuntos de datos ultragrandes que son difíciles de recopilar, almacenar, gestionar, analizar y utilizar con las instalaciones de software y hardware existentes. Big data tiene las características de gran escala, diversos tipos, rapidez y baja densidad de valor. "Grande" en big data es un concepto relativo y no existe un estándar específico. Si se debe dar un estándar, entonces 10-100 TB generalmente se denomina umbral de big data.
Se puede ver que desde la perspectiva del análisis de datos, los productos de aplicación de datos de la mayoría de las escuelas aún se encuentran en la etapa de estadísticas de datos y análisis de informes, y pueden lograr análisis OLAP y minería de datos efectivos. todavía son muy pocos, y muy pocos pueden llegar a la etapa de aplicación de big data, al menos no han utilizado conjuntos de big data efectivos.
Aquí le daremos una breve introducción al conocimiento relacionado con la minería de datos, big data, OLAP y estadísticas de datos. De hecho, este conocimiento no es tan simple como decimos. Ser capaz de comprender y dominar mejor el análisis de datos.