Resumen de minería de datos: la diferencia entre minería de datos y aprendizaje automático
La minería de datos a menudo aparece junto con el aprendizaje automático, y los dos a menudo se superponen
① En. En cierto sentido, la minería de datos se preocupa más por obtener nuevos conocimientos a partir de grandes cantidades de datos;
② El aprendizaje automático se centra en realizar tareas conocidas, mientras que la minería de datos se trata de buscar información oculta.
Por ejemplo, el comercio electrónico utiliza el aprendizaje automático para decidir qué productos recomendar a quién, y la minería de datos se utiliza para comprender a qué tipo de personas les gustan qué productos. El aprendizaje automático y la minería de datos no se distinguen estrictamente.
La diferencia y la conexión entre la minería de datos y el aprendizaje automático se ve afectada por muchas áreas temáticas, entre las cuales las bases de datos, el aprendizaje automático y las estadísticas son sin duda las más influyentes. Para la minería de datos, las bases de datos proporcionan tecnología de gestión de datos y el aprendizaje automático y las estadísticas proporcionan tecnología de análisis de datos. Muchas técnicas proporcionadas por la comunidad estadística generalmente necesitan ser estudiadas más a fondo en la comunidad de aprendizaje automático y convertidas en algoritmos efectivos de aprendizaje automático antes de que puedan ingresar al campo de la minería de datos. Las estadísticas afectan principalmente la minería de datos a través del aprendizaje automático, y el aprendizaje automático y las bases de datos son las dos tecnologías de apoyo para la minería de datos. Desde la perspectiva del análisis de datos, la mayoría de las tecnologías de minería de datos provienen del campo del aprendizaje automático, pero la investigación del aprendizaje automático a menudo no toma datos masivos como objeto de procesamiento. Por lo tanto, la minería de datos necesita transformar el algoritmo para mejorar el rendimiento del algoritmo y la ocupación del espacio. . hasta el punto de la practicidad. Al mismo tiempo, la minería de datos también tiene su propio contenido único: el análisis de correlación.
1) Escenarios de aplicación de aprendizaje automático:
Predicción de elecciones; filtrado de spam; transporte inteligente, control automático de semáforos; predicción de delitos; estimación de la tasa de abandono de clientes; publicidad...
Proceso de aprendizaje automático: entrada/adquisición de datos, abstracción, generalización
2), métodos comúnmente utilizados de minería de big data:
Clasificación , análisis de regresión, agrupamiento, reglas de asociación, métodos de redes neuronales, minería de datos web, etc. Estos métodos extraen datos desde diferentes perspectivas.
(1) Clasificación. La clasificación consiste en encontrar las mismas características de un grupo de objetos de datos en la base de datos y dividirlos en diferentes categorías según el modelo de clasificación. El propósito es asignar los elementos de datos de la base de datos a una categoría determinada a través del modelo de clasificación. Puede implicar clasificación de aplicaciones y predicción de tendencias. Por ejemplo, una tienda Taobao divide las compras de los usuarios durante un período de tiempo en diferentes categorías y recomienda productos relacionados a los usuarios según la situación, aumentando así las ventas de la tienda.
(2)Análisis de regresión. El análisis de regresión refleja las características de los valores de los atributos de los datos en la base de datos y utiliza funciones para expresar la relación de mapeo de datos para descubrir la dependencia entre los valores de los atributos. Se puede aplicar a la predicción de secuencias de datos y al estudio de correlaciones. En marketing, el análisis de regresión se puede aplicar a varios aspectos. Por ejemplo, mediante el análisis de regresión de las ventas de este trimestre, podemos predecir la tendencia de las ventas del próximo trimestre y realizar cambios de marketing específicos.
(3) Agrupación. La agrupación es similar a la clasificación, pero su propósito es diferente de la clasificación. Es dividir un conjunto de datos en varias categorías en función de las similitudes y diferencias de los datos. La similitud entre datos que pertenecen a la misma categoría es muy grande, pero la similitud entre datos de diferentes categorías es muy pequeña y la correlación de datos entre categorías es muy baja.
(4) Reglas de asociación. Las reglas de asociación son asociaciones o relaciones mutuas ocultas entre elementos de datos, es decir, la aparición de otros elementos de datos se puede deducir en función de la aparición de un elemento de datos. El proceso de extracción de reglas de asociación incluye principalmente dos etapas: la primera etapa es encontrar todos los grupos de elementos de alta frecuencia a partir de datos brutos masivos y la segunda etapa es generar reglas de asociación a partir de estos grupos de elementos de alta frecuencia; La tecnología de minería de reglas de asociación se ha utilizado ampliamente en empresas de la industria financiera para predecir las necesidades de los clientes. Cada banco mejora su propio marketing agrupando información que puede interesar a los clientes en sus propios cajeros automáticos para que los usuarios comprendan y obtengan la información correspondiente.
(5) Método de redes neuronales.
Como tecnología avanzada de inteligencia artificial, la red neuronal es muy adecuada para procesar problemas de procesamiento no lineales caracterizados por conocimientos o datos borrosos, incompletos e imprecisos debido a su autoprocesamiento, almacenamiento distribuido y alta tolerancia a fallas. Adecuado para resolver problemas de minería de datos. Los modelos típicos de redes neuronales se dividen principalmente en tres categorías: el primer tipo es un modelo de red neuronal de retroalimentación utilizado para la predicción de clasificación y el reconocimiento de patrones, cuyos principales representantes son redes funcionales y perceptrones; el segundo tipo se utiliza para modelos de redes neuronales de retroalimentación de asociación; La memoria y los algoritmos de optimización están representados por el modelo discreto y el modelo continuo de Hopfield. La tercera categoría es el método de mapeo autoorganizado para agrupación, representado por el modelo ART. Aunque las redes neuronales tienen una variedad de modelos y algoritmos, no existen reglas unificadas sobre qué modelos y algoritmos utilizar en la minería de datos en campos específicos, y es difícil para las personas comprender el proceso de aprendizaje y toma de decisiones de la red.
(6)Minería de datos web. La minería de datos web es una tecnología integral que se refiere a que la Web descubre patrones implícitos P a partir de la estructura del documento y el conjunto de uso C. Si C se considera como entrada y P como salida, entonces el proceso de minería web puede considerarse como Es un proceso de mapeo desde la entrada hasta la salida.
Actualmente, cada vez más datos web aparecen en forma de flujos de datos, por lo que la extracción de flujos de datos web es de gran importancia. Los algoritmos de minería de datos web más utilizados actualmente incluyen: algoritmo PageRank, algoritmo HITS y algoritmo LOGSOM.