¿Cuáles son los métodos comúnmente utilizados de minería de datos?

1. Clasificación

La clasificación consiste en descubrir las características comunes de un grupo de objetos de datos en la base de datos y dividirlos en diferentes categorías según el modo de clasificación. Los modelos de clasificación asignan elementos de datos de la base de datos a categorías determinadas. Se puede aplicar a la clasificación de aplicaciones y la predicción de tendencias. Por ejemplo, una tienda Taobao divide las compras de los usuarios durante un período de tiempo en diferentes categorías y recomienda productos relacionados a los usuarios según la situación, aumentando así las ventas de la tienda.

Principales métodos de clasificación: árbol de decisión, método KNN (K-Nearest Neighbor), método SVM, método VSM, método Bayes, red neuronal, etc.

2. Agrupación

La agrupación se refiere a dividir un grupo de objetos en varias categorías de acuerdo con la similitud y diferencia de los objetos sin conocer las etiquetas de categoría de ninguna muestra de antemano, y la similitud entre objetos de cada clase es alta y la similitud entre objetos de diferentes clases es baja o las diferencias son obvias. No nos importa cuál sea una determinada categoría. El objetivo que debemos lograr es agrupar cosas similares. La agrupación es una especie de aprendizaje no supervisado.

Métodos de agrupamiento (algoritmos): Los principales algoritmos de agrupamiento se pueden dividir en las siguientes categorías: métodos de partición, métodos jerárquicos, métodos basados ​​en densidad, métodos basados ​​en cuadrículas y métodos basados ​​en modelos. Existen algoritmos ampliamente utilizados en cada categoría, incluido el algoritmo de agrupamiento de k-medias entre los métodos de partición, el algoritmo de agrupamiento jerárquico aglomerativo entre los métodos jerárquicos y el algoritmo de agrupamiento de redes neuronales entre los métodos basados ​​en modelos.

3. Análisis de regresión

El análisis de regresión es un modelo de predicción estadística que se utiliza para describir y evaluar la relación entre una variable dependiente y una o más variables independientes que refleja un atributo de transacción de la base de datos; valores a lo largo del tiempo, produce una función que asigna elementos de datos a una variable predictiva de valor real y descubre dependencias entre variables o atributos.

Aplicación del análisis de regresión: el método de análisis de regresión se utiliza ampliamente para explicar la participación de mercado, las ventas, la preferencia de marca y el efecto de marketing. Se puede aplicar a todos los aspectos del marketing, como la búsqueda de clientes, la retención y la prevención de actividades de abandono de clientes, el análisis del ciclo de vida del producto, la previsión de tendencias de ventas y las actividades promocionales específicas.

Los principales temas de investigación del análisis de regresión: características de tendencia de series de datos, predicción de series de datos, correlación entre datos, etc.

4. Reglas de asociación

Las reglas de asociación son asociaciones o relaciones ocultas entre elementos de datos, es decir, la aparición de otros elementos de datos se puede deducir en función de la aparición de un elemento de datos. Las reglas de asociación son reglas que describen las relaciones entre elementos de datos en la base de datos.

5. Método de red neuronal

Como tecnología avanzada de inteligencia artificial, la red neuronal es muy adecuada para abordar problemas no lineales debido a su autoprocesamiento, almacenamiento distribuido y alta falla. tolerancia y aquellos problemas caracterizados por conocimientos o datos confusos, incompletos e imprecisos. Esta característica es muy adecuada para resolver problemas de minería de datos.

6. Minería de datos web

La minería de datos web es una tecnología integral que se refiere a que la Web descubre patrones implícitos P a partir de la estructura del documento y el conjunto de uso C. Si C es Si P es considerado como entrada y P como salida, entonces el proceso de minería web puede considerarse como un proceso de mapeo de entrada a salida.

7. Análisis de características

El análisis de características consiste en extraer expresiones características sobre los datos de un conjunto de datos en la base de datos. Estas expresiones características expresan las características generales del conjunto de datos.

8. Análisis de desviación

La desviación es una pequeña proporción de objetos en el conjunto de datos. Normalmente, los objetos de desviación se denominan valores atípicos, excepciones, puntos salvajes, etc. El análisis de desviación consiste en encontrar objetos que sean diferentes de la mayoría de los demás objetos.

w.chinaidiom.com">Red idiomática china All rights reserved