Algoritmos clásicos para minería de datos

1.C4.5: Es un algoritmo de árbol de decisión de clasificación en algoritmos de aprendizaje automático. El algoritmo central es el algoritmo ID3.

Algoritmo 2.K-means: Es un algoritmo de clustering.

3.SVM: Un método de aprendizaje supervisado ampliamente utilizado en clasificación estadística y análisis de regresión.

4.Apriori: Es el algoritmo más influyente para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas.

5.EM: Método del valor máximo esperado.

6.pagerank: Es una parte importante del algoritmo de Google.

7.Adaboost: Este es un algoritmo iterativo. La idea central es entrenar diferentes clasificadores en el mismo conjunto de entrenamiento y luego ensamblar los clasificadores débiles en un clasificador final más fuerte.

8.KNN: Este es un método teóricamente maduro y uno de los métodos de aprendizaje automático más simples.

9. Naive Bayes: Entre los muchos métodos de clasificación, el modelo de árbol de decisión y Naive Bayes son los más utilizados.

10.Cart: Árbol de regresión de clasificación. Hay dos ideas clave debajo del árbol de clasificación. La primera es la idea de dividir recursivamente el espacio de la variable independiente y la segunda es utilizar la poda de datos de verificación.

Definición de la regla de las reglas de asociación

Antes de describir algunos detalles sobre las reglas de asociación, veamos una historia interesante: la historia de los pañales y la cerveza.

En un supermercado se produce un fenómeno interesante: pañales y cerveza se venden juntos. Pero la extraña medida aumentó las ventas de pañales y cerveza. Esto no es una broma, sino un caso real ocurrido en la cadena de supermercados estadounidense Wal-Mart, y del que han hablado las empresas. Walmart tiene el sistema de almacenamiento de datos más grande del mundo. Para comprender con precisión los hábitos de compra de los clientes en sus tiendas, Walmart realiza un análisis de la cesta sobre el comportamiento de compra de los clientes y quiere saber qué productos suelen comprar juntos. El almacén de datos de Walmart centraliza datos detallados de transacciones sin procesar de sus tiendas. Con base en estos datos de transacciones originales, Walmart utiliza métodos de minería de datos para analizar y extraer estos datos. ¡Un descubrimiento inesperado es que la cerveza es el artículo más comprado junto con los pañales! Después de mucha investigación y análisis, se reveló un patrón de comportamiento estadounidense que se esconde detrás de los pañales y la cerveza: en los Estados Unidos, algunos padres jóvenes suelen ir al supermercado a comprar pañales para bebés después de salir del trabajo, y entre el 30% y el 40% de ellos también les dan Cómprese una cerveza. La razón de este fenómeno es que las esposas estadounidenses a menudo les dicen a sus maridos que compren pañales para sus hijos después de salir del trabajo. Después de comprarlos, el marido les trae su cerveza favorita.

Según el pensamiento convencional, los pañales no tienen nada que ver con la cerveza. Sin utilizar tecnología de minería de datos para extraer y analizar una gran cantidad de datos de transacciones, sería imposible para Wal-Mart descubrir patrones tan valiosos dentro de los datos.

La asociación de datos es un importante conocimiento de descubrimiento en la base de datos. Si existe cierta regularidad entre los valores de dos o más variables, se llama correlación. La correlación se puede dividir en correlación simple, correlación de series temporales y correlación causal. El propósito del análisis de correlación es encontrar la red de correlación oculta en la base de datos. A veces no conocemos la función de correlación de los datos en la base de datos, e incluso si la conocemos, es incierta, por lo que las reglas generadas por el análisis de correlación son creíbles. La minería de reglas de asociación descubre asociaciones o correlaciones interesantes entre conjuntos de elementos en grandes cantidades de datos. Agrawal equivale a 1993. Primero, se presenta el problema de las reglas de asociación minera entre conjuntos de elementos en una base de datos de transacciones de clientes. Más tarde, muchos investigadores investigaron mucho sobre las reglas de las asociaciones mineras. Su trabajo incluye optimizar el algoritmo original, como introducir muestreo aleatorio e ideas paralelas para mejorar la eficiencia de las reglas de minería de algoritmos promoviendo la aplicación de reglas de asociación; La minería de reglas de asociación es un tema importante en la minería de datos y ha sido ampliamente estudiado por la industria en los últimos años.

://www.chinaidiom.com">Red idiomática china All rights reserved