¿Qué algoritmos de big data es necesario dominar?

No solo se seleccionaron los diez mejores algoritmos, sino también los 18 algoritmos que participaron en la selección. De hecho, cualquiera de ellos puede considerarse un algoritmo clásico. Han producido resultados extremadamente importantes en el campo. de la minería de datos.

1.C4.5

El algoritmo C4.5 es un algoritmo de árbol de decisión de clasificación en algoritmos de aprendizaje automático. Su algoritmo central es el algoritmo ID3. El algoritmo C4.5 hereda ID3. Las ventajas del algoritmo y el algoritmo ID3 se han mejorado en los siguientes aspectos:

1) El uso de la tasa de ganancia de información para seleccionar atributos supera la desventaja de usar la ganancia de información para seleccionar atributos con más valores;

2) Realizar poda durante el proceso de construcción del árbol;

3) Ser capaz de completar la discretización de atributos continuos;

4) Ser capaz de completar los datos. procesado.

El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que resulta en una ineficiencia del algoritmo.

2.El algoritmo k-means es el algoritmo K-Means

El algoritmo k-meansalgoritmo es un algoritmo de agrupamiento que divide n objetos en k divisiones según sus atributos, k 3 .Supportvectormachines

Máquina de vectores de soporte, en inglés es SupportVectorMachine, denominada máquina SV (generalmente denominada SVM en el documento). Es un método de aprendizaje supervisado que se utiliza ampliamente en clasificación estadística y análisis de regresión. Las máquinas de vectores de soporte asignan vectores a un espacio de dimensiones superiores, donde se establece un hiperplano de margen máximo. Se construyen dos hiperplanos paralelos a ambos lados del hiperplano que separa los datos. El hiperplano de separación maximiza la distancia entre dos hiperplanos paralelos. Se supone que cuanto mayor sea la distancia o espacio entre hiperplanos paralelos, menor será el error general del clasificador. Una guía excelente es la Guía de C.J. CBurges sobre máquinas de vectores de soporte para el reconocimiento de patrones. vanderWalt y Barnard compararon máquinas de vectores de soporte con otros clasificadores.

4.El algoritmo Apriorial

El algoritmo Apriorial es uno de los algoritmos más influyentes para extraer conjuntos de elementos frecuentes de reglas de asociación booleanas. Su núcleo es un algoritmo recursivo basado en la idea del conjunto de frecuencias de dos etapas. Esta regla de asociación se clasifica como regla de asociación booleana unidimensional y de un solo nivel. Aquí, todos los conjuntos de elementos cuyo soporte es mayor que el soporte mínimo se denominan conjuntos de elementos frecuentes o, para abreviar, conjuntos de elementos frecuentes.

5. Algoritmo de expectativa máxima (EM)

En computación estadística, el algoritmo de expectativa máxima (EM, Expectativa-Maximización) es encontrar la máxima probabilidad de parámetros en un modelo probabilístico. Algoritmos de estimación donde los modelos probabilísticos se basan en variables latentes no observables (LatentVariabl). La expectativa máxima se utiliza a menudo en el campo de la agrupación de datos (DataClustering) en el aprendizaje automático y la visión por computadora.

6.PageRank

PageRank es una parte importante del algoritmo de Google. Se le concedió una patente estadounidense en septiembre de 2001 y el titular de la patente era Larry Page, uno de los fundadores de Google. Por lo tanto, la página en PageRank no se refiere a la página web, sino a la página, es decir, este método de clasificación lleva el nombre de la página.

El PageRank mide el valor de un sitio web en función de la cantidad y calidad de sus enlaces externos y enlaces internos. El concepto detrás de PageRank es que cada enlace a una página es un voto para esa página, y más enlaces significan más votos de otros sitios. Esto se llama "popularidad de enlaces", una medida de cuántas personas están dispuestas a vincular su sitio web al suyo.

El concepto de PageRank se deriva de la frecuencia de citas de un artículo en los círculos académicos, es decir, cuantas más veces sea citado por otros, mayor será la autoridad del artículo.

7.AdaBoost

Adaboost es un algoritmo iterativo. Su idea central es entrenar diferentes clasificadores (clasificadores débiles) para el mismo conjunto de entrenamiento y luego usar estos clasificadores débiles para juntos. forman un clasificador final más fuerte (clasificador fuerte). El algoritmo en sí se implementa cambiando la distribución de datos. Determina el peso de cada muestra en función de si la clasificación de cada muestra en cada conjunto de entrenamiento es correcta y la precisión de la última clasificación general. El nuevo conjunto de datos con pesos modificados se envía al clasificador inferior para su entrenamiento y, finalmente, los clasificadores obtenidos de cada entrenamiento finalmente se fusionan como el clasificador de decisión final.

8.kNN: clasificación de k-vecino más cercano

El algoritmo de clasificación K-NearestNeighbor (KNN) es un método teóricamente maduro y el algoritmo de aprendizaje automático más simple. La idea de este método es: si una muestra pertenece a una determinada categoría entre las k muestras más similares (es decir, el vecino más cercano en el espacio de características) en el espacio de características, entonces la muestra también pertenece a esta categoría.

9.NaiveBayes

Entre los muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión (DecisionTreeModel) y el modelo bayesiano ingenuo (NaiveBayesianModel, NBC). El modelo Naive Bayes se originó a partir de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable. Al mismo tiempo, el modelo NBC requiere pocos parámetros estimados, no es muy sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso en la práctica, ya que el modelo NBC supone que los atributos son independientes entre sí. Esta suposición a menudo no es cierta en las aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es relativamente grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. Cuando la correlación de atributos es pequeña, el rendimiento del modelo NBC es el mejor.

10.CART: Árboles de Clasificación y Regresión

CART, Árboles de Clasificación y Regresión. Hay dos ideas clave detrás del árbol de clasificación. El primero trata sobre la idea de dividir recursivamente el espacio de la variable independiente; el segundo trata sobre la poda con datos de validación.

上篇: Universidad de Chang'an 下篇: