¿Cuáles son los algoritmos de clasificación utilizados para la minería de datos y cuáles son sus ventajas y desventajas?

1. Naive Bayes (NB)

Simple, como hacer un trabajo de conteo.

Si se cumple el supuesto de independencia condicional, NB convergerá más rápido que un modelo discriminante (como la regresión logística), por lo que solo necesita una pequeña cantidad de datos de entrenamiento.

Si desea hacer algo como el aprendizaje semisupervisado o quiere un modelo simple con buen rendimiento, vale la pena probar NB.

2. Regresión logística (LR)

LR tiene muchas formas de regularizar el modelo. En comparación con el supuesto de independencia condicional de NB, LR no necesita considerar si las muestras están relacionadas.

Si desea obtener alguna información de probabilidad (por ejemplo, para facilitar el ajuste del umbral de clasificación, obtener la incertidumbre de la clasificación, obtener el intervalo de confianza) o espera que se pueda actualizar y mejorar fácilmente cuando haya más datos en el futuro, vale la pena usar LR.

3. Árbol de decisión (DT)

DT no es paramétrico, por lo que no es necesario. preocuparse por los puntos salvajes (o valores atípicos) y la cuestión de si los datos son linealmente separables (por ejemplo, DT puede manejar fácilmente esta situación: el valor de la característica x de las muestras que pertenecen a la clase A es a menudo muy pequeño o muy grande, mientras que la característica x valor de las muestras que pertenecen a la clase A es a menudo muy pequeña o muy grande El valor x de las muestras pertenecientes a la clase B está en el rango medio).

La principal desventaja de DT es que es fácil de sobreajustar, por lo que se han propuesto algoritmos de aprendizaje por conjuntos como Random Forest (RF) (o Boosted tree).

Además, RF suele funcionar mejor en muchos problemas de clasificación, es rápido y escalable y no requiere ajustar una gran cantidad de parámetros como SVM, por lo que RF es un algoritmo muy popular recientemente.

4. Máquina de vectores de soporte (SVM)

Tiene una precisión de clasificación muy alta y tiene una buena garantía teórica para el sobreajuste. Seleccione una función del núcleo adecuada para enfrentar problemas con características linealmente inseparables. También se puede realizar bien.

SVM es muy popular en la clasificación de textos donde la dimensionalidad suele ser muy alta. Debido a los grandes requisitos de memoria y al engorroso ajuste de parámetros, creo que RF ha comenzado a amenazar su estado.

上篇: 下篇: Composición del examen de ingreso de posgrado de 2022 de Wang Jiangtao