Según la división y el árbol de regresión correspondiente que se muestran en la figura anterior, si las características de un nuevo dato son (6, 7.5), según el árbol de regresión, el resultado de regresión correspondiente es C5. El proceso de dividir nodos es también el proceso de construir un árbol. Cada vez que se realiza una división, se determina inmediatamente la salida correspondiente a la unidad de división y hay un nodo más. Cuando finaliza la partición de acuerdo con las restricciones correspondientes, finalmente se determina la salida de cada unidad, y la salida también es un nodo hoja. Esto puede parecer similar a un árbol de clasificación, pero en realidad es muy diferente. Encontrar el punto de corte y determinar el valor de salida son las dos cuestiones centrales de los árboles de decisión de regresión.
El error de segmentación del espacio de entrada se mide mediante el método de mínimos cuadrados entre el valor real y el valor predicho de la región segmentada:
dónde está el valor predicho de cada unidad segmentada , la predicción El valor es una combinación de los valores de cada punto de muestra en la unidad, por ejemplo, se puede tomar la media:
(El espacio de características de entrada se divide en)
Entonces resolver la segmentación óptima es resolver la pregunta de optimización:
Dónde y están las dos regiones formadas por cada partición.
La solución a este problema de optimización no se presentará aquí. Usamos directamente el árbol de regresión de decisión en skleen para ver el efecto de regresión del árbol de decisión. El conjunto de datos utiliza datos de precios de vivienda de Boston:
Sin ajuste de parámetros, podemos ver que el R cuadrado en el conjunto de prueba es 0,59, lo que obviamente no es un buen resultado, pero es un fenómeno interesante, en el conjunto de entrenamiento:
El valor de R cuadrado es 1.0, lo que significa que los resultados de regresión predichos por el árbol de decisión en el conjunto de entrenamiento son completamente consistentes, sin desviación y obviamente sobreajustados. Este ejemplo también muestra que el algoritmo del árbol de decisión es muy propenso al sobreajuste. Por supuesto, podemos aliviar el sobreajuste ajustando los parámetros.
Dibujemos una curva de aprendizaje para ver directamente el rendimiento del modelo de regresión del árbol de decisión. Primero, dibuje una curva de aprendizaje basada en MSE:
La curva de aprendizaje es la siguiente:
Luego dibuje la curva de aprendizaje basada en r-cuadrado:
La Los dos resultados anteriores se obtienen de forma predeterminada, es decir, la profundidad y el número de nodos de hoja del árbol de decisión no están limitados. Se descubrió que en el conjunto de entrenamiento, si no hay restricciones, se puede lograr una desviación cero, lo que es un sobreajuste obvio. Luego ajuste los parámetros y dibuje una curva de aprendizaje. Para ahorrar espacio, solo se ajusta la profundidad del árbol de decisión y solo se dibuja la curva de aprendizaje basada en r-cuadrado:
Max_profundidad=1
Cuando profundidad máxima=3
Cuando la profundidad máxima = 5
A medida que aumenta la profundidad, la complejidad del modelo se vuelve cada vez mayor y el fenómeno de sobreajuste se vuelve cada vez más obvio. Se puede verificar que cuando max_profundidad = 20, hay una línea recta imparcial con y = 1 en el conjunto de entrenamiento. Los estudiantes interesados aún pueden modificar otros parámetros para dibujar una curva de aprendizaje.
Limitaciones de los árboles de decisión:
Utilizando los datos del iris del último artículo de esta serie, analizamos las consecuencias de la sensibilidad de los árboles de decisión a los datos individuales. En el artículo anterior de esta serie, se utilizó la entropía de la información para la partición y el límite de decisión trazado de forma predeterminada para otros parámetros fue:
Luego eliminamos los datos con el índice 138 y luego dibujamos el límite de decisión:
p>
Se descubre que el límite de decisión en este momento es completamente diferente, y esto es solo el impacto de un punto de datos.
En resumen, sabemos que el árbol de decisión es en realidad un algoritmo inestable y su rendimiento depende en gran medida de los parámetros y datos de ajuste. Sin embargo, aunque el árbol de decisión en sí no es un algoritmo de aprendizaje automático eficiente, su combinación basada en el aprendizaje conjunto - Random Forest (RF) es un algoritmo de aprendizaje automático muy robusto, que se presentará en el próximo capítulo.