Serie de aprendizaje automático: 4 algoritmos de regresión lineal

1. Regresión lineal simple:

1.1 Función de pérdida:

En el aprendizaje automático, todos los modelos de algoritmos en realidad se basan en minimizar o maximizar una determinada función que llamamos. la "función objetivo".

El conjunto de funciones que se minimizan se denomina “función de pérdida”. ¿Qué es la función de pérdida?

Las funciones de pérdida más utilizadas son:

Función de pérdida 0-1: se utiliza para expresar problemas de clasificación. Cuando la clasificación de predicción es incorrecta, el valor de la función de pérdida es 1 y el valor correcto. es 0

Función de pérdida cuadrada: se usa para describir problemas de regresión, se usa para representar variables continuas y es el cuadrado de la diferencia entre el valor predicho y el valor verdadero. (Cuanto mayor sea el valor del error, más fuerte será la penalización, es decir, es sensible a la diferencia)

Función de pérdida absoluta: utilizada en modelos de regresión, medida por el valor absoluto de la distancia

Función de pérdida logarítmica: es una medida entre el valor predicho Y y la probabilidad condicional. De hecho, esta función de pérdida utiliza la idea de estimación de máxima verosimilitud. La explicación popular de P (Y | X) es: según el modelo actual, para la muestra X, su valor predicho es Y, que es la probabilidad de predicción correcta. Dado que la simultaneidad entre probabilidades requiere multiplicación, para convertirla en suma tomamos el logaritmo. Finalmente, dado que es una función de pérdida, cuanto mayor sea la probabilidad de una predicción correcta, menor debe ser el valor de pérdida, así que agregue un signo negativo para invertirlo.

1.2 Riesgo esperado:

El riesgo esperado es la expectativa de la función de pérdida. Se utiliza para expresar teóricamente la pérdida en el sentido promedio del modelo f(X) con respecto a la distribución conjunta P(X, Y). También llamada función de pérdida/riesgo esperado.

1.3 Riesgo empírico:

La pérdida promedio del modelo f(X) con respecto al conjunto de datos de entrenamiento se denomina riesgo empírico o pérdida de experiencia.

1.4 Minimización del riesgo empírico y minimización del riesgo estructural

El riesgo esperado es la pérdida esperada del modelo con respecto a la distribución conjunta, y el riesgo empírico es la pérdida promedio del modelo con respecto al conjunto de datos de la muestra de entrenamiento. Según la ley de los grandes números, cuando el tamaño de la muestra N tiende a infinito, el riesgo empírico tiende al riesgo esperado.

Minimización del riesgo estructural: cuando el tamaño de la muestra es pequeño, la minimización del riesgo empírico es propensa al problema del "sobreajuste". Para "mitigar" el problema del sobreajuste, se aplica la teoría de la minimización del riesgo estructural. se propone. El riesgo estructural se minimiza ya que el riesgo empírico y la complejidad son pequeños

1.5 Resumen

1. Función de pérdida: el grado de error entre el valor predicho y el valor real de una sola muestra .

2. Riesgo esperado: Es la expectativa de la función de pérdida, la pérdida teórica en el sentido promedio del modelo f(X) con respecto a la distribución conjunta P(X, Y).

3. Riesgo empírico: la pérdida promedio del modelo en el conjunto de entrenamiento (las pérdidas de cada muestra se suman y luego se promedian).

4. Riesgo estructural: estrategia que añade un término de regularización al riesgo empírico para evitar el sobreajuste.

1.2 Método de mínimos cuadrados:

Para los valores medidos, el cuadrado más pequeño del error total es el valor verdadero. Esto se basa en el hecho de que si el error es aleatorio, debería fluctuar alrededor del valor real.

1.2.1 Aplicación en regresión lineal

El objetivo es encontrar a y b de modo que la función de pérdida: J(a, b) =?

Finalmente obtenemos las expresiones de a y b mediante el método de mínimos cuadrados:

a =? > 2. Regresión lineal múltiple:

Para regresión lineal múltiple, ya que existen múltiples valores propios. Por lo tanto, para aprender N 1 parámetros, se puede obtener el valor de predicción de regresión lineal múltiple.

Sin embargo, la desventaja de este método de cálculo simple es que la complejidad del tiempo es alta: O (n ^ 3) cuando hay muchas características, la cantidad de cálculo es muy grande. La ventaja es que no es necesario normalizar los datos, los datos originales se utilizan para calcular los parámetros y no hay ningún problema dimensional (no es necesario normalizar el lineal multivariado)