Función de pérdida en aprendizaje automático
La función de pérdida se utiliza para estimar el grado de inconsistencia entre el valor predicho f(x) de su modelo y el valor real Y. Es una Las funciones de valor real no negativas suelen estar representadas por L (Y, f (x)). Cuanto menor sea la función de pérdida, mejor será la robustez del modelo. La función de pérdidas es la parte central de la función de riesgo empírico y un componente importante de la función de riesgo estructural. La función de riesgo estructural del modelo incluye términos de riesgo empíricos y términos regulares, que generalmente se pueden expresar como la siguiente fórmula:
Entre ellos, la función media anterior representa la función de riesgo empírico, L representa la función de pérdida , y el siguiente es el término regularizador o de penalización, que puede ser L1, L2 u otras funciones regulares. La expresión completa significa encontrar el valor que minimiza la función objetivo. A continuación se enumeran principalmente varias funciones de pérdida comunes.
1. Función de pérdida logarítmica (regresión logística)
Algunas personas pueden pensar que la función de pérdida de la regresión logística es una pérdida cuadrada, pero no lo es. La función de pérdida al cuadrado se puede derivar mediante regresión lineal suponiendo que la muestra tiene una distribución gaussiana, mientras que la regresión logística no obtiene la pérdida al cuadrado. En la derivación de la regresión logística, se supone que la muestra obedece a la distribución de Bernoulli (distribución 0-1), y luego se obtiene la función de probabilidad que satisface esta distribución, y luego se toma el logaritmo para encontrar el valor extremo, y así en. La regresión logística no busca el valor extremo de la función de probabilidad, sino que considera la maximización como una idea, y luego deriva su función de riesgo empírico como: minimizar la función de probabilidad negativa (es decir, max F(y, f (x)) —-gt; mín -F(y, f(x))). Desde la perspectiva de la función de pérdida, se convierte en la función de pérdida logarítmica.
La forma estándar de la función de pérdida logarítmica:
L(Y, P(Y|X))=?logP(Y|X)L(Y, P(Y| X) )=?log?P(Y| punto extremo. La función de pérdida L (Y, P (Y | X)) expresa cómo la probabilidad P (Y | X) de la muestra Los valores de los parámetros que pueden (es decir, la probabilidad máxima) conducir a esta distribución o qué tipo de distribución; Los parámetros pueden darnos la mayor probabilidad de observar el conjunto de datos actual). Debido a que la función log aumenta monótonamente, logP (Y | X) también alcanzará el valor máximo. Por lo tanto, después de agregar el signo negativo al frente, maximizar P (Y | X) es equivalente a minimizar L.
La expresión de P(Y=y|x) para la regresión logística es la siguiente: P(Y=y|x)=11 exp(?yf(x))P(Y=y|x )=11 exp(?yf(x))
Ponlo en la fórmula anterior y, mediante la derivación, puedes obtener la expresión de la función de pérdida logística, de la siguiente manera:
L( y, P(Y =y|x))=log(1 exp(?yf(x)))L(y, P(Y=y|x))=log?(1 exp(?yf(x)) )
La fórmula objetivo final obtenida mediante regresión logística es la siguiente:
Si se trata de una clasificación de dos clases, el valor m es igual a 2. Si se trata de una clasificación múltiple clasificación de clase, m es el número total de categorías correspondientes. Es necesario explicar una explicación aquí: la razón por la que algunas personas piensan que la regresión logística es una pérdida cuadrada es porque cuando se utiliza el descenso de gradiente para encontrar la solución óptima, su fórmula iterativa es muy similar a la fórmula después de derivar la pérdida cuadrada, que Da a las personas una ilusión intuitiva.
Aquí hay un PDF como referencia: Clase 6: regresión logística.pdf.
2. Función de pérdida de cuadrados (método de mínimos cuadrados, mínimos cuadrados ordinarios)
El método de mínimos cuadrados es un tipo de regresión lineal y OLS transforma el problema en un problema de optimización convexo. En la regresión lineal, se supone que tanto las muestras como el ruido obedecen a la distribución gaussiana (¿por qué asumir la distribución gaussiana? De hecho, hay un poco de conocimiento oculto aquí, cuál es el teorema del límite central, puede consultar el teorema del límite central), y finalmente, mediante la estimación de máxima verosimilitud (MLE), se puede derivar la fórmula de mínimos cuadrados. El principio básico de los mínimos cuadrados es: la recta de ajuste óptimo debe ser la recta que minimice la suma de las distancias desde cada punto a la recta de regresión, es decir, la suma más pequeña de cuadrados. En otras palabras, OLS se basa en la distancia, y esta distancia es la distancia euclidiana que utilizamos con más frecuencia. ¿Por qué elige utilizar la distancia euclidiana como medida de error (error cuadrático medio, MSE)? Hay varias razones principales:
Simple y fácil de calcular;
La distancia euclidiana es A. buena medida de similitud;
Las propiedades de las características permanecen sin cambios después de la transformación de diferentes dominios de representación.
La forma estándar de pérdida cuadrada (Pérdida cuadrada) es la siguiente:
(Y, f(X))=(Y?f(X))2L(Y, f (X) )=(Y?f(X))2
Cuando el número de muestras es n, la función de pérdida en este momento se convierte en:
Y-f(X) representa el residual, toda la fórmula representa la suma de cuadrados de los residuales, y nuestro propósito es minimizar el valor de esta función objetivo (nota: esta fórmula no agrega un término regular), es decir, minimizar la suma residual de cuadrados, RSS).
En aplicaciones prácticas, el error cuadrático medio (MSE) se suele utilizar como índice de medición, y la fórmula es la siguiente:
MSE=1n∑i=1n(Yi~ ?Yi) 2MSE=1n∑i=1n(Yi~?Yi)2
La regresión lineal se mencionó anteriormente. Aquí hay dos casos de linealidad de los que generalmente hablamos. que la variable dependiente y es una función lineal de la variable x, una es una función lineal en la que la variable dependiente y es un parámetro. En el aprendizaje automático, esto suele referirse a la última situación.
3. Función de pérdida exponencial (Adaboost)
Cualquiera que haya estudiado el algoritmo Adaboost sabe que es un caso especial del algoritmo de suma paso a paso, un modelo aditivo. , y una función de pérdida. Es una función exponencial. En Adaboost, después de las iteraciones, puedes obtener:
El propósito de cada iteración de Adaboost es encontrar los parámetros y G que minimicen la siguiente fórmula:
Y el exponente El estándar La forma de la función de pérdida (exp-loss) es la siguiente
Se puede ver que la fórmula objetivo de Adaboost es una pérdida exponencial. Dadas n muestras, la función de pérdida de Adaboost es:
<. p>Para obtener la derivación de Adaboost, puede consultar Wikipedia: AdaBoost o "Métodos de aprendizaje estadístico" P145.4. Función de pérdida de bisagra (SVM)
En los algoritmos de aprendizaje automático, La función de pérdida de bisagra y SVM están estrechamente relacionadas. En máquinas de vectores de soporte lineales, el problema de optimización puede ser equivalente a la siguiente fórmula:
Transformemos la fórmula en:
Entonces, la fórmula original se convierte en:
Si se toma, la fórmula se puede expresar como:
Se puede ver que esta fórmula es muy similar a la siguiente fórmula:
En la primera mitad es la función de pérdida de bisagra , y este último equivale al término regular L2.
La forma estándar de la función de pérdida de bisagra
Se puede ver que cuando |y|gt;=1, L(y)=0.
Para más información, consulte Pérdida de bisagras.
Para agregar: Hay 4 funciones del núcleo para elegir en libsvm. Los parámetros -t correspondientes son:
0-núcleo lineal
1-polinomio; núcleo;
núcleo 2-RBF;
núcleo 3-sigmoideo.
5. Otras funciones de pérdida
Además de las funciones de pérdida anteriores, se utilizan habitualmente las siguientes:
Función de pérdida 0-1
Función de pérdida de valor absoluto
Echemos un vistazo a las imágenes visuales de varias funciones de pérdida. Mire la abscisa, la ordenada y qué función de pérdida representa cada línea. Más Mírela varias veces y digiera. bien.
Vale, dejemos de escribir aquí por ahora y tomemos un descanso. Finalmente, algo para recordar es: cuantos más parámetros, más complejo será el modelo, y cuanto más complejo sea el modelo, más fácil será sobreajustarlo. El sobreajuste significa que el rendimiento del modelo en los datos de entrenamiento es mucho mejor que su rendimiento en el conjunto de prueba. En este momento, se puede considerar la regularización. Al establecer el hiperparámetro delante del término regular, podemos sopesar la función de pérdida y el término regular, reducir la escala del parámetro y lograr el propósito de simplificar el modelo, de modo que el modelo tenga. mejor capacidad de generalización.