Comprensión del método de mínimos cuadrados y del método de descenso de gradiente

En la regresión lineal, el método más utilizado es el método de mínimos cuadrados. En el proceso de implementación específico del método de mínimos cuadrados, aunque se mantenga la idea central, habrá diversos grados de mejora. Por lo tanto, existen muchas variaciones de mínimos cuadrados, como mínimos cuadrados recursivos y mínimos cuadrados ponderados. Estos cambiarán según las condiciones reales. Este artículo habla principalmente sobre mi comprensión del método de mínimos cuadrados.

El llamado "método de mínimos cuadrados" literalmente encarna un problema de optimización, por lo que el método de mínimos cuadrados es un problema de optimización.

A mi entender: cuando existe una relación funcional entre la variable independiente y la variable dependiente que puede describirse aproximadamente, lo llamamos regresión conductual. Y esta función se llama función de regresión.

La regresión puede ayudarnos a predecir la variable dependiente. Con base en los datos anteriores y la función de regresión, se puede predecir de manera aproximada la tendencia de la siguiente variable dependiente. Esto se usa ampliamente en los mercados de valores y en algunos problemas de series de tiempo.

Supongamos que tenemos un conjunto de números,

generamos un conjunto de números aleatorios y luego queremos usar una función para describir la relación entre el eje horizontal X y el eje vertical. y, suponiendo que es lineal, supongamos que la función es H (x) = \theta _ \theta _ 1 * X.

Si obtenemos \theta_0 y \theta_1, entonces nuestra función de regresión está determinada. La y correspondiente se puede calcular a partir de x.

Cómo obtener H(x)

Dejemos que nuestra función de hipótesis describa mejor los datos reales, es decir, la función de hipótesis está más cerca de la distribución de los datos reales. Entonces se debe minimizar el error entre ellos.

Entonces, obtenemos la función de costo,

J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^m(h (x^{(i)})-y^{(i)})^2

Los errores de cada valor discreto y el valor calculado se elevan al cuadrado y luego se suman para calcular el error total.

En este momento, nuestro objetivo es calcular:

Minimizar J(\theta_0,\theta_1)

Lo anterior es el concepto del método de mínimos cuadrados. .

El método de mínimos cuadrados es una idea para optimizar problemas, y el método de descenso de gradiente es un método específico para implementar esta idea de optimización.

En el proceso de minimizar J (\theta_0,\theta_1) en el problema de mínimos cuadrados, si es un problema lineal, puedes intentar usar una matriz, que es una ecuación normal. Solo asegúrese de que (x tx) {-1} exista aquí. Por supuesto, esto también es una limitación de los cálculos matriciales.

El método universal normal es el método de descenso de gradiente (no digas que es lento).

La esencia del método de descenso de gradiente es la iteración. Al actualizar iterativamente el valor de \theta, se encuentra gradualmente el valor mínimo de J (\theta_0, \theta_1).

Como se puede ver en la figura anterior, a medida que aumenta el número de iteraciones en el eje horizontal, el valor j en el eje vertical disminuye gradualmente.

Sabemos que la función de costos j (\ theta _ 0, \ theta _ 1) = \ frac { 1 } { 2m } \ sum _ { I = 1 } m(h(x {(I )} )-y.

Nuestra función objetivo es minimizar j (\theta_0,\theta_1).

Entonces, encuentre J(\theta_0,\theta_1) respectivamente. derivadas parciales de \theta_0 y \theta_1.

Obtener,

\frac{\partial J(\theta_0,\theta_1)} { \partial \theta_0 } = \frac{1}{m}\ sum_{i= 1}^m(x^{(i)})-y^{(i)})

\ frac { \ parcial j(\θ_ 0,\θ_ 1)} { \partial \θ_ 1 } = \frac{1}{m}\sum_{i=1}^m(x^{(i)})-y^{(i)})x_i

Actualizar \theta:

\ theta _ 0:\ theta _ 0-\ alpha \ frac { \ parcial J(\ theta _ 0)} { \ parcial \ theta _ 0 }

\ theta _ 1:\ theta _ 1-\ alpha \ frac { \ part J(\ theta _ 1)} { \ parcial \ theta _ 1 }

Aquí, las líneas multicolores son líneas de degradado. Podemos ver que nuestro \theta inicial es cero, y luego \theta se acerca gradualmente al costo mínimo y finalmente alcanza la posición de [1.6, 1.6].

En el método de descenso de gradiente, también tendremos el método de descenso de gradiente incremental, etc., pero todos están diseñados para lograr una aproximación más rápida y se requiere un análisis específico.