Siete técnicas de regresión que todo científico de datos debería conocer.

La regresión lineal y la regresión logística suelen ser los primeros algoritmos que la gente aprende en la ciencia de datos. Debido a su popularidad, muchos analistas incluso los consideran la única forma de regresión. Cualquiera con un mínimo de experiencia laboral estaría de acuerdo en que son la más importante de todas las formas de análisis de regresión.

El hecho es que existen innumerables formas de regresión que se pueden utilizar. Cada forma de regresión tiene su propia importancia y escenarios específicos en los que se adapta mejor. En este artículo, explicaré en términos sencillos las siete formas de regresión más utilizadas en la ciencia de datos. Con este artículo, también espero que las personas tengan una idea de la amplitud de la regresión más allá de la simple regresión lineal/logística para cada problema que encuentren y, con suerte, ¡podrán utilizar tantas técnicas de regresión!

Si eres nuevo en la ciencia de datos y buscas un lugar para comenzar a aprender, ¡el curso "Ciencia de datos" es un excelente lugar para comenzar! Cubre temas básicos de Python, estadísticas y modelado predictivo y es la mejor manera de dar sus primeros pasos en la ciencia de datos.

¿Qué es el análisis de regresión?

El análisis de regresión es una técnica de modelado predictivo que estudia la relación entre variables dependientes (objetivo) e independientes (variables predictivas). Esta técnica se utiliza para realizar pronósticos, modelar series de tiempo y encontrar relaciones causales entre variables. Por ejemplo, la relación entre la conducción imprudente y el número de accidentes de tráfico que involucran a conductores se puede estudiar mejor mediante métodos de regresión.

El análisis de regresión es una herramienta importante para modelar y analizar datos. Aquí, ajustamos una curva/línea a los puntos de datos para minimizar la diferencia de distancia entre los puntos de datos y la curva o línea. Explicaré esto en detalle en el próximo capítulo.

¿Por qué utilizamos el análisis de regresión?

Como se mencionó anteriormente, el análisis de regresión estima la relación entre dos o más variables. Entendamos esto con un ejemplo simple:

Supongamos que desea estimar la tasa de crecimiento de las ventas de su empresa en función de la situación económica actual. Tiene los últimos datos de la empresa que muestran que las ventas están creciendo aproximadamente 2,5 veces la economía. Con esta información, podemos predecir las ventas futuras de una empresa basándose en información actual y pasada.

El uso del análisis de regresión ofrece muchos beneficios. Como se muestra a continuación:

Muestra la relación significativa entre las variables dependientes e independientes. Representa la fuerza de la influencia de múltiples variables independientes sobre una variable dependiente.

El análisis de regresión también nos permite comparar el impacto de variables medidas a diferentes escalas, como el impacto de los cambios de precios y el número de promociones. Estas ventajas ayudan a los investigadores de mercado/analistas de datos/científicos de datos a eliminar y evaluar el conjunto óptimo de variables para construir modelos predictivos.

¿Cuántas técnicas de regresión tenemos?

Disponemos de diversas técnicas de regresión disponibles para la predicción. Estas técnicas se basan principalmente en tres indicadores (número de variables independientes, tipo de variable dependiente y forma de la línea de regresión). Los discutiremos en detalle en los siguientes capítulos.

Para la creatividad, si sientes la necesidad de usar una combinación de los parámetros anteriores, puedes incluso hacer una nueva regresión que nadie haya usado antes. Pero antes de comenzar, conozcamos las regresiones más utilizadas:

1. Regresión lineal

Esta es una de las técnicas de modelado más conocidas. La regresión lineal suele ser uno de los primeros métodos que las personas eligen cuando aprenden modelos predictivos. En este método, la variable dependiente es continua, las variables independientes pueden ser continuas o discretas y la naturaleza de la línea de regresión es lineal.

La regresión lineal utiliza una línea recta de mejor ajuste (también llamada línea de regresión) para establecer la relación entre una variable dependiente (y) y una o más variables independientes (x).

Representado por la ecuación Y = a+b * X+e, donde a es la intersección, b es la pendiente de la línea recta y e es el término de error. Esta ecuación predice el valor de la variable objetivo dadas las variables predictoras.

La diferencia entre regresión lineal simple y regresión lineal múltiple es que la regresión lineal múltiple tiene (>:1) variables independientes, mientras que la regresión lineal simple tiene solo 1 variable independiente. Ahora la pregunta es "¿cómo conseguimos la línea que mejor se ajuste?".

¿Cómo obtener la línea de mejor ajuste (valores de a y b)?

Esta tarea se puede realizar fácilmente utilizando el método de mínimos cuadrados. Este es el método más común para ajustar una línea de regresión. Calcula la línea de mejor ajuste para los datos observados minimizando la suma de los cuadrados de las desviaciones verticales desde cada punto de datos hasta la línea recta. Debido a que primero se debe encontrar el cuadrado de la desviación, no se cancelan los valores positivos y negativos al sumar.

Podemos utilizar la métrica R cuadrado para evaluar el rendimiento del modelo.

Punto clave: Debe existir una relación lineal entre la variable independiente y la variable dependiente. La regresión múltiple tiene problemas como la multilinealidad, la autocorrelación y la heterocedasticidad. La regresión lineal es muy sensible a los valores atípicos. Puede afectar en gran medida la línea de regresión y, en última instancia, el valor previsto. La linealidad múltiple aumenta la varianza de las estimaciones de los coeficientes, haciendo que las estimaciones sean muy sensibles a pequeños cambios en el modelo. El resultado son estimaciones de coeficientes inestables. En el caso de múltiples variables independientes, puede elegir los métodos de selección hacia adelante, eliminación hacia atrás y eliminación gradual para seleccionar la variable independiente más importante. 2. Regresión logística

Utilice el método de regresión logística para encontrar la probabilidad de éxito y la probabilidad de fracaso. Deberíamos utilizar la regresión logística cuando la variable dependiente sea de naturaleza binaria (0/1, verdadero/falso, sí/no). Aquí, el valor de y varía de 0 a 1, lo que se puede expresar mediante la siguiente ecuación.

Odds = p /(1-p)=Probabilidad de ocurrencia del evento/Probabilidad de no evento ln(odds)= ln(p/(1-p))logit(p)= ln(p /(1-p))= Bb 6544.

Arriba, p es la probabilidad de que aparezcan características interesantes. En este punto hay que plantearse la pregunta "¿Por qué utilizamos el logaritmo en la ecuación?".

Dado que aquí utilizamos la distribución binomial (variable dependiente), debemos elegir la función de enlace que mejor se adapte a esta distribución. Además, es una función logit. En la ecuación anterior, este parámetro se elige para maximizar la probabilidad de observar el valor de la muestra, en lugar de minimizar la suma de errores cuadrados (como la regresión ordinaria).

Puntos clave: se usa ampliamente en regresión logística para problemas de clasificación y no se basa en la relación lineal entre la variable dependiente y la variable independiente. Puede manejar una variedad de relaciones ya que tiene la ventaja de aplicar una transformación logarítmica no lineal a las predicciones. Para evitar el sobreajuste y el desajuste, debemos incluir todas las variables importantes. Una buena manera de garantizar esto es estimar la regresión logística utilizando el método por pasos, que requiere un tamaño de muestra grande porque la estimación de máxima verosimilitud es menos eficiente que los mínimos cuadrados ordinarios cuando el tamaño de la muestra es pequeño. Las variables independientes no deben estar correlacionadas, es decir, no deben ser multilineales. Sin embargo, podemos optar por incluir interacciones de variables categóricas en nuestros análisis y modelos. Si el valor de la variable dependiente es ordinal, se llama regresión logística ordinal; si la variable dependiente es de múltiples categorías, se llama regresión logística múltiple. 3. Regresión polinómica

Si la potencia de la variable independiente es mayor que 1, la ecuación de regresión es una ecuación de regresión polinómica. La siguiente ecuación representa una ecuación polinómica:

Y = A + B * X ^ 2

En esta técnica de regresión, la línea de mejor ajuste no es una línea recta. Es una curva que coincide con los puntos de datos.

Importante: Aunque puede existir la tentación de ajustar polinomios de orden superior para obtener errores más bajos, esto puede llevar a un sobreajuste. Dibuja siempre una gráfica para ver si coincide, enfocándote en asegurar que la curva se ajuste a la esencia del problema. A continuación se muestra un ejemplo de cómo puede ayudar el dibujo: preste especial atención a las curvas en los extremos y vea si esas formas y tendencias tienen sentido. Los polinomios de grado superior pueden acabar produciendo resultados extraños. 4. Regresión por pasos

Esta forma de regresión se utiliza cuando tratamos con múltiples variables independientes. En esta técnica, la selección de variables independientes se realiza con la ayuda de un proceso automatizado sin necesidad de intervención humana.

Esta hazaña se puede lograr observando valores estadísticos como R cuadrado, prueba T e índice AIC para identificar variables importantes. La regresión por pasos básicamente funciona en modelos de regresión en los que agrega/elimina covariables una a la vez según criterios específicos. Estos son algunos de los métodos de regresión por pasos más utilizados:

La regresión por pasos estándar hace dos cosas. Agrega y elimina predictores según sea necesario en cada paso. La selección directa comienza con las variables predictivas más importantes del modelo y agrega variables para cada paso. La eliminación hacia atrás comienza con todos los predictores del modelo y elimina las variables menos importantes en cada paso.

El propósito de esta técnica de modelado es lograr el máximo poder predictivo con el mínimo número de variables predictoras. Es uno de los métodos para procesar conjuntos de datos de alta dimensión.

5. Regresión de crestas

La regresión de crestas es una técnica que se utiliza cuando los datos son multilineales (las variables independientes están altamente correlacionadas). En la linealidad multi * * *, incluso si las estimaciones de mínimos cuadrados (MCO) son insesgadas, sus varianzas son grandes, lo que hace que los valores observados se desvíen de los valores verdaderos.

La regresión de crestas puede reducir el error estándar agregando un cierto grado de sesgo a la estimación de la regresión.

Arriba vimos la ecuación de regresión lineal. ¿Recordar? Se puede expresar como:

y = a + b * x

Esta ecuación también tiene un término de error. La ecuación completa se convierte en:

Y = a+b * x+e (término de error), [el término de error es el valor requerido para corregir el error de predicción entre el valor observado y el valor predicho] representa cómo muchas variables independientes, = >; y = a + y = a + b1x1 + b2x2 +....+ e .

En ecuaciones lineales, el error de predicción se puede descomponer en dos subcomponentes. La primera se debe al sesgo y la segunda a la varianza. Los errores de predicción pueden ocurrir debido a uno o ambos de estos componentes. Aquí, discutiremos el error causado por la variación.

La regresión de crestas resuelve múltiples * * * problemas lineales reduciendo el parámetro λ (lambda). Mira la ecuación a continuación.

En esta ecuación tenemos dos componentes. El primero es el término de mínimos cuadrados y el segundo es λ (al cuadrado de β) sobre la suma de β2, donde β es el coeficiente. Esto se agrega al término de mínimos cuadrados para limitar los parámetros y tener una varianza muy baja.

Punto clave: El supuesto de esta regresión es el mismo que el de la regresión de mínimos cuadrados, pero reducirá el valor del coeficiente sin asumir normalidad, pero no llegará a cero, lo que indica que no hay Función de selección de funciones. Este es un método de regularización que utiliza la regularización l2. 6. Regresión de lazo

Similar a la regresión de cresta, Lasso (operador de selección y contracción mínima absoluta) también limita el tamaño absoluto del coeficiente de regresión. Además, es posible reducir la variabilidad de los modelos de regresión lineal y mejorar su precisión. Eche un vistazo a la siguiente ecuación:

La diferencia entre la regresión de lazo y la regresión de cresta es que utiliza valores absolutos en lugar de cuadrados en la función de penalización. Esto da como resultado un valor de penalización (o equivalentemente la suma de los valores absolutos de las estimaciones restringidas), lo que da como resultado que las estimaciones de algunos parámetros sean exactamente cero. Cuanto mayor es la penalización aplicada, menor se vuelve la estimación, acercándose al cero absoluto. Esto da como resultado la selección de una variable de las n variables dadas.

Punto clave: Los supuestos de la regresión son los mismos que los de la regresión de mínimos cuadrados, pero no se supone la normalidad. Reduce los coeficientes a cero (exactamente cero), lo que definitivamente es útil para la selección de funciones. Este es un método de regularización que utiliza la regularización l1. Si los predictores están altamente correlacionados, Lasso selecciona solo uno de ellos y reduce los demás predictores a cero. 7. Regresión de la red elástica.

Elastic Network Regression es un híbrido de las técnicas de Lasso Regression y Ridge Regression. Utiliza priores L1 y L2 como regularizadores para el entrenamiento. Las redes elásticas son útiles cuando hay múltiples funciones relacionadas. El lazo podrá elegir uno al azar, mientras que la red elástica podrá elegir ambos al mismo tiempo.

Una ventaja práctica de equilibrar la regresión de lazo y la regresión de cresta es que permite que la red elástica herede parte de la estabilidad de la regresión de cresta bajo rotación.

Punto clave: cuando las variables están altamente correlacionadas, se fomentan los efectos de grupo. No hay límite para la cantidad de variables seleccionadas, que se verán afectadas por la doble contracción. ¿Cómo elegir el modelo de regresión correcto?

La vida suele ser sencilla cuando sólo conoces una o dos habilidades. Un instituto de formación que conozco les dice a sus estudiantes que, si el resultado es continuo, utilicen la regresión lineal. Si es binario, ¡use regresión logística! Sin embargo, cuantas más opciones tengamos a nuestra disposición, más difícil será elegir la correcta. Algo similar ocurre con los modelos de regresión.

Entre los muchos tipos de modelos de regresión, es muy importante elegir el método de regresión más apropiado en función de los tipos de variables independientes y dependientes, el número de dimensiones de los datos y otras características básicas del modelo. datos. Los siguientes son factores clave para elegir el modelo de regresión correcto:

La minería de datos es una parte inevitable de la creación de modelos predictivos. Antes de seleccionar un modelo adecuado, primero se deben determinar los coeficientes de correlación y los efectos entre variables. Para comparar la bondad de ajuste de diferentes modelos, podemos analizar diferentes indicadores como la significancia estadística de los parámetros, R cuadrado, R cuadrado ajustado, índice AIC, índice BIC y término de error. El otro es el estándar Cp de Mallow. Básicamente, esto comprueba posibles sesgos en el modelo comparándolo con todos los submodelos posibles (seleccionándolos cuidadosamente). La validación cruzada es la mejor manera de evaluar un modelo para su predicción. Aquí, el conjunto de datos se puede dividir en dos grupos (formación y validación). El error cuadrático medio simple entre los valores observados y predichos mide la precisión de la predicción.

Si su conjunto de datos tiene múltiples variables de confusión, no debe elegir el método de selección automática del modelo porque no desea incluirlas en el modelo al mismo tiempo. También depende de tus objetivos. Los modelos con características débiles son más fáciles de implementar que los modelos con alta significancia estadística. Los métodos de regularización de regresión (regresión de lazo, regresión de cresta y regresión neta elástica) funcionan bien cuando las variables en el conjunto de datos son multidimensionales y multilineales. Conclusión

A estas alturas espero que tengas una idea de la regresión. Estas técnicas de regresión se aplican teniendo en cuenta las condiciones de los datos. Una de las mejores técnicas para determinar qué técnica utilizar es examinar familias de variables, ya sean discretas o continuas.

En este artículo, analizo los siete tipos de regresiones y algunos datos clave relacionados con cada técnica. Como recién llegado a esta industria, le recomiendo que aprenda estas técnicas y luego las implemente en sus modelos.

-Los anteriores son los siete modelos de regresión recomendados por el autor. Si está interesado en estos siete, pruébelo usted mismo. No basta con conocer la teoría. Sólo haciendo más experimentos podrás dominar realmente estos modelos.

¡7 técnicas de regresión que debes conocer!