De Wikipedia, la enciclopedia libre
Ir a: Navegación, Búsqueda
En estadística, la regresión lineal se usa para dos cosas;
Construya una fórmula simple que prediga el valor de una variable dado el valor de otra variable.
Pruebe si y cómo una variable determinada está relacionada con otra variable o variables.
Nota: La correlación no implica causalidad.
La regresión lineal es una forma de análisis de regresión en la que la relación entre una o más variables independientes y otra variable (llamada variable dependiente) se expresa mediante una función de mínimos cuadrados (llamada ecuación de regresión lineal) Modelado. Esta función es una combinación lineal de uno o más parámetros del modelo, llamados coeficientes de regresión. Una ecuación de regresión lineal con una variable independiente representa una línea recta cuando el valor predicho (es decir, la variable dependiente en la ecuación de regresión) se traza contra las variables independientes: esto se llama regresión lineal simple. Pero tenga en cuenta que "lineal" no se refiere a esta línea recta, sino a la forma en que aparecen los coeficientes de regresión en la ecuación de regresión. Estos resultados están sujetos a análisis estadístico.
Un ejemplo de regresión lineal con variables independientes. Contenido[hide]
1 Introducción
1.1 Modelo teórico
1.2 Datos y estimación
1.3 Supuestos clásicos
2 Análisis de mínimos cuadrados
2.1 Estimación de mínimos cuadrados
2.2 Inferencia de regresión
2.2.1 Caso lineal univariante
2.3 Análisis de diferencias
3 ejemplos
4 Probar los resultados del modelo de regresión
4.1 Verificar los supuestos del modelo
4.2 Evaluar la bondad del ajuste
p>
5 Otros procedimientos
5.1 Mínimos cuadrados generalizados
5.2 Modelo de error variable
5.3 Modelo lineal generalizado
5.4 Robusto regresión
5.5 Variables instrumentales y métodos relacionados
6 Aplicación de la regresión lineal
6.1 Línea de tendencia
6.2 Epidemiología
6.3 Finanzas
6.4 Ciencias Ambientales
7 Ver también
8 notas
9 referencias
10 Enlaces externos
[Editar] Introducción
[Editar] Modelo teórico
El modelo de regresión lineal supone que dada una muestra aleatoria, 1. Puede haber relaciones incompletas entre regresores y regresores. El término de perturbación también es una variable aleatoria que se agrega a esta relación hipotética para capturar el impacto de todos los demás factores en Yi excepto . Por lo tanto, un modelo de regresión lineal múltiple toma la siguiente forma:
Tenga en cuenta que los regresores también se denominan variables independientes, variables exógenas, covariables, variables de entrada o variables predictivas. Asimismo, los regresores también se denominan variables dependientes, variables de respuesta, variables medidas o variables predictoras.
Los modelos que no cumplan esta especificación se pueden manejar con regresión no lineal. Un modelo de regresión lineal no tiene por qué ser una función lineal de las variables independientes: lineal en este artículo significa que la media condicional de Yi es lineal en el parámetro β. Por ejemplo, el modelo es lineal en los parámetros β1 y β2, pero no en la función no lineal de Xi. El siguiente ejemplo muestra un ejemplo de este modelo.
[editar]Datos y estimaciones
Es importante distinguir entre modelos representados por variables aleatorias y observaciones de esas variables aleatorias. Normalmente, las observaciones o datos representados por letras minúsculas constan de n valores.
En términos generales, hay p + 1 parámetros que deben determinarse. Para estimar parámetros, suele ser útil utilizar notación matricial
donde Y es el vector columna que incluye las observaciones, incluidos los componentes aleatorios no observados, y la matriz X son las observaciones de la regresión
x generalmente incluye una columna constante, es decir, una columna que no cambia con el valor de observación, utilizada para representar el término de intersección β0.
Si existe alguna dependencia lineal entre las columnas de Sin embargo, en este caso alguna combinación lineal de componentes β todavía es estimable de forma única. Por ejemplo, el modelo no puede resolver β1 y β2 de forma independiente porque la matriz de observación tiene rango 2.
En este caso, el modelo se puede reescribir como y se puede resolver para dar el valor de la entidad compuesta β1 + 2β2.
Tenga en cuenta que solo se realiza la estimación de mínimos cuadrados, no es necesario tratar la muestra como una variable aleatoria. Puede ser conceptualmente más sencillo pensar en las muestras como valores fijos y observables, como lo hemos hecho hasta ahora. Sin embargo, en el contexto de las pruebas de hipótesis y los intervalos de confianza, es necesario interpretar la muestra como una variable aleatoria, lo que producirá estimadores que son en sí mismos variables aleatorias. Entonces es posible estudiar la distribución del estimador y hacer inferencias.
[Editar] Supuestos clásicos
Los supuestos clásicos de la regresión lineal incluyen: la muestra se selecciona aleatoriamente de la población de interés, la variable dependiente es continua en una línea recta real y el término de error obedece a la misma distribución normal independiente, es decir, los errores están distribuidos idénticamente y son distribuidos gaussianos. Tenga en cuenta que estos supuestos significan que el término de error no depende estadísticamente del valor de la variable independiente, es decir, es estadísticamente independiente de la variable predictora. A menos que se indique lo contrario, estos supuestos se utilizan en este artículo. Tenga en cuenta que todos estos supuestos pueden flexibilizarse, dependiendo de la naturaleza del modelo probabilístico real del problema en cuestión. El problema de elegir qué supuestos relajar, qué forma funcional adoptar y otras opciones relacionadas con el modelo probabilístico subyacente se denomina búsqueda de especificación. En particular, observe que la suposición de que el término de error tiene una distribución normal no tiene sentido a menos que la muestra sea muy pequeña, ya que el teorema del límite central significa que mientras el término de error tenga una varianza finita y la correlación no sea demasiado fuerte, incluso Si el error subyacente no tiene una distribución normal, las estimaciones de los parámetros también tendrán una distribución aproximadamente normal.
Bajo estos supuestos, la fórmula equivalente para la regresión lineal simple (que muestra explícitamente la regresión lineal como un modelo de expectativas condicionales) se puede dar como
Dado fácil El valor esperado condicional es un función afín de . Tenga en cuenta que esta expresión se basa en el supuesto de que la media de es condicional cero en Xi.