Regresión

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes X_i y un término aleatorio ε. Este modelo puede ser expresado como:

$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon$

donde β₀ es la intersección o término «constante», las 0)» /> son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Etimología

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, «regresaban» al promedio. La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte teórico por parte de la matemática y la estadística mucho más extenso.

El modelo de regresión lineal

El modelo lineal relaciona la variable dependiente Y con K variables explicativas X_k (k = 1,…K), o cualquier transformación de éstas, que generan un hiperplano de parámetros β_k desconocidos:

$Y = \sum \beta_k X_k + \varepsilon$

donde $\varepsilon$ es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:

$Y = \beta_1 + \beta_2 X_2 + \varepsilon$

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos β_k, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,… I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

$Y_i = \sum \beta_k X_{ki} + \varepsilon_i$

Los valores escogidos como estimadores de los parámetros, $\hat{\beta_k}$ , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en

$Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}$

Los valores $\hat{\varepsilon_i}$ son por su parte estimaciones de la perturbación aleatoria o errores.

Supuestos del Modelo de regresión lineal

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:

La relación entre las variables es lineal.
Los errores en la medición de las variables explicativas son independientes entre sí.
Los errores tienen varianza constante. (Homocedasticidad)
Los errores tienen una esperanza matemática igual a cero (los errores de una misma magnitud y distinto signo son equiprobables).
El error total es la suma de todos los errores.

Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma:

$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i$

donde $\varepsilon_i$ es el error asociado a la medición del valor X_i y siguen los supuestos de modo que $\varepsilon_i \sim N(0,\sigma^2)$ (media cero, varianza constante e igual a un σ y $\varepsilon_i \perp \varepsilon_j$ con $i\neq j$ ).

Análisis

Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

$E(y_i) = \hat{y_i}=E(\beta_0) + E(\beta_1 x_i) + E(\varepsilon_i)$

Derivando respecto a $\hat{\beta}_0$ y $\hat{\beta}_1$ e igualando a cero, se obtiene:

$\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_0} = 0$

$\frac{\partial \sum (y_i - \hat{y_i})^2 }{\partial \hat{\beta}_1} = 0$

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros:

$\hat{\beta_1} = \frac { \sum x \sum y - n \sum xy } { \left ( \sum x \right ) ^ 2 - n \sum x^2 } = \frac{ \sum (x-\bar{x})(y-\bar{y} ) }{\sum ( x - \bar{x})^2 }$

$\hat{\beta_0} = \frac { \sum y - \hat{\beta}_1 \sum x } { n } = \bar{y} - \hat{\beta_1} \bar{x}$

La interpretación del parámetro β₁ es que un incremento en Xi de una unidad, Yi incrementará en β₁

Regresión lineal múltiple

La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación a otras variables llamándose Regresión múltiple. Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma:

$Y_i = \beta_0 + \sum \beta_i X_{ip} + \varepsilon_i$

donde $\varepsilon_i$ es el error asociado a la medición i del valor X_ip y siguen los supuestos de modo que $\varepsilon_i \sim N(0,\sigma^2)$ (media cero, varianza constante e igual a un σ y $\varepsilon_i \perp \varepsilon_j$ con $i\neq j$ ).

Rectas de Regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:

La recta de regresión de Y sobre X:

$y = \bar{y} + \frac{\sigma_{xy}}{\sigma_{x}^2}(x - \bar{x})$

La recta de regresión de X sobre Y:

$x = \bar{x} + \frac{\sigma_{xy}}{\sigma_{y}^2}(y - \bar{y})$

La correlación («r») de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.