En este artículo se explica qué es la regresión lineal múltiple en estadística. Además, encontrarás cómo hacer un modelo de regresión lineal múltiple y cómo se interpreta.
Índice
¿Qué es la regresión lineal múltiple?
La regresión lineal múltiple es un modelo de regresión en cual se incluyen dos o más variables independientes. Es decir, la regresión lineal múltiple es un modelo estadístico que permite relacionar varias variables explicativas con una variable respuesta de manera lineal.
Por lo tanto, un modelo de regresión lineal múltiple sirve para encontrar una ecuación que relacione dos o más variables independientes con una variable dependiente. De forma que sustituyendo el valor de cada variable independiente se obtiene una aproximación del valor de la variable dependiente.
Por ejemplo, la ecuación y=3+6x1-4x2+7x3 es un modelo de regresión lineal múltiple, ya que relaciona matemáticamente tres variables independientes (x1, x2, x3) con una variable dependiente (y) de manera lineal.
Fórmula de la regresión lineal múltiple
La ecuación de un modelo de regresión lineal múltiple es y=β0+β1x1+β2x2+…+βmxm+ε.
Donde:
es la variable dependiente.
es la variable independiente i.
es la constante de la ecuación de la regresión lineal múltiple.
es el coeficiente de regresión asociado a la variable
.
es el error o residuo, es decir, la diferencia entre el valor observado y el valor estimado por el modelo.
es el número total de variables del modelo.
De modo que si tenemos una muestra con un total de observaciones, podemos plantear el modelo de regresión lineal múltiple en forma matricial:
La expresión matricial anterior se puede reescribir asignando una letra a cada matriz:
Así pues, aplicando el criterio de los mínimos cuadrados, se puede llegar a la fórmula para estimar los coeficientes de un modelo de regresión lineal múltiple:
No obstante, aplicar esta fórmula es muy laborioso y lleva mucho tiempo, por lo que en la práctica se recomienda usar un software informático (como Minitab o Excel) que permite realizar un modelo de regresión múltiple de manera mucho más rápida.
Supuestos de la regresión lineal múltiple
En un modelo de regresión lineal múltiple, se deben cumplir los siguientes requisitos para que el modelo tenga validez:
- Independencia: los residuos deben ser independientes entre sí. Una manera común de garantizar la independencia del modelo es añadiendo aleatoriedad en el proceso de muestreo.
- Homocedasticidad: debe haber homogeneidad en las varianzas de los residuos, es decir, la variabilidad de los residuos debe ser constante.
- No multicolinealidad: las variables explicativas incluidas en el modelo no pueden estar relacionadas entre sí o, al menos, su relación debe ser muy débil.
- Normalidad: los residuos deben estar distribuidos normalmente, o dicho de otra forma, deben seguir una distribución normal de media 0.
- Linealidad: se supone que la relación entre la variable respuesta y las variables explicativas es lineal.
Interpretación de un modelo de regresión lineal múltiple
Para interpretar un modelo de regresión lineal múltiple debemos fijarnos en el coeficiente de determinación (R cuadrado), el cual expresa el porcentaje explicado por el modelo de regresión. De manera que cuanto mayor sea el coeficiente de determinación, mejor ajustado estará el modelo a la muestra de datos estudiada.
No obstante, la bondad de ajuste de un modelo estadístico puede ser engañosa, especialmente en los modelos de regresión lineal múltiple. Ya que al añadir cualquier variable al modelo el coeficiente de determinación aumenta, aunque la variable no sea significativa. Sin embargo, debemos maximizar el coeficiente de determinación intentando minimizar el número de variables, ya que así el modelo es menos complicado y más fácil de interpretar.
Para solucionar este problema debemos calcular el coeficiente de determinación ajustado (R cuadrado ajustado), que es un coeficiente estadístico que mide la bondad de ajuste de un modelo de regresión penalizando por cada variable añadida al modelo, a diferencia del coeficiente de determinación sin ajustar que no tiene en cuenta el número de variables del modelo.
Así pues, el coeficiente de determinación ajustado nos permite comparar la bondad de ajuste de dos modelos con un número de variables diferente. En principio, debemos escoger el modelo que tiene un coeficiente de determinación ajustado mayor, pero si los dos modelos tienen valores muy similares, es mejor seleccionar el modelo con menor número de variables ya que es más fácil de interpretar.
Por otro lado, los coeficientes de regresión indican la relación entre la variable explicativa y la variable respuesta. Si el coeficiente de regresión es positivo, la variable respuesta aumentará cuando la variable explicativa aumente. Mientras que si el coeficiente de regresión es negativo, la variable respuesta disminuirá cuando la variable explicativa aumente.
Lógicamente, para que la condición anterior se cumpla las otras variables deben permanecer constantes. Por eso es importante que no haya multicolinealidad entre las diferentes variables explicativas del modelo. Puedes ver cómo se estudia la multicolinealidad de un modelo buscando el artículo correspondiente en nuestra página web.
Regresión lineal múltiple y simple
Para terminar, veremos cuáles son las diferencias entre un modelo de regresión lineal simple y un modelo de regresión lineal múltiple, ya que son dos modelos de regresión muy utilizados en estadística.
La regresión lineal simple es un modelo de regresión usado para relacionar una variable independiente X con una variable dependiente Y. Es decir, en una regresión lineal simple solo hay dos variables: la variable explicativa X y la variable respuesta Y. De modo que la ecuación de un modelo de regresión lineal simple es la siguiente:
Por lo tanto, la diferencia entre la regresión lineal múltiple y la regresión lineal simple es el número de variables explicativas. Un modelo de regresión lineal múltiple tiene dos o más variables explicativas, en cambio, un modelo de regresión lineal simple solo tiene una única variable explicativa.
En conclusión, la regresión lineal múltiple es una extensión de la regresión lineal simple, ya que simplemente se añaden más variables explicativas y sus respectivos coeficientes de regresión. No obstante, los coeficientes de regresión se calculan de manera distinta, para ver cómo se hace pulsa aquí: