Regression lineal
Para que sirve?
Sirve para encontrar la relación que pueda existir entre una variable llamada variable respuesta y un conjunto de variables independientes.
Donde
Y variable dependiente
X variable independiente
a intercepto
b pendiente de la recta
Inferencia sobre los parámetros
Inferencias sobre el intercepto β0
Intervalos de confianza
Prueba de Hipótesis sobre la significancia del intercepto
Inferencias sobre la pendiente β1
Intervalos de confianza
Prueba de Hipótesis sobre la significancia de la pendiente
Supuestos
La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la selección de los valores de la variable predictora X en un intervalo de interés.
la variable predictora X
no es considerada como variable aletatoria, sino como un conjunto de valores fijos que representan los puntos de observación, que se seleccionan con anticipación y se miden sin error
Los datos observados (xi,yi), i=1,…,n, constituyen una muestra representativa de un medio acerca del cual se desea generalizar. Si no es así, no es apropiado realizar inferencias en un rango de los datos por fuera del considerado.
El modelo de regresión es lineal en los parámetros. Es decir, ningún parámetro de la regresión aparece como el exponente o es dividido o multiplicado por otro parámetro, o cualquier otra función.
Si la ecuación de regresión seleccionada es correcta, cualquier variabilidad en la variable respuesta que no puede ser explicada exactamente por dicha ecuación, es debida a un error aleatorio.
Los valores observados de la variable respuesta no se encuentran estadísticamente correlacionados. Se supone que cada valor observado de Y está constituído por un valor real y una componente aleatoria.
El modelo de regresión con una muestra de n
pares de datos (Xi,Yi) es:
Yi=Y|Xi=E[Y|Xi]+εii=1,2,…,n
Los errores aleatorios εi son estadísticamente independientes.
La varianza de los errores aleatorios es σ2,∀i=1,2,…,n
(supuesto de varianza constante pero desconocida).
Estimación de parámetros
Estimación por mínimos cuadrados ordinarios (MCO)
Obtener estimaciones de los parámetros de regresión, es decir hallar valores de β0 y β1 que minimicen la suma de los cuadrados de los errores S(β0,β1)
Tiene propiedades
βˆ0 y βˆ1 son combinaciones lineales de las variables aleatorias Y1,…,Yn
La suma de los residuales del modelo de regresión con intercepto es siempre cero
La suma de los valores observados yi
es igual a la suma de los valores ajustados yˆi
La línea de regresión siempre pasa a través del centroide de los datos (x¯,y¯)
La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero
Estimación por máxima verosimilitud (ML)
es un método habitual para ajustar un modelo y estimar sus parámetros
Tiene propiedades
Consistencia
Normalidad asintótica
Eficiencia
Supuestos de errores
Los errores del modelo tienen media cero
Los errores del modelo tienen varianza constante
Los errores del modelo se distribuyen normal
Los errores del modelo son independientes