Regression lineal
Supuestos de errores
Los errores del modelo son independientes
Los errores del modelo se distribuyen normal
Los errores del modelo tienen varianza constante
Los errores del modelo tienen media cero
Estimación de parámetros
Estimación por máxima verosimilitud (ML)
Eficiencia
Normalidad asintótica
Consistencia
es un método habitual para ajustar un modelo y estimar sus parámetros
Estimación por mínimos cuadrados ordinarios (MCO)
Tiene propiedades
La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero
La línea de regresión siempre pasa a través del centroide de los datos (x¯,y¯)
La suma de los valores observados yi
es igual a la suma de los valores ajustados yˆi
La suma de los residuales del modelo de regresión con intercepto es siempre cero
βˆ0 y βˆ1 son combinaciones lineales de las variables aleatorias Y1,…,Yn
Obtener estimaciones de los parámetros de regresión, es decir hallar valores de β0 y β1 que minimicen la suma de los cuadrados de los errores S(β0,β1)
Supuestos
La varianza de los errores aleatorios es σ2,∀i=1,2,…,n
(supuesto de varianza constante pero desconocida).
Los errores aleatorios εi son estadísticamente independientes.
El modelo de regresión con una muestra de n
pares de datos (Xi,Yi) es:
Yi=Y|Xi=E[Y|Xi]+εii=1,2,…,n
Los valores observados de la variable respuesta no se encuentran estadísticamente correlacionados. Se supone que cada valor observado de Y está constituído por un valor real y una componente aleatoria.
Si la ecuación de regresión seleccionada es correcta, cualquier variabilidad en la variable respuesta que no puede ser explicada exactamente por dicha ecuación, es debida a un error aleatorio.
El modelo de regresión es lineal en los parámetros. Es decir, ningún parámetro de la regresión aparece como el exponente o es dividido o multiplicado por otro parámetro, o cualquier otra función.
Los datos observados (xi,yi), i=1,…,n, constituyen una muestra representativa de un medio acerca del cual se desea generalizar. Si no es así, no es apropiado realizar inferencias en un rango de los datos por fuera del considerado.
la variable predictora X
no es considerada como variable aletatoria, sino como un conjunto de valores fijos que representan los puntos de observación, que se seleccionan con anticipación y se miden sin error
La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la selección de los valores de la variable predictora X en un intervalo de interés.
Inferencia sobre los parámetros
Inferencias sobre la pendiente β1
Prueba de Hipótesis sobre la significancia de la pendiente
Inferencias sobre el intercepto β0
Prueba de Hipótesis sobre la significancia del intercepto
Intervalos de confianza
Donde
b pendiente de la recta
a intercepto
X variable independiente
Y variable dependiente
Para que sirve?
Sirve para encontrar la relación que pueda existir entre una variable llamada variable respuesta y un conjunto de variables independientes.