Correlacion y Regreasion Lineal
Analisis de regresion
El análisis de regresión es una herramienta estadística que permite describir y predecir la relación entre una variable de respuesta y una o más variables predictoras
Se basa en ecuaciones matemáticas que se estiman mediante métodos como el de mínimos cuadrados ordinarios. El análisis de regresión se aplica en diferentes campos como inversiones, finanzas, ventas, marketing, ciencias, matemáticas, etc.
Análisis de correlacion
El análisis de correlación consiste en un procedimiento estadístico para determinar si dos variables están relacionadas o no. El resultado del análisis es un coeficiente de correlación que puede tomar valores entre -1 y +1. El signo indica el tipo de correlación entre las dos variables .
El signo nos indica la dirección de la relación, como hemos visto en el diagrama de dispersión.
un valor positivo indica una relación directa o positiva,
un valor negativo indica relación indirecta, inversa o negativa,
un valor nulo indica que no existe una tendencia entre ambas variables (puede ocurrir que no exista relación o que la relación sea más compleja que una tendencia, por ejemplo, una relación en forma de U).
La magnitud nos indica la fuerza de la relación, y toma valores entre -1 a 1. Cuanto más cercano sea el valor a los extremos del intervalo (1 o -1) más fuerte será la tendencia de las variables, o será menor la dispersión que existe en los puntos alrededor de dicha tendencia. Cuanto más cerca del cero esté el coeficiente de correlación, más débil será la tendencia, es decir, habrá más dispersión en la nube de puntos.
si la correlación vale 1 o -1 diremos que la correlación es “perfecta”,
si la correlación vale 0 diremos que las variables no están correlacionadas.
Tipos de variable
Variable cuantitativa: Son variables que se expresan numéricamente.
Variable continua: Toman un valor infinito de valores entre un intervalo de datos. El tiempo que tarda un corredor en completar los 100 metros lisos.
Variable discreta: Toman un valor finito de valores entre un intervalo de datos. Número de helados vendidos.
Variable cualitativa: Son variables que se expresan, por norma general, en palabras.
Variable ordinal: Expresa diferentes niveles y orden.
Variable nominal: Expresa un nombre claramente diferenciado. Por ejemplo el color de ojos puede ser azul, negro, castaño, verde, etc.
Diagrama de dispersicion
El diagrama de dispersión, o gráfico de dispersión, es un tipo de diagrama estadístico en el que se representa gráficamente un conjunto de datos de dos variables en dos ejes de coordenadas cartesianas.
Correlación directa (o correlación positiva): una variable aumenta cuando la otra también aumenta.
Correlación inversa (o correlación negativa): cuando una variable aumenta la otra disminuye, y al revés, si una variable disminuye la otra aumenta.
Correlación nula (sin correlación): no existe ninguna relación entre las dos variables.
Correlación fuerte: las dos variables están muy relacionadas. Los puntos están muy juntos entre sí en el diagrama de dispersión. En consecuencia, resulta más fácil identificar la relación entre las variables.
Correlación débil: existe una relación entre las dos variables, pero resulta difícil de identificar. Los puntos están muy separados en el diagrama de dispersión.
Coeficiente de correlacion
El coeficiente de correlación en estadística es un indicador que mide la tendencia de dos variables cuantitativas X e Y a tener una relación de linealidad o proporcionalidad entre ellas.
La fórmula para calcular el coeficiente de correlación r es la siguiente:
r=\frac{S_{xy}}{S_{x}S_{y}}Donde el numerador representa la covarianza entre las variables X e Y, mientras que el denominador es el producto de la desviación estándar para la variable X y la desviación estándar para la variable Y.
Coeficiente determinacion
El coeficiente de correlación lineal indica el grado de linealidad entre las dos variables, pero para analizar la bondad del ajuste de la recta de regresión se utiliza un parámetro llamado coeficiente de determinación. Se llama coeficiente de determinación al cuadrado del coeficiente de correlación lineal.
Prueba T de significancia para el coeficiente de correlación
Una forma de cuantificar la relación entre dos variables es utilizar el coeficiente de correlación de Pearson , que es una medida de la asociación lineal entre dos variables .Siempre toma un valor entre -1 y 1 donde:
-1 indica una correlación lineal perfectamente negativa entre dos variables
0 indica que no hay correlación lineal entre dos variables
1 indica una correlación lineal perfectamente positiva entre dos variables
La fórmula para calcular la puntuación t de un coeficiente de correlación (r) es:
t = r√ (n-2) / √ (1-r 2 )
Principio de los cuadrados mínimos y la ecuación de regresión. lineal
La prueba de hipótesis permite decidir si el valor del coeficiente de correlación poblacional ρ
Es “cercano a cero” o “significativamente diferente de cero”. Esto lo decidimos con base en el coeficiente de correlación muestral r y el tamaño de la muestra n
Error estándar de estimación.
El Error estándar de estimación es la medida de variación de una observación realizada alrededor de la línea de regresión calculada. Simplemente, se utiliza para verificar la precisión de las predicciones realizadas con la línea de regresión.
Pronostico y serie de tiempo
Las series de tiempo es una de la metodologías estadísticas más aplicada debido a que usualmente se tiene información histórica que se desea estudiar y se usan en diversos campos del conocimiento,
• Componentes de una serie de tiempo.
La tendencia es el movimiento de los datos hacia arriba o hacia abajo a lo largo del tiempo. También, ocurre que los datos se mantiene estables, esto significa que las ventas no aumentan ni disminuyen conforme pasa el tiempo.
La estacionalidad se identifica como el patrón que muestran los datos en intervalos regulares, por encima o por debajo de la estación promedio. Una estación con un factor estacional igual a uno de interpreta como una estación promedio; una estación con factor estacional mayor que uno se interpreta como una estación por encima del promedio y, una estación con un factor estacional menor que uno se interpreta como una estación por debajo del promedio.
La ciclicidad son los patrones que se identifican en ciertos intervalos de tiempo, se asocia la ciclicidad al cilco económico.
Las variaciones aleatorias son irregularidades que se suponen explica el azar. No muestran un patrón y presentan una distribución normal con media igual a cero.
Promedios móviles y ponderados.
Una media móvil nos muestra el valor medio del precio de un activo en un número de sesiones determinado. Por ejemplo, una media móvil de 5 días mostrará el promedio de los datos de los últimos 5 días, y una media móvil de 20 días muestra la media de los últimos 20 días; así sucesivamente.
La media móvil ponderada se calcula multiplicando período más antiguo por uno, el penúltimo por dos, y así hasta el más reciente.
Por ejemplo, en una media móvil de 20 días se multiplica el período más reciente por 20. La suma del resultado de ese producto se divide entre la suma de las ponderaciones. El valor de la media móvil de la sesión siguiente se calcula agregando el nuevo precio y eliminando el último, utilizando de nuevo la ponderación.
Suavizamiento exponencial.
Suavizamiento exponencial lineal es un método que se aplica cuando se tiene una serie de tiempo las cuales son conjuntos de datos u observaciones que están ordenados en función del tiempo, las cuales tienen una tendencia lineal que se aprecia al graficar, ya que los puntos forman una línea recta.
La fórmula sería esta: P1 = Po+a(Do-Po)
Tendencia lineal y ecuación de tendencia lineal.
Tendencia Lineal previo a discernir cual es el tipo de regresión múltiple más conveniente, esto es, regresión lineal múltiple (plano o hiperplano de regresión), exponencial, cuadrática, logarítmica.
Fórmula
Los datos tienen forma de S, lo cual indica que la dirección del cambio varía en el tiempo.
Yt = 10a / (β0 + β1 β2t )
Tipos de Variación
La variación lineal ocurre entre dos magnitudes físicas cuando la gráfica que las representa es una línea recta y cuando dos cantidades están relacionadas de forma proporcional y el valor “0” de una no coincide con el “0” de la otra.
Variaciones con repetición: Cuando dentro de cada tupla se puede repetir un elemento más de una vez.
Variaciones sin repetición: Significa que los elementos no se pueden repetir dentro de una misma tupla.