Cap 2 y 3 de Stock y Whatson

ESTADISTICA DESCRIPTIVA E INFERENCIAL

Itzel Nopalにより

KARL POPPER "EL FALSACIONISMO"

Camila Cuchimaqueにより

Valoración en Enfermería

rosa domsigにより

Bases teoricas del muestreo

Ana Cristell Navezにより

Si el valor F es grande y el valor p es pequeño, indica que hay diferencias significativas entre los grupos. Si el valor F es pequeño y el valor p es grande, las diferencias entre los grupos podrían deberse al azar.

Ejemplo: Si en una muestra el salario promedio es 22,64 dólares y la hipótesis dice que es 20: 1. Si el p-valor es bajo (por ejemplo, 5%), es poco probable que la diferencia sea por azar. Entonces, podemos decir que la hipótesis (20 dólares) probablemente no es correcta. 2. Si el p-valor es alto (por ejemplo, 40%), es probable que la diferencia sea solo por azar, por lo que no deberíamos rechazar la idea de que el promedio es realmente 20 dólares.

Cap 2 y 3 de Stock y Watson

Capítulo 2

2.6 Aproximación para muestras grandes de las distribuciones muestrales

Herramientas para las aproximaciones

Teorema central del limite

Qué es: Un principio que afirma que, cuando el tamaño de la muestra es grande, la distribución de los promedios muestrales se aproximará a una distribución normal (en forma de campana), sin importar cómo sea la distribución original de los datos

Ley de números grandes

Qué es: Un principio que dice que a medida que aumentas el tamaño de la muestra, los resultados promedio de tus datos muestrales se acercarán al promedio real de toda la población

Métodos de caracterizar las distribuciones muestrales

Aproximado

¿Cuándo se usa? Cuando la muestra es lo suficientemente grande (generalmente más de 30 observaciones), y se busca una forma más fácil de calcular la distribución muestral

¿Qué es? Utiliza aproximaciones cuando el tamaño de la muestra es grande para simplificar el cálculo.

Exacto

¿Cuándo se usa? Cuando se puede encontrar una fórmula clara y precisa para la distribución de los datos muestrales

¿Qué es? Busca una fórmula precisa que describe la distribución de los datos muestrales para cualquier tamaño de muestra.

2.5 Muestreo aleatorio y distribución de la media muestral

Distribución muestral de la media muesral

Distribución muestral de la media: Si tomamos muchas muestras diferentes del mismo tamaño de una población, calculamos la media de cada muestra y graficamos esas medias, obtendremos una distribución. Esa distribución es lo que llamamos la "distribución muestral de la media muestral".

Media muestral: Es el promedio de una muestra de datos tomada de una población

Muestreo aleatorio simple

En un muestreo aleatorio simple, saber el valor de una muestra (por ejemplo, (𝑌1) no te da información sobre las otras muestras (como 𝑌2). Es decir, cada muestra es independiente de las demás.

Se aplica cuando:

Se tiene acceso a toda la población y se puede identificar claramente a cada elemento

Se busca garantizar que todos los elementos de la población tengan una oportunidad equitativa de ser elegidos.

La población es homogénea

Es una técnica de selección de muestras donde cada elemento de la población tiene la misma probabilidad de ser elegido. Es como si se metieran todos los nombres en un sombrero y se eligiera uno al azar, sin que nadie tenga más o menos posibilidad que otro de ser seleccionado

2.4 Distribuciones de normalidad

Distribución F

La distribución F es una distribución de probabilidad que se usa principalmente en análisis de varianza (ANOVA) y en pruebas de hipótesis para comparar dos o más varianzas de diferentes poblaciones

Valor p: Se compara el valor F con un valor crítico en la tabla de distribución F (que depende del nivel de significancia y los grados de libertad). Si el valor p es pequeño (por ejemplo, menor a 0.05), se rechaza la hipótesis nula y se concluye que hay diferencias significativas entre los grupos.

Calculo de valor F: Se obtiene al hacer la razón entre dos varianzas (una entre grupos y otra dentro de los grupos). Si el valor F es cercano a 1, sugiere que las varianzas son similares.

¿Para que sirve? Se usa principalmente para realizar pruebas de hipótesis sobre si dos varianzas (o más) son significativamente diferentes. En otras palabras, responde preguntas como: ¿las diferencias observadas en las medias de diferentes grupos son debido a la variabilidad natural o a un efecto real en los datos?

Distribución T Student

La distribución t de Student es una distribución de probabilidad que se usa para hacer inferencias estadísticas cuando el tamaño de la muestra es pequeño y/o no se conoce la desviación estándar de la población.

Interpretación de resultados

Tomas una decisión:

Si el valor p es mayor a 0.05: No rechazas la hipótesis nula. Esto significa que no hay suficiente evidencia para concluir que las medias son diferentes o que la hipótesis alternativa es cierta.

Si el valor p es menor a 0.05: Rechazas la hipótesis nula. Esto significa que hay evidencia suficiente para decir que las medias son significativamente diferentes

Obtención del valor p

Generalmente es 0.05

Obtención del valor t

Planteamiento de hipótesis

¿Para qué se usa? Se utiliza principalmente en pruebas de hipótesis y análisis de confianza, especialmente cuando trabajas con muestras pequeñas (generalmente menos de 30 observaciones)

Prueba t para dos muestras

Ejemplo: Comparar si los hombres y mujeres de un grupo pequeño tienen, en promedio, diferentes puntajes en un examen

Para qué sirve: Para comparar las medias de dos grupos y ver si son significativamente diferentes entre sí.

Prueba t de una muestra

Ejemplo: Si tienes un grupo pequeño de estudiantes y quieres saber si su promedio de calificaciones es diferente al promedio general de todos los estudiantes

Para qué sirve: Para comparar si la media de una muestra es significativamente diferente de un valor conocido (como la media de la población).

Distribución de chi-cuadrado

Algunos casos comunes

Prueba de homogeneidad

Ejemplo: Puedes usarla para comparar las preferencias de producto en diferentes regiones. Si las preferencias son similares en todas las regiones, los grupos son homogéneos en términos de esas preferencias

Si diferentes grupos tienen la misma distribución de una variable categórica

Prueba de independencia

Ejemplo: Puedes usar esta prueba para analizar si el género (masculino o femenino) y la preferencia de producto (A, B, C) están relacionadas. Si la distribución de preferencias es diferente para cada género, entonces las variables no son independientes.

Si dos variables categóricas son independientes entre sí o si están asociadas

Prueba de bondad

Ejemplo: Si esperas que los colores de bolitas en una bolsa estén distribuidos uniformemente y encuentras que algunas colores son mucho más frecuentes que otros, la prueba de chi-cuadrado puede ayudarte a determinar si esta diferencia es significativa.

Si una distribución de datos observados sigue una distribución teórica esperada

Es útil para evaluar la relación entre variables categóricas y para verificar cómo se ajustan los datos observados a un modelo teórico esperado

¿Qué es una variable categórica?

Una variable categórica es una variable que puede tomar un número limitado de valores distintos, cada uno representando una categoría o grupo. A diferencia de las variables numéricas, que representan cantidades y tienen un orden natural, las variables categóricas representan cualidades o características.

Variables ordinales

Variables nominales

Es un tipo de distribución de probabilidad que describe cómo se distribuyen los valores de una variable en torno a su media

Multivariante

Bivariante

Univariante

2.3 Dos variables aleatorias

Covarianza y correlación

Correlación. Debido a que la covarianza es el producto de X e Y, en desviaciones respecto de sus medias, sus unidades son, desafortunadamente, las unidades de X multiplicadas por las unidades de Y. Este problema de «unidades» puede ocasionar que los resultados numéricos de la covarianza sean difíciles de interpretar. La correlación es una medida alternativa de la dependencia entre X e Y que resuelve el problema de las «unidades» de la covarianza. En concreto, la correlación entre X e Y es la covarianza entre X e Y dividida por sus desviaciones típicas

La correlación es una medida que cuantifica la relación entre dos variables, pero a diferencia de la covarianza, está normalizada, lo que la hace más fácil de interpretar

Una correlación de 0 indica que no hay relación lineal entre las dos variables.

Una correlación de -1 indica una relación perfectamente negativa (cuando una aumenta, la otra disminuye de manera proporcional).

Una correlación de 1 indica una relación perfectamente positiva entre las dos variables (cuando una aumenta, la otra también lo hace de manera proporcional).

Covarianza es una medida del grado al que dos variables aleatorias evolucionan conjuntamente es su covarianza

Distribución conjunta y marginal

La distribución condicional de una variable aleatoria Y condicionada a que otra variable aleatoria X tome un valor específico se denomina distribución condicional de Y dado X

La distribución marginal te dice la probabilidad de que una variable tenga ciertos valores sin preocuparte por la otra variable

La distribución de probabilidad conjunta de dos variables aleatorias discretas, X e Y, es la probabilidad de que las dos variables aleatorias tomen valores concretos de forma simultánea, x e y. Las probabilidades de todas las posibles combinaciones (x, y) suman 1

La distribución conjunta te dice la probabilidad de que dos variables tengan ciertos valores simultáneamente

2.2 Esperanza, media y varianza

Otras formas de distribución

Momentos

4° Momento: El cuarto momento mide la curtosis, que describe el "peso" de las colas de la distribución en comparación con una distribución normal. En otras palabras, la curtosis indica si los datos tienen más o menos valores extremos que una distribución normal.

3° Momento: El tercer momento mide la asimetría de la distribución, es decir, si los datos están sesgados hacia la izquierda o hacia la derecha de la media.

2° Momento: El segundo momento se refiere a la varianza, que mide la dispersión o la variabilidad de la distribución con respecto a su media. La varianza describe qué tan dispersos están los valores alrededor de la media.

1° Momento: El primer momento se refiere a la media o el valor esperado de una variable aleatoria. Representa el centro o la tendencia central de la distribución.

La curtosis de una distribución es una medida de cuánta masa probabilística se encuentra en sus colas, por tanto, es una medida de cuánta varianza de Y proviene de los valores extremos

Lepto, meso y plati curtica son los tipos de curtosis

La asimetría es una medida estadística que describe la simetría o la falta de simetría en la distribución de una variable aleatoria

Puede ser positiva (hacia valores altos), negativa (hacia valores bajos) o nula (es asimetrica)

Media y varianza de una función lineal de variables aleatorias

Desviación típica y varianza

Desviación típica es la varianza al cuadrado

La varianza de una variable aleatoria Y, que viene expresada por var(Y), es el valor esperado del cuadrado de la desviación de Y respecto de su media

La esperanza de una variable aleatoria

Esperanza de una variable aleatoria continua

Esperanza de una variable aleatoria de Bernouilli

E(G)=1xp+0x(1-p)=p.

La esperanza de una aleatoria Y, denominada E(Y), es el valor medio de largo plazo de la variable aleatoria a lo largo de muchos intentos repetidos o eventos. La esperanza de una variable aleatoria discreta se calcula como la media ponderada de los posibles resultados de la variable aleatoria, donde las ponderaciones son las probabilidades de esos resultados.

Por ejemplo, suponga que presta a un amigo 100$ al 10 % de interés. Si el préstamo se devuelve, obtendrá 110 $ (el principal de 100 $ más los intereses de 10 $), pero existe un riesgo del 1 % de que su amigo incumpla el pago y usted no reciba nada en absoluto. Por tanto, el montante que percibirá es una variable aleatoria que es igual a 110 $ con probabilidad 0,99 e igual a 0 $ con probabilidad 0,01. A lo largo de muchos préstamos así, el 99 % de las veces percibirá 110 $, pero el 1 de las veces no obtendrá nada, por tanto en media percibirá 110 $ x 0,99+0 $x0,01=108,90 $. Por tanto, el valor esperado del reembolso (o el «reembolso medio») es 108,90 $.

2.1 Variables aleatorias y distribuciones de probabilidad

Distribución de probabilidad de una variable aleatoria continua

Función de densidad de probabilidad. Debido a que una variable aleatoria continua puede tomar sus valores posibles en un continuo, la distribución de probabilidad utilizada para las variables discretas, que presenta la probabilidad de cada posible valor de la variable aleatoria, no es aplicable a las variables continuas

Distribución de probabilidad acumulada es la probabilidad de que la variable aleatoria sea menor o igual que un valor concreto

Por ejemplo, considere una estudiante que conduce desde su casa a la escuela. El tiempo que lleva este desplazamiento de la estudiante puede tomar un continuo de valores y, como depende de factores aleatorios tales como la meteorología y las condiciones del tráfico, es natural tratarlo como una variable aleatoria continua

Distribución de probabilidad de una variable aleatoria discreta

Distribución de Bernouilli (Variable aleatoria binaria)

Distribución de probabilidad acumulada es la probabilidad de que la variable aleatoria sea menor o igual a un valor concreto

Por ejemplo, la probabilidad de al menos una avería, Pr(M<1), es del 90 %, que es la suma de las probabilidades de que no se averíe (80 %)y de una avería (10 %).

Probabilidad de sucesos puede calcularse a partir de la distribución de probabilidad

Por ejemplo, la probabilidad del suceso una o dos averías es la suma de probabilidades de los resultados de los que consta el suceso. Esto es Pr(M=1 o M=2)=Pr(M=1)+Pr(M=2)= 0,10+0,06=0,16, o 16 %.

Distribución de probabilidad de una variable aleatoria discreta es una relación de todos los valores posibles de la variable junto con la probabilidad de que ocurra cada valor

La probabilidad de que M=0, que se expresa como Pr(M=0), es la probabilidad de que el ordenador no se estropee; Pr(M=1) es la probabilidad de una única avería en el ordenador; y así sucesivamente.

Probabilidades, espacio muestral y variables aleatorias

Variables aleatorias

¿Qué es ? Describe los posibles valores numéricos que pueden ocurrir como resultado de un evento o experimento aleatorio

Continua: toma valores en un continuo de posibles valores

Discreta: es un resumen numérico de un resultado aleatorio Ejemplo: 0, 1, 2, 3....

Espacio muestral es el conjunto de todos los posibles resultados

Suceso es un subconjunto del espacio muestral muestral, esto es, un suceso es un conjunto de uno o más resultados

Ejemplo: El suceso «mi ordenador no se estropeará más de una vez» es el conjunto que consta de dos resultados: «sin averías» y «una avería».

Capítulo 3

3.3 Intervalos de confianza para la media poblacional

3.2 Contraste de hipótesis sobre la media poblacional

Varianza muestral, desviación típica muestral y error estándar

Contrastes de hipótesis con nivel de significación preestablecido

Error tipo II

La hipótesis nula no es rechazada cuando en realidad es falsa

Error tipo I

Rechazar incorrectamente la hipótesis nula cuando es verdadera

Desviación típica muestral

Interpretación

Si la desviación típica es grande, significa que los datos están más alejados del promedio y son más variados.

Si la desviación típica es pequeña, significa que la mayoría de los datos están cerca del promedio.

La desviación típica muestral (también conocida como desviación estándar muestral) es una medida que nos dice qué tan dispersos o separados están los datos en una muestra. Es decir, nos indica si los valores de los datos están muy juntos o muy dispersos alrededor del promedio.

Valor p

Interpretación del valor p

p-valor alto: Es probable que la diferencia se deba al azar, así que no tenemos razones para rechazar la hipótesis.

p-valor bajo: Es poco probable que la diferencia se deba al azar, por lo que podemos sospechar que la hipótesis es falsa

El p-valor nos dice qué tan probable es que la diferencia observada sea solo por azar, si la hipótesis es verdadera.

¿Por qué puede haber diferencias entre la media de la muestra y la hipótesis?

Puede que la hipótesis sea correcta, pero la diferencia que vemos se deba al azar (porque tomamos una muestra y no toda la población)

Puede que la hipótesis sea incorrecta (por ejemplo, el salario real no es 20 dólares).

Supongamos que queremos saber si el promedio de algo (como el salario de los recién graduados) es igual a un número específico (por ejemplo, 20 dólares)

Hipótesis nula y alternativa

3.1 Estimación de la media poblacional

Los estimadores y sus propiedades

Eficiencia

Si comparamos dos estimadores, el que tiene menor varianza es el más eficiente, porque utiliza mejor la información de los datos para darnos una estimación más precisa

La varianza mide cuánto varían los resultados de un estimador cuando tomamos diferentes muestras. Un estimador con menos varianza es más confiable.

Consistencia

Un estimador es consistente cuando, al tomar muestras cada vez más grandes, el resultado que obtenemos se aproxima cada vez más al valor real de la población. Es decir, cuanto más grande es la muestra, más preciso es el estimador.

Insesgadez

Si un estimador es insesgado, significa que si tomáramos muchas muestras diferentes y calculáramos el promedio en cada una, el promedio de esos resultados estaría cerca del valor real de la población. Es decir, el estimador no tiende a sobreestimar ni subestimar sistemáticamente el valor verdadero

En el análisis estadístico, el contraste de hipótesis es una herramienta fundamental para evaluar si una afirmación sobre una población es válida. Se utiliza el valor p para determinar la significancia de los resultados obtenidos a partir de una muestra.