ESTADÍSTICA DESCRPTIVA

conceptos estadísticos

POBLACIÓN

Se llama población, universo o colectivo al conjunto de elementos que poseen una determinada característica.

MUESTRA

Una muestra es cualquier subconjunto de la población elegido en términos de representatividad.

El tamaño de una muestra viene determinado por el número de individuos que contiene.

VARIABLES

Se denomina variable a cualquier carácter o fenómeno estadístico que pueda expresarse en valores numéricos.

Los resultados derivados de la observación de una variable son los valores o datos.

Las variables pueden ser, a su vez, clasificadas como discretas o continuas.

Discretas

una variable es discreta cuando presenta un número finito de valores: por ejemplo, el número de asalariados en una empresa puede ser de 10, 11, 12, 13, etc.

Continuas

Una variable es continua cuando puede tomar infinitos valores dentro del intervalo finito o infinito en el que está definida.

Se denomina variable cualitativa, atributo o factor a cualquier carácter o fenómeno estadístico que no pueda presentarse en valores numéricos.

ATRIBUTOS

Los resultados derivados de la observación de un atributo son las modalidades, categorías o niveles.

los atributos se suelen denotar con las primeras letras mayúsculas del alfabeto (A, B, C, …) y las modalidades con letras minúsculas [(a1, a2, a3, …, an), (b1, b2, b3, …, bn), (c1, c2, c3, …, cn)].

Los atributos gozan de gran importancia en el campo de las relaciones laborales. Como ejemplos se pueden citar los siguientes:

el tipo de salario (en dinero o especie); la raza, sexo, edad, estado civil, condición social, ideas políticas o religiosas del trabajador

ESCALAS DE MEDIDA

Las observaciones de un carácter o fenómeno pueden presentarse en tres tipos de escalas:

Escala nominal. Las observaciones de un carácter vienen expresadas en escala nominal cuando se pueden clasificar en varias categorías, excluyentes entre sí, entre las cuales no existe ninguna relación de orden y, por tanto, no se puede establecer un origen de referencia, como tampoco es posible operar matemáticamente.

Escala ordinal. Se diferencia de la escala anterior en que, en este caso, se pueden establecer relaciones de orden entre las diferentes categorías, existiendo, por tanto, un origen de referencia.

Estas categorías se pueden ordenar según el grado en que posean cierta característica, lo que permite decir que una categoría es preferible o mejor que otra, pero no se puede determinar cuánto más se prefiere o es mejor.

Los atributos también vienen expresados en este tipo de escala, pero solamente aquéllos en los cuales se pueda establecer un orden entre sus categorías: por ejemplo, el nivel de estudios (bajo, medio, alto), las infracciones laborales del empresario (leves, graves, muy graves), el nivel de riesgo laboral (bajo, medio, alto), etc.

Escala cuantitativa. A diferencia de las dos anteriores, la escala cuantitativa posee una unidad de medida, con lo cual se puede operar matemáticamente y obtener una serie de medidas que van a caracterizar el fenómeno que se está analizando. Las observaciones derivadas de los caracteres cuantitativos vienen dadas en este tipo de escala.

DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIAS

TIPOS DE FRECUENCIAS

Se define la frecuencia total (N) como el número total de observaciones, valores o datos que se tienen de la variable X.

La frecuencia absoluta indica el número de veces que se repite un determinado valor, pero no aporta nada acerca de la importancia relativa de dicho valor.

frecuencia relativa, que se define como el cociente entre la frecuencia absoluta del valor considerado y la frecuencia total

La frecuencia absoluta acumulada hasta el valor xi (Ni) indica el número de frecuencias que hay hasta el valor xi, incluido éste y supuestos los valores ordenados de menor a mayor

En consonancia con la frecuencia relativa, se define la frecuencia relativa acumulada (Fi) como el cociente entre la frecuencia absoluta acumulada y la frecuencia total

DISTRIBUCIONES UNIDIMENSIONALES DE FRECUENCIAS

El término «unidimensional» hace referencia a la observación exclusiva de una variable o atributo.

agrupada en intervalos

siendo la frecuencia de cada intervalo igual a la suma de las frecuencias de todos los valores incluidos en él.

frecuencias unitarias

Se denomina si todas las frecuencias absolutas son iguales a 1.

REPRESENTACIONES GRÁFICAS

CARACTERES CUALITATIVOS

Los diagramas de barras expresan mediante rectángulos verticales las frecuencias absolutas o relativas de las distintas modalidades observadas.

El diagrama de Pareto combina un diagrama de barras con un polígono acumulativo de frecuencias.

estas modalidades se encuentran ordenadas por orden decreciente de frecuencias

Otras representaciones muy utilizadas son los denominados cartogramas y pictogramas.

Un cartograma es un gráfico realizado sobre un mapa, en el cual el carácter cualitativo analizado se señala en determinadas zonas con diferentes colores o rayados

un pictograma es un dibujo alusivo al carácter representado.

CARACTERES CUANTITATIVOS

son cuantitativos, cuando se analizan variables, es necesario distinguir si la distribución de frecuencias está agrupada en intervalos o no.

Distribuciones no agrupadas en intervalos

Los diagramas de puntos, consisten en superponer tantos puntos como frecuencias (absolutas o relativas) se observen en cada valor de la distribución.

Los diagramas de barras, surgen cuando se traza para la base correspondiente a cada valor de la variable una perpendicular al eje de abscisas de

altura igual a su frecuencia (absoluta o relativa). Uniendo los extremos superiores de las barras se tienen los llamados polígonos de frecuencias

Una forma muy peculiar de presentar los caracteres cuantitativos es mediante el diagrama de tallo y hojas en el cual los datos aparecen recogidos en una tabla con dos columnas: en la derecha (hoja) se encuentran las unidades de los valores y en la izquierda (tallo), de derecha a izquierda, las decenas, centenas, etc. de los mismos.

Distribuciones agrupadas en intervalos

Si la distribución de frecuencias está agrupada en intervalos, los gráficos más utilizados son los histogramas. Éstos se construyen levantando sobre cada intervalo un rectángulo cuya área sea proporcional a la frecuencia absoluta (o relativa) del correspondiente intervalo.

Si los intervalos tienen la misma amplitud la altura de los rectángulos es la frecuencia absoluta (o relativa), y si la amplitud es distinta la altura es igual a la densidad de frecuencia (di), definida como el cociente entre la frecuencia absoluta (o relativa) y la amplitud.

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar el uso, generalmente con el apoyo de tablas, medidas numéricas o gráficas.

Caractrísticas de una distribución de frecuencia

Medidas de posición

Medidas de posición central

Las medidas de posición central más importantes son las medias (aritmética, geométrica y armónica), la mediana y la moda.

Media aritmética

La media aritmética tiene una serie de ventajas:

_En su cálculo intervienen todos los valores de la distribución, lo cual parece un requisito indispensable de un promedio.
_Es fácil de calcular y siempre se puede determinar. En distribuciones agrupadas es necesario que los intervalos estén perfectamente definidos; si los intervalos son del tipo menor que o mayor que, al no poderse calcular la marca de clase tampoco se puede calcular la media.
_Es única.
_La media aritmética es el centro de gravedad de la distribución, en virtud de la primera propiedad.

Media geométrica

La media geométrica de una distribución de frecuencias (xi; ni), que se representa por G, se define como la raíz N-ésima del producto de los valores de la variable elevados a sus correspondientes frecuencias absolutas.

SubLa media geométrica se suele utilizar para promediar, por ejemplo, tipos de interés, tasas de variación, porcentajes y números índice, es decir, cuando los valores de la variable presentan variaciones acumulativas.topic

Media armónica

La media armónica H de una distribución de frecuencias (xi; ni) se define como la inversa de la media aritmética de los inversos de los valores de la variable

La media armónica se suele utilizar para promediar rendimientos, productividades, etc., es decir, cuando las unidades de medida de la variable analizada vienen dadas en forma de cociente.

Medias ponderadas

Cuando la ponderación de los valores de la variable (wi) es distinta de la frecuencia (absoluta o relativa) se tienen las denominadas medias (aritmética, geométrica y armónica) ponderadas

Mediana

la mediana se define como aquel valor que divide la distribución de frecuencias de forma que el número de frecuencias que quedan a su izquierda es igual al número de las que quedan a su derecha.

Moda

La moda es aquel valor de la variable que presenta mayor frecuencia absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que existan varios valores que presenten la máxima frecuencia absoluta, teniéndose entonces una distribución bimodal, trimodal, etc.

Se distinguen dos casos:

La amplitud de los intervalos es la misma.

En este caso, el intervalo modal es aquel que presenta mayor frecuencia absoluta y, como se desconocen los valores incluidos en dicho intervalo, se puede aproximar la moda siguiendo varios criterios:

La amplitud de los intervalos es distinta

En este caso, el intervalo modal no es el que tiene mayor frecuencia absoluta sino el que tiene mayor frecuencia por unidad de intervalo, es decir, mayor densidad de frecuencia

MEDIDAS DE POSICIÓN NO CENTRAL

Estas medidas, como su nombre indica, no reflejan ninguna tendencia central. Se denominan genéricamente cuantiles y son aquellos valores de la variable, odenados en sentido creciente, que dividen la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

Distribuciones no agrupadas en intervalos

La explicación se centrará en los cuartiles, si bien es fácilmente generalizable a los deciles y percentiles.

Distribuciones agrupadas en intervalos

Como en el caso anterior, se hará referencia a los cuartiles, si bien se puede proceder de forma similar para la determinación de deciles y percentiles.

MEDIDAS DE DISPERSÓN

Existen dos tipos de medidas de dispersión:

las absolutas, se utilizan cuando se trata de analizar la variabilidad de, únicamente, una distribución de frecuencias

las relativas, se utilizan cuando se pretende comparar la variabilidad de dos o más.

MEDIDAS DE FORMA

Para realizar un resumen completo de la variable objeto de estudio se deben analizar, además de las medidas de posición y dispersión, otra serie de medidas que caracterizan de forma más precisa el comportamiento de dicha variable, ya que pueden existir distribuciones que presenten el mismo valor central e igual grado de dispersión, y diferir, sin embargo, en la forma o aspecto de sus histogramas o diagramas de barras.

dos tipos:

MEDIDAS DE ASIMETRÍA

El objetivo de estas medidas es determinar, sin necesidad de dibujar la distribución de frecuencias, la deformación horizontal de los valores de la variable analizada respecto a un valor central, generalmente la media aritmética.

MEDIDAS DE APUNTAMIENTO O CURTOSIS

Este coefíciente se utiliza cuando las distribuciones son simétricas o ligeramente asimétricas, ya que en este tipo de distribuciones frecuentemente se da el caso de que las más altas que la normal en las colas también lo son en el centro.

BOX AND WHISKER PLOTS (GRÁFICOS DE CAJA Y BIGOTES)

permite determinar fácilmente de forma visual la tendencia central, la variabilidad, la asimetría y la existencia de valores anómalos en una distribución de frecuencias.

Box (caja): la línea interior de la caja representa la mediana, la de la izquierda el primer cuartil y la de la derecha el tercer cuartil. La caja, que recoge el 50% de las observaciones centrales de la distribución, se determina uniendo los extremos de estas tres líneas por dos segmentos paralelos.

Whiskers (bigotes): la observación más grande (pequeña) que no se aleja más de 1,5 veces el recorrido intercuartílico (C3 – C1) desde el tercer (primer) cuartil se encuentra unida a la caja por el denominado whisker derecho (izquierdo).

Valores sospechosos de ser anómalos (o): los puntos que sobrepasan los extremos de los whiskers pero no están a más de 3 veces el recorrido intercuartílico desde el lado derecho (izquierdo) de la caja.

Valores anómalos (*): puntos que se alejan del lado derecho (izquierdo) de la caja 3 o más veces el recorrido intercuartílico.