A probabilidade e a estatística são fundamentais para a análise de dados. A regra da adição ajuda a calcular a probabilidade de eventos exclusivos e não exclusivos. O boxplot é um gráfico útil para visualizar a distribuição dos dados, destacando valores mínimos, máximos, quartis e outliers.
A ideia desse diagrama é representar graficamente conjuntos colocando-se nos seus interiores seus respectivos elementos.
Probabilidade condicional
Probabilidade de ocorrência de um evento, dado que outro evento ja ocorreu. P(A/B) = P(A ∩ B)/P(B)
Regra da adição
Regra da adição para eventos exclusivos: P(A U B) = P(A) + P(B)
Regra da adição para eventos não exclusivos: P (A U B) = P(A ) + P(B) - P(A ∩ B)
Eventos mutuamente exclusivo e não exclusivos e regras de probabilidade
Regras de probabilidade: 0 ≤ P ≤ 1 ou 0% ≤ P ≤ 100% P(A) = 1 - P(A) -> probabilidade complementar
Eventos não exclusivos
Eventos que podem ocorrer simultaneamente -> homem e matriculado em determinado curso.
Evento mutuamente exclusivo
Alunos matriculados ou não em um curso -> A ocorrência de um impede ou exclui a ocorrência de outro evento.
Coeficiente de variação
Expressa a dispersão dos dados em forma de porcentagem: CV = S / X . 100 Se CV < 15% há baixa dispersão Se 15% ≤ CV < 30% há média dispersão Se CV ≥ 30% há elevada dispersão
Gráfico Boxplot
O boxplot ou diagrama da caixa é um gráfico utilizado para avaliar a distribuição dos dados. Para isso, precisamos de alguns valores importantes, eles são: Valor mínimo do conjunto de dados, primeiro quartil, mediana, terceiro quartil valor máximo. A partir do boxplot podemos identificar os valores chamadas de outliers, ou seja, os valores que estão fora do limite de mínimo e máximo do conjunto de dados.
Medidas de dispersão: Desvio médio
Quartis
Regra 1: Se o resultado corresponder a um número inteiro, então o quartil é igual ao valor na ordem de classificação. Regra 2: Se o resultado for uma parte fracionada (2,5;4,5; 3,25; 4,75,etc.), então o quartil é igual à medida entre os valores correspondentes na ordem de classificação.
Dividem um conjunto de dados em quatro partes iguais: Primeiro quartil, Q,: 25% dos valores são menores ou iguais a Q,. Terceiro quartil, Q,: 75% dos valores são menores ou iguais a Q₃.
Propriedades da média
∑ di = 0. Toda somatória tem que resultar em zero
Desvio médio
Desvios alto: Muita disperção
Desvios baixo: Pouca dispersão
Diferença entre cada número do conjunto de dados e a média. di = (xi - x traço em cima do x)
Gráfico de setores
Também conhecido como gráfico de pizza.
Gráfico utilizado quando queremos representar informações através de porcentagens.
Tabelas
A frequência relativa apresenta a porcentagem de absorção.
Frequência absoluta: Frequência absoluta de um valor é o numero de vezes em que uma determinada variável assume um valor
O titulo aparece sempre na parte superior da tabela e deve ser claro
Os totais devem ser destacados
Nenhuma casa de tabela deve ficar em branco
A tabela deve ser simples e autoexplicativa
Distribuição de probabilidade
P(X) = n!/X!(n - X)! . P x elevado . (1-P)n-x elevados X= sucessos n = total de termos P = probabilidade de sucesso 1 - P = probabilidade de insucesso
Regra da multiplicação
Probabilidade de ocorre o evento A e o evento B: P(A ∩ B) = P(A) . P(B)
Eventos independentes e eventos dependentes
Eventos independentes
A probabilidade de ocorrência de um evento não é afetada pela ocorrência do outro.
Eventos dependentes
A probabilidade de ocorrência de um evento é afetada pela ocorrência de outro.
Probabilidade básica
A probabilidade estuda a chance de determinado evento ocorrer: Chance de chover, chance de nacer menino ou menina, chance de sair cara ou coroa, etc. P = X / t, 0 ≤ P ≤ 1
Medidas de dispersão: desvio padrão
O desvio padrão indica a dispersão de todos os dados em torno da media, ou seja, analisa o conjunto de dados por inteiro. S = √S²
Medidas de dispersão: Variância.
A variância é uma medida de dispersão que mostra o quão distante cada valor do conjunto de dados está do valor central. S² = ∑ di²/n-1 = ∑(Xi-X travessão em cima do X)² / n-1
Medidas de tendência central: Média, mediana e moda.
Mediana: A mediana é o valor central em um conjunto ordenado de dados. Regra 1: Se existir uma quantidade ímpar de valores no conjunto de dados, a mediana corresponde ao valor que esta no meio na ordem de classificação. Regra 2: Se existir uma quantidade par de valores no conjunto de dados, a mediana corresponde à média entre os dois valores que estão no meio na ordem de classificação.
Moda: Valor que aparece com maior frequência no conjunto de dados. a) 2, 5, 6, 8, 10: Amodal. b) 2, 3, 4, 4, 5, 6, 6, 7: 4, 6 C) 2, 2, 3, 3, 3, 4, 5, 5: 3
Média x traço em cima do x = ∑ xi/n somar todos os valores e dividir pelo total de valores que nós temos.
Gráfico de barras
É importante que num gráfico de barras, as colunas tenham a mesma largura e a altura de cada barra, ou coluna, deve ser proporcional à frequência (relativa ou absoluta) à qual variável se refere. O título, assim como na tabela, deve ser claro e representar corretamente a informação do gráfico.
Os gráficos de barras representam os dados através de retângulos, com o intuito de analisar as projeções no período determinado.
Introdução á estatística
Continua: altura, peso, salario
Quantitativas: discreta: numero de filhos, numero de acessos a plataforma
Tipos de variáveis
Ordinal: escolaridade, estagio da doença, classe social.
Qualitativas: nominal: profissão, sexo, religião
Vocabulário básico de estatística
1) Variável: varia se modifica; 2) População: itens a tirar conclusão; 3) Amostra: parcela de população; 4) parâmetro: medida numérica que descreve uma característica.