Medidas de centralidade e variabilidade são importantes conceitos estatísticos para descrever um conjunto de dados.
Aqui estão algumas das medidas mais comuns:
Medidas de Centralidade:
Média
É a soma de todos os valores dividida pelo número total de valores.
A média é uma medida de centralidade que representa o valor típico ou central de um conjunto de dados. É calculada somando todos os valores do conjunto e dividindo pelo número total de valores.
A fórmula para calcular a média é:
- MA - Média
- Xn - Dados
- n - Quantidade de dados
A média é amplamente utilizada em várias áreas, como estatísticas, matemática, ciências naturais, economia e muitos outros campos. Aqui está um exemplo simples de como calcular a média:
Suponha que temos o seguinte conjunto de dados:
10, 15, 20, 25, 30.
Para encontrar a média, primeiro somamos todos os valores:
Soma dos valores
Soma dos valores = 10+15+20+25+30=100
Em seguida, contamos o número total de valores no conjunto, que é 5 neste caso.
Agora, usamos a fórmula da média: M 100/5 = 20
Portanto, a média desse conjunto de dados é 20.
A média é uma medida simples e útil para resumir um conjunto de dados. No entanto, é importante estar ciente de que a média pode ser influenciada por valores extremos (outliers), o que pode distorcer a representação do valor típico do conjunto de dados. Em casos onde os dados possuem outliers, pode ser mais apropriado usar outras medidas de centralidade, como a mediana.
Mediana
É o valor que divide o conjunto de dados ao meio quando ordenado. A mediana não é afetada por valores extremos e é uma medida de centralidade mais robusta.
Em outras palavras, é o valor do meio de um conjunto de dados ordenado. Se o número total de observações é ímpar, a mediana é o valor exato no meio; se o número total de observações é par, a mediana é a média dos dois valores do meio. A fórmula para calcular a mediana depende do número de observações no conjunto de dados.
Se n é o número total de observações no conjunto de dados:
Se n é ímpar, a mediana (Med) é o valor na posição (n+1)/2 quando os dados são ordenados.
Se n é par, a mediana (Med) é a média dos valores nas posições n/2 e n/2 + 1 quando os dados são ordenados.
Aqui está um exemplo de como calcular a mediana:
Suponha que temos o seguinte conjunto de dados: 10, 15, 20, 25, 30, 35.
Como o número total de observações é ímpar (6), a mediana será o valor na posição 6/2 = 3 e 6/2 + 1 = 4 quando os dados são ordenados.
Ordenando os dados: 10, 15, 20, 25, 30, 35.
A mediana será a média dos valores na terceira e quarta posições, que é (20 + 25)/2 = 45/2 = 22,5.
Portanto, a mediana desse conjunto de dados é 22,5.
A mediana é uma medida de centralidade robusta, especialmente em presença de valores extremos (outliers), já que ela não é influenciada por valores extremos como a média. Por essa razão, a mediana é muitas vezes preferida sobre a média quando os dados possuem outliers ou quando a distribuição dos dados é assimétrica.
Moda
A moda é o valor que ocorre com maior frequência em um conjunto de dados. Pode haver mais de uma moda ou mesmo nenhuma.
A moda é a medida de centralidade que representa o valor que ocorre com maior frequência em um conjunto de dados. Um conjunto de dados pode ter uma moda (unimodal), duas modas (bimodal) ou mais (multimodal), ou pode não ter nenhuma moda se todos os valores tiverem a mesma frequência.
Não há uma fórmula direta para calcular a moda, pois ela é determinada simplesmente observando os dados. No entanto, em conjuntos de dados com muitos valores diferentes, pode ser útil organizar os dados em uma tabela de frequências, onde cada valor único é listado juntamente com o número de vezes que ele ocorre. A moda é então identificada como o valor com a maior frequência.
Aqui está um exemplo de como encontrar a moda:
Suponha que temos o seguinte conjunto de dados: 10, 15, 20, 25, 30, 25, 20, 15, 10, 20.
Organizando os dados em uma tabela de frequências:
Valor | Frequência |
---|---|
10 | 2 |
15 | 2 |
20 | 3 |
25 | 2 |
30 | 1 |
Neste caso, o valor 20 tem a maior frequência (3 vezes), portanto, a moda desse conjunto de dados é 20.
A moda é útil para identificar valores comuns ou tendências predominantes em um conjunto de dados. No entanto, assim como a média, a moda pode ser sensível a valores extremos em conjuntos de dados.
Medidas de Variabilidade:
Amplitude
A diferença entre o maior e o menor valor no conjunto de dados. É uma medida simples de variabilidade, mas sensível a outliers.
A amplitude é uma medida de variabilidade que representa a diferença entre o maior e o menor valor em um conjunto de dados. É uma medida simples e direta de dispersão que fornece uma ideia básica da extensão dos valores no conjunto de dados. A fórmula para calcular a amplitude é:
Amplitude = Maior valor − Menor valor
Aqui está um exemplo de como calcular a amplitude:
Suponha que temos o seguinte conjunto de dados: 15, 20, 25, 30, 35.
Para encontrar a amplitude, primeiro identificamos o maior e o menor valor no conjunto de dados:
Maior valor = 35
Menor valor = 15
Agora, usamos a fórmula da amplitude:
Amplitude = 35 − 15 = 20
Portanto, a amplitude desse conjunto de dados é 20.
A amplitude é uma medida de variabilidade simples e fácil de calcular, no entanto, ela não leva em consideração todos os valores individuais do conjunto de dados, mas apenas os dois extremos (maior e menor valor). Portanto, a amplitude pode não fornecer uma representação completa da dispersão dos dados, especialmente em conjuntos de dados com valores intermediários que podem afetar a interpretação da variabilidade. Nesses casos, medidas mais robustas de variabilidade, como a variância ou o desvio padrão, são frequentemente preferidas.
Variância
É a média dos quadrados das diferenças entre cada valor e a média. Uma variância alta indica que os valores estão mais dispersos em torno da média.
A variância é uma medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média do conjunto de dados. A fórmula para calcular a variância, denotada por σ² para uma população e s² para uma amostra, é:
Para uma amostra:
Onde:
n é o tamanho da amostra.
xi são os valores individuais no conjunto de dados.
μ é a média da população.
x̅ é a média da amostra.
Aqui está um exemplo de como calcular a variância para uma amostra:
Suponha que temos o seguinte conjunto de dados amostrais: 10, 15, 20, 25, 30. Primeiro, calculamos a média da amostra:
Agora, utilizamos a fórmula da variância:Calculamos as diferenças entre cada valor e a média, elevamos ao quadrado e somamos:Agora, dividimos pela quantidade de elementos menos 1 (n-1):
Portanto, a variância para este conjunto de dados amostrais é 62.5.
A variância é útil para entender a dispersão dos dados em torno da média. No entanto, como a variância é expressa em unidades ao quadrado, pode ser difícil de interpretar. Por isso, frequentemente, é utilizada a raiz quadrada da variância, conhecida como desvio padrão, que tem as mesmas unidades que os dados originais.
Desvio padrão:
É a raiz quadrada da variância. Ele fornece uma medida de dispersão em unidades originais de dados, sendo mais interpretável do que a variância.
O desvio padrão é uma medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão da média. Ele é a raiz quadrada da variância. O desvio padrão é denotado por σ para uma população e s para uma amostra. As fórmulas para calcular o desvio padrão são semelhantes às da variância:
Onde:
N é o tamanho da população.
n é o tamanho da amostra.
xi são os valores individuais no conjunto de dados.
μ é a média da população.
x̅ é a média da amostra.
Aqui está um exemplo de como calcular o desvio padrão para uma amostra:
Suponha que temos o seguinte conjunto de dados amostrais: 10, 15, 20, 25, 30. Primeiro, calculamos a média da amostra (já calculada anteriormente como 20). Agora, utilizamos a fórmula do desvio padrão:
Substituindo os valores e simplificando, temos:
Portanto, o desvio padrão para este conjunto de dados amostrais é aproximadamente 7.91.
O desvio padrão é uma medida importante que fornece uma ideia da dispersão dos dados em torno da média. Quanto maior for o desvio padrão, mais dispersos os dados estarão em relação à média, e vice-versa. Ele é frequentemente utilizado para comparar a variabilidade entre diferentes conjuntos de dados ou para avaliar a precisão de um conjunto de medições.
Intervalo interquartil (IQR)
É a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). O IQR é útil porque não é afetado por outliers e fornece uma medida de dispersão para a metade central dos dados.
Essas medidas são essenciais para entender a distribuição e a dispersão dos dados, fornecendo insights importantes sobre a natureza dos dados e sua variabilidade.
O intervalo interquartil (IQR) é uma medida de variabilidade que descreve a dispersão dos dados em torno da mediana. Ele é calculado como a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1) de um conjunto de dados. Os quartis dividem os dados ordenados em quatro partes iguais, onde o primeiro quartil (Q1) representa o valor abaixo do qual está o primeiro quartil dos dados, e o terceiro quartil (Q3) representa o valor abaixo do qual está o terceiro quartil dos dados. A fórmula para calcular o IQR é:
Onde:
Q1 é o primeiro quartil (25%).
Q3 é o terceiro quartil (75%).
O IQR é útil porque é uma medida de variabilidade robusta que não é sensível a valores extremos (outliers) nos dados. Ele descreve a dispersão dos valores em torno da mediana, ignorando os valores extremos que poderiam distorcer outras medidas de variabilidade, como a amplitude.
Aqui está um exemplo de como calcular o IQR:
Suponha que temos o seguinte conjunto de dados ordenados: 10, 15, 20, 25, 30, 35, 40, 45, 50.
Primeiro, precisamos encontrar os quartis:
Portanto, o intervalo interquartil para este conjunto de dados é 25.
O IQR é frequentemente utilizado para identificar a dispersão dos dados em torno da mediana e para detectar a presença de outliers. Valores que estão muito acima ou abaixo de Q1−1.5×IQR ou Q3+1.5×IQR são considerados outliers e podem indicar valores extremos no conjunto de dados.
⇨ Introdução à Estatística: Conceitos Básicos e Aplicações
⇨VARIÁVEIS QUANTITATIVAS E QUALITATIVAS: O QUE SÃO E COMO ANALISAR?
⇨ Exercícios de Varável Quantitativas e Qualitativas