Part I: Basic Unix Environment
1.3 The Core of Unix
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Efectivamente as medidas de localização que estudámos, não são suficientes para caracterizar completamente um conjunto de dados.
Considerem-se os três conjuntos de dados:
Conjunto 1 15 15 15 15 15
Conjunto 2 10 13 15 17 20
Conjunto 3 0 7 15 23 30
Embora tenham a mesma média, mediana e média aparada, têm um aspecto bem diferente no que diz respeito à variabilidade.
Como a medida de localização mais utilizada é a média, será relativamente a ela que se define a principal medida de dispersão - o desvio padrão, apresentado a seguir. Começamos, no entanto, por definir variância, que serve de base à definição de desvio padrão.
3.3.1 - Variância
Define-se a variância e representa-se por s2, como sendo a medida que se obtém somando os
quadrados dos desvios das observações relativamente à média, e dividindo pelo número de observações menos uma:
s2 =
(x
i−x )
2 i=1 n∑
n−1
Quais as razões que nos levam a considerar aquela definição para a variância?
♦ Se afinal pretendemos medir a dispersão relativamente à média, porque é que não somamos simplesmente os desvios, em vez de os quadrar?
O que acontece é que a soma dos desvios é igual a zero, pois os desvios positivos estão a cancelar com os desvios negativos,
(x1 -
x
) + (x2 -x
) + (x3 -x
) + .... +(xn -x
)= 0 !Poderíamos ter utilizado módulos, para evitar que os desvios positivos cancelassem com os desvios negativos, mas é mais fácil trabalhar com os quadrados, do que com os módulos!
♦ E então porque é que em vez de dividirmos por n, que é o número dos desvios, dividimos por (n-1)?
Na realidade, só aparentemente é que temos n desvios independentes, isto é, se calcular (n-1) desvios, o restante fica automaticamente calculado, uma vez que a sua soma é igual a zero, como vimos no parágrafo anterior. Costuma-se referir este facto, dizendo que se “perdeu“ um ”grau de liberdade”.
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão.
3.3.2 - Desvio padrão
Pelas razões apontadas anteriormente, a medida de dispersão que se costuma utilizar é o desvio
padrão, que se representa por s e é a raiz quadrada da variância:
s =
(x
i−x )
2 i=1 n∑
n−1
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior
for, maior será a dispersão dos dados.
Relativamente aos três conjuntos de dados apresentados no início do estudo das medidas de dispersão, verificamos que:
- o conjunto 1 apresenta um desvio padrão igual a zero, como seria de esperar, pois se os valores são todos iguais, a dispersão é nula;
- os conjuntos 2 e 3 apresentam um desvio padrão igual, respectivamente, a 3.8 e 12.0.
O desvio padrão, da mesma forma que a média, é muito sensível à presença de outliers, sendo portanto uma medida de dispersão pouco resistente. Assim, um valor grande para o desvio padrão, pode ser devido a uma grande variabilidade nos dados, ou então a uma pequena variabilidade, mas à existência de um ou mais outliers.
Propriedade para dados com distribuição aproximadamente normal:
Uma propriedade que se verifica se os dados se distribuem de forma aproximadamente normal, ou seja, quando o histograma apresenta uma forma característica com uma classe média predominante e as outras classes distribuindo-se à volta desta de forma aproximadamente simétrica e com frequências a decrescer à medida que se afastam da classe média, é a seguinte:
Aproximadamente 68% dos dados estão no intervalo [
x
- s ,x
+ s] Aproximadamente 95% dos dados estão no intervalo [
x
- 2s ,x
+ 2s] Aproximadamente 100% dos dados estão no intervalo [
x
- 3s ,x
+ 3s];Como se depreende do que atrás foi dito, se os dados se distribuem de forma aproximadamente normal, então estão praticamente todos concentrados num intervalo de amplitude 6 vezes o desvio padrão: quanto menor for o desvio padrão, mais concentrada é a distribuição dos dados.
Exemplo 8 - Perguntou-se o preço da "bica" em 5 cafés, tendo-se obtido os seguintes valores:
50 55 55 55 57.5 60
Calculando a média e o desvio padrão daqueles valores, obtém-se:
x
=50+ 55 + 55 + 55 + 57.5 + 60
6
= 55.4 s2=(50− 55.4)
2+ 36(55 − 55.4)
2+ (57.5 − 55.4)
2+ (60 − 55.4)
25
= 10.16 de onde s = 3.19Estes valores significam que, mais de dois terços das vezes, o preço da bica está no intervalo (52.2, 57.6). Obtivemos o intervalo anterior subtraindo e adicionando o valor do desvio padrão à média.
Exemplo 9 - O que mede o desvio padrão? Que tipo de variabilidade? (The standard deviation: some drawbacks of an intuitive approach - Teaching Statistics, vol 7, n.3, 1985)
A variabilidade apresentada por um conjunto de observações pode-se interpretar como: - uma medida da diferença entre as obervações, umas relativamente às outras; - uma medida da diferença entre as observações relativamente a uma medida padrão. A seguinte experiência dá conta de que nem sempre o desvio padrão é entendido pelos alunos como uma medida da variabilidade relativamente à média.
Consideremos dois conjuntos formados cada um por dois blocos: no 1º conjunto os blocos têm altura 45 e 50 cm. No 2º conjunto as alturas dos blocos são 5 e 10 cm:
Apresentou-se seguidamente aos mesmos alunos outros dois conjuntos C e D. No conjunto C os blocos têm alturas 10, 20, 30, 40, 50 e 60 cm; no conjunto D há 3 blocos de altura 10 cm e outros 3 blocos de altura 60 cm:
Comentário: o resultado da experiência mostra que intuitivamente os estudantes entendem, de um modo garal, a variabiliadde em termos de "mais ou menos iguais uns relativamente aos outros", independentemente de considerarem um ponto padrão como referência, nomeadamente a média.
Assim para visualizar convenientemente o conceito de variabilidade medida pelo desvio padrão, apresentam-se diagramas de barras. A partir destes gráficos os estudantes podem ver que a variabilidade das alturas pode ser expressa em termos dos desvios relativamente à média:
10 20 30 40 50 60 1 2 3 Freq.abs. 10 20 30 40 50 60 1 2 3 Freq.abs.
A
B
10 20 30 40 50 60 1 2 3 Freq.abs. 10 20 30 40 50 60 1 2 3 Freq.abs.C
D
Pedindo para calcular o desvio padrão das alturas de cada um dos conjuntos os estudantes facilmente verificam que:
desvio padrão de A = desvio padrão de B desvio padrão de C < desvio padrão de D
Confrontados com os resultados intuitivos, os estudantes concluem que o desvio padrão é uma medida muito específica da variabilidade.
Expressão alternativa para o cálculo da variância:
A partir da expressão que define a variância, pode-se deduzir sem dificuldade uma expressão mais simples para o seu cálculo, assim como o do desvio padrão, e que é a seguinte:
s2 =
x
i2 i=1 n∑
n−1
-n
n−1x
2Observação: Por vezes, devido a erros de arredondamento, a fórmula anterior dá um valor negativo para a variância, pelo que é necessário ter cuidado!
3.3.3 - Amplitude inter-quartil
A medida mais simples para medir a variabilidade é a amplitude, que se representa por um R (range) e se define como a diferença entre o máximo da amostra e o mínimo:
R = máximo - mínimo
A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude inter-quartil, que é, de certo modo, uma “solução de compromisso”, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre os 1º e 3º quartis:
amplitude inter-quartil= 3º quartil - 1º quartil ou, utilizando a notação já introduzida,
amplitude inter-quartil = Q3/4 - Q1/4
Do modo como se define a amplitude inter-quartil, concluimos que 50% dos elementos no centro da amostra, estão contidos num intervalo com aquela amplitude. Esta medida já foi, aliás, utilizada na construção da box-plot. Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados.
Mas, ao contrário do que acontece com o desvio padrão, uma amplitude inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade. Por exemplo, o seguinte conjunto de dados
10 20 30 30 30 30 30 30 40 50 tem desvio padrão igual a 10.5 e amplitude inter-quartil igual a zero.
Qual das medidas de dispersão utilizar? Desvio padrão ou amplitude inter-quartil?
Do mesmo modo que a questão foi posta relativamente às duas medidas de localização mais utilizadas - média e mediana, também aqui se pode por o problema de comparar aquelas duas medidas de dispersão.
1 - A amplitude inter-quartil é mais resistente, relativamente à presença de outliers, do que o
desvio padrão, que é mais sensível aos dados. Por outro lado, a amplitude inter-quartil não reflecte o conjunto de todos os dados, como o desvio padrão.
2 - Para uma distribuição dos dados aproximadamente normal, verifica-se a seguinte relação
amplitude inter-quartil ≈ 1.3
×
desvio padrão3 - Se a distribuição é enviesada, já não se pode estabelecer uma relação análoga à anterior, mas
pode acontecer que o desvio padrão seja muito superior à amplitude inter-quartil, sobretudo se se verificar a existência de "outliers".
3.3.4 - Dispersão relativa
De um modo geral verifica-se que a variabilidade presente num conjunto de dados aumenta com a localização. Por exemplo se pretendemos comparar vários conjuntos de dados, uma maneira possível é utilizar as box-plot paralelas. Quando falámos nesta representação aconselhámos a
dispor as amostras por ordem crescente da mediana (localização), verificando-se normalmente que os comprimentos das caixas também cresciam com a mediana. Assim, para compararmos conjuntos de dados diferentes, convém utilizar uma medida, que dê uma ideia da variabilidade relativamente à localização. Uma medida que se costuma utilizar e que dá a dispersão relativa é o chamado coeficiente de dispersão ou coeficiente de variação:
coeficiente de dispersão =
s
x
Ao coeficiente anterior, quando expresso em percentagem, dá-se o nome de coeficiente de variação.
Exercícios
1 - Suponha que adicionou 100, a cada um dos valores de uma amostra. O que acontece:
a) ao desvio padrão? b) à amplitude inter-quartil? c) à amplitude?
d) à média?
e) à mediana?
E se em vez de adicionar 100, multiplicar por 100? Generalize as conclusões anteriores para uma constante k qualquer.
2 - Suponha que obteve o valor -40.5 para a variância. O que conclui?
3 - Suponha que a amplitude de uma amostra é 105.4, e que ao calcular o desvio padrão obteve o
valor 160.6. O que conclui?
4 - Suponha que os resultados de um teste de Matemática, em duas turmas, uma de rapazes e
outra de raparigas, se distribuem aproximadamente segundo uma normal. Nesse teste, enquanto que as raparigas tiveram em média 55 pontos, os rapazes tiveram 50. Para ambas as distribuições o desvio padrão foi de 10.
a) Qual o valor aproximado para a percentagem de raparigas com nota superior a 75 pontos?
b) Qual o valor aproximado para a percentagem de rapazes com nota inferior a 50 pontos? E a 40
Utilização do Excel na obtenção das estatísticas descritivas
A utilização do Excel no cálculo das estatísticas descritivas não apresenta qualquer dificuldade, como exemplificamos a seguir.
Exemplo – Considere os seguintes dados que representam as notas obtidas por 30 estudantes num teste de Estatística: 12 15 10 9 6 8 10 13 12 11 14 13 10 12 11 14 12 13 10 9
8 10 11 12 14 15 13 12 10 11 Utilizando o Excel, calcule a média, variância, desvio padrão e quartis e amplitude inter-quartil.
Inserimos os dados nula folha de Excel e depois utilizámos as funções apropriadas:
Uma alternativa para o cálculo da mediana, é através da função Quartili(A1:J3;2).
O Excel dispõe ainda de uma função que se obtém seleccionando Tools → data Analysis → Descriptive Statistics, onde se acede a uma janela em que inserimos os endereços das células com os dados, que devem estar numa única coluna, e onde se selecciona Summary Statistics, obtendo-se a seguinte tabela de estatísticas:
Na tabela anterior apresentam-se algumas estatísticas, como a kurtosis e a skewness, que têm a ver com a forma da distribuição dos dados, mas que não definiremos, assim como não definiremos Standard Error. As outras medidas são a Amplitude, Mínimo, Máximo, Soma dos dados e Número de dados da amostra.