Já vimos no capítulo das representações gráficas, que quando dispomos de amostras de dados
bivariados, que vamos passar a representar por (xi,yi), i=1, …, n, a sua representação num
diagrama de dispersão pode mostrar a existência de uma certa associação linear entre os factores x e y, que compõem os pares. No que se segue admitimos que as variáveis são de tipo quantitativo.
A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o coeficiente de correlação, que se representa por r, e se calcula a partir da expressão:
r =
S
xyS
xxS
yy onde Sxy = i=1(x
i−x )(y
i−y )
n
∑
Na expressão anterior
x
ey
, representam, respectivamente, as médias dos xi’s e dos yi’s. Na definição do coeficiente de correlação de pares de variáveis, está implícita a definição de uma medida que dá uma ideia da variabilidade conjunta existente entre as variáveis e que é a covariância amostral:Covariância =
1
n -1
i=1(x
i− x )(y
i−y )
n∑
Esta medida tem o inconveniente de depender drasticamente das unidades com que se apresentam os elementos da amostra e daí o facto de normalmente não ser utilizada, passando- se imediatamente à definição do coeficiente de correlação (independente das unidades utilizadas), que como facilmente se verifica da expressão anteriormente considerada, vem:
Correlação =
covariância
variância(x) variância(y)
Propriedades do coeficiente de correlação:
1 – O valor de r está no intervalo [-1,1]
2 – Quanto maior for o módulo de r, maior será a relação linear existente entre os xi. e
os yi.
3 – O facto de r ser positivo, significa que a relação entre os x’s e os y’s é do mesmo
sentido, isto é, a valores grandes de x, correspondem valores grandes de y e vice- versa. Quando r é negativo, a relação entre os x’s e os y’s é de sentido contrário, o que significa que a valores grandes de x, correspondem valores pequenos de y e vice-versa.
Interpretação geométrica:
1 – Se aos maiores valores de x estão associados os maiores valores de y, então r>0.
Efectivamente, quando pensamos num valor grande de x, será um valor acima da média. Por outro lado, um valor pequeno de x é um valor abaixo da média. Então se, de um modo geral, aos valores grandes de x estão associados os valores grandes de y, e aos valores pequenos de x estão associados os valores pequenos de y, os produtos
(x
i− x )(y
i− y )
são de um modo geral positivos, já que ambos os factores são positivos ou negativos. Como o denominador da expressão do coeficiente de correlação, não depende da forma como os x’s se associam com os y’s, então o facto de no numerador somarmos grande número de parcelas positivas, faz com que o valor do coeficiente de correlação seja positivo e tanto maior quantas mais parcelas positivas houver.
2 – Se aos maiores valores de x estão associados os menores valores de y, então r<0.
Fazendo o raciocínio como no ponto anterior, verificamos que agora as parcelas são maioritariamente negativas, já que quando x é grande (superior à média dos x’s), então y é pequeno (inferior à média dos y’s). Assim, os produtos
(x
i− x )(y
i− y )
3 – Se não existe qualquer tipo de associação linear entre os x’s e os y’s, então r=0.
Neste caso tanto podem surgir produtos negativos, como positivos, distribuindo-se de forma mais ou menos equitativa. Então o valor de r vem próximo de zero.
Observação: Dada a amostra (x1, x2, x3, … , xn), obtém-se a amostra “estandardizada” ou
padronizada (
x
1*, x
2*, x
3*, … , x
n*), subtraindo a cada elemento a média, isto é, centrando a amostra na origem, e dividindo pelo desvio padrão, ou seja, reduzindo os dados de forma a que o desvio padrão dos dados transformados venha igual a 1:x
i*= x
i- x
s
xExercício: Verifique que o coeficiente de correlação da amostra bivariada (xi, yi), i=1,…n, é a
covariância da amostra padronizada correspondente.
Exemplo 10 (Rossman, 1996) - Considere os seguintes diagramas de dispersão correspondentes aos resultados de 2 exames de 6 classes (A-F).
50 60 70 80 90 50 60 70 80 90 Exame1A Exame2A 50 60 70 80 90 50 60 70 80 90 Exame1B Exame2B 50 60 70 80 90 50 60 70 80 90 Exame1C Exame2C 50 60 70 80 90 50 60 70 80 90 Exame1D Exame2D
50 60 70 80 90 100 50 60 70 80 90 100 Exame1E Exame2E 50 60 70 80 90 50 60 70 80 90 Exame1F Exame2F
A visualização dos gráficos anteriores leva-nos a supor que entre os dois exames se possa admitir o seguinte tipo de associação:
Forte Moderada Fraca
Positiva E A B
Negativa C D F
O cálculo do coeficiente de correlação, que se apresenta na tabela seguinte completa a informação da tabela anterior:
Classe Correlação A 0.71 B 0.47 C -0.99 D -0.72 E 0.99 F -0.47
Considere agora a seguinte representação correspondente aos dados de uma classe G:
35 45 55 65 75 85 95 105 40 50 60 70 80 90 100 Exame1G Exame2G
Como se verifica, existe uma forte associação entre os valores do exame 1 e os valores do exame 2. Surpreendentemente ao calcular o coeficiente de correlação obtemos o valor 0! Mas será assim tão surpreendente? Não, se nos lembrarmos que o que o coeficiente de correlação mede é o grau de associação linear e não outro tipo de associação, como a associação curvilínea, presente nos dados da representação anterior.
10 20 30 40 50 60 70 80 90 100 50 60 70 80 90 100 Exame1H Exame2H 0 10 20 30 40 50 60 70 80 90 0 20 40 60 80 100 Exame1I Exame2I
O valor para o coeficiente de correlação é respectivamente 0.04 e 0.70 para as classes H e I, o que continua a ser surpreendente! Repare-se que relativamente à classe H todos os pares menos 1 seguem um padrão linear, tendo-se obtido para o coeficiente de correlação um valor próximo de zero, enquanto que para a classe I, em que os valores se apresentam mais ou menos dispersos, obtivemos um valor relativamente alto. No entanto, se retirarmos a cada um dos conjuntos de dados anteriores o “outlier”, já o valor do coeficiente de correlação passa para 0.9997 e 0.13, respectivamente para as classes H e I. O exemplo que acabámos de dar mostra que o coeficiente de correlação não é uma medida resistente, já que é muito influenciado pelos ”outliers”. Este facto não é de estranhar, já que no cálculo do coeficiente de correlação entramos com a média, que já vimos ser uma medida não resistente.
Finalmente consideremos o seguinte diagrama de dispersão correspondente à classe J:
Exame1J Exame2J 30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 100
Da análise da representação anterior verificamos existirem dois grupos distintos de alunos: uns muito bons e outros muito maus. Embora para cada um dos grupos se verifique uma ligeira tendência para uma associação positiva, o facto é que o valor do coeficiente de correlação é 0.95, bem superior ao valor que seria de esperar.
Os exemplos que acabámos de ver, elucidam-nos sobre as limitações do coeficiente de correlação como medida de associação entre duas variáveis.
Antes de calcular e tentar interpretar o coeficiente de correlação entre duas variáveis, construa um diagrama de pontos. Não esqueça que o coeficiente de correlação só mede a intensidade com que duas variáveis se associam linearmente, pelo que se a representação gráfica não mostrar evidência de associação linear, não tem sentido calculá-lo.
Um outro aspecto que não pode deixar de ser referido quando estamos perante uma correlação forte entre duas variáveis, é que isso não significa necessariamente uma relação de causa-efeito. Não confundir correlação com relação causa-efeito. Um diagrama de pontos e uma correlação não provam a existência de uma relação causa-efeito. Podem existir outras variáveis, que não são estudadas, mas influenciam as que estão a ser estudadas e que são conhecidas como “lurking variables” (temos dificuldade em arranjar uma tradução adequada, pelo que vamos utilizar o termo “variáveis perturbadoras”).
Exemplo 11 (Rossman, 1996) - A seguinte tabela apresenta para um conjunto de 22 países, o tempo médio de vida e o número de pessoas por aparelho de televisão:
País t.m.v. Pes/TV País t.m.v. Pes/TV
Angola 44 200 México 72 6.6 Austrália 76.5 2 Marrocos 64.5 21 Cambodja 49.5 177 Paquistão 56.5 73
Canadá 76.5 1.7 Russia 69 3.2
China 70 8 África Sul 64 11
Egipto 60.5 15 Sri Lanka 71.5 28
França 78 2.6 Uganda 51 191
Haiti 53.5 234 ReinoUnido 76 3
Iraque 67 18 EUA 75.5 1.3
Japão 79 1.8 Vietnam 65 29
Madagáscar 52.5 92 Yemen 50 38
O valor do coeficiente de correlação entre as variáveis t.m.v e Pes/TV é igual a -0.80, o que significa uma forte correlação negativa entre o tempo médio de vida e o número de pessoas por aparelho de TV, ou seja, quanto maior for o número de pessoas por aparelho de TV, menor é o tempo médio de vida. Será que então se pode aumentar o tempo médio de vida da população de um país, aumentando o número de aparelhos de TV? Seria ridículo pensar desta maneira, pois este é um exemplo em que sobressai que não se pode admitir uma relação de causa-efeito. Obviamente existem outras variáveis não observadas -variáveis perturbadoras - relacionadas com o nível de vida na população, que provocam alterações nas duas variáveis que estamos a estudar e que explicam a forte correlação verificada. O diagrama de dispersão das variáveis estudadas tem o seguinte aspecto:
0 50 100 150 200 250 40 50 60 70 80 90 Pes/ T V t.m.v.
Utilização do Excel na construção do diagrama de pontos e no cálculo da correlação
Exemplo (De Veaux et al, 2004) – Foi feito um inquérito nos Estados Unidos e em 10 países europeus, para determinar a
percentagem de jovens que usaram marijuana e outras drogas, cujos resultados se apresentam na seguinte tabela. a) Construa um diagrama de pontos dos dados
b) Calcule o coeficiente de correlação entre as percentagems de jovens que usaram marijuana e outras drogas c) Será que os resultados confirmam que a marijuana é “uma porta de entrada para a droga”, isto é, o uso da
marijuana conduz ao uso de outras drogas? Explique.
a) Para construir o diagrama de pontos anterior, selccionar as duas colunas com os dados, F2:G12, e de seguida : • Seleccionar, no menu, o ícone Chart ;
• Na caixa de diálogo que aparece, seleccionar a opção XY (Scatter) e o primeiro sub-tipo;
• Clicar no botão Next, duas vezes, para passar dois passos, até aparecer uma caixa de diálogo, que apresenta várias opções: Em Legend, desactivar a legenda e em Titles, acrescentar o título no eixo dos Y’s e no eixo dos X’s, e carregar em Finish.
b) Como a representação gráfica mostra a existência de associação linear entre as variáveis % de marijuana e % de outras drogas, fomos calcular o coeficiente de correlação. Para isso utilizámos a função CORREL do Excel, que nos devolveu o valor 0.9341. Podemos dizer que existe uma forte associação positiva entre as variáveis em estudo.
c) Não podemos confundir correlação com uma relação de causa-efeito. Neste caso existirão, possivelmente, outras variáveis que predispõem os jovens ao consumo quer da marijuana, quer das outras drogas.
Exercícios
1 - Considere o seguinte diagrama de dispersão:
X 0 0,5 1 1,5 2 0 2 4 6
Responda às seguintes questões:
a) A média dos x’s está próxima de 1, 1.5 ou 3? b) A média dos y’s está próxima de 1, 1.5 ou 3? c) Qual das variáveis apresenta maior variabilidade? d) Calcule o coeficiente de correlação.
2 – Numa Conservatória de Registo Civil recolheu-se informação sobre as idades do homem e da
mulher de uma amostra de 20 casais. Os resultados foram os seguintes:
Par H M Par H M Par H M Par H M 1 20 19 6 38 29 11 26 27 16 36 32 2 25 25 7 35 36 12 32 31 17 19 19 3 26 24 8 27 26 13 54 56 18 29 20 4 22 23 9 42 29 14 45 42 19 32 32 5 28 24 10 25 25 15 28 29 20 45 43
Calcule o coeficiente de correlação entre as idades do homem e da mulher e interprete-o.
3 – Durante vários anos consecutivos, e para uma determinada região, registou-se o consumo de
gelados, em quilos, e o número de fogos, tendo-se verificado uma forte correlação entre estas duas variáveis. Será que o consumo de gelados provoca incêndios?
4 – Mostram as estatísticas que existe uma correlação negativa entre o número de horas gastas a
ver televisão e a desenvoltura na leitura. Será que ver televisão diminui a capacidade para a leitura?
3.4.2 – Associação de variáveis qualitativas
Quando anteriormente estudámos a associação de variáveis, utilizando nomeadamente o diagrama de dispersão e o coeficiente de correlação, assumimos que as variáveis eram de tipo quantitativo. Pode, no entanto, acontecer que estejamos interessados em estudar associação de variáveis de tipo qualitativo como, por exemplo, sexo e religião, ou então apesar de as variáveis serem de tipo quantitativo, procedemos a agrupamentos de forma que obtemos classes ou
categorias. Como vimos no capítulo 2, uma forma de apresentar os dados é utilizando tabelas de contingência. Vejamos, com um exemplo, uma forma de extrair informação a partir das tabelas de contingência:
Exemplo 12 – Suponha que uma universidade decidiu estudar o seu corpo docente quanto ao estado civil e categoria profissional, tendo obtido os seguintes resultados:
Estado civil Categoria
Solteiro Casado Divorciado Viúvo Total Assistente 111 43 10 1 165 Prof. Auxiliar 25 54 12 3 94 Prof. Associado 10 58 11 6 85 Prof. Catedrático 8 34 9 10 61 Total 154 189 42 20 405
Na última coluna do lado direito apresentamos os totais de linha, que corresponde à distribuição da variável “categoria profissional”. Analogamente, na última linha estão apresentados os totais de coluna, que correspondem à distribuição da variável “estado civil”. A estas distribuições chamamos distribuições marginais (precisamente por se apresentarem nas margens da tabela!). Estas distribuições apresentadas separadamente não nos dão informação sobre a associação entre as variáveis em estudo. Tão pouco essa informação pode ser dada pelo diagrama de dispersão ou pela correlação.
Uma forma de descrever a relação entre variáveis qualitativas é através do cálculo de percentagens convenientes. Consideremos a tabela seguinte, obtida a partir da tabela anterior, dividindo o valor de cada célula pelo total de coluna correspondente:
Estado civil Categoria
Solteiro Casado Divorciado Viúvo
Assistente 0.721 0.228 0.238 0.050 0.407 Prof. Auxiliar 0.162 0.285 0.286 0.150 0.232 Prof. Associado 0.065 0.307 0.262 0.300 0.210 Prof. Catedrático 0.052 0.180 0.214 0.500 0.151 Total 1.000 1.000 1.000 1.000 1.000
Nesta tabela apresentamos as distribuições condicionais da variável categoria profissional, relativamente às classes da outra variável estado civil. Temos assim que, por exemplo, nos solteiros a percentagem de assistentes é de aproximadamente 72%, enquanto que nos casados é de aproximadamente 23%. Estas distribuições condicionais podem ser visualizadas graficamente num diagrama de barras por segmentos, como se apresenta a seguir:
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Solteiro Casado Divorciado Viúvo
Prof. Cated. Prof. Assoc. Prof. Auxiliar Assistente
Se estivéssemos interessados nas distribuições condicionais da variável estado civil, condicional à variável categoria profissional, então a tabela a construir seria:
Estado civil Categoria
Solteiro Casado Divorciado Viúvo Total Assistente 0.673 0.261 0.061 0.006 1.001 Prof. Auxiliar 0.266 0.574 0.128 0.032 1.000 Prof. Associado 0.118 0.682 0.129 0.071 1.000 Prof. Catedrát. 0.131 0.557 0.148 0.164 1.000 0.380 0.467 0.104 0.049 1.000
A leitura que se deve fazer desta tabela é semelhante à que se fez da tabela anterior, mas tendo em atenção que agora a variável que está a condicionar é a categoria profissional. Por exemplo pode obter-se a informação de que aproximadamente 67% dos assistentes são solteiros, enquanto que casados são cerca de 26%. O diagrama de barras por segmentos correspondente a estas distribuições marginais tem o seguinte aspecto:
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Assistente Prof. Auxiliar Prof. Associado Prof. Catedrático
Viúvo Divorciado Casado Solteiro
Podemos finalmente estar interessados na distribuição conjunta das duas variáveis, e então em vez de recolher a informação a partir da primeira tabela constrói-se uma outra em que a frequência absoluta de cada célula é substituída pela frequência relativa, relativamente ao total de docentes, pois as frequências relativas são mais fáceis de comparar:
Estado civil Categoria
Solteiro Casado Divorciado Viúvo Total Assistente 0.274 0.106 0.025 0.002 0.407 Prof. Auxiliar 0.062 0.133 0.030 0.007 0.232 Prof. Associado 0.025 0.143 0.027 0.015 0.210 Prof. Catedrático 0.020 0.084 0.022 0.025 0.151 Total 0.380 0.467 0.104 0.049 1.000
Desta tabela imediatamente se conclui que, do pessoal docente, 3% são Professores Auxiliares e casados, enquanto que Assistentes e solteiros são mais de 27%.
Paradoxo de Simpson
Vimos na secção anterior que, por vezes, a interpretação do coeficiente de correlação não é imediata, nomeadamente devido ao facto de ser influenciado por variáveis perturbadoras, que podem ocasionar que, por exemplo, entre duas variáveis se obtenha uma forte correlação difícil de explicar, já que o que se esperaria seria uma correlação fraca, ou até de sentido diferente! Ora, o mesmo se passa na leitura das percentagens de uma tabela de contingência, que podem ocasionar interpretações menos correctas. Vejamos o seguinte exemplo:
Exemplo 13 (Statistics, 1991) – Foi realizado estudo sobre admissão de candidatos na Universidade da Califórnia, tendo-se verificado que durante o período envolvido no estudo se candidataram 8442 homens e 4321 mulheres, tendo sido admitidos cerca de 44% dos homens e 35% das mulheres. Haverá discriminação sexual contra as mulheres? Admitindo que à partida não há razão para diferenciar profissionalmente os candidatos quanto ao sexo, os resultados obtidos mostram uma preferência dos supervisores, encarregados da selecção, pelo sexo masculino. Será verdade? Embora na admissão do pessoal estivessem envolvidos mais de 100 supervisores, vamos ver em particular o que se passou com os 6 maiores que seleccionaram cerca de um terço dos candidatos: Homens Mulheres Supervisor Número Candidatos % admitidos Número Candidatos % admitidos A 825 62 108 82 B 560 63 25 68 C 325 37 593 34 D 417 33 375 35 E 191 28 393 24 F 373 6 341 7
Para cada supervisor, a percentagem de mulheres admitidas é sensivelmente igual à percentagem de homens admitidos, excepto para o supervisor A, que parece ter uma discriminação contra os homens! A maior diferença a favor dos homens verifica-se unicamente para o supervisor E e é unicamente de 4 pontos percentuais. Contudo, quando se considera na globalidade o conjunto de admitidos verifica-se que para os homens a percentagem é de cerca de 44% enquanto que para as mulheres é de cerca de 30%. Como explicar esta diferença de 14%? Esta situação é paradoxal, mas tem uma explicação:
1. Os dois primeiros supervisores eram mais permissivos e tiveram a candidatura de cerca de 50% dos homens.
2. Os outros quatro supervisores eram mais rígidos e tiveram a candidatura de cerca de 90% das mulheres.
Assim, os homens candidataram-se aos supervisores onde era mais fácil de entrar, enquanto que as mulheres fizeram o contrário. Existe aqui o efeito devido à escolha do supervisor que provoca uma interpretação enganadora quanto à variável sexo. Esta situação é conhecida como o paradoxo de Simpson. O paradoxo de Simpson diz respeito à inversão na direcção da associação quando os dados referentes a vários grupos são combinados para formarem um único grupo.
Exemplo 14 - Um problema de saúde pública (Tradução livre de um exemplo retirado do
endereço www.cawtech.freeserve.co.uk/Simpsons.2.html) - O responsável pelo Departamento de Saúde (DS) de determinada região está a braços com um grave problema, que diz respeito a uma doença, conhecida como doença de Grott, frequentemente fatal, mas para a qual não existia, até à data, tratamento. Acontece que chegou a informação que teria sido descoberto um tratamento para a dita doença, havendo até pessoas que já o tomavam, acreditando na sua eficácia. O responsável do DS decidiu encomendar um estudo, cujos resultados foram os seguintes:
Não tratamento Tratamento
Vivas 108 153
Moras 123 120
Afinal o tratamento é útil, concluíu a comissão encarregada do estudo. Os dados indicam que a percentagem de pessoas vivas que fizeram o tratamento é de 56% (=153/273), superior à das pessoas vivas que não fizeram o tratamento, que é só de 46,7% (=108/231).
Conclusão: Embora não sejam uns resultados espectaculares, vale a pena investir, apesar do tratamento ser bastante caro, pensou o responsável pelo Departamento de Saúde.
Qual não foi a surpresa deste senhor, quando recebeu uma comissão de mulheres, colocando reticências ao investimento em causa, já que alegávam que o tratamento só beneficiaria os homens, uma vez que tinham verificado o que se passava com os dados referentes às mulheres e
estes indicávam até uma diminuição ligeira na percentagem de mulheres vivas, de entre as que tinham feito o tratamento:
Mulheres
Não tratamento Tratamento
Vivas 57 32
Mortas 100 57
Efectivamente a percentagem de mulheres vivas de entre as que não fizeram o tratamento é de 36,3%, enquanto que para as que fizeram o tratamento é de 36%! Esperáva-se assim que os homens fossem largamente beneficiádos, tendo em conta os dados da primeira tabela apresentada. Qual não foi o espanto, quando verificáram que, afinal, o tratamento também não beneficiáva os homens:
Homens
Não tratamento Tratamento
Vivos 51 121
Mortos 23 63
É mesmo verdade que o tratamento não é benéfico para o sexo masculino, já que a percentagem de homens vivos sem tratamento é de 69% (=51/74), contra os 66% (= 121/184) dos que fizeram tratamento.
Conclusão: O tratamento é prejudicial tanto para os homens, como para as mulheres, embora seja benéfico para o pessoal em geral!
Estava ainda o responsável do DS atarantado com estas conclusões, a reflectir sobre o que fazer, quando recebe a informção de que o marido da sua secretária tinha morrido com a doença de Grott. Não havia nada a fazer, era uma pessoa com a tensão arterial muito alta. Como se pode comprovar pelos dados seguintes, o tratamento em estudo tem um interesse limitado para os indivíduos de tensão alta, pois não consegue sequer uma percentagem de 50% de cura:
Homens tensão alta
Não tratamento Tratamento
Vivos 4 51
Mortos 6 57
Repare que a percentagem de vivos é de 40% (=4/10) para os que não seguiram o tratamento, contra 47% (=51/108) para os que seguiram o tratamento.
Já agora, o que se passará com os de tensão normal ou baixa? Vejamos os dados: Homens tensão normal ou baixa
Não tratamento Tratamento
Vivos 47 70
Mortos 17 6
Conclusão: O tratamento é prejudicial aos homens, mas é benéfico para os que têm a tensão alta, e para os que têm a tensão normal ou baixa, é uma autêntica salvação!
Ainda podemos aumentar a perplexidade do responsável do Departamento de Saúde se considerarmos as mulheres divididas em dois grupos, as jovens e as menos jovens:
Mulheres jovens Mulheres menos jovens
Não tratamento Tratamento Não tratamento Tratamento
Vivos 49 25 8 7
Mortos 19 8 81 49
Conclusão: Vimos anteriormente que o tratamento não era benéfico para as mulheres, mas agora concluímos que é benéfico para as mulheres jovens, pois 76% (=25/33) das que receberam tratamento estão vivas, contra 72% (=49/68) das que não receberam tratamento.
Depois disto o responsável pelo Departamento de Saúde meteu atestado médico.
Atenção – Quando se calculam proporções ou percentagens entre diferentes grupos, é necessário certificarmo-nos de que os grupos são comparáveis. Este problema do paradoxo de Simpson, foi assim denominado depois que o estatístico Simpson, num seminário em 1951, apresentou