CROSS INDEX-MFR. CODE NUMBER TO MANUFACTURER
ITEM NAME
Por vezes a População que se pretende estudar aparece sobre a forma de pares de valores, isto é cada indivíduo ou resultado experimental contribui com um conjunto de dois valores. É o que acontece, por exemplo quando se considera para cada aluno candidato ao Ensino Superior, a nota da PGA e a nota da Prova Específica.
Como representar e organizar este tipo de informação? A representação gráfica utilizada é o diagrama de pontos ou de dispersão.
Diagrama de dispersão - É uma representação gráfica para os dados bivariados quantitativos,
em que cada par de dados (x,y) é representado por um ponto de coordenadas (x,y), num sistema de eixos coordenados.
Este tipo de representação é muito útil, pois permite realçar algumas propriedades entre os dados, nomeadamente no que diz respeito ao tipo de associação entre os x's e os y's. Seguidamente apresentamos alguns exemplos, para ilustrar o que acabamos de dizer.
Exemplo 18 - Considere os seguintes dados que representam as medidas em mm, de ossos do
braço e da perna, de fósseis do período Neanderthal. Construa o diagrama de dispersão e comente-o.
Comentário:
Verifica-se uma associação linear entre as medidas dos ossos do braço e da perna, isto é, aos maiores valores de x correspondem os maiores valores de y. Esta conclusão seria de esperar, pois de um modo geral se as pessoas são grandes, são-no de braços e pernas!
Exemplo 19 - Considere os seguintes dados, que representam o número de faltas não
autorizadas por ano e a distância (em km) a que os empregados de determinado armazém estão de casa.
Construa o diagrama de dispersão e comente-o.
Comentário:
O gráfico mostra uma associação, de sentido contrário, entre o nº de faltas e a distância. Assim, quanto maior é a distância, menor é a tendência para faltar!
Exemplo 20 - Considere os seguintes dados, que representam as notas obtidas por 10 alunos nas disciplinas de Matemática e Educação Física.
Comentário:
Aparentemente não existe nenhuma associação linear entre as notas obtidas nas duas disciplinas, uma vez que os pontos se encontram dispersos de forma "aleatória".
Um outro processo de organizar a informação correspondente a dados bivariados, normalmente de tipo qualitativo, é utilizando uma tabela de frequências, a que damos o nome de tabela de
contingência.
De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios. O aspecto de uma tabela de contingência é o de uma tabela com linhas, correspondentes a um dos critérios, e colunas correspondente ao outro critério. Seguidamente apresentamos um exemplo, para ilustrar o que acabamos de dizer.
Exemplo 21 – Considerando novamente o exemplo dos passageiros do Titanic (Exemplo 1), classificando os dados relativamente às duas variáveis Classe e Tipo de Sobrevivência, foi possível construir a seguinte tabela (os dados originais não estão disponíveis):
Classe
Primeira Segunda Terceira Tripulação Total
Vivos 202 118 178 212 710 Mortos 123 167 528 673 1491 So b rev . Total 325 285 706 885 2201
As células da tabela apresentam as frequências absolutas para cada combinação das modalidades das duas variáveis em estudo. Às distribuições das margens da tabela, chamamos
distribuições marginais. A coluna da direita representa a distribuição marginal da variável Tipo de Sobrevivência, enquanto que a linha de baixo representa a distribuição marginal da variável Classe.
Normalmente tem mais interesse utilizar as frequências relativas ou percentagens. No entanto, aqui temos vários processos de as calcular: relativamente ao total de passageiros, ou relativamente a cada uma das modalidades, de cada uma das variáveis. Foi isso que fizémos na tabela seguinte:
Classe
Primeira Segunda Terceira Tripulação Total
Freq.abs. 202 118 178 212 710 %Total 9,2% 5,4% 8,1% 9,6% 32,3% %Coluna 62,2% 41,4% 25,2% 24,0% 32,3% Vivos %Linha 28,5% 16,6% 25,1% 29,9% 100,0% Freq.abs. 123 167 528 673 1491 %Total 5,6% 7,6% 24,0% 30,6% 67,7% %Coluna 37,8% 58,6% 74,8% 76,0% 67,7% Mortos %Linha 8,2% 11,2% 35,4% 45,1% 100,0% Freq.abs. 325 285 706 885 2201 %Total 14,8% 12,9% 32,1% 40,2% 100,0% %Coluna 100,0% 100,0% 100,0% 100,0% 100,0% Sobrev Total %Linha 14,8% 12,9% 32,1% 40,2% 100,0% Da tabela anterior podemos tirar várias conclusões, como por exemplo:
• 9,2% (=202/2201) do total de passageiros viajavam em 1ª classe e sobreviveram; • 62,2% (=202/325) dos passageiros que viajavam em 1ª classe, sobreviveram; • 28,5% (=202/710) dos passageiros que sobreviveram, viajavam em 1ª classe.
Seria interessante verificar se a distribuição dos passageiros que sobreviveram ou não, teria a ver com a classe em que viajavam. Da tabela anterior, vamos reter as duas tabelas seguintes:
Classe
Primeira Segunda Terceira Tripulação Total
202 118 178 212 710 Viv o s . 28,5% 16,6% 25,1% 29,9% 100,0% e Classe
Primeira Segunda Terceira Tripulação Total
123 167 528 673 1491 Mo rt o s . 8,2% 11,2% 35,4% 45,1% 100,0%
Como se depreende da tabela anterior, parece não haver independência entre a classe e o tipo de sobrevivência, uma vez que de entre os mortos, predominaram os passageiros que viajavam em terceira classe e os tripulantes. No capítulo 3 voltaremos a estudar a associação entre variáveis de tipo qualitativo.
Utilização do Excel na construção de uma tabela de contingência
Vamos exemplificar a construção de uma tabela de contingência utilizando a metodologia das PivotTables do Excel.
Exemplo – Admita que a seguinte tabela apresenta os dados referentes a 24 passageiros do Titanic:
Para construir uma tabela de contingência idêntica à apresentada no exemplo 21, em que associa a informação relativa às variáveis Classe e Tipo de sobrevivência, proceda do seguinte modo:
• No menu Data, clique em PivotTable and PivotChart Report;
• No passo 1 da PivotTable and PivotTable Wizard, siga as instruções, e clique PivotTable à pergunta What kind of
report do you want to create?;
• No passo 2 siga as instruções, seleccionando os dados que pretende usar. Neste caso seleccione as células A1:D25. Se antes de ir ao menu Data, colocar o cursor em alguma célula da tabela a partir da qual quer construir a PivotTable, na janela apresentada neste passo da construção da tabela, as células da tabela aparecem seleccionadas por defeito;
• No passo 3 seleccione o lugar onde pretende criar a tabela;
• Arraste o botão Sobrev da barra PivotTable, e coloque-o (drop it) no campo Row; Arraste o botão Classe da barra PivotTable, e coloque-o (drop it) no campo Column. Arraste um dos botões e coloque-o (drop it) no campo
Do mesmo modo que no exemplo 21, vamos também considerar frequências relativas (Nós optámos por considerar as percentagens de cada célula da tabela, relativas ao total de elementos). Para isso proceda da seguinte forma:
• Faça um duplo clique em Count of Classe;
• Na janela que aparece seleccione Options e em Show Data as, seleccione % of total:
Para obter uma representação gráfica associada à tabela anterior, proceda da seguinte forma:
• Clicar em alguma parte da tabela e na barra da PivotTable clicar no ícone , criando-se um gráfico numa folha chamada Chart1. No menu Chart seleccione Location e na janela que aparece, em As object in, seleccione a folha onde tem a tabela;
• Esconder os botões clicando com o lado direito do rato num deles e seleccionando Hide PivotChart Field
Buttons:
Pode ainda a partir da tabela dos dados iniciais fazer outros agrupamentos, nomeadamente entrando com mais do que 2 variáveis, como por exemplo:
Exercícios
1. Num leilão de computadores em segunda mão verificou-se que, para 10 marcas de
computadores, se obtiveram os seguintes preços médios (em escudos) (adaptado de Mendenhall, 1994):
Tipo computador Preço médio de venda (novo)
Preço médio proposto no leilão
Preço médio venda no leilão 20MB PC XT 120000 60000 90000 20MB PC AT 210000 120000 172500 IBM XT 089 135000 60000 97500 IBM AT 339 210000 105000 180000 20MB IBM PS/2 30 285000 150000 217500 20MB IBM PS/2 50 315000 210000 262500 60MB IBM PS/2 70 600000 480000 517500 20MB Compaq SLT 360000 210000 262500 Toshiba 1600 300000 210000 270000 Toshiba 1200HB 345000 240000 292500
a) Construa um diagrama de dispersão que relacione os preços médios propostos, com os preços médios com que são vendidos os computadores no leilão.
b) Construa um diagrama de dispersão que relacione os preços dos computadores novos, com os preços médios com que são vendidos os computadores no leilão
c) Compare os dois gráficos. Qual a relação que parece existir entre as três variáveis?
2. Será que o vinho é bom para o coração? Há a convicção de que o consumo moderado de
vinho ajuda a prevenir ataques cardíacos. Na tabela seguinte apresentamos, para 19 países desenvolvidos, alguns valores respeitantes ao consumo anual de vinho (litros de álcool obtidos a partir do consumo de vinho, por pessoa) e a taxa de mortes anuais por doenças cardíacas (mortes por 100000 pessoas):
País Álcool Taxa mortes País Álcool Taxa mortes
Austrália 2.5 211 Holanda 1.8 167 Áustria 3.9 167 N.Zelândia 1.9 266 Bélgica 2.9 131 Noruega 0.8 227 Canadá 2.4 191 Espanha 6.5 86 Dinamarca 2.9 220 Suécia 1.6 207 Finlândia 0.8 297 Suiça 5.8 115 França 9.1 71 R. Unido 1.3 285 Islândia 0.8 211 EUA 1.2 199 Irlanda 0.7 300 Alemanha 2.7 172 Itália 7.9 107
A partir dos dados anteriores, qual a resposta que daria à questão em estudo?
3. A tabela seguinte compara a previsão do tempo e o tempo que se verificou na realidade, durante o período de 1 ano (De Veaux, 2004):
Tempo verificado
Choveu Não choveu
Chove 27 63
Previsão Não chove 7 268 a) Qual a percentagem de dias em que choveu?
b) Qual a percentagem de dias em que estava prevista chuva?
c) Qual a percentagem de vezes em que as previsões estiveram correctas? d) Acha que, de um modo geral, as previsões acertaram? Explique porquê.4
4. Uma empresa fez o rastreio da tensão arterial aos seus colaboradores, tendo obtido os seguintes resultados (De Veaux et al, 2004):
Idade
Abaixo dos 30 Entre 30 e 49 Acima dos 50
Baixa 27 37 31 Normal 48 91 93 Te nsão ar te ri al Alta 23 51 73
a) Determine a distribuição marginal da tensão arterial;
b) Determine a distribuição marginal da tensão arterial, dentro de cada classe etária; c) Compare graficamente essas distribuições;
Sugestão: Com o Excel obtenha uma representação do tipo:
Capítulo 3