MICROPROGRAM DESCRIPTION - ~ronoo COMMITTED

principais e as propriedades. Procura-se ainda formular um modelo que traduza, de uma forma simplificada, a situação em estudo.

Inferência Estatística - Conhecidas certas propriedades (obtidas a partir de uma análise

descritiva da amostra), expressas por meio de proposições, imaginam-se proposições mais gerais, que exprimam a existência de leis (na População). No entanto, ao contrário das proposições deduzidas, não podemos dizer que são falsas ou verdadeiras, já que foram verificadas sobre um conjunto restrito de indivíduos, e portanto não são falsas, mas não foram verificadas para todos os indivíduos da População, pelo que também não podemos afirmar que são verdadeiras! Existe assim um certo grau de incerteza (percentagem de erro) que é medido em termos de PROBABILIDADE.

Nesta fase procuramos estudar a adaptabilidade do modelo sugerido na fase anterior. Esquematicamente, temos:

Amostra

Conjunto de dados com

aspecto desorganizado

Redução dos dados, de

modo a realçar as

características principais

Inferir para a População as

conclusões obtidas da

análise dos dados reduzidos

Inferência Estatística

População

Estatística Descritiva

(Modelo...)

(O modelo é bom?)

Porque é que é necessário o conceito de Probabilidade para se poder fazer Estatística?

De acordo com o que dissemos anteriormente sobre a Inferência Estatística, precisamos aqui da noção de Probabilidade, para medir o grau de incerteza que existe quando tiramos uma conclusão

para a População, a partir da observação da amostra. Seguidamente vamos tentar exemplificar este processo.

Vimos anteriormente que ao fazer uma análise de dados, em que se calculam estatísticas, a que

chamamos estimadores, temos como objectivo tomar algumas decisões acerca de parâmetros

desconhecidos, que descrevem as populações de onde foram feitas as observações. Este

processo baseia-se na distribuição de amostragem da estatística utilizada para estimar o

parâmetro em estudo. A distribuição de amostragem descreve a forma como se comporta uma estatística quando varia a amostra que se utilizou para a calcular. Vamos exemplificar de seguida um processo de fazer inferência estatística, nomeadamente num processo de estimação.

Exemplo 6 - Suponhamos que se pretendia estimar qual a percentagem p de estudantes da

Universidade de Lisboa que vivem em casa dos pais, no ano lectivo 1997/98. Feito um inquérito a 150 estudantes, seleccionados aleatoriamente das diferentes faculdades, em que se pedia para responderem SIM ou NÃO, caso vivessem ou não em casa dos pais, obtiveram-se 89 SIM, donde

uma estimativa para a percentagem pretendida é p =ˆ 89

150= 0.59.

Será que podemos dizer que a percentagem pretendida p é 0.59? Não, já que se retirarmos outra

amostra da mesma dimensão, o valor obtido para a estatística não será necessariamente o mesmo. Por exemplo, poderíamos ter recolhido mais 10 amostras de dimensão 150, e o nº de SIM’s obtidos ser 87, 89, 85, 90, 87, 79, 89, 88, 86 e 90 para cada uma das amostras consideradas. Quer dizer que o valor da estatística varia de amostra para amostra.

Então como proceder? Para estudar esta variabilidade apresentada pela estatística, vai-se obter a sua distribuição de amostragem.

Distribuição de amostragem - Distribuição de amostragem de uma estatística é a distribuição

dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população.

Então para conhecer a distribuição de amostragem da estatística

_pˆ

_{, utilizada para estimar o}

parâmetro p, teríamos de ir considerar todas as amostras possíveis de dimensão 150 da

população constituída pelos estudantes da Universidade de Lisboa. Para cada uma dessas amostras constituída por 150 estudantes investigaríamos qual a percentagem de SIM’s, para em seguida com todos os valores obtidos para essas percentagens obtermos a distribuição de

amostragem da estatística percentagem. Felizmente que não é necessário percorrer todo este

caminho, pois então teria sido mais simples investigar todos os estudantes sobre a característica em estudo!

Como veremos mais tarde, a teoria das probabilidades permite-nos afirmar que se a dimensão

n da amostra seleccionada for “suficientemente grande” então a distribuição de amostragem da

estatística

ˆ p

é conhecida, mais precisamente é a distribuição Normal (com valor médio p e

variância igual a

p(1− p)

n ), como veremos num capítulo posterior. Então vai ser possível construir

um intervalo aleatório (veremos mais tarde o modo de o fazer), [

ˆ p

-1.96 p (1 - ˆ ˆ p )

ˆ p

+1.96 p (1 - ˆ ˆ p )

n ]

a que se dá o nome de intervalo de confiança para p, com uma confiança de 95%, em que

Probabilidade[

ˆ p

-1.96 p (1 - ˆ ˆ p )

≤p≤

ˆ p

+1.96 p (1 - ˆ ˆ p )

]=.95

Aquele intervalo é aleatório na medida em que para cada amostra se obtém um valor para

_pˆ

correspondentemente, limites para o intervalo respectivo.

Ao interpretar o intervalo de confiança deve-se ter em atenção que o que é aleatório é o intervalo e não a percentagem p (desconhecida, mas fixa) - a variabilidade existe no processo de

amostragem e não no parâmetro. Quando se recolhem várias amostras, o valor de

_pˆ

_{é diferente}

de amostra para amostra, pelo que os limites do intervalo variam.

Uma vez seleccionada uma amostra e obtido um valor para

_pˆ

, ao calcular um intervalo com 95%

de confiança, não significa que a probabilidade do intervalo conter o parâmetro é .95, já que o intervalo contém ou não contém o parâmetro. Como deve ser interpretado o intervalo de confiança é da seguinte forma: ao recolher 100 amostras da mesma dimensão e ao calcular os intervalos correspondentes, aproximadamente 95 destes intervalos contêm o parâmetro p, enquanto que 5 não o contêm:

O processo que acabámos de descrever e que será desenvolvido num capítulo posterior é um exemplo de estimação intervalar.

Exemplo 6 (cont) - Considerando finalmente o exemplo em estudo e tendo em conta o valor de

0.59 obtido para

p ˆ

, tem-se o intervalo [.51, .67] que com uma confiança de 95% contém o valor

da percentagem de estudantes da Universidade de Lisboa que vivem em casa dos pais. Ao obtermos uma resposta para a nossa questão – qual a percentagem de estudantes que vivem em casa dos pais no ano lectivo 1997/98, sob a forma de um intervalo, obtivemos também a quantificação do erro cometido ao assumir essa resposta!

1.6 - Exemplos de aplicação da Estatística

Os campos de aplicação da Estatística são muitos e os mais variados. Por exemplo:

Estudos de mercado - O gerente de uma fábrica de detergentes pretende lançar um novo produto para lavar a loiça, pelo que encarrega uma empresa especialista em estudos de mercado, após realizar uma sondagem, de estimar a percentagem de potenciais compradores desse produto.

População - conjunto de todos os agregados familiares do país

Amostra - conjunto de alguns agregados familiares inquiridos pela empresa

Problema - pretende-se, a partir da percentagem de respostas afirmativas, de

entre os inquiridos, sobre a compra do novo produto, obter uma estimativa do número de compradores, de entre todos os agregados familiares do país ( População).

Medicina - Pretende-se estudar o efeito de um novo medicamento, para curar determinada doença. É seleccionado um grupo de 20 doentes, administrando-se o novo medicamento a 10 desses doentes, escolhidos ao acaso, e o medicamento habitual aos restantes.

População - conjunto de todos os doentes com a doença que o medicamento a estudar pretende tratar

Amostra - conjunto de 20 doentes seleccionados

Problema - pretende-se a partir dos resultados obtidos, realizar um teste de

hipóteses, para tomar uma decisão sobre qual dos medicamentos é melhor.

Controlo de qualidade - O administrador de uma fábrica de parafusos pretende assegurar-se de

que a percentagem de peças defeituosas, não excede um determinado valor, a partir do qual uma encomenda poderia ser rejeitada (sondagem).

População - conjunto de todos os parafusos fabricados ou a fabricar pela fábrica,

utilizando o mesmo processo

Amostra - conjunto de parafusos escolhidos ao acaso, de entre o lote de

produzidos

Problema - pretende-se, a partir da percentagem de parafusos defeituosos na

amostra, estimar a percentagem de defeituosos em toda a produção.

Política de ensino - O Ministério da Educação pretende saber se a prova de aferição em

Matemática está bem construída, isto é, se seleccionou efectivamente os melhores alunos (sondagem).

População - conjunto de todos os alunos candidatos ao Ensino Superior, e

respectivas notas em Matemática no 12º ano e na prova de aferição

Amostra - conjunto de alunos seleccionados aleatoriamente em todo o país, de

entre a População considerada anteriormente

Problema - pretende-se determinar um coeficiente de associação, que indique se

existe uma associação forte ou fraca, entre os dois conjuntos de notas, consideradas anteriormente.

Pedagogia - Um conjunto de padagogos, desenvolveu uma técnica nova para a aprendizagem

da leitura, na escola primária, a qual, segundo dizem, encurta o tempo de aprendizagem, relativamente ao método habitual (pretende-se fazer uma experimentação).

População - conjunto de todos os alunos que entram para a escola primária sem

saber ler

Amostra - conjunto de alunos de algumas escolas, seleccionadas aleatoriamente

para este estudo. Os alunos foram separados por dois grupos para se aplicarem as duas técnicas em confronto

Problema - do estudo da amostra, decidir qual a melhor técnica.

Exercícios de revisão

1 - Considere a seguinte situação: Um político, candidato a Presidente da República, pretende ter

uma ideia de qual a sua representatividade, junto do eleitorado português, pelo que encarrega uma empresa de fazer o estudo conveniente. Identifique: População e Amostra.

2 - Diga porque é que as seguintes situações representam más amostras:

- Para saber qual o candidato mais votado, para a Câmara de determinada cidade, auscultou-se a opinião dos clientes de determinado supermercado.

- Para conhecer a situação financeira das empresas têxteis portuguesas, verificou-se a situação das empresas que tiveram maior volume de exportações, no último ano.

3 - Em 1985 verificaram-se, nos Estados Unidos, 19893 assassínios, enquanto que em 1970 se

tinham verificado 16848 - um aumento de cerca de 20%. Estes números significam que os Estados Unidos se tornou um país violento no período 1970-1985?

4 - Num determinado distrito de Portugal, foi levada a cabo uma experiência para verificar o efeito

da distribuição de leite às crianças em idade escolar. Assim, foram escolhidas algumas crianças em cada escola para pertencerem ao grupo de tratamento, a quem foi dado leite e outras a quem não foi dado leite, constituindo o grupo de controlo. Para tornar os grupos equivalentes em termos de nível familiar e de saúde, a atribuição de cada criança a cada grupo foi feita aleatoriamente. Contudo, verificou-se que, apesar da atribuição aleatória, havia ainda pequenas diferenças entre os grupos. Permitiu-se então que os professores fizessem a selecção das crianças, com o objectivo de tornar os grupos comparáveis. Terá sido este um procedimento correcto?

5 - De acordo com um estudo observacional, feito na Califórnia, verificou-se que a taxa de cancro

cervical era maior entre as utilizadoras de contraceptivos orais, do que entre as que não os utilizavam, mesmo tendo em consideração os factores idade, educação, estado civil, religião e o facto de ser fumadora ou não. Os investigadores concluíram que a pílula causava o cancro cervical. O que acha desta conclusão?

6 – A revista “Filhos e Pais” pediu a uma empresa de sondagens que elaborasse um estudo sobre

a opinião dos Pais relativamente à utilidade, sob o ponto de vista educacional, de bater nos filhos. Foram postas as seguintes questões aos pais que faziam parte de uma amostra aleatória: i) Acredita que se deve bater nos filhos? ii) Bateu nos seus filhos? iii) Se a resposta à questão anterior foi sim, com que frequência?

No estudo anterior poderá estar envolvido algum tipo de erro de não amostragem?

7 – Um investigador pretendendo fazer um estudo sobre a relação entre a quantidade de ovos

consumidos semanalmente e o nível do colesterol, pediu a colaboração de voluntários para entrarem neste estudo. Apresentaram-se 2589 voluntários. O investigador colheu informação sobre a quantidade de ovos consumida e o nível de colesterol de cada uma das pessoas apresentadas, tendo concluído que existia um a forte associação entre as duas variáveis.

• Estamos perante um estudo observacional ou uma experimentação controlada?

• Baseado neste estudo pode o investigador concluir que o consumo de ovos aumenta o nível de colesterol? Explique.

8 - Quais os objectivos da Estatística Descritiva e da Inferência Estatística? 9 - As inferências estatísticas são sempre correctas?

Capítulo 2

Análise, representação e redução de dados

Dans le document ~ronoo COMMITTED (Page 55-64)