• Aucun résultat trouvé

5. Conservació de la documentació

5.3. Causes de degradació

5.3.2. Els factors ambientals

A análise teórica deve contemplar as revisões dos itens e também dos critérios de pontuação. Para que as interpretações dos resultados da avaliação sejam válidas, deve-se ter cuidado com a elaboração dos itens do teste e dos critérios para a pontuação desses itens para que o instrumento, como um todo capture verdadeiramente a habilidade que se deseja medir de acordo com os objetivos da avaliação. Essas duas partes que compõem o instrumento são igualmente importantes, pois, se os critérios de pontuação estão mal elabora- dos, os avaliadores não conseguem atribuir pontuações confiáveis, mesmo se as tarefas estiverem de acordo com todos os requisitos estabelecidos para a

112

excelência. O mesmo ocorre com tarefas com problemas na formulação. Cri- térios de pontuação, por melhor projetados que estejam, não podem corrigir um teste mal concebido.

Mesmo que os elaboradores dos itens e dos critérios de pontuação te- nham sido instruídos e treinados para a execução dessas tarefas, de acordo com os requisitos estabelecidos para a avaliação, é comum ainda restarem erros, como itens contendo conteúdos que não sejam totalmente indicados, problemas com a formulação das sentenças, tarefas que capturem habilidades que não se pretendem medir ou que exista alguma desconexão entre a tarefa e os critérios de pontuação, entre outros. São necessárias, então, revisões siste- máticas para detectar problemas que não foram evitados durante a elaboração do instrumento.

A validade do teste é muito dependente dos cuidados na fase de construção, etapa que tem recebido pouca atenção em comparação com a ênfase dada às análises dos resultados do teste. Borsboom, Mellenberg e Van Heerden (2004) sugerem que o problema principal na elaboração de instrumentos de avaliação é primeiramente saber o que deve ser medido, pois quando se sabe exatamente o que se pretende medir, então provavelmente sabe-se como medir, e assim será necessária pouca investigação para validar o instrumento. Desse modo, o problema para a validade não é descobrir o que é medido, mas sim determinar o que se pretende medir.

Os itens devem representar adequadamente o construto a ser avaliado. Então, nessa fase, o instrumento é submetido a especialistas para que eles expressem suas opiniões quanto à adequação dos itens ao construto a ser ava- liado. Essas análises teóricas compreendem dois tipos de julgamentos deno- minados validade de conteúdo e validade aparente. A validade de conteúdo é determinada por peritos da área do construto e consiste em julgamentos desses especialistas sobre a pertinência do item para avaliar o construto em questão. A validade aparente, denominada por Pasquali (2010) análise se- mântica, também é feita por juízes, não necessariamente da área de definição do construto, e tem a finalidade de determinar se os itens são compreensíveis para todos os indivíduos da população. Para a validade aparente, pode-se tam- bém submeter os itens a amostras da população-alvo, devendo-se, nesse caso, ter cuidado para que essa amostra seja representativa de toda a população, com indivíduos pertencentes aos diferentes níveis de habilidade.

O procedimento de revisão de itens, utilizando peritos para análise e consequente correção ou exclusão de itens problemáticos, consiste em um método comumente abordado na literatura (GRAND, 2013; ETS, 2010; PASQUALLI, 2010; JOHNSTONE et al., 2008; DOWNING; HALADYNA,

1997). Tais revisões permitem aos especialistas examinar a qualidade dos itens antes da sua utilização e são úteis principalmente para detectar conteú- dos abordados nos itens que possam, de algum modo, desviar os examinandos de respostas que permitem inferências corretas sobre a sua posição na escala de habilidades para a medida do construto pretendido no teste. Desse modo, as revisões, no mínimo, devem garantir que o teste (1) reflita o fundo cultural tanto da maioria dos examinandos como de grupos considerados minoritá- rios, (2) seja desprovido de conteúdo considerado sexista, racista, ofensivo ou inapropriado e (3) possua itens de formato acessível e não discriminató- rio, inclusive para grupos considerados minoritários (GRAND, 2013; ETS, 2010).

Essas revisões, na verdade, devem identificar fontes de variância construto-irrelevante, principal geradora de erros na interpretação dos resul- tados da avaliação e, segundo Messick (1989), uma das maiores ameaças à validade.

Para revisões eficientes, deve ser elaborado um conjunto de diretrizes que orientem os revisores em seus julgamentos. Esse conjunto de diretrizes é baseado em princípios existentes, normalmente citados na literatura, mas com conteúdos e exemplos localmente apropriados, resultando em orienta- ções claras e específicas para a elaboração e também para a revisão de testes que sejam justos a todos os participantes.

Segundo a ETS (2009), um conjunto de três princípios cobre as pos- síveis fontes de variância construto-irrelevante: princípio cognitivo, princípio afetivo e princípio físico. Essas fontes devem ser evitadas e são descritas a seguir.

1. Princípio cognitivo: É responsável pelas fontes de variância construto- -irrelevante decorrentes das diferenças entre as bases de conhecimento dos examinandos. Nesse caso, a variância na pontuação é causada quando, para se responder corretamente a um item, são necessários conhecimentos ou habilidades que não estão relacionados diretamente com o construto que o item foi desenvolvido para medir. Por exemplo, se o objetivo do item é avaliar a habilidade do indivíduo para efetuar a divisão de números, mas o enunciado é demasiadamente complexo, o correto entendimento desse texto é uma causa de variância construto-irrelevante. Se o objetivo do item, porém, é avaliar a habilidade de interpretação de texto, esse item pode ser apropriado e justo. É necessário determinar se os conhecimentos, as habilidades ou outros requisitos que o item exige para uma resposta correta são realmente importantes para a medição do construto pretendido ou são fontes de variância construto-irrelevante.

114

2. Princípio afetivo: É gerador de variância construto-irrelevante provenien- te das diferenças nas reações emocionais dos examinandos. As fontes afe- tivas são indutoras de variância construto-irrelevante quando as imagens ou textos causam fortes emoções, podendo interferir na capacidade de res- ponder ao item corretamente. Por exemplo, um texto com conteúdo ofen- sivo pode prejudicar a concentração do examinando na passagem que real- mente importa para a resposta ao item do teste, sendo, assim, uma fonte de variância construto-irrelevante. Itens que defendem crenças ou posi- ções políticas podem também ser fonte de variância construto-irrelevante, principalmente porque o examinando pode possuir posição contrária e res- ponder ao item emocionalmente em vez de se concentrar logicamente na resposta. Desse modo, deve-se evitar a inclusão de conteúdo que parece ser ofensivo, perturbador, controverso, ou outros.

3. Princípio físico: É responsável por variância construto-irrelevante pro- veniente das diferenças de habilidades físicas dos examinandos. Essas fontes ocorrem principalmente para examinandos com alguma deficiência quando algum aspecto do item demandar habilidades como ver, ouvir, dis- tinguir, ou outras. Por exemplo, os examinandos que podem enxergar mas possuem alguma deficiência visual podem ter dificuldade para entender um gráfico que possui informações escritas com fontes pequenas.

As diretrizes devem ser desenvolvidas de modo a contemplar todos os examinandos, no entanto alguns grupos requerem atenção especial no desen- volvimento, revisão e aplicação da avaliação. Indivíduos desses grupos são mais propensos do que outros a causarem variância construto-irrelevante, pois eles são mais suscetíveis a preconceitos, a diferenças culturais, a diferenças de formação, entre outras características importantes. Entre os grupos que devem ser considerados estão os caracterizados por idade, deficiência, etnia, sexo, região, língua materna, raça, religião, orientação sexual, nível socioe- conômico. Dependendo da especificidade de cada avaliação, alguns desses grupos podem necessitar ou não de atenção especial, assim como outros gru- pos diferentes desses podem ser incluídos (GRAND et al., 2013; ETS, 2009; DOWNING; HALADYNA, 1997).

As ameaças à validade de construto também são listadas como fontes de variância construto-irrelevantes, citadas anteriormente, e que devem ser removidas durante as revisões dos itens. Moskal e Leydens (2000) sugerem que as evidências para a validade de conteúdo e de construto podem ser cons- tatadas por meio de respostas a algumas perguntas, as quais são descritas no Quadro7.

Quadro 7 – Perguntas para examinar as evidências para a validade de conteúdo e de construto

Validade de conteúdo

1. Os critérios abordam algum conteúdo estranho ao teste (que não se pretende medir)?

2. Os critérios de pontuação abordam todos os aspectos do conteúdo preten- dido?

3. Há algum conteúdo abordado na tarefa que deveria ser avaliado, mas não é?

Validade de construto

1. Todas as características importantes do construto são medidas por meio dos critérios?

2. Algum dos critérios de avaliação é irrelevante para a medida do construto de interesse?

Fonte: Adaptado de Moskal e Leydens (2000)

Critérios de pontuação bem definidos também são importantes para que a avaliação obtenha bons índices de confiabilidade, pois a normatização da pontuação assegura a consistência da pontuação independentemente do avaliador ou da ocasião na qual a pontuação foi atribuída (JOHNSTON, 2004; MOSKAL; LEYDENS, 2000; NYSTRAND; COHEN; DOWLING, 1993).

Moskal e Leydens (2000) também sugerem perguntas para avaliar se os critérios de pontuação são claros o suficiente para assegurar a qualidade da avaliação, no que tange à confiabilidade da correção. Essas perguntas estão expostas no Quadro8.

Quadro 8 – Perguntas para examinar se os critérios de pontuação são adequados Adequação dos critérios de pontuação

1. As categorias de pontuação são bem definidas?

2. As diferenças entre as categorias de pontuação são claras?

3. Dois avaliadores independentes podem chegar à mesma pontuação para uma resposta dada com base na rubrica de pontuação?

Fonte: Adaptado de Moskal e Leydens (2000)

Se a resposta a qualquer uma dessas perguntas for negativa, então as categorias de pontuação devem ser revistas. Esse processo também coincide

116

com a quarta etapa da lista formulada por Weigle (2002) (Quadro6). É usual, para garantir que as categorias de pontuação sejam bem definidas, a utiliza- ção de níveis âncora, relacionando os pontos selecionados na escala de ha- bilidades com descritores que ilustram as variações da rubrica de pontuação. Os níveis âncora são utilizados pelos avaliadores para esclarecer as diferen- ças entre os níveis de pontuação para cada rubrica (MOSKAL; LEYDENS, 2000).

Documents relatifs