Para os propósitos desse trabalho, selecionamos inicialmente 28 itens de matemática da prova do Enem de 2010 a 2015 que apresentassem duas características importantes para o nosso estudo: fossem passíveis de modificação no enunciado com a finalidade de reduzir a carga cognitiva estranha do problema; e que os itens tivessem uma taxa de acerto considerável, pelo menos 30%. Os itens de matemática da prova do Enem de 2009 não foram selecionados apenas por considerarmos que a taxa de acerto desses itens em média foram baixas, e a partir dessa primeira aplicação do Enem reestruturado, os responsáveis pela prova de matemática talvez tenham utilizado essa expertise nas provas dos anos consequentes para criar itens mais adequados, ou seja, em todo o espectro de dificuldade.
A utilização dos microdados do Enem possibilita verificar resultados importantes da Teoria Clássica dos Testes (TCT), particularmente a dificuldade do item, que nada mais é do que a taxa de acerto dos candidatos para aquele item em questão. No Anexo III se encontram algumas medidas e discussões sobre a TCT, incluindo o Alfa de Crombach. Com essa informação em mãos, o número de itens candidatos à nossa pesquisa nas seis provas de matemática (270 itens) foi reduzido drasticamente. Foram pré
selecionados itens cuja dificuldade variou entre 0,33 e 0,65 pelos motivos já apontados na primeira subseção desse capítulo. Itens com uma dificuldade muito alta ou muito baixa são ruins (RABELO, 2013) no sentido de não abrir o espectro de notas (discriminação baixa). O Enem possui pouquíssimos itens com taxa de acerto maior que 0,5, mesmo com um recorte bem particular de candidatos que participaram dos dois dias de prova e que também não zeraram a redação. Após uma inspeção minuciosa nesses itens, foram selecionados 28 itens que contemplavam as características desejadas.
Utilizamos as mesmas hipóteses que o do trabalho de Gillmore, Poggio e Embretson (2015), de que a redução de carga cognitiva estranha deve possuir impacto no desempenho dos candidatos em cada item e, portanto, no teste como um todo e também na validade do instrumento de avaliação. Utilizamos as mesmas estratégias de redução de carga cognitiva dos autores, que está presente na Tabela 8 do capítulo anterior.
Em cada item, para a tentativa da redução de carga cognitiva estranha, pelo menos uma das estratégias apresentadas foi utilizada nos itens de nosso instrumento de avaliação. A única estratégia que não utilizamos foi a de Sequenciamento, muito embora em um item mudamos a ordem da frase no comando, mas ele continuou como a última parte do item antes das alternativas. Alguns itens permitiram a aplicação de mais de uma estratégia. Segundo o trabalho de Gillmore, Poggio e Embretson, as técnicas de Sinalização, Estética e Extirpar foram as que se mostraram mais eficazes na melhoria do desempenho dos sujeitos de pesquisa, nas condições de pesquisa desses autores.
Consideramos, assim como os autores, que é muito difícil afirmar que uma técnica é universalmente melhor que outra, já que cada item é um conjunto de diversas variáveis, como o corpo da questão, que pode conter ou não contextualização e em diversos níveis, um comando que pode exigir uma ou duas informações presentes em lugares próximos ou distantes no corpo, e geralmente um construto a ser avaliado. No trabalho dos autores, dos 15 itens, oito (8) apresentaram uma distância de Cohen não desprezível (pelo menos pequena) em favor daqueles itens com carga cognitiva estranha reduzida enquanto dois (2) itens tiveram uma distância de Cohen não desprezível em favor dos itens originais. Ainda no trabalho de Gillmore (2010), com respeito às duas provas inteiras, a constituída apenas por itens originais e a outra que apresenta apenas itens com carga cognitiva reduzida, os alunos que fizeram a prova com itens modificadas foram melhor, com uma distância de Cohen de 0,37, que é um valor considerável (moderado).
Utilizando como referência alguns exemplos de redução de carga cognitiva estranha no trabalho de Gillmore, Poggio e Embretson (2010), fizemos as modificações nos 28 itens que foram selecionados, e após algumas considerações sobre pertinência e adequação dos itens acabamos por utilizar 24 itens. Finalmente, para saber se a modificação da carga cognitiva estranha dos itens não mudou a estrutura e o construto avaliado, dois alunos do quinto semestre da licenciatura em matemática do Instituto Federal de São Paulo, campus de São Paulo, de maneira independente, resolveram esses 24 itens modificados, marcando as alternativas que consideravam corretas e anotando eventuais comentários sobre o corpo da questão, o comando, valores numéricos, alternativas ou qualquer imprecisão que poderia afetar o desempenho dos estudantes.
Após os ajustes, os 24 itens modificados do Enem, com redução de carga cognitiva, foram considerados adequados. Todas os itens escolhidos e suas versões reduzidas podem ser encontradas nesse trabalho, dois itens no capítulo anterior, alguns no Capítulo 6 e o restante no Apêndice VII. As discussões sobre o tipo de construto pretendido em cada item, as técnicas utilizadas para redução de carga cognitiva estranha e os resultados da aplicação do item aos respondentes também são encontrados junto de cada item.
Para verificar o quanto o desempenho dos alunos difere nos itens originais do Enem e nos mesmos itens com redução de carga cognitiva pensamos em construir um instrumento de avaliação com os 24 itens originais (teste controle) e outro com os 24 itens de carga cognitiva reduzida (teste experimento). Desistimos dessa alternativa por considerarmos que uma avaliação contendo apenas os itens originais seria desgastante para os respondentes se comparado com a avaliação contendo apenas os itens modificados. Por esse motivo optamos por fazer dois extremos de prova, uma com 2/3 de itens originais do Enem e 1/3 de itens modificados, que chamamos de prova 3366A, e outra com 1/3 de itens originais do Enem e 2/3 de itens modificados, que chamamos de 6633B. Por um erro de construção, a prova 3366A ficou com sete itens modificados ao invés do correto, que seria oito.
Para tentarmos analisar o desempenho dos alunos em cada item, construímos duas provas espelho, 5050A e 5050B, onde cada uma tinha 50% de itens originais do Enem e 50% de itens com carga cognitiva reduzida. Cada item original do Enem na prova 5050A era reduzido na prova 5050B, e cada item reduzido na prova 5050A era um item original
do enem na prova 5050B. Os itens foram realocados nessas provas, de modo que nenhum aluno fez mais do que três itens originais ou modificados em sequência.
As denominações dessas provas estavam presentes em cada página da avaliação e do questionário que cada estudante recebeu. Para a apresentação e análise dos resultados, acreditamos que essa nomenclatura de cada prova não seja adequada, e por esse motivo daqui para frente denominaremos de ">Original" a prova 3366A, por possuir uma quantidade maior de itens originais e ">Reduzida" a prova 6633B, por possuir uma quantidade maior de itens reduzidos. As provas 5050A e 5050B terão a nomenclatura alterada para Igual_A e Igual_B.
A ordem dos itens nas quatro provas (>Orig, Igual_A, Igual_B e >Red) foi a mesma, o que diferencia cada prova é a classificação do item como original (do Enem) ou reduzido (carga cognitiva reduzida). Foi também tomado o cuidado para que os itens não estivessem desbalanceados com respeito à taxa de acerto (dificuldade), de modo que de quatro em quatro itens o aluno encontrasse pelo menos um item com taxa de acerto maior ou igual a 0,45 (média) e um item com taxa de acerto menor ou igual a 0,35 (difícil). Lembrando que essa é a taxa de acerto do item utilizando os microdados do Enem para o recorte de alunos concluintes do Ensino Médio, que compareceram nos dois dias de prova e não zeraram a redação. A média da taxa de acerto nos 24 itens do nosso instrumento de avaliação é de 0,42.
Para que os alunos estivessem em condições parecidas com as da prova do Enem, o tempo médio que utilizamos por item foi de 3 minutos, e, portanto, para a prova toda foi estipulado um tempo de 72 minutos. Adicionamos 3 minutos para o preenchimento do questionário socioeconômico, que se encontra no Apêndice II, e no total os alunos tiveram então 75 minutos (1h15min) para resolver a prova e preencher o questionário.
Como esse trabalho trata do experimento com pessoas, particularmente com muitos estudantes menores de 18 anos, o procedimento de submeter o projeto a um comitê de ética foi executado, e os termos de consentimento e assentimento (Apêndice I) foram preenchidos pelos próprios alunos e pelos seus responsáveis, quando estes eram menores de idade.