1.2 100 MHz PPC 603e MCM - Preliminary, IBM Internal Use Only

O exame dos indícios de validade psicométrica (modelo final) foi realizado, após a va- lidação do novo QDAO e da coleta de dados, por meio da análise dos itens, ou análise empírica dos itens. Iniciou-se depois a análise dos dados coletados (n=489) com a parte descritiva dos

mesmos aplicando-se duas metodologias da Teoria de Resposta ao Item: MIRT e o bfactor para encontrar o modelo final.

5.4.1.1 Teoria de Resposta ao Item (TRI ou IRT) para seleção do melhor modelo

A TRI foi desenvolvida para suprir algumas limitações da Teoria Clássica dos Testes, pois esse modelo baseia-se no resultado do instrumento como um todo, não levando em consi- deração as caraterísticas dos respondentes. Mas a TRI considera cada item no seu particular, logo as conclusões não dependem somente do questionário e sim de cada item que o compõe.

Pasquali (1996) afirma que

Esta teoria de análise dos itens possui uma longa história (desde os anos 50), mas só bem recentemente está sendo utilizada praticamente, dadas as dificuldades das análises estatísticas envolvidas que exigem o poder de avançados softwares e microcomputado- res de certo porte. A IRT é uma teoria estatística, mas de utilização direta na psicometria, inclusive com grandes vantagens sobre outros métodos tradicionais de análise de itens. (p.86).

Continua Pasquali (2013):

Atualmente, a IRT parece que veio para ficar e substituir grande parte da teórica clássica da psicometria ─ isto é um fato que já ocorre no Primeiro Mundo (USA, Canadá, Europa, Japão, Israel, Austrália); no restante do mundo ela é raramente utilizada, e no Brasil (América Latina em geral) ela chegou a ser conhecida apenas nos anos de 1990. (p. 80).

Depois de mais de vinte anos dessa afirmação, a Teoria de Resposta ao Item está sendo muito mais utilizada na Psicometria, mas ainda não são muitos os Psicólogos especializados em medidas que a dominam.

Atualmente, a TRI é um conjunto de técnicas Estatísticas e uma poderosa ferramenta estatística, mas é matematicamente complexa e consequentemente exige a utilização de com- putadores na sua execução. Segundo Andrade, Tavares & Valle (SINAPE 2000, p. 7): a TRI “é um conjunto de modelos matemáticos que procuram representar a probabilidade de um indiví- duo dar uma resposta a um item como função dos parâmetros do item e da habilidade (θ) (ou habilidades) do respondente. ” Então ela procura mostrar a relação da probabilidade de um indivíduo responder a um item conforme seus traços latentes. Traço latente são as característi- cas que um indivíduo possui e não há como medi-lo e nem o observar diretamente, podendo ser somente observado a partir de variáveis secundárias (itens do instrumento) e que estejam rela- cionadas a elas. Então, a TRI procura mostrar a relação entre a probabilidade de o sujeito responder aos itens e seus traços latentes e habilidades serem avaliados por meio deles (Andrade, Tavares & Valle, 2000). Para se conseguir medir os traços latentes, que é algo inacessível à observação, é necessário a formulação de um instrumento que abranja tais predominâncias para que esses atributos latentes possam ser medidos. Pasquali (1996) afirma que o comportamento (verbal, motor) é o único nível em que se pode trabalhar cientificamente, pois ele representa os traços latentes. Para a Psicometria, o comportamento representa os traços latentes por meio de uma série de parâmetros (chamados de itens) analisados pela Teoria Psicométrica Clássica ou pela Teoria da Resposta ao Item.

A Teoria da Resposta ao Item, “permite a mensuração de características difíceis de serem medidas diretamente (traços latentes) com base em um conjunto de itens e na criação de uma escala interpretável” (Tezza, 2013, p. 145).

a comunidade científica desenvolveu uma série de parâmetros mínimos que a medida psicométrica deve apresentar para se construir instrumento legítimo e válido. Os parâ- metros mais básicos se referem à análise dos itens (dificuldade e discriminação) e à validade e confiabilidade do instrumento.

Foram utilizadas duas metodologias para a modelagem do novo QDAO: MIRT e bfactor, nessas duas modelagens foram encontrados os parâmetros de dificuldade dos itens, normalmente representado pela letra “b ou d” na TRI e de discriminação dos itens, sendo representado pela letra “a” (ou slope) na TRI. O parâmetro dificuldade (b ou d) do item é o mais complexo, pois exige maior nível e magnitude do traço em questão, para dar a adesão a seu conteúdo semântico. Ele é dado “em termos da porcentagem (proporção) de sujeitos que dão respostas corretas ou de acordo/preferência ao item” (Pasquali, 1996, p.82). Melhor dizendo, a magnitude do traço latente necessária para aceitar o item é o ponto na escala de aptidão (habilidade = θ), quanto maior for o “b ou d”, maior é a chance de o sujeito dar preferência (indecisão) (ou acertar) ao item.

O segundo parâmetro é o da discriminação (a ou slope) de um item que se define como a capacidade (ou o poder) que ele apresenta de diferenciar (discriminar) sujeitos com magnitudes próximas do mesmo traço; quanto mais próximas forem as magnitudes do traço que o item puder diferenciar, mais discriminativo ele será. Esses parâmetros (a e b) dependem diretamente da amostra selecionada (Pasquali, 1996). Os valores do parâmetro de discriminação, numa escala (0 e 1) que é tipicamente usada na TRI, o (a) pode variar entre 0 a + ∞, mas tipicamente variam entre 0 e 2 (Pasquali, 2013). “Valores negativos indicariam que a probabilidade de acertar um item estaria inversamente relacionada com a aptidão, o que soa estranho” (Pasquali, 2013, p. 88) e segundo Andrade et al. (2000, p. 15) “ ... que os valores mais apropriados de “a” seriam aqueles maiores que um. ”. Estes valores entre 0 e 2, também indicam a inclinação da

curva no ponto de inflexão. Existe, também, um terceiro parâmetro que seria o da resposta aleatória, que é representado na TRI pela letra “c” que seria o “chute”, ou seja, a resposta correta dada ao acaso, mas este parâmetro não será discutido neste trabalho por não existir no novo QDAO resposta correta.

Segundo Pasquali (1996, p. 175),

... a TRI trabalha com traços latentes e coloca dois axiomas fundamentais: 1) o desempenho do sujeito numa tarefa (item do teste) se explica em função de um conjunto de fatores ou traços latentes (aptidões, habilidades, etc) ─ o desempenho é o efeito, e a causa são os traços latentes; 2) A relação entre o desempenho na tarefa e o conjunto dos traços latentes pode ser descrita por uma equação monotônica crescente, chamada de ICC (Item Characteristic Curve – a curva característica do item).

Em estatística essa curva característica do item é conhecida como Ogiva, também é conhecida por apresentar um formato de S. A teoria psicométrica entende que os sistemas psico- lógicos latentes possuem dimensões e também é conhecida como a teoria da curva característica do item; ela supõe que o sujeito possui certa magnitude do traço latente representado por theta (𝜃), onde o 𝜃 é encontrado a partir da análise das respostas dos sujeitos por meio de modelos matemáticos e é a habilidade ou aptidão. Pasquali (2013, p. 87) escreve que a escala do theta é dado em escore padrão e “os valores de “b” se situam entre -3 (itens fáceis) e +3 (itens difíceis) ”.

Existem inúmeros modelos matemáticos (Pasquali, 2013) que expressam a relação de probabilidade em um item e a aptidão medida, mas tem três que são os principais modelos logísticos e que se diferenciam pelo número de parâmetros que se deseja avaliar dos itens. Os parâmetros, já mencionados acima, sendo: dificuldade (d ou b = diff), discriminação (a = dis-

crim) e a resposta aleatória (c), são considerados 3 parâmetros. Então existem em TRI o modelo

(discrim e diff) ou 3 parâmetros logísticos e já existindo o modelo logístico de 4 parâmetros, mas neste trabalho será realizado modelo logístico de apenas 2 parâmetros (a e b), pois o instrumento contem itens com categorias de respostas ordinais e não possui alternativa correta que seria o parâmetro c (acerto casual).

A seguir apresenta-se o modelo logístico de dois parâmetros (2) unidimensional, para n itens e k pessoas:

P(Ui , j / 𝜽j) = (1+ e -ai(θj- bi)₎ -1_...(2)

Onde,

Ui,j → a resposta j-ésimo pessoa ao i-ésimo item , i=1,...,n e j= 1, ...,k

θj → é o valor do traço latente do j-ésimo indivíduo,

ai → é o índice de discriminação do i-ésimo item

bi → é a dificuldade do i-ésimo item

A TRI é um tipo de análise fatorial para dados observados dicotômicos ou politômicos e ambas têm similar metodologia (Reckase, 1997). Na análise fatorial encontram-se os fatores que são as variáveis latentes que procuram explicar a variabilidade das variáveis observadas de um instrumento. Na TRI procura-se modelar os relacionamentos entre as respostas dos indiví- duos através do item buscando determinar seus traços latentes (Reckase, 1997). Nos modelos da TRI existem dois tipos de parâmetros a serem estimados, já mencionados acima, que seriam referentes aos itens e as habilidades dos indivíduos e normalmente não se conhecem esses pa- râmetros, então tem-se que estimá-los. A estimação, proposta, é feita pelo Método de Máxima Verossimilhança com a aplicação de algum processo iterativo (algoritmo), para estimação das estimativas de modelos de probabilidade na presença de variáveis aleatórias não observadas.

Os processos iterativos são passos repetidos até que ocorra a estabilização para algum valor ou que algum critério de parada seja alcançado. Pode-se citar alguns processos iterativos implementados no software estatístico RStudio como: Expectation Maximization (EM), Quase Monte Carlo EM (QMCEM), Monte Carlo EM (MCEM), Stochastic EM (SEM); existem tam- bém alguns métodos bayesianos.

Neste estudo foi buscado o melhor modelo multidimensional para diagnosticar e opera- cionalizar a adaptação de indivíduos por meio da técnica TRI (Full-information Item Factor

Analysis) para itens politômicos utilizando duas metodologias: MIRT e bfactor. A primeira é

a MIRT que tem como base selecionar o melhor modelo sem nenhum conhecimento pré-estabelecido inicialmente de quais setores os itens pertencem, ela seleciona (ou agrupa = dimensões) conforme o processo iterativo utilizado, partindo de um número pequeno de dimensões e vai aumentando ou não, após encontrar as dimensões verifica-se os ajustes dos itens, e o segundo modelo que chama-se bfactor que tem como base para selecionar o melhor modelo partindo de um conhecimento prévio dos setores que os itens pertencem, utilizando um único processo iterativo (EM), mas dá ênfase a duas dimensões. Ambas utilizam a ANOVA que é a comparação a cada dois modelos na escolha do melhor modelo entre eles, quanto ao número de dimensões. Após a escolha do melhor modelo (quanto ao número de dimensões) e após verificar os ajustes dos itens, obteve-se o modelo final e este é verificada a qualidade do ajuste desse modelo e/ou adequação do modelo. Para a verificação do ajuste/adequação do modelo final foram uti-

lizados as estatísticas: M2, RMSEA (Root Mean Square Error of Approximation), SRMSR

(Standardized Root Mean Square Residual), TLI (Tucker Lewis Index) e CFI (Comparative Fit

Index), onde M2_{testa o ajuste em tabela de contingência multidimensionais indicando que o}

ajuste é ruim para p<5%, porem esta estatística (M2) possui erros empíricos precisos do erro do tipo I (=probabilidade de rejeitar Ho dado Ho é verdadeira), pois é sensível ao tamanho de amostra (Maydeu-Olivares, A. & Joe, 2006), mas assintoticamente se aproxima da distribuição

Qui-quadrado, RMSEA e SRMSR verificam a adequação do modelo sendo o valor ideal abaixo de 0,05 e TLI e CFI verificam o ajuste do modelo ideal valores acima de 0,85 (Hair, 2009), essas estatísticas foram calculadas através do programa RStudio (version 3.4.4 ). Também fo- ram utilizados os índices de consistência interna (alfa de Cronbach), para verificar a fidedigni- dade do instrumento para o seu cálculo foi utilizado o software estatístico SPSS (v.22, IBM 2013). Ele é um dos métodos mais utilizados que fornece as estimativas do grau de consistência interna e confiabilidade de uma medida psicológica variando numa escala entre 0 e 1 (Cronbach, 1951) e valores entre 0,7 e 0,8 são considerados aceitáveis (Hair, 2009), sendo o ideal acima disso.

5.4.1.2. Propriedades da TRI

Na TRI existem vários modelos propostos e todos eles necessitam:

(a) da quantidade de traços latentes medidos, podendo ser um traço (unidimensional) ou mais traços (multidimensional);

(b) conhecer a natureza do item (dicotômico, nominal ou ordinal) e (c) conhecer o número de populações envolvidas.

As propriedades principais da TRI são: a adequação do modelo e a independência local. A adequação do uso da TRI ou adequação do modelo (goodness-of-fit) depende da suposição de dimensionalidade, isto é, é relevante verificar a dimensionalidade (Pasquali, 1996), ou seja, a homogeneidade do conjunto de itens que provavelmente devem medir um mesmo traço latente ou não (medindo mais de um traço latente). Então deve-se inicialmente supor a quantidade de dimensões ou de traços latentes que o instrumento possui, isto é, se for apenas um único traço latente ou mais de um traço. Supõe-se um único traço latente para um determinado conjunto de itens de um instrumento que são os modelos unidimensionais, se todos os seus itens medem

uma única habilidade (ou pelo menos uma dominante), caso contrário, será considerado multidimensional (ou modelos multidimensionais), pois existem nos modelos multidimensionais que o instrumento mede mais de uma habilidade, isto é, dado que mais de um traço latente pode interferir numa determinada tarefa. Então, entende-se que a multidimensionalidade é um conjunto de várias escalas, cada uma medindo um traço latente. Segundo Fragoso (2010, p. 21), a TRI apoia-se na suposição de que existe um único traço latente, . . .. Contudo, tal supo- sição nem sempre é válida na prática, onde comumente mais de um traço latente tem papel significativo no desempenho do indivíduo ao longo da prova. Por exemplo, em uma prova que objetiva medir a fluência de um indivíduo em um determinado idioma, vários fatores podem influenciar na resposta correta ou não a um item, tais como seu vocabulário, interpretação de textos ou habilidade de leitura no idioma em questão. (Fra- goso, 2010, p.21).

Além da verificação da dimensionalidade, a independência local afirma que mantidas constantes as aptidões que afetam o teste, as respostas dos sujeitos a quaisquer dois itens são estatisticamente independentes (Pasquali, 1996, p. 176), com isso pode-se fazer o produtório (3) das funções de probabilidades:

Onde,

P(Uij |θ) = probabilidade do j-ésimo indivíduo responder ao i-ésimo item dada a aptidão (θ).

Isso implica que o fator dominante será a única fonte de variação e os demais fatores são mantidos (considerados) constantes, assim as respostas se tornam independentes.

Então nota-se que a dimensionalidade é uma parte da TRI importante para chegar num modelo final e que seja representativo do constructo analisado. Neste trabalho parte da metodologia MIRT de duas dimensões e assim foi sendo aumentado conforme as análises de ajustes

dos itens na comparação a cada dois modelos. Na metodologia bfactor já é de conhecimento o número de dimensões, pois parte de um conhecimento prévia das dimensões que neste caso são os 4 setores da adaptação (A-R, S-C, Pr e Org), mas a sua finalização é com duas dimensões.

5.4.1.3 Teste para a dimensionalidade, utilizando a ANOVA

Chalmers (2012), sugere que para encontrar o número de dimensões, tal que se tenha um melhor ajuste (goodness-of-fit) aos dados é por meio da comparação, a cada dois modelos, ou seja, comparando um modelo de p dimensões com outro modelo com (p+1) dimensões, utilizando uma Análise de Variância Genérica (ANOVA). Nessa comparação (dois a dois), que está implementada no software RStudio, está sendo testado as seguintes hipóteses:

(Hipótese nula) Ho: o modelo com p traços latentes ajusta bem os dados.

Versus

(Hipótese alternativa) Ha: o modelo com p+1 traços latentes ajusta bem os dados. O software informa os resultados das estatísticas da ANOVA que são: AIC (Akaike In-

formation Criterion), BIC (Bayesian Information Criterion), do log da verossimilhança (log-

Lik = log likelihood) e o valor do teste Qui-quadrado (χ2_{) com os graus de liberdade (df) e seu}

nível descritivo (p). Para a escolha do melhor modelo olha-se o nível descritivo (p) do teste Qui-quadrado e este (p) quando for menor que o estabelecido nível de confiança α = 5%, a hipótese Ho é rejeitada, implicando que o modelo com p+1 parâmetros extras estimados prova- velmente contribuirá melhor para o número de dimensões em relação ao modelo com p parâ- metros. Bock e Schilling (2005) sugerem que os modelos devem ser comparados até que a hi- pótese nula (Ho) não seja rejeitada, ou seja até que apareça (nível descritivo) p > 5% na com- paração ente os dois modelos propostos. Consequentemente o modelo em questão da compara- ção que tiver os valores menores nas respectivas estatísticas da ANOVA, será considerado

como o modelo adequado, habitualmente olha-se o menor valor AIC na comparação entre os dois modelos. Então, quando a hipótese nula (Ho) não for rejeitada (p > 5%) o número de pa- râmetros estabelecidos nessa hipótese será considerado como o número de dimensões “ideal” até este momento e, consequentemente, os itens deverão ser avaliados individualmente.

Esta técnica proposta por Chalmers (2012) foi utilizada para as duas metodologias pro- posta (MIRT e bfactor) na procura do melhor modelo, onde na metodologia MIRT era impres- cindível o uso da ANOVA para encontrar o melhor número de dimensões, pois ela inicialmente não se conhece o número de dimensões e depois verificava-se a qualidade dos itens do modelo selecionado e assim se seguiu até encontrar o modelo final. Já na metodologia bfactor somente a qualidade dos itens são verificados, pois o número de dimensões, que são os quatro setores, já é estabelecido inicialmente, mas mesmo assim foi realizado as comparações dos modelos utilizando a ANOVA, mas nota-se que em todas as comparações a estatística Qui-quadrado apresentava o nível descritivo p = 1, pois o número de dimensões eram sempre os mesmos o que diferenciava eram o número de itens de um modelo para outro.

5.4.1.4 Natureza do Item

Além dessa suposição de adequação do modelo, que é o número de dimensões que o modelo necessita, existe também a natureza do item, que pode ser: dicotômico (duas categorias: sim/não, certo/errado, ...), politômicos (mais de duas categorias: ordinais) e os nominais (mais de duas categorias não ordinais). Para itens dicotômicos os modelos são com 1PL (PL=parâ- metros logísticos) ou modelo Rasch, 2PL, 3PL e em desenvolvimento e o mais atual 4PL. Os mais comuns são Rasch, 1PL, 2PL e 3PL e cada um possui as suas respectivas particularidades, que estão implementados no software RStudio e em outros softwares, mas não serão discutidos

neste contexto, como já mencionado acima. O novo QDAO, que está sendo avaliado neste es- tudo, possui mais de duas categorias e que são ordinais (escala Likert), portanto os itens são chamados de politômicos. Existe uma outra vantagem da TRI, onde os itens podem ser testados

individualmente, através da estatística Qui-quadrado (χ2_{); dessa maneira pode-se avaliar cada}

item do modelo proposto e existe no software RStudio essa implementação que seria o programa “itemfit”, que avalia item a item apresentando as estatísticas χ2_{com seu respectivo nível descri-}

tivo (p), considerando p > 0,05 (não rejeitando a (hipótese nula) Ho: o item está bem ajustado) como item “bom”, isto é, o item permanece no modelo.

Para itens politômicos existem algumas variações de métodos de modelos: Partial Cre-

dit Model (PCM), Rating Scale Model (RSM), Generalized Partial Credit Model, (GPCM) e o Graded Response Model (GRM), para os itens não ordinais Nominal Model (Bock, 1972).

Dans le document Preliminary, IBM Internal Use Only (Page 22-29)