• Aucun résultat trouvé

Application : l’analyse factorielle

Dans le document Psychologie statistique avec R (Page 115-120)

L’algèbre des covariances a des applications très importantes en psychologie, dans les analyses dites « de la structure de la covariance », encore appelées « analyses en équations structurales » (Bollen, 1989). Elle est très importante à maîtriser pour pouvoir accéder notamment à la compréhension des analyses factorielles, qui sont au cœur de la construction des tests psychologiques.

Nous illustrons ci-dessous l’un des usages majeur de l’algèbre des covariances en psychologie : l’analyse factorielle. Le psychologue anglais Spearman a supposé que toute performance intellectuelle était sous-tendue par une compétence sous-jacente unique, qu’il a appelée l’intelligence générale. On cherche à tester l’hypothèse uni-factorielle de Spearman sur les résultats à trois épreuves d’intelligence à dominante verbale : la classification de mots en catégories, la connaissance de la signification des mots et la compréhension de sens d’extraits de textes.

Nous allons noterX1,X2 etX3les trois variables de résultat à ces épreuves. Pour chacune de ces variables cognitives, Spearman imagine la structure suivante :

X1=λ1ξ+1 X2=λ2ξ+2 X3=λ3ξ+3.

La variableξ, commune dans cette structure des trois variables, est appelée « fac-teur général d’intelligence » et représente la compétence vraie des sujets. Elle a pour particularité d’être totalement hypothétique, et donc non observée. C’est ce qu’on appelle une variable latente. Les performances aux trois tests sont quant à elles mesurables : c’est ce qu’on appelle desvariables manifestes. Le coefficient λj est appelé « saturation factorielle » : c’est un coefficient qui module en effet l’importance du rôle joué par le facteur général dans chaque performance. Cer-taines épreuves peuvent en effet la mettre davantage à contribution. La variable aléatoire j (j = 1,2,3) représente une erreur de mesure. Aucun test ne peut raisonnablement mesurer que ce qu’il est censé mesurer. La variablej représente donc l’impact de toutes les variables qui, sans relever de l’intelligence, vont in-fluencer la performance manifeste en additionnant leurs effets (la fatigue du sujet, sa motivation, etc.). On supposera donc dans les calculs qui suivent qu’elle est statistiquement indépendante de la variable de compétenceξ.

C’est le modèle unifactoriel de Spearman. Il peut être représenté sous la forme d’un graphe où la variable latente est représentée sous forme d’ellipse et les variables observées sous forme de boîtes rectangulaires, les variables d’erreur apparaissant sans encadrement (voir fig. 5.2). Dans cette représentation graphique, les liens orientés définissent une relation de dépendance linéaire (coefficients de régression ou de saturation) et les liens doubles représentent des (co)variances. Ce type de modèle est un cas particulier de ce qu’on appelle aujourd’hui les modèles d’analyse de la covariance ou modèles structuraux (Joreskog, 1969). On juge en effet de l’adéquation de tels modèles à des données concrètes à partir des variances et covariances qui s’en déduisent théoriquement.

Selon ce modèle et par les propriétés 5.1 et 5.3 vues plus haut, on peut prédire que la variance deX1par exemple, aura la structure :

V(X1) =V1ξ+1) =V1ξ) +V(1) + 2CoV(ξ, 1) =λ21V(ξ) +V(1), (5.6) car la covariance entreξetjest nulle, sous l’hypothèse d’indépendance. De même, la covariance attendue entre X1 et X2 selon ce modèle aura la forme (propriété 5.2) :

CoV(X1, X2) =CoV1ξ+1, λ2ξ+2) =λ1λ2V(ξ), (5.7) car les covariances entre compétence vraie et erreurs sont supposées nulles, ainsi que la covariance entre erreurs. On réunit l’ensemble des variances et covariances dans un tableau global, appelé matrice des variances-covariances. Si l’on note σ2ξ = V(ξ) et σ2

j = V(), la forme attendue de cette matrice selon le modèle unifactoriel est :

Estimation des paramètres du modèle

Strictement parlant, la modélisation théorique ci-dessus manipule des quantités inconnues. Muni d’un modèle, le psychologue cherche à estimer ces paramètres au mieux, à l’aide des données qui sont à sa disposition. Nous développons plus loin la question de l’estimation des paramètres inconnus d’un modèle statistique à l’aide d’un critère de qualité. Nous nous contenterons dans cette section de chercher à estimer l’ensembleθ= (λ1, λ2, λ3, σ2ε

1, σε2

2, σε2

3) des paramètres du modèle unifac-toriel qui mène à la meilleure reconstitution numérique possible des corrélations empiriques. Dans ce cas simple, on a six paramètres inconnus (les trois λj et les troisσ2

Il y a donc autant de paramètres inconnus du modèle théorique que de données observées : on dit que le modèle estsaturé. Comme on va le voir ci-dessous, on par-vient dans cette situation à une reconstitution parfaite des corrélations observées en donnant aux paramètres inconnus certaines valeurs bien choisies.

On note qu’il y aura, dans le cas général deptests,2p+ 1paramètres à identifier (σ2ξ, lesλj et lesσ2ε

j, j = 1, ..., p) et p(p2+1) données dans la matrice S des cova-riances observées. Pour pouvoir estimer les paramètres, on devra donc avoir au minimum sur le nombrepde variables la condition :

p(p+ 1)

2 2p+ 1soitp≥3+217 3.5,

soit au moins quatre variables observées, sauf à introduire des contraintes particu-lières. Notamment, les construits psychologiques comme l’intelligence n’ayant pas d’unité naturelle, il est usuel de fixer la variance σ2ξ du facteur latent à la valeur arbitraire 1. Avec cette contrainte, la matrice modèle se simplifie en :

Σ0=

et trois variables observées suffisent alors pour l’estimation. La fig. 5.2 représente ainsi la contrainteσξ2= 1par un lien double réflexif (variance) dont la valeur est 1.

Fig. 5.2– Modèle unifactoriel sur trois variables

Dans ce cas simple, on estime les paramètres en égalisant matrice observée et matrice de structure théorique :

⎧⎪

⎪⎪

⎪⎪

⎪⎩

s21= ˆλ21+ ˆσε2

1, s12= ˆλ1λˆ2 s22= ˆλ22+ ˆσε22, s13= ˆλ1λˆ3 s23= ˆσ23+ ˆσ2ε3, s23= ˆλ2λˆ3

.

En notant par exemple que :

s12s13 s23 = ˆλ21

permet d’obtenir la saturation factorielle, on obtient la variance d’erreur par dif-férence :

ˆ σε2

1=s21−λˆ21=s21−s12s13 s23 . On a au final les six estimations :

λˆ1=

s12s13 s23 , σˆ2ε

1 =s21s12S23s13 λˆ2=

s21s23 s13 , σˆ2ε

2 =s22s21s13s23 λˆ3=

s31s32

s12 , σˆ2ε3 =s23s31s12s32 .

Inversement, une fois connues les saturations, on peut reconstituer les covariances originales par un simple produit :

sjj = ˆλjλˆj. Propriétés

1. Avec la contrainte σξ2 = 1, la saturation factorielle a le sens d’une covariance variable-facteur (d’où son nom) :

CoV(ξ, Xj) =CoV(ξ, λjξ+εj) =λjσ2ξ =λj.

2. Si les variables observées sont standardisées, elle a donc le sens d’une corrélation variable-facteur. Aux mêmes conditions, son carré mesure le pourcentage de la variance observée expliquée par la partie non aléatoire du modèle (ξ). On appelle généralement fiabilité (reliability) de la mesure, notéeρXj, ce pourcentage. On a en effet :

ρXj = Vjξ)

V(Xj) = λ2jσ2ξ V(Xj) =λ2j.

3. Quand le modèle unifactoriel décrit convenablement les données, on s’autorise parfois à constituer un score totalT =X1+X2+X3, car, sous le modèle, les trois performances relèvent bien d’une même compétence. La proportion de la variance de ce score total expliqué par la partie non aléatoire (ξ) du modèle est appelécoefficient de consistance interne ou coefficientαde Cronbach. Sous la contrainteσξ2= 1, il s’écrit :

On considère comme satisfaisante une consistance au moins égale à 0.80.

Application

On cherche à tester l’hypothèse unifactorielle de Spearman sur les corrélations suivantes, obtenues sur les résultats à trois épreuves d’intelligence à dominante verbale : la classification de mots en catégories, la connaissance de la signification des mots et la compréhension de sens d’extraits de textes (Harman, 1976) :

Epreuve 1 2 3

1. Classification de mots 1.000 2. Signification des mots 0.532 1.000 3. Compréhension de paragraphes 0.527 0.714 1.000

On note que les corrélations sont des covariances particulières sur variables stan-dardisées. Nous cherchons les paramètresθ= (λ1, λ2, λ3, σε2

1, σε2

2, σ2ε

3) du modèle unifactoriel qui décrit au mieux ces corrélations. On calcule :

ˆλ1=

On peut vérifier que la corrélation entre les subtests 1 et 2 est bien reconstituée par :

R12= ˆλ1ˆλ2= 0.626×0.848 = 0.53.

Les fiabilités des trois subtests sont respectivement de ˆλ21 = 0.39, ˆλ21 = 0.72 et λˆ21 = 0.70. Cela signifie que 39% de la variance de X1 (classification de mots), 72% de la variance de X2 (signification de mots) et 70% de la variance de X3 (compréhension de paragraphes) sont expliqués par la compétence générale sous-jacente. On dira, si l’on interprète le facteur latent comme une compétence générale en langage, que la tâche de classification de mots est une tâche moins purement verbale que les autres.

L’homogénéité (ou fiabilité de la somme des scores) au sens de Cronbach est donnée par :

α =

jˆλj 2

jλˆj 2

+

jσˆε2

j

= 0.82.

Elle apparaît comme satisfaisante.

Dans le document Psychologie statistique avec R (Page 115-120)