• Aucun résultat trouvé

3 PARTIE III – MÉTHODOLOGIE

3.2 CHAPITRE 2 L’ORIGINE DE LA MESURE DES TEMPS DE RÉPONSE LORS DE LA RECONNAISSANCE D’UN

3.3.3 L’analyse statistique des données

Les expériences présentées dans ce rapport ont une structure factorielle : un même individu fournit des réponses à une série d‟items, ces mêmes items étant présentés à plusieurs individus (expériences de type « mesures répétées »). Elles comportent un ou plusieurs facteurs fixes (variables étudiées) et au moins deux facteurs aléatoires (sujets, items88). Analyser des données ayant une telle structure avec une

ANOVA implique deux problèmes liés :

 La difficulté à traiter une hiérarchie dans les données (les réponses d‟un sujet peuvent être corrélées entre elles – problème de la sphéricité)

 La difficulté à traiter simultanément deux facteurs aléatoires

Ces deux problèmes sont détaillés dans les deux paragraphes suivants. La présence d‟une structure hiérarchique dans les données

Les réponses obtenues dans une expérience de type « mesures répétées » peuvent ne pas être indépendantes (corrélation intra classe ou par sujet). Ceci est la traduction de l‟existence d‟une structure hiérarchique dans les données (niveau des sujets, niveau des items considérés comme les représentations mentales des sujets). Ignorer ce fait revient à courir le risque de sous-estimer une erreur de type I. Aussi, la technique d‟ANOVA choisie doit être adaptée pour traiter correctement cette structure hiérarchique.

La présence de deux facteurs aléatoires

Lorsque deux facteurs aléatoires sont présents dans la situation (sujets et items), ils doivent être simultanément considérés dans l‟analyse sous peine de courir le risque d‟une erreur de type I. S‟ils sont considérés séparément, il n‟est pas possible de conclure quant à la généralisation des effets des facteurs étudiés à tous les sujets et tous les items, ni même conclure quant à la généralisation des effets des facteurs étudiés à tous

88 En réalité, la situation est plus complexe : items et sujets sont aussi croisés. Le croisement fait référence

au fait que chaque sujet dispose d’une organisation de son lexique mental qui lui est propre (mots connus, âge d’acquisition d’un mot, familiarité, vécu par rapport au concept ou à l’objet désigné par un mot (charge affective), etc.). La réactivité du système dépend alors à la fois du mot et du sujet. Dans ce travail, cette notion de croisement est modélisée par la structure hiérarchique du modèle, où les mots sont aussi considérés comme étant emboités dans les sujets.

les sujets ou à tous les items. En effet, agréger les deux niveaux de variance (item et sujet) pour faire comme s‟il n‟y en avait qu‟un n‟est pas suffisant pour retirer des données la variance liée au niveau qui n‟est pas testé. Celle-ci s‟ajoute à la variance de l‟autre facteur aléatoire, mais aussi à la variance du ou des facteurs expérimentaux : elle peut donc biaiser les effets des facteurs étudiés et conduire à des conclusions erronées. La technique d‟ANOVA choisie doit donc être adaptée pour traiter simultanément les 2 facteurs aléatoires.

Les paragraphes suivants expliquent les raisons pour lesquelles il est nécessaire de prendre des précautions en présence d‟une structure hiérarchique dans les données, et en quoi la présence de 2 facteurs aléatoires entraîne l‟obligation d‟adapter ses méthodes d‟analyse.

3.3.3.1 L’utilisation de l’ANOVA en psycholinguistique

Les décisions sur la significativité d‟un effet sont souvent fondées, en psycholinguistique, sur une utilisation mal adaptée de l‟ANOVA. Cette inadéquation provient du fait d‟un décalage entre les besoins de l‟analyse et les possibilités de la méthode choisie. Trois solutions existent pour remédier à cela :

 la première consiste à choisir correctement la technique d‟ANOVA, à savoir celle qui correspond à la structure de l‟expérience analysée.

 cependant, pour certains types d‟expériences factorielles, il n‟est pas toujours possible de construire le quotient F adéquat à partir de l‟application directe des règles d‟estimation des carrés moyens (Winer, Brown, & Michels, 1991), et donc de disposer du test statistique exact pour évaluer les effets du modèle. La deuxième solution consiste donc à calculer un quotient « quasi-F » (Clark, 1973; Kirk, 1968; Winer et al., 1991), en ajoutant ou retranchant certains termes des carrés moyens de manière à disposer d‟un rapport permettant de tester l‟hypothèse nulle sur le facteur souhaité (voir Clark (1973) pour les détails). Cette méthode peut être assez compliquée mathématiquement et nécessite de bonnes connaissances en statistiques.

 la troisième solution consiste à avoir recours à une technique plus complexe que l‟ANOVA. L‟analyse de régression multiniveaux à été choisie pour ce travail.

Au lieu de choisir l‟une de ces 3 solutions face à des données présentant une structure hiérarchique et contenant 2 facteurs aléatoires, une procédure de double validation des effets étudiés est la plupart du temps employée. Elle consiste à tester conjointement par F1 (on suppose que le même comportement serait observé si les

mêmes items étaient soumis à un nouveau lot de sujets) puis par F2 (on suppose que le

même comportement serait observé si un nouveau lot d‟items était proposé aux mêmes sujets) les mêmes données. Pour mieux comprendre en quoi cette pratique ne solutionne rien et peut avoir des conséquences dangereuses sur la théorie, un retour aux bases

statistiques est proposé à travers les deux sections suivantes. Le problème n‟est pas nouveau et a déjà été signalé au début des années 70 89.

3.3.3.1.1 Les conditions d’utilisation de l’ANOVA

Utiliser la technique de l‟ANOVA nécessite que les 3 présupposés suivants soient suffisamment vrais :

 Normalité de la distribution des observations.

 Indépendance des erreurs (pas de corrélation liée à l‟échantillonnage des sujets).

 Homogénéité de la variance intragroupe.

Pour les ANOVA traitant des facteurs à mesures répétées sur plus de 2 niveaux, la condition de sphéricité doit aussi être respectée90.

Selon Cochran (Cochran, 1947), il est difficile d‟être dans une situation où tous ces présupposés sont satisfaits : une ANOVA fournit donc toujours des résultats relatifs. Cependant, si ces présupposés ne sont pas réunis, l‟analyse, bien que théoriquement inapplicable, reste techniquement faisable. Elle peut alors conduire à des résultats erronés.

3.3.3.1.2 Ce que testent F

1

et F

2

Les bases mathématiques du test F sont présentées ci-dessous pour mieux comprendre ce qui est évalué avec la procédure de double validation d‟un effet fixe (par F1 et par F2) et en quoi cette méthode peut conduire à des conclusions erronées. L‟expérience qui est prise en exemple est de structure simple : il s‟agit d‟une passation à mesures répétées. Elle comporte des sujets, un traitement ou facteur fixe, et des items dans le traitement (mots différents d‟une condition à l‟autre).

89 La méthode des quasi-F a été utilisée pour un temps en psycholinguistique, mais elle a graduellement

disparu au profit d’un consensus nouveau (l’évolution, entre 1974 et 1997, du rapport « utilisation du F’min/utilisation conjointe de F1 et F2 » dans les revues « Journal of verbal learning and verbal behavior » et

« Journal of memory and language », est présentée dans Raaijmakers, Schrijnemakers et Gremmen (1999), p. 421).

90 La sphéricité est une condition nécessaire et suffisante pour la validité du test F. Elle suppose que la

variance des différences 2 à 2 entre groupes soient homogènes. Si le principe de sphéricité est violé, les degrés de liberté du test F doivent être corrigés, ou une autre méthode d’analyse doit être utilisée.

3.3.3.1.2.1 Présentation de l’équation du modèle linéaire de base pour l’ANOVA de ce type d’expérience

Équation 1 : Équation du modèle linéaire de base pour l‟ANOVA d‟une expérience à mesures répétées (reproduit à partir de (Raaijmakers et al., 1999))

) ( 0 ) ( ) (k i jk ijk ijk j k ijk

Y

Avec :

i sujet, j item, k traitement = moyenne générale

k = effet principal du traitement (T)

j(k) = effet principal du mot dans le traitement (W(T)) i = effet principal du sujet (S)

ik = interaction traitement * sujet (TS)

ij(k) = interaction sujet * mot dans le traitement (W(T)S)

o(ijk) = erreur expérimentale

3.3.3.1.2.2 Calcul des quotients F1 et F2

Tester la significativité d‟une source de variation revient à calculer un quotient F de carrés moyens (CM), construit de manière à ce que la valeur attendue (espérance mathématique) du numérateur soit égale à l‟espérance mathématique du dénominateur plus un terme qui reflète l‟effet testé. Cela revient à montrer que la variance due au traitement ( ²T) est plus grande que 0 (en théorie, si ²T = 0, le quotient CMTraitement /

CMerreur se distribue comme un F autour de la moyenne n / (n-2), avec n le degré de liberté du carré moyen de l‟erreur. Si ce quotient s‟écarte suffisamment de cette moyenne, l‟hypothèse nulle peut être rejetée).

Le calcul du F nécessite donc de connaître le carré moyen attendu pour chaque source de variation présente dans la situation expérimentale, et les degrés de liberté associés (pour la situation donnée en exemple (Clark, 1973; Raaijmakers et al., 1999), les carrés moyens attendus se calculent à partir des équations fournies dans le Tableau 15).

Tableau 15 : Calcul de l‟espérance mathématique de chaque source de variation

Sources de variation Label dl Carré moyen attendu (esp. math.)

Traitement T p-1 ²e+ ²W(T)S+q ²TS+r ²W(T)+rq ²T

Mot dans le traitement W(T) p(q-1) ²e+ ²W(T)S+r ²W(T)

Sujet S r-1 ²e+ ²W(T)S+pq ²S

Traitement * Sujet TS (p-1)(r-1) ²e+ ²W(T)S+q ²TS Mot dans le traitement * Sujet W(T)S p(q-1)(r-1) ²e+ ²W(T)S

Avec p le nombre de niveaux pour la variable expérimentale, r le nombre de sujets, q le nombre d’items. Les quotients F1 et F2 se calculent de la manière suivante :

Équation 2 : Calcul de F1

q

q

r

rq

CM

CM

TS S T W e TS S T W e T W T TS T 2 2 ) ( 2 2 2 ) ( 2 2 ) ( 2 1)) - 1)(r - (p 1, - (p

1

F

Équation 3 : Calcul de F2

r

q

r

rq

CM

CM

T W S T W e TS S T W e T W T T W T 2 ) ( 2 ) ( 2 2 2 ) ( 2 2 ) ( 2 ) ( 1)) - p(q 1, (p-

2

F

Chacun de ces rapports présente 2 termes du numérateur qui ne se trouvent pas dans le dénominateur :

 ²T, le terme que l‟on souhaite tester (variance liée au traitement), commun à

F1 et F2

 un terme propre à F1 ( ²W(T)) ou à F2 ( ²TS).

Ainsi, une valeur significative de F1 peut être obtenue dans 3 cas de figure (Clark,

1973) :

 si ²T > 0 et ²W(T) = 0 (1)

 si ²T = 0 et ²W(T) > 0 (2)

 si ²T > 0 et ²W(T) > 0 (3)

Ce qui implique qu‟un effet significatif obtenu par F1 peut renvoyer à :

 un effet du traitement (1)

 ou un effet des mots dans le traitement (2)  ou un effet cumulé des deux (3)

Le seul cas qui permette une conclusion fiable et théoriquement correcte est le premier ( ²T > 0, autre terme nul). Le 2ème cas conduit obligatoirement à une erreur

d‟interprétation puisque l‟effet du traitement est nul, tandis que dans le 3ème cas, l‟effet

du traitement peut être non significatif, mais interprété comme significatif à cause du second terme ajouté. Comme le même résultat peut être obtenu au test F1 dans les trois

cas sans qu‟il ne soit possible de connaître lequel est considéré, il existe forcément une incertitude sur la cause de la significativité de l‟effet. Le même raisonnement peut être tenu pour F2.

3.3.3.1.2.3 Pourquoi la double validation d’un effet fixe, par F1 et F2, ne

permet pas de résoudre cette incertitude ?

Utiliser F1 et F2 conjointement pour tester un effet ne solutionne pas l‟incertitude

sur la cause de la significativité du phénomène étudié. Le chercheur peut en effet jouer de malchance s‟il est dans l‟un des cas suivants :

 ²T = 0 et ²W(T) > 0 pour F1 ET ²T = 0 et ²TS > 0 pour F2.

 ²T > 0 et ²W(T) > 0 pour F1 (effet non significatif du traitement mais effet

significatif du cumul) ET ²T > 0 et ²TS > 0 pour F2 (idem).

Lors du test d‟hypothèse ( ²T = 0), il est ainsi possible d‟obtenir une valeur

significative de F1 à cause de la variance des mots dans le traitement ( ²W(T)), et de F2 à

cause de la variance de l‟interaction sujets * traitement ( ²TS), c‟est-à-dire pour des

raisons qui ne sont pas liées à un effet principal du traitement. La conclusion sera pourtant que le facteur étudié a bien un effet significatif.

Selon Forster et Dickinson (1976), ces erreurs de type I surviendraient plus fréquemment qu‟on ne le pense dans la littérature (« in extreme cases, the type I error rates for F1 and F2 can exceed the desired rate by a factor of at least 10 »), et comme le

souligne Clark (1976), leur incidence sur la théorie ne serait ni anodine, ni aisément rectifiée (« (type I error is much more serious than the type II error) because highly significant results appear definitive and tend to discourage further investigation. What is more serious, to my mind, is that too many type I errors has served as foundation stones for highly influential theories or found their way into textbooks as „definitive‟ findings »).

3.3.3.2 Quelles solutions techniques ?

 Face au problème de la sphéricité :

Si une structure hiérarchique existe dans les données, des techniques spécifiques d‟ANOVA doivent être appliquées, ou les données doivent préférablement et plus simplement être traitées par analyse multiniveaux.  Face au problème lié à la présence de 2 facteurs aléatoires dans la situation

analysée :

Le test F doit être effectué à partir d‟un quotient calculé différemment (quasi- F), dont la formule est fonction de la situation expérimentale analysée. Une discussion technique et théorique autour de ce problème en psycholinguistique peut être trouvée dans les articles de Clark, de Forster et Dickinson, de Raaijmakers et col., et de Wike et Church (Clark, 1973, 1976; Forster & Dickinson, 1976; Raaijmakers et al., 1999; Wike & Church, 1976), ainsi que dans des ouvrages de statistique relatifs au sujet. L‟utilisation d‟une technique d‟analyse de régression multiniveaux offre aussi la possibilité de résoudre ce problème.

3.3.3.3 Conclusions sur l’emploi de l’ANOVA

L‟ANOVA apparaît comme une technique finalement difficile à utiliser correctement. Elle paraissait moins bien adaptée aux nécessités du travail que la technique d‟analyse de régression multiniveaux, parce que :

 il était nécessaire de prendre en compte 2 facteurs aléatoires simultanément (sujets et items).

 le lot de réponses recueillies renfermait des valeurs manquantes ou le plan d‟expérience n‟était pas équilibré.

 des covariables liées aux items ou aux sujets devaient être inclues dans les analyses.

C‟est donc l‟analyse de régression multiniveaux qui a été employée à la place de l‟ANOVA.

3.3.4 Présentation de la technique de régression multiniveaux