• Aucun résultat trouvé

CHAPITRE IV : METHODES ET OUTILS D’INVESTIGATION

III. ANALYSE DES DONNEES COMPORTEMENTALES EN PSYCHOLINGUISTIQUE

III.1. Les temps de réaction

L’un des champs d’étude de la psycholinguistique est l’étude des processus cognitifs qui sous-tendent le traitement des mots. Comme dans le reste des sciences cognitives en général, les expérimentations ont souvent pour but de mettre en évidence l’effet d’une variable sur le comportement. Les temps de réactions (ou latences, ou temps de réponses), correspondant au délai entre la présentation d’un stimulus et la réponse (pression sur un bouton, prononciation

Chapitre IV – Méthode et outils d’investigation

orale, etc.), sont ainsi largement utilisés, par le biais des statistiques, pour tester des hypothèses sur le fonctionnement cognitif sous-jacent. Les analyses statistiques « standard » utilisées en psycholinguistique, le plus souvent des analyses de variances basées sur des temps de réaction moyens, sont pourtant parfois critiquées aujourd’hui en faveur de méthodes statistiques qui prennent mieux en compte la variabilité intra et interindividuelle (voir Baayen, 2004).

Les analyses de régression ou les analyses de variances (ANOVA) classiques se basent sur l’hypothèse de normalité (i.e. les données suivent la loi normale). Pourtant les distributions des temps de réaction sont souvent positivement biaisées, la queue de la distribution est plus longue sur la droite (i.e. il y a davantage de temps de réaction très longs que de temps de réaction très courts). Il peut ainsi être utile de transformer les données, via une transformation logarithmique ou une racine carrée. La transformation la plus efficace pourra cependant dépendre du type de tâche utilisé, et nécessitera une transformation inverse pour pouvoir présenter les données qui ne sont plus sur la même échelle.

Il se pose aussi le problème de l’identification et du rejet des outliers, des points de données distants des autres points, aberrants ou extrêmes et qui ne reflètent qu’une erreur de mesure. Baayen et Milin (2010) proposent une méthodologie en plusieurs étapes qui permet de s’affranchir de la méthode classique consistant par exemple à éliminer a priori les points de données qui s’écartent de la moyenne de plus ou moins deux écart-types. En effet, pour le sujet qui nous intéresse, si l’on estime que l’écriture de mots irréguliers génère des temps de latence plus longs que les mots réguliers il est plus probable, étant donné la forme de leur distribution, que les latences « extrêmes » rejetées correspondent aux mots irréguliers, ce qui introduit un biais dans l’analyse (voir notamment Ratcliff, 1993). Dans une première étape, il peut cependant être utile d’éliminer les temps « excessivement courts » ou « excessivement longs » avant l’analyse statistique, dont la définition pourra dépendre du type de données. L’identification des outliers, particulièrement dans le cas d’analyses ne nécessitant pas de passer par la constitution de moyennes pour chaque condition (modèles linéaires mixtes, voir ci-après), peut être faite dans une seconde étape a postériori, en examinant les résidus du modèle calculé (i.e. l’ « erreur » non expliquée par le modèle) (Baayen & Milin, 2010). Le rejet des résidus non normaux (e.g. supérieurs ou inférieurs à 2,5 écart-types) peut ainsi permettre d’améliorer la qualité de l’ajustement du modèle statistique en minimisant le rejet de données (voir Figure IV-4).

Figure IV-4 : Tracé quantile – quantile vérifiant la normalité des résidus du modèle avant et après la suppression des outliers. L’axe horizontal représente les quantiles de la distribution normale et l’axe

vertical les quantiles de la distribution observée des résidus du modèle. Après la suppression des outliers, l’adéquation des résidus à la distribution normale, et donc l’ajustement du modèle aux données, s’est améliorée (données issues de l’analyse des latences présentée dans le Chapitre V.I.3).

III.2. Modèles linéaires mixtes

Dans les études de psycholinguistiques, les participants qui fournissent les données comportementales sont considérés comme constituant un échantillon sélectionné aléatoirement dans une population ; ils sont modélisés comme une variable aléatoire (dans une ANOVA). En effet, lorsqu’on s’intéresse aux latences (ou temps de réaction), certains participants tendent à être rapides quand d’autres tendent à être plus lents (indépendamment des facteurs d’intérêt). De même, les stimuli linguistiques utilisés (le plus souvent des mots), ne représentent qu’une sélection et une multitude de facteurs que l’on ne peut contrôler entièrement peuvent pourtant affecter les temps de réactions (e.g. fréquence lexicale, concrétude, complexité phonologique, etc.). Des mots présentant certaines caractéristiques sont sélectionnés mais ils n’englobent pas l’ensemble des mots de la langue présentant cette caractéristique, il faut donc aussi traiter les mots comme un effet aléatoire et donc prendre en compte leur variabilité. Ainsi, notamment suite aux critiques émises dès 1973 par Herbert Clark (1973), deux types de résultats d’ANOVA sont ainsi souvent présentés dans les publications ; une ANOVA par items et une ANOVA par sujets (en mesures répétées). Pourtant des résultats significatifs à ces deux analyses n’impliqueraient pas nécessairement que les effets soient généralisables à la fois à l’ensemble de la population et à l’ensemble des items.

Les modèles linéaires à effets mixtes, avec effets aléatoires croisés pour les sujets et les items (ou plus simplement, modèles mixtes) ont donc été développés pour pallier ces difficultés, en permettant de combiner les deux types d’effets aléatoires (Baayen, Davidson, & Bates, 2008).

Chapitre IV – Méthode et outils d’investigation

Dans ce type de modèles, semblables à des régressions multiples, on distinguera les effets fixes : des facteurs à plusieurs niveaux, dont le nombre de niveau est fixe, et définis sous la forme de contrastes (e.g. mots de la catégorie « réguliers » vs. « irréguliers ») ; des effets aléatoires « Sujets » et « Items » : les sujets ou les stimuli sont considérés comme prélevés au hasard parmi la population des sujets ou des stimuli, ils sont modélisés comme des variables aléatoires avec une moyenne de zéro et une variance inconnue (i.e. les données « individuelles » sont ajustées autour de zéro). De plus, les modèles mixtes sont plus flexibles que des ANOVAs classiques dans le sens ils ne nécessitent pas de faire des moyennes a priori et l’on peut donc facilement y inclure des variables continues, afin d’examiner leur contribution ou de les « contrôler » (e.g. propriétés des stimuli, des sujets, numéro de l’essai pour par exemple contrôler l’augmentation ou la diminution des latences avec la fatigue, etc.). Ils ne nécessitent pas non plus que les données soient parfaitement équilibrées au sein des facteurs (e.g. dans le cas d’essais échoués). Ce type de modèle, dont l’usage se développe actuellement en psycholinguistique présente donc d’importants avantages par rapport aux analyses plus classiques, tout en permettant aux chercheurs de considérer tout un ensemble de facteurs pouvant expliquer les données, qu’ils soient liés aux stimuli (e.g. fréquence lexicale, nombre de lettres) ou aux participants (e.g. âge, sexe).

CHAPITRE V : ORGANISATION TEMPORELLE DES PROCESSUS