• Aucun résultat trouvé

Dans cette seconde section, nous allons essayer de condenser les données retenues, c’est-à-dire les résumer au mieux en perdant le moins d’information possible. Pour ce faire, nous allons utiliser une méthode, en l’occurrence l’analyse géométrique des données, ici représentée par une analyse en composantes principales. Le principe de ce type d’analyse est de transformer le tableau de données, ici assez conséquent (517 individus et 11 variables), en un nuage de points. Chaque individu est représenté par un point dans un espace, les coordonnées du point étant les 11 scores qui caractérisent l’individu. L’espace ainsi défini est

un espace à 11 dimensions, bien sûr non représentable. Le but de l’analyse est de résumer cet espace par un espace de dimension inférieure tout en perdant le moins d’information possible.

Premiers résultats

Le premier résultat de l’analyse en composantes principales concerne l’importance des dimensions construites pour ajuster le nuage des 517 individus. Ce nuage a une variance, ici facile à connaître. Dans la mesure où les 11 variables sont sur des échelles différentes, une première étape de l’analyse consiste à centrer et réduire les variables, c’est-à-dire à les ramener à une même moyenne (ici 0) et à une même dispersion (ici une variance de 1). De ce fait, la variance du nuage qui est la somme des variances des 11 variables vaut ici tout simplement 11.

L’importance relative des axes construits dans l’analyse est donnée sous la forme de variances (appelées ici valeurs propres) et de pourcentages. Ainsi nous pouvons constater (cf. Tableau 8) que pour la première dimension, la variance des individus vaut 8.8, soit 80% de la variance totale. La deuxième variance, la plus importante, vaut dix fois moins (0.88, 8%). Comme il s’agit de résumer les données et de pouvoir représenter le nuage des variables comme celui des individus dans un espace de faible dimension, nous voyons qu’en prenant les deux premières dimensions nous avons 88% de la variance totale. Nous pouvons considérer qu’avec ces deux dimensions nous avons un bon résumé de l’ensemble. Nous sommes ainsi passé de 11 variables initiales à deux variables construites, appelées variables principales et correspondant aux axes principaux ou factoriels.

Tableau 8. Valeurs propres et pourcentages de variance.

Numéro Valeur propre Pourcentage Pourcentage cumulé

1 8.801 80.0 80.0 2 0.879 8.0 88.0 3 0.347 3.2 91.2 4 0.246 2.2 93.4 5 0.176 1.6 95.0 6 0.158 1.4 96.4 7 0.143 1.3 97.7 8 0.102 0.9 98.6 9 0.071 0.6 99.3 10 0.056 0.5 99.8 11 0.022 0.2 100.0

Espace des variables

Il s’agit maintenant d’interpréter les deux dimensions retenues. Dans ce type d’analyse, les coordonnées des variables initiales sur les axes sont également les corrélations de ces variables avec les axes. Le premier axe est un axe général : les 11 variables initiales sont très fortement corrélées avec cet axe (cf. Tableau 9), à l’exception du score d’échanges langagiers (ECHLANG). Si nous examinons les contributions des variables initiales à cet axe, elles sont différentes mais variant de 8,4% à 10,5%, à l’exception du score d’échanges langagiers dont la contribution est faible (4,9%). En d’autres termes, cet axe est un condensé de 10 variables sur les 11 et peut être considéré comme un axe de performance globale. On pourrait le qualifier plus justement de facteur global d’« acquisition ». Rappelons que cet axe représente à lui seul 80% de la variance globale.

Le deuxième axe est d’importance moindre (8%). Il est caractérisé d’abord par le score d’échanges langagiers (ECHLANG). C’est la seule variable à avoir une corrélation forte avec cet axe (-0.677) et une contribution de 52% à la variance de l’axe. Deux autres variables peuvent être prises en considération du fait de leur contribution : le score de phrases complexes (PHRACPX) et le score d’utilisation du langage (UTILANG) dont les contributions sont respectivement 12,5% et 17%.

Sur le graphique (cf. figure IV.4) nous constatons que toutes les variables sont du même côté (positif) de l’axe 1 (horizontal). Cela tient au fait que toutes les corrélations entre ces variables initiales sont du même signe, ici toutes positives. Cela est aussi une indication que cet axe représente un facteur global.

Tableau 9. Coordonnées et contributions des variables initiales.

Coordonnées Contributions

Libellé de la variable Axe 1 Axe 2 Axe 1 Axe 2

Para lexicaux 0.900 -0.056 9.2 0.4 Noms 0.963 0.138 10.5 2.2 Prédicats 0.949 0.209 10.2 5.0 Mots grammaticaux 0.942 0.223 10.1 5.6 Formes nominales 0.869 -0.170 8.6 3.3 Formes verbales 0.921 0.090 9.6 0.9 Structures complexes 0.913 0.081 9.5 0.7 Phrases complexes 0.877 0.332 8.7 12.5 Échanges langagiers 0.654 -0.677 4.9 52.2 Utilisation du langage 0.860 -0.389 8.4 17.2 Organisation des messages 0.951 -0.013 10.3 0.0

Figure IV.4. Plan des deux premiers axes de l’ACP : nuage des variables

Pour ce qui est du deuxième axe, nous constatons une opposition entre le score ‘phrases complexes’ (du côté positif en haut) et les deux scores de communication ‘utilisation du langage’ et ‘échanges langagiers’ (du côté négatif en bas). Les corrélations entre le score de phrases complexes et les deux scores de pragmatique sont parmi les plus faibles. Cet axe est un axe spécifique, en l’occurrence spécifique des échanges langagiers. On a vu précédemment que cette variable est un peu à part du fait de sa valeur élevée à 18 mois, de son accroissement faible et de la diminution de sa variabilité entre 18 et 42 mois.

En conclusion, l’espace à deux dimensions, parfaitement représentable, est un bon résumé de l’ensemble des données (88% de la variance totale). Ainsi sont mises en évidence une première dimension générale (80% de la variance totale), dimension de performance globale et une deuxième dimension (8% de la variance totale) plus spécifique et caractérisée par le score d’échanges langagiers. Cette interprétation est à compléter avec l’examen du nuage des individus.

Espace des individus

Examinons maintenant le nuage des individus (cf. figure IV.5). Ce nuage a la forme d’une parabole très ouverte vers le haut et s’étirant le long du premier axe (horizontal). Nous avons vu que ce premier axe est un axe général de performance : ici les individus situés à gauche sur ce premier axe sont ceux ayant les scores les plus faibles, ceux situés à droite sur ce même axe ont les scores les plus élevés. Considérons la coordonnée d’un individu sur le premier axe comme synthétisant sa performance globale au DLPF, sur la base des 11 variables retenues. Si nous calculons la corrélation entre les coordonnées des individus sur le premier axe et l’âge de ces mêmes individus, cette corrélation vaut 0.858. Elle est donc très élevée. Les scores les plus faibles correspondent aux enfants les plus jeunes (18-20 mois) et les scores les plus élevés aux enfants les plus âgés (40-42 mois). Ce premier axe correspond donc au développement de l’acquisition du langage. C’est pourquoi nous l’appelons axe de performance ou encore facteur d’« acquisition ».

Le deuxième axe est un axe spécifique. Nous avons vu que dans l’espace des variables, cet axe est spécifique de la variable ‘échanges langagiers’. En examinant le nuage des individus, nous pouvons observer que des individus ont une coordonnée positive sur ce deuxième axe : il y a aussi bien des sujets jeunes (à gauche sur le graphique) que des sujets plus âgés (à droite sur le graphique). Les autres sujets ont une coordonnée négative. La corrélation entre les coordonnées des individus sur ce deuxième axe et le score d’échanges langagiers (ECHLANG) vaut -0.677.

Analyse du nuage des individus marqués selon la Version du DLPF

En distinguant les individus en fonction de la Version à laquelle ont répondu les parents, on peut déterminer quatre groupes. Sur le nuage des individus dans le plan des deux premiers axes (voir figure IV.6), on a différencié ces quatre groupes et pour chacun on a dessiné son ellipse de concentration35.

Figure IV.6. Nuage des individus marqués selon la version du DLPF

On observe ainsi (Figure IV.6) que les enfants de la Version 1 (en noir) sont situés à gauche sur l’axe 1 (horizontal) et ceux de la Version 4 (en rouge) à droite sur ce même axe. Les quatre groupes correspondant aux quatre versions sont ordonnés sur ce premier axe. C’est là un résultat tout à fait logique puisque ce premier axe est un axe de performance globale et que les quatre versions sont progressives. Mais on peut également observer qu’il y a un certain recouvrement entre les groupes. Certains enfants de la Version 2 sont à l’intérieur de l’ellipse de concentration de la Version 1, alors que d’autres, toujours de la Version 2, sont dans les ellipses des Versions 3 ou 4. En examinant les variances des individus par Version, on remarque que ce sont les Versions 2 et 3 qui ont les plus grandes variances sur le premier axe. Et si on considère le plan des deux premiers axes, ce sont encore ces deux Versions qui ont les plus grandes variances (voir Tableau 10). C’est là un indice de la grande variabilité interindividuelle déjà évoquée pour ces variables dans les chapitres précédents.

35

L’ellipse de concentration d’un nuage est un résumé géométrique de ce nuage (Le Roux, 2014, pages 118 et 310).

Tableau 10. Variance des individus pour chacune des versions.

Version 1 Version 2 Version 3 Version 4 Axe 1 1.621 3.018 3.434 2.473 Axe 2 1.294 0.386 0.413 0.560 Plan 1-2 2.915 3.404 3.847 3.033

Pour conclure sur l’analyse multidimensionnelle

Les résultats de l’analyse multidimensionnelle nous permettent de considérer que le DLPF a une bonne consistance interne : fortes corrélations entre les différents indicateurs retenus, caractère quasi unidimensionnel (premier axe à 80%). Par ailleurs cette analyse a permis de bien mettre en évidence l’importance du facteur âge que ce soit au niveau individuel (corrélation forte entre la variable âge et les coordonnées des individus sur le premier axe) ou au niveau des différentes versions du DLPF. Elle permet aussi de voir qu’il y a un certain recouvrement entre les versions, ce dernier aspect montrant l’importante variabilité interindividuelle.