• Aucun résultat trouvé

Analyses et résultats

6.2 Options statistiques

Nous avons appliqué à nos données des tests statistiques afin de vérifier si les éventuelles différences observées sont significatives.

Dans le cadre de ce travail, nous allons comparer des productions langagières avec des durées différentes et avec un nombre différent de tours de parole et d’interventions. Ainsi, ne pouvant pas utiliser des chiffres absolus, nous allons calculer des fréquences relatives afin de comparer les interactions.

Les données obtenues de cette manière, ne respectent pas les assomptions nécessaires pour pouvoir utiliser des méthodes statistiques de type « paramétrique » (comme par exemple les t-test de Student, les ANOVA, les MANOVA, les OLS au d’autres régressions linéaires). En fait, nos données ne sont continues qu’entre 1 et 0 et si le critère de continuité pourrait être atteint par une transformation logarithmique, nous résultats n’atteignent pas les autres assomptions requises par des tests paramétriques : elles ne suivent pas une distribution normale et ne sont pas homoscédastiques. Il existe, cependant, une deuxième famille de tests statistiques : les tests « non-paramétriques ». Ces tests ne se basent pas sur les mêmes assomptions que les tests paramétriques (distribution normale des données, homoscédasticité et données continues) et peuvent donc être employés dans notre cas de figure. Les méthodes non- paramétriques les plus utilisées sont des tests bivariés de significativité comme le Mann-Whitney U-test et le Kruskal Wallis. Cependant, des régressions multivariées sont préférables à ces tests parce qu’elles permettent non seulement de révéler les relations entre une variable dépendante et une variable indépendante mais également de prendre en compte plusieurs variables d’intérêt et de contrôle (Baayen, Davidson & Bates, 2008). De plus, ces tests statistiques permettent de prendre en compte le nombre d’occurrences de départ (contrairement aux tests non-paramétriques classiques dans lesquels on introduit des pourcentages déjà calculées).

Nous allons ainsi employer une régression binaire (logit) à modèle mixte. Cette régression permet, en plus de présenter les avantages d’une régression multivariée, de prendre en compte le nombre source d’occurrences de manière complémentaire aux taux de chaque participant. Nous allons considérer nos variables (l’activité, le type de locuteur, le type d’enfant ou de mère, l’âge (en mois), la langue) ainsi qu’une variable de contrôle (« sexe) comme des effets fixes et le participant comme effet aléatoire (de groupement).

Au niveau pratique, cela signifie que chaque intervention a été identifiée comme appartenant à une certaine catégorie d’analyse. Nous avons ensuite fait un test binomial différent pour chaque catégorie d’analyse. Prenons le cas fictif d’une analyse faite à partir de trois catégories mutuellement exclusives. Considérons que A soit la première catégorie, B la deuxième et C la troisième. Considérons la présence d’un trouble du langage (TDL ou TYP) et l’âge des enfants (exprimée en mois) comme les variables indépendantes d’intérêt (pour lesquelles on souhaite vérifier l’impact en termes d’effet fixe) et le code du participant comme étant la variable de groupement (variable aléatoire). Le Tableau 5, illustre un cas hypothétique avec 4 enfants (représentés par les codes 1, 2, 3 et 4) qui produisent un nombre différent d’intervention. L’enfant 1 en produit trois, l’enfant 2 en produit un, l’enfant 3 en produit deux et l’enfant 4 en produit deux.

Présence d’un trouble du langage

Âge de l’enfant (en

mois) Code participant Intervention Analyse

TDL 58 1 aaaaaaaaa A TDL 58 1 aaaaaaaaa A TDL 58 1 aaaaaaaaa A TDL 87 2 bbbbbbbbb B TYP 64 3 aaaaaaaaaa A TYP 64 3 cccccccccc C TYP 86 4 cccccccccc C TYP 86 4 cccccccccc C

Etc. Etc. Etc. Etc. Etc. Tableau 5 Exemple d’un cas hypothétique d’analyse

Nous avons ensuite vérifié la significativité de l’impact de variables d’intérêt (présence d’un trouble du langage et âge) pour la catégorie A (la question étant est-ce qu’il y a plus de A chez les enfants avec TDL et est-ce que l’on observe une évolution en fonction de l’âge des enfants). Nous avons repété l’analyse statistiques pour les catégories B et C. Cela nous permettera de savoir si les variables influencent les trois catégories d’analyse, deux ou seulement une. Pour ce traitement statistique nous avons utilisé le logiciel R (R Core Team, 2013). En particulier, nous avons utilisé le « paquet » LanguageR, mis au point par Baayen (2008a, 2008b) et mis à disposition des chercheurs qui s’intéressent spécialement au langage. Nous avons utilisé la fonction lmer, en indiquant le code du participant comme variable de regroupement. Cela permet au logiciel de calculer les taux de la catégorie d’analyse pour chaque participant. Ainsi, contrairement à une regression logistique (logit) classique la variation interindividuelle est prise en compte et la variable indépendante de référence n’est pas calculée à partir d’un échantillon unique.

Pour des raisons techniques, les résultats des quantifications chiffrées (comme les taux d’interventions ou de mots et les taux de conduites explicatives et justificatives) seront analysé avec une méthode appelée "double censored tobit

regression" (Tobin, 1958). Cette méthode, appliquée en particulier en

économétrie, permet de limiter l’espace de probabilité et d’utiliser ainsi des fréquences.

Pour des raisons de lisibilité, nous allons insérer dans le texte uniquement les valeurs de p pour les deux types de régression et nous signalerons en note de bas de page les autres informations concernant la variable en question. Les tableaux complets issus des regréssions sont disponibles en annexe (Annexe 3) dans la version numérique de ce travail et, pour la version papier, sur le CD-Rom qui l’accompagne.

Finalement, afin de confirmer nos intuitions concernant le groupement des participants, nous allons appliquer des analyses de clustering (bottom-up) qui se basent sur la moyenne et le voisinage entre les participants. Si d’un côté ce type

d’analyse ne demande pas d’assomptions particulières, de l’autre elles ne font que classer les participants dans un nombre de groupes défini par l’utilisateur.