• Aucun résultat trouvé

III. L’ANALYSE STATISTIQUE

III.1. Tests paramétriques

Les tests paramétriques utilisent les « paramètres » de la/les séries de données traitées, à savoir la moyenne, l’écart-type, la variance, etc., et reposent donc sur les valeurs réelles de la série de données.

Ces paramètres ne caractérisent la/les séries de données que sous certaines conditions relatives à leur distribution : la moyenne, la variance et l’écart-type ne sont de bons indices de la tendance centrale et de la dispersion de l’échantillon que si la distribution des valeurs est « normale ». De même, deux échantillons ne peuvent être comparés que si leur variance est statistiquement homogène.

La loi normale dépend de deux paramètres, la moyenne et l’écart-type. Schématiquement, dans une distribution normale, la moyenne « m » correspond à la valeur centrale de la série ; les autres valeurs sont dispersées autour de cette valeur centrale de sorte que 68% d’entre elles se situent dans l’intervalle (m ± 1 écart-type), et 95% dans l’intervalle (m ± 2 écarts- types), formant ainsi une courbe en cloche ou courbe de Gauss.

Dans le cas du traitement de « petits échantillons » (n < 30), il est difficile de vérifier que les conditions de normalité et d’homogénéité des variances sont bien remplies et il arrive fréquemment qu’elles ne le soient pas, interdisant alors l’utilisation de tests « paramétriques ». Dans de rares cas seulement, la taille de nos effectifs et la distribution de nos données ont permis l’utilisation de certains tests paramétriques.

63  Test de régression linéaire

Nous utilisons la régression linéaire uniquement lorsque notre effectif est supérieur à 30 individus (n valeurs d’une série de données : par ex. le nombre de fragments produits à l’issue de la compression de chacun des 302 cubes de charbon de bois, où n=302) et lorsque la distribution des valeurs décrivant ces individus suit la loi normale.

Nous cherchons à déterminer s’il existe une relation linéaire entre une variable quantitative X et une autre variable quantitative Y, de sorte que lorsque X augmente, Y augmente également. L’objectif ici n’est pas prédictif, mais explicatif : par ex., la masse volumique du charbon – qui varie en fonction du taxon – a-t-elle une influence sur l’intensité de la fragmentation (nombre de fragments produits) ? Le modèle de régression permet de calculer le coefficient de détermination (R²) de la relation entre nos deux variables ; plus celui-ci est proche de 1, plus la relation est importante (la dispersion des valeurs autour de la droite qui lie nos deux variables est faible), inversement, plus la relation est faible, plus le R² est proche de 0 (l’écart des valeurs par rapport à la droite de régression est important).

 Analyse de variance (Anova / Ancova)

L'analyse de variance utilise le même cadre conceptuel que la régression linéaire à cette différence que les variables explicatives, au lieu d'être quantitatives, sont ici qualitatives. Dans le cadre de l'ANOVA, les variables explicatives sont souvent appelées facteurs. L'analyse de la variance permet d'étudier le comportement d'une variable continue (quantitative) en fonction d'une ou de plusieurs variables explicatives nominales (qualitatives). La variance est une mesure qui sert à caractériser la dispersion d’un échantillon et l’analyse de variance peut être considérée comme un test paramétrique dans la mesure où elle se fonde sur la distribution des valeurs réelles des variables. L’analyse de variance consiste à expliquer la variance totale (sur l'ensemble des échantillons) en fonction de la variance due aux facteurs (la variance expliquée par le modèle), celle due à l'interaction entre les facteurs, et la variance résiduelle aléatoire (la variance non expliquée par le modèle). Elle repose sur le test de Fisher et elle est donc contrainte en théorie par la normalité de la distribution des variables et l’homoscédasticité (homogénéité des variances

64 lorsque plusieurs variables quantitatives sont intégrées à l’analyse). En pratique, l’Anova est réputée peu sensible à la non-normalité des populations considérées. De même, l'hypothèse d'homoscédasticité est d'importance relativement secondaire lorsque les effectifs des échantillons sont tous égaux. Dans ces conditions, l'analyse de variance est une méthode robuste, tant en ce qui concerne la normalité, qu'au point de vue de l'égalité des variances. Nous avons utilisé l’ANOVA pour traiter certaines de nos données, en intégrant une seule variable quantitative à la fois, décrite par plusieurs variables qualitatives et sur des effectif toujours supérieurs à 5 (effectif minimal de l’ANOVA) et tous égaux. C’est par exemple le cas au chapitre IV dans le traitement des résultats issus des dépôts de charbon de bois réalisés en contexte naturel à Gavarnie : nous cherchons alors à déterminer s’il existe un lien entre les variables quantitatives « fragmentation », « dispersion latérale du matériel », « disparition du matériel » et les facteurs « type de dépôt », « temps de dépôt », « taxon », lesquels sont définis par plusieurs modalités (dépôt enterré/dépôt de surface ; années 2008/2009/2010 ; taxons Betula, Corylus, Pinus, etc.). Le test permet alors de mettre en évidence les liens, ou au contraire l’absence de lien, entre les variables et les facteurs, mais aussi de hiérarchiser les effets des différents facteurs et de leurs modalités.

 Égalité des variances

Dans chaque expérience, nous avons utilisé deux lots identiques (en nombre et en taille approximative des fragments initiaux) de charbons de bois pour chaque taxon, de manière à vérifier la reproductibilité du comportement des taxons dans les mêmes conditions expérimentales. Dans le cadre de l’étude de la fragmentation, il importait à l’issue des expérimentations d’obtenir une mesure de la ressemblance du comportement des lots entre eux en termes de nombre de fragments produits. Si le facteur taxon a une influence sur la fragmentation des charbons de bois, alors le comportement de chaque taxon dans les deux lots doit être comparable (la mesure est reproductible). Inversement, si la fragmentation des charbons dépend d’un autre facteur – inconnu –, alors le nombre de fragments produits par les conditions expérimentales dans l’un et l’autre lot sera plus aléatoire (la mesure n’est pas reproductible pour chaque taxon d’un lot à l’autre).

65 Statistiquement, nos individus sont représentés par les taxons utilisés, soit n = au maximum 14 (pour les 14 taxons intégrés aux expériences). Le nombre de fragments produits dans chacun des lots décrit ces individus. À l’issue de chaque expérience, nous observons la ressemblance entre deux échantillons indépendants (les lots), constitués par n individus (14 taxons), décrits par une variable (le nombre de fragments produits). Tester l’homogénéité de la variance de nos deux séries de données peut permettre d’évaluer le niveau de proximité des deux échantillons. Toutefois, la comparaison des deux séries est ici contrainte par le nombre réduit d’individus et par la non-normalité fréquente de leur distribution. Or, la plupart des tests d’homogénéité des variances, tels le test de Bartlett, nécessitent des effectifs normalement distribués. Le test de Levene offre une alternative au test de Bartlett et constitue un bon compromis entre puissance et robustesse face aux écarts à la normalité. Le fait d'utiliser la médiane plutôt que la moyenne comme paramètre de position rend le test plus robuste dans le cas où la distribution des données est asymétrique. Parce qu’il tolère de plus grands écarts à la normalité, nous avons utilisé le test de Levene dans le cadre du traitement de nos données. Parallèlement, nous avons employé le test de Mann-Witney qui permet la comparaison non-paramétrique de deux échantillons indépendants d’effectifs inférieurs à 30.