• Aucun résultat trouvé

3. Analyses physico chimiques des échantillons

4.2. Les tests non paramétriques

On qualifie de tests non paramétriques (Figure III-4.1) les méthodes statistiques qui sont applicables

dans les conditions générales aux distributions des variables étudiées. L’expression anglaise « distribution-free » est d’ailleurs, de ce point, bien plus explicite. Un test non paramétrique est un test d’hypothèse pour lequel il n’est pas nécessaire de spécifier la forme de distribution de la population étudiée. Il faut cependant en général que les observations soient indépendantes, c’est à dire que la sélection d’un quelconque individu dans la population en vue de former l’échantillon ne doit pas influencer le choix des autres individus. Les méthodes non paramétriques requièrent peu d’hypothèses concernant la population étudiée. Elles ignorent notamment l’hypothèse classique de la normalité de la population. Ces tests peuvent être appliqués à de petits échantillons et ils peuvent s’appliquer à des caractères qualitatifs, à des grandeurs de mesure, à des rangs de classement… Ces tests peuvent s’appliquer à des données incomplètes ou imprécises.

Des recherches théoriques ont montré que l’efficacité des tests non paramétriques n’est que légèrement inférieure à celle de leurs équivalents paramétriques quand la distribution de la population étudiée est spécifiée, par exemple la loi normale. Elle est en revanche supérieure à celle des tests paramétriques quand la distribution de la population dévie sensiblement de la distribution spécifiée (normale).

4.2.1. Le test de Mann-Whitney

Test non paramétrique qui permet de tester les moyennes de deux échantillons indépendants. La réalisation du test est basée sur le classement dans un ordre croissant de l’ensemble des observations. Ici, ce n’est donc pas indispensable que les échantillons suivent une distribution normale : des distributions symétriques suffisent à valider le test. C’ est un cas particulier du test de Kruskall-Wallis.

4.2.2. Le test de Wilcoxon

Test sur les rangs qui permet de tester les moyennes de deux échantillons associés par paire. Là aussi, des distributions symétriques suffisent. Ce test est un cas particulier du test de Friedman.

4.2.3. Le test de Kruskall-Wallis

Ce test est préféré à l’analyse de variance à un facteur lorsque les hypothèses de normalité des différents échantillons ne sont pas respectées. Il vise à tester l’égalité de plusieurs populations mais indépendantes. C’est toujours un test sur les rangs.

4.2.4. Le test de Friedman

Ce test est utilisé afin de tester l’égalité de plusieurs populations appariées lorsque l’analyse de variance ne peut être utilisée toujours pour des raisons d’hypothèses de normalité non respectées ou de faibles effectifs.

4.2.5. Le test du coefficient de corrélation de Spearman

Il correspond à l’équivalent non paramétrique du test basé sur le coefficient de corrélation de Pearson et est également un test sur les rangs. Ici on calcule la corrélation existant non pas entre les valeurs observées elles-mêmes, mais entre leurs rangs, c’est à dire, pour chacune des variables, les numéros d’ordre des observations rangées par ordre croissant. Les coefficients de corrélation des rangs sont très utiles pour tester l’indépendance de deux variables non normales ou lorsque l’échantillon est petit : on sait en effet qu’on ne peut appliquer le test du coefficient de corrélation linéaire de Pearson. Les tests de corrélation sont alors les seuls applicables, car ils ne dépendent pas de la distribution normale. De plus, ils sont robustes car insensibles à des valeurs aberrantes. Cette approche corrélative répond mieux que le classique coefficient de corrélation linéaire à la mise en relation des mesures d’un même paramètre réalisées sur les mêmes individus à des temps différents et apporte des renseignements précieux lors des études dites « interobservateurs » de données non métriques mais hiérarchiques.

4.2.6. Le test de corrélation des rangs de Kendall

C’est l’équivalent du test du coefficient de corrélation de Spearman mais pour des observations appariées.

Figure III-4.1 : Critères de choix de quelques tests statistiques usuels.

La distribution de la variable est elle conforme à une distribution théorique ?

Analyse de variance avec mesures répétées

1 variable

Question (hypothèse nulle)

Variables « Qualité » Comparaison

ou mesure

Nombre d’échantillons ou de variables

Appariement Test

Les données sont elles « égales » ? Variables quantitatives (taille, nombre d’individus Variables semi quantitatives (indice, +/++/+++ …) Distribution normale Distribution non normale Appariés Non appariés 2 échantillons > 2 échantillons 2 échantillons > 2 échantillons Appariés Non appariés Appariés Non appariés Appariés Non appariés Comparaison des moyennes Comparaison des rangs des observations

Test t pour échantillons appariés Test t ou analyse de variance

Analyse de variance

Analyse des rangs (Wilcoxon) Test de Mann et Whitney Test de Kruskal-Wallis Test de Friedmann 2 variables et plus Les variables sont elles indépendantes ? Variables qualitatives (présent/absent, oui/non…) Distributions normales Distributions non normales 2 variables > 2 variables 2 variables (et plus) Variables quantitatives (taille, nombre d’individus Variables semi quantitatives (indice, +/++/+++ …) 2 variables > 2 variables 2 variables

Corrélation simple (Pearson) Mesure de l’association Mesure et description de l’association Mesure de l’association Mesure de l’association, comparaison des proportions des différentes catégories Comparaison des fréquences

observées à des fréquences théoriques obtenues d’après

une loi de distribution

Corrélation multiple Régression simple Régression multiple

Corrélation de rang (Spearmann, Kendall)

Test du Xi², test de Fischer

Test du Xi², test de Kolmogorov- Smirnof

5

5..TTeecchhnniiqquueessnnoonn--ppaarraammééttrriiqquueessppoouurrllaannaallyysseeddeesssséérriieesscchhrroonnoollooggiiqquueess

La régression linéaire étant une méthode peu robuste et suite à l’étude menée sur quelques tests statistiques, nous avons choisi d’utiliser un test non-paramétrique. Dans ce cas, il n’est pas nécessaire de spécifier la forme de distribution de la population étudiée. Deux test vont être utilisés : le test de Mann-Kendall et les test saisonnier de Kendall.

Plusieurs techniques ont été développées durant les dernières décennies pour étudier les variations temporelles et les séries chronologiques des données environnementales (Droesbecke et al., 1989; Salmi et al., 2002; Ruoho-Airola et al., 2004). Ces techniques peuvent être simple (simple étude par régression linéaire) comme très complexe (modèle ARIMA, Auto-Regressive Integrated Moving- Average). Dans chacune de ces techniques des hypothèses sont faites sur la nature des données et sur les caractéristiques de leurs variations temporelles. Ici nous allons décrire quelques une de ces techniques utilisées en chimie atmosphérique pour étudier les variations temporelles observées des divers polluants. Pour chacune d’elles, nous expliciterons comment l’appliquer aux données mais nous expliquerons aussi les hypothèses émises sur les données, ainsi que les limites du modèle conceptuel. Les techniques non-paramétriques présentées ci-dessous sont applicables aux cas où les données Xi

d’une série chronologique peuvent être écrites sous la forme suivante :

Xi = f(ti) +

ε

i (38)

où f(t) est une fonction continue monotone croissante ou décroissante. Les résidus

ε

i, de même

distribution, ont une moyenne nulle. La dispersion (ou variance) de la distribution est stationnaire. Les données peuvent être des données annuelles, mensuelles, hebdomadaires … pour un site donné. Deux tests peuvent être utilisés pour mettre en évidence la présence d’une tendance monotone à long terme positive ou négative. Puis nous donnerons une méthode pour estimer la pente de la tendance linéaire appelé taux de changement.