• Aucun résultat trouvé

Traitements statistiques

Dans le document The DART-Europe E-theses Portal (Page 93-96)

2. EFFETS DE FACTEURS ENVIRONNEMENTAUX SUR LA MOBILITE DES ETM DANS LE

2.2. M ATERIELS ET METHODES

2.2.6. Traitements statistiques

Analyse en Composante Principale (ACP)

Les Analyses en Composante Principale (ACP) ont été réalisées à l’aide du logiciel gratuit ADE-440 et du logiciel XL-STAT 2007.2 sous Mac OSX 10.4.

Principe

L’ACP est une méthode d’analyse discriminante permettant une double analyse des observations depuis l’espace à p dimensions des p variables vers un espace orthonormé à k dimensions (k < p) tel qu’un maximum d’informations soit conservé sur un minimum de dimensions. L’analyse considère la variance totale du nuage de points et recherche des axes d’inertie de celui-ci. Si l’information associée aux 2 ou 3 premiers axes représente un pourcentage suffisant de la variabilité totale du nuage de points (> 70-80 %), les observations pourront être projetées sur les axes factoriels (2 à 3) et représentées sur des graphiques en 2 dimensions, facilitant ainsi grandement l’interprétation.

Corrélation ou covariance ?

L’ACP utilise une matrice, indiquant le degré de similarité entre les variables pour calculer des matrices permettant la projection des variables dans le nouvel espace. Il est commun d’utiliser comme indice de similarité le coefficient de corrélation de Pearson, ou la covariance. Classiquement, on utilise un coefficient de corrélation et non la covariance car l’utilisation du coefficient de corrélation permet de supprimer les effets d’échelle : ainsi une variable variant entre 0 et 1 pèse autant, dans la projection,

40 Téléchargeable à l’adresse : http://cran.univ-lyon1.fr/src/contrib/Descriptions/ade4.html

qu’une variable variant entre 0 et 1000. Toutefois lorsque l’on veut que la variance des variables influe sur la construction des facteurs, on utilise la covariance. C’est le cas dans le travail présenté ici. Les données utilisées sont des valeurs de concentration transformées en valeurs logarithmiques. Les unités sont identiques et l’effet d’échelle est amoindri par la transformation logarithmique et permet donc l’utilisation de la covariance comme indice de similarité.

Représentations graphiques

L’un des avantages de l’ACP est de permettre à la fois une visualisation optimale des variables et des observations, ou des deux à la fois (biplots de corrélation). Néanmoins, ces représentations ne sont fiables que si la somme des pourcentages de variabilité associés aux axes de l’espace de représentation, est suffisamment élevée (variabilité > 70 - 80 %). Dans ce cas, on peut considérer que la représentation est fiable. Si le pourcentage est faible, il est conseillé de faire des représentations sur plusieurs couples d’axes afin de valider l’interprétation faite sur les deux premiers axes factoriels.

Lorsqu’une variable présente un nombre inférieur d’observations par rapport aux autres variables, deux options sont envisageables : soit opérer l’ACP en ne considérant que les observations où toutes les variables sont définies, soit remplacer les données manquantes par la moyenne de la variable.

Test de corrélation de Pearson

Les tests de corrélation ont été effectués à l’aide du logiciel XL-STAT 2007.2 sous Mac OSX 10.4. Le coefficient de corrélation utilisé lorsqu’il s’agit de traiter de variables quantitatives continues est le coefficient de Pearson. Cette statistique est le coefficient de corrélation le plus communément utilisé.

Sa valeur est comprise entre -1 et 1, et il mesure le niveau de relation linéaire entre deux variables. Les probabilités calculées pour les coefficients de corrélation permettent de tester l’hypothèse nulle de corrélation non significativement différente de zéro entre les variables. Cependant, il convient d’être prudent car, si l’indépendance entre deux variables implique la nullité du coefficient de corrélation, la réciproque n’est pas vraie : on peut avoir une corrélation proche de zéro entre deux variables parce que la relation n’est pas linéaire, ou parce qu’elle est complexe et nécessite la prise en compte d’autres variables.

Modélisation des données

Les modélisations par régressions linéaires multiples ont été effectuées à l’aide du logiciel JMP 7.0 sous Mac OSX 10.4.

Régressions linéaires

La régression linéaire est sans aucun doute la méthode statistique la plus utilisée. On distingue habituellement la régression simple (une seule variable explicative) de la régression multiple

(plusieurs variables explicatives) bien que le cadre conceptuel et les méthodes de calculs soient identiques.

Le principe de la régression linéaire est de modéliser une variable dépendante quantitative Y, au travers d’une combinaison linéaire de p variables explicatives quantitatives, X1, X2, …, Xp et d’une constante K.

Y = X1 + X2 + … + Xp + K

Le cadre statistique et les hypothèses qui l’accompagnent ne sont pas nécessaires pour ajuster ce modèle. Néanmoins si l’on veut pouvoir tester des hypothèses et mesurer le pouvoir explicatif des différentes variables explicatives dans le modèle, un cadre statistique est nécessaire. Les hypothèses de la régression linéaire sont les suivantes : les résidus suivent une même loi normale et sont indépendants. La normalité des résidus conditionne la qualité des intervalles de confiance autour des paramètres et des prédictions.

Dans le cadre du plan d’expérience, les variables ne sont pas quantitatives mais qualitatives.

Néanmoins, la modélisation des données utilise le même cadre conceptuel que la régression linéaire.

Méthodes

Parmi les méthodes de régression linéaire, la procédure « stepwise » a été choisie car elle permet de ne prendre en compte que les variables les plus importantes et les plus significatives. Le modèle de régression est ainsi plus robuste. Le processus de sélection commence par l’ajout de la variable ayant la plus forte contribution au modèle (le critère utilisé est la statistique t de Student). Si une seconde variable est telle que la probabilité associée à son t est inférieure à la « Probabilité pour l’entrée » (fixée au seuil de 5 %), elle est ajoutée au modèle. Il en est de même pour une troisième variable. A partir de l’ajout de la troisième variable, après chaque ajout, on évalue pour toutes les variables présentes dans le modèle quel serait l’impact de son retrait (toujours au travers de la statistique t). Si la probabilité est supérieure à la « Probabilité pour le retrait » (fixée au seuil de 10 %), la variable est retirée. La procédure se poursuit jusqu’à ce que plus aucune variable ne puisse être ajoutée ou retirée.

La robustesse du modèle de régression est jugée par la valeur du coefficient de détermination ajusté du modèle (R2 aj) et par l’analyse de la variance du modèle (à l’aide de la probabilité associée au test de Fisher, Pr > F).

• Le R² ajusté est une correction du R² qui permet de prendre en compte le nombre de variables utilisées dans le modèle. Le R² ajusté peut être négatif si le R² est voisin de zéro.

• L’analyse de la variance du modèle permet d’évaluer le pouvoir explicatif des variables explicatives. Plus la probabilité (associé au test de Fisher) est faible, plus le pouvoir explicatif du modèle est important. En premier lieu, c’est le paramètre le plus important. Le seuil de signification a été fixé à α = 0,05, ce qui signifie que le modèle existe pour une probabilité associée au test de Fisher inférieure à 0,05.

En parallèle à l’évaluation de la robustesse du modèle de régression, il convient de vérifier les hypothèses préalablement posées.

Diagnostic de régression

En aval de la régression linéaire, il est préférable de vérifier les conditions de validité des hypothèses préalables, que l’on qualifie souvent de « diagnostic de régression ».

• La normalité des résidus peut être vérifiée en utilisant un test de normalité. Le test de Shapiro-Wilk (SW) est bien adapté aux échantillons de moins de 5000 observations. Si la probabilité du test (probabilité que l’hypothèse nulle, stipulant que l’échantillon suit une distribution normale, soit vraie) est supérieure au seuil de signification choisie (α = 0,05), l’hypothèse de normalité des résidus est vérifiée.

• L’indépendance des résidus peut être vérifiée en utilisant le test de Durbin Watson. Le coefficient de Durbin Watson (DW) correspond au coefficient d’autocorrélation d’ordre 1 et permet de vérifier que les résidus du modèle ne sont pas autocorrélés. Il est ensuite nécessaire de se référer à une table des coefficients de Durbin-Watson pour vérifier si l’hypothèse d’indépendance des résidus est acceptable. Le logiciel JMP 7.0 compare directement la valeur du coefficient à la table de Durbin-Watson et le test est positif si la probabilité associée au test est supérieure à 5 %.

Dans le document The DART-Europe E-theses Portal (Page 93-96)