• Aucun résultat trouvé

1.2 Les moyens de diagnostic

1.2.2 Les méthodes d’analyse

Elles ont déjà été largement décrites. Nous nous attacherons, en conséquence, à n'en décrire que les principes essentiels. D'autres méthodes ont été utilisées, mais comme il ne s’agit pas de méthodes génériques, elles seront présentées en même temps que les résultats qui en dérivent.

1.2.2.1 Le calcul d'indices spatiaux

Des calculs d'indices régionalisés ont été effectués en moyennant l’information sur une aire homogène. L'homogénéité des zones, sur lesquelles les indices ont été calculés, a été au préalable mise en évidence par différentes méthodes (Analyse en Composantes Principales, analyse composite...), lors de nos travaux ou résultant de travaux antérieurs. Pour la construction des indices, seuls les points de grille compris dans les noyaux homogènes significatifs ont été pris en compte. L’homogénéité des noyaux peut être, par exemple, « validée » par un seuil minimal de corrélation entre la chronique du point de grille et les composantes principales. Les noyaux peuvent également avoir été détectés par une classification des points de grille.

Le programme AMMA a défini des indices pluviométriques largement utilisés par la communauté scientifique, ainsi que dans cette thèse. Il convient donc de définir les domaines sur lesquels les indices régionaux et sous-régionaux ont été calculés (Figure 13).

1.2 Les moyens de diagnostic

32

Figure 13 : Localisation des différents domaines régionaux et sous-régionaux sur lesquels

les indices de précipitations ont été calculés dans le cadre du programme AMMA. L’acronyme « AfO » signifie Afrique de l’Ouest.

1.2.2.2 Les corrélations linéaires

Il s'agit d'une méthode fréquemment utilisée pour estimer l’intensité d'une relation linéaire entre deux variables. Les détails sont exposés dans Snedecor et Cochran (1956) et Moore (1979). Le carré du coefficient de corrélation (noté R² et appelé coefficient de détermination) correspond à la part de variance commune entre les deux variables analysées. L'existence d'une forte valeur du coefficient de corrélation n'implique pas une relation de causalité entre les deux paramètres : il peut s'agir d'un artefact de la méthode ou d'un simple hasard de covariation entre les deux variables ou encore d'une covariation due à un forçage extérieur. Ainsi, il est de rigueur d'interpréter avec une certaine prudence ces coefficients et d'essayer de rattacher les résultats à des mécanismes climatiques ou météorologiques pour leur donner une signification physique. La significativité statistique est obtenue en testant la valeur du coefficient de corrélation par le test de Bravais Pearson et/ou en effectuant des simulations de Monte Carlo.

1.2.2.3 Les Simulations de Monte Carlo

Les méthodes de Monte Carlo sont fondées sur la simulation de variables aléatoires de taille identique à l’échantillon auquel on veut les comparer. Pour cela, plusieurs critères peuvent être choisis : soit en générant aléatoirement une série ayant les mêmes caractéristiques de distribution que la série originale, soit en générant des séries par simple permutation aléatoire de la série originale.

Chapitre 1 : La mousson ouest-africaine : cadre physique, méthodes, données et évolution saisonnière moyenne du système de mousson

1.2.2.4 L'analyse composite

Cette méthode d'analyse, simple à mettre en oeuvre, est fréquemment utilisée en climatologie diagnostique (Von Storch et Zwiers 1999), notamment pour vérifier qu'un signal mis en évidence sur un paramètre climatique se retrouve dans un second. La méthode consiste à comparer les moyennes de deux échantillons extraits d'une même série chronologique. Le choix des échantillons est fonction d'un critère extérieur (par exemple anomalies négatives vs

anomalies positives). La significativité des différences entre les deux échantillons peut être évaluée au moyen du test en t de Student. On trouvera les détails de ce test dans Federighi (1959).

1.2.2.5 La régression linéaire multiple

La régression linéaire multiple, surtout utilisée aux chapitres 4 et 5, vise à expliquer une variable Y par la conjonction de plusieurs variables X, en principe indépendantes les unes des autres. La variable à expliquer est appelée prédictant, les variables retenues par la régression linaire multiple sont appelées « variables explicatives » ou encore « prédicteurs » dans une optique de prévision. Le but de la régression est de minimiser les résidus du modèle linéaire (Saporta 1990) car plus ils sont faibles, meilleure est l'équation de la régression, i.e.

plus la régression se rapproche de la réalité.

La méthode retenue pour la sélection des régresseurs est le « pas à pas » (ou stepwise). Elle consiste à recueillir un minimum de prédicteurs explicatifs pour une maximisation de la qualité de la régression, en termes de coefficient de détermination (R²) et de minimisation des résidus. La première étape consiste à intégrer le premier prédicteur sélectionné. Le paramètre choisi est celui qui a la plus forte corrélation avec le prédicant. Le modèle continue à intégrer de nouveaux prédicteurs qui aident à améliorer la prévision du prédicant tant que l’amélioration de cette prévision est significative. L'adjonction de nouveaux prédicteurs est stoppée quand le gain, en termes de coefficient de détermination, entre deux itérations de la procédure, est non significatif. La significativité est déterminée ici par le test de Fisher au seuil de confiance de 95 %.

1.2 Les moyens de diagnostic

34

Se pose aussi le problème de la colinéarité des prédicteurs. En effet, si les corrélations entre prédicteurs sont trop fortes, elles biaisent le calcul des paramètres du modèle et les résultats sont artificialisés. Un des moyens de connaître la colinéarité est de calculer le facteur d'inflation de la variance (noté VIF). Il est noté :

2 1 1 k R VIF − =

où Rk2est le carré du coefficient de corrélation multiple entre le prédicteur et xk et les p-1

autres prédicteurs.

Selon Chatterjee et Price (1977), un VIF supérieur à 5 indique que le prédicteur est colinéaire aux autres. Il faut alors le rejeter car il n'apporte aucune information nouvelle et nuit à la qualité de modèle.

1.2.2.6 L'Analyse en Composantes Principales (ACP)

Cette méthode a été utilisée pour décrire les variabilités spatiales et temporelles des précipitations en Afrique de l'Ouest en termes de structure et de mode cohérent de variabilité (Chapitres 1, 2 et 3). Cette méthode factorielle permet d'extraire le maximum d'informations, sous une forme simple, à partir d'un ensemble important de données. En effet, réaliser une ACP revient à remplacer n variables x1, x2, ...., xi corrélées entre elles, par de nouvelles variables c1, c2, ..., ci appelées composantes principales. Ces composantes sont des combinaisons linéaires non corrélées entre elles et de variance maximale des variables initiales (Saporta 1990). Il est donc intéressant de ne retenir qu'un nombre restreint de composantes principales tout en expliquant un maximum de variance. Les seuils de signification statistique utilisés dans cette étude pour retenir le nombre de composantes principales sont le test de North (North et al. 1982) et le Scree-test (Cattell 1966) qui permettent d'éviter la dégénérescence de l'information. Si l'espace représente les variables et le temps les observations, l'ACP permet de déterminer les ressemblances et les oppositions en termes de variabilité temporelle des unités géographiques considérées.

La procédure de maximisation de la variance peut entraîner la création de composantes artificielles ne représentant pas de véritables structures spatiales. Richman (1986) montre l’intérêt de procéder à une rotation des axes factoriels qui consiste à redistribuer l'information contenue dans les k premières composantes entre k nouvelles composantes. Ces nouvelles composantes principales individualisent et stabilisent mieux les structures spatiales.

Chapitre 1 : La mousson ouest-africaine : cadre physique, méthodes, données et évolution saisonnière moyenne du système de mousson 1.2.2.7 La Classification Ascendante Hiérarchique

Les méthodes de classification sont très complémentaires des analyses factorielles (Bouroche et Sapota 1987). Alors que ces dernières mettent en évidence des structures, la classification consiste à effectuer une partition de l'ensemble des individus statistiques. Parmi les techniques statistiques de classification, la Classification Ascendante Hiérarchique (CAH) est sans doute la plus communément utilisée.

Elle s’applique sur un tableau de n individus dont on connaît les valeurs sur p

variables. Ce tableau est considéré comme un nuage de n individus dans un espace de dimension p dans lequel on peut définir une métrique et une règle (critère d'agrégation) pour agréger un individu et un groupe d'individus (ou entre groupes d'individus).

L'algorithme de classification débute par le choix d'un type de distance entre individus et entre groupes de points. La CAH procède par regroupement successif des individus en fonction de leur ressemblance (métrique et critère d'agrégation) par rapport à un ensemble de critères. À l'étape n-1, un dernier regroupement est effectué qui agrège tous les points du nuage dans une même classe.

Les résultats d'une classification peuvent se présenter sous forme d'une hiérarchie emboîtée (arbre hiérarchique ou encore dendrogramme) qui permet de définir des partitions à différents niveaux d'agrégation. C'est à partir de ce résultat graphique que le choix du nombre de classe est effectué.

1.2.2.8 La classification des types de circulation par la méthode des nuées dynamiques L'application de la méthode des nuées dynamiques a permis de synthétiser la circulation atmosphérique ouest-africaine en une typologie de configurations atmosphériques types, significatives et redondantes dans le temps (Michelangeli et al. 1995 ; Ullmann et Moron 2007 ; Pohl et al. 2005). Une classification en nuées dynamiques (Diday 1971 et Diday et Simon 1976) a été appliquée sur plusieurs paramètres atmosphériques : les composantes méridiennes et zonales du vent à 925 hPa, 600 hPa et 200 hPa. Ces niveaux ont été choisis du fait de l’importance qu’ils jouent dans la mousson ouest-africaine (voir entre autres, sur le sujet Newell et Kidson 1984 ; Fontaine et Janicot 1992). Tous ces paramètres atmosphériques ont été utilisés au pas de temps pentadaire (calcul de la moyenne sur cinq jours en fonction du calendrier des pentades CMAP et GPCP) entre fin avril et fin octobre (de la 24ème à la 61ème pentade) sur la période 1979-2004 et sur le domaine s'étendant de l'équateur à 20°N en latitude, et entre 15°W et 15°E en longitude (858 points de grille). Le critère

1.2 Les moyens de diagnostic

36

d'agrégation utilisé pour la formation des classes est la distance euclidienne au centre de gravité de chaque classe.

Au préalable, deux opérations ont été effectuées. Tout d'abord, la matrice des vents zonaux et méridiens a été standardisée par la double opération de centrage et réduction, afin de ramener la valeur de la moyenne à 0 et l’écart-type à 1 et donc de donner à chaque niveau le même poids. Par la suite, une ACP a permis de « résumer » la matrice en cinq composantes principales qui représentent 51,7 % de la variance totale des champs d'origine. C'est sur cette nouvelle matrice que la méthode des nuées dynamiques a été appliquée. Deux problèmes se posent alors : la dépendance de la partition finale aux noyaux initiaux et le choix du nombre optimum k de classes. Le premier problème est résolu en exécutant plusieurs classifications (50) à partir de noyaux différents toujours pris au hasard. On garde ensuite la partition qui offre le meilleur compromis avec les 49 autres, i.e. celle dont la corrélation moyenne avec les autres est la plus élevée. Cette corrélation moyenne correspond à l’indice de classifiabilité (Figure 14) de l’ensemble en k classes. Pour savoir quelle est la partition optimale, nous avons ensuite comparé l’indice de classifiabilité avec celui d’une classification faite sur des composantes principales générées aléatoirement par une procédure de Monte Carlo. Les composantes principales générées aléatoirement ont la même covariance que celles issues de l’ACP. Le meilleur nombre k de classes est obtenu lorsque l’indice de classifiabilité des observations est supérieur à celui issu de la procédure de Monte Carlo. Il ne s’agit alors pas d’une valeur k obtenue au hasard, mais du reflet spécifique des données. Nous voyons sur la Figure 14 que les partitions en trois et sept classes se détachent du « bruit rouge ». Cependant, trois classes ne permettent pas de discriminer correctement les différents types et la classification en sept partitions offre un meilleur compromis des types de circulation atmosphérique dans la zone étudiée et permet de ne pas manipuler trop de classes pour les utilisateurs de la typologie. Nous verrons, lors de la présentation du climat moyen de l'Afrique de l'Ouest, que cette méthode possède un autre avantage : celui de fournir une reconstitution d'une climatologie saisonnière de l'Afrique de l'Ouest.

Chapitre 1 : La mousson ouest-africaine : cadre physique, méthodes, données et évolution saisonnière moyenne du système de mousson 2 3 4 5 6 7 8 9 10 0.7 0.75 0.8 0.85 0.9 0.95 1 Index de classifiabilite nombre de classes Indice de classifiabilite

seuil 95% Figure 14 : Résultat

du test de sélection du nombre k de classes. La ligne pleine correspond

à l’indice de

classifiabilité de la

classification, la ligne en tirets au seuil de confiance de 95 %. Pour plus de détails, voir texte ci-dessus.

1.3 La variabilité des précipitations aux échelles intrasaisonnière