• Aucun résultat trouvé

1.4 Les méthodes statistiques

1.4.5 Analyses multivariées

1.4.5.1 La classification ascendante hiérarchique (CAH)

Une classification ascendante hiérarchique (CAH) est une méthode sta-tistique qui vise à partitionner une population en différentes classes. Pour

rassembler des individus sous forme de classes (les individus sont, par exemple, les 76 jours médians des eTLES), la CAH utilise un critère de ressemblance qui s’exprime sous la forme d’une matrice des distances (ici la distance euclidienne). Cette matrice des distances est appliquée à tous les couples d’individus. Lorsque deux individus sont identiques, la distance est nulle. À l’inverse, deux individus distincts seront caractérisés par une distance im-portante. La CAH va donc rassembler les individus de manière itérative, puis les individus isolés avec les classes déjà constituées, pour produire un dendrogramme. Le dendrogramme (ou arbre de classification) est un dia-gramme qui permet de visualiser chaque étape de l’agrégation en classe. La méthode de la CAH est régulièrement appliquée aux champs climatiques très variables dans le temps et dans l’espace, comme les précipitations (Ra-mos, 2001 ; Tennant et Hewitson, 2002 ; Muños-Dias et Rodrigo, 2004 ; Ull-mann et al., 2014). Cette méthode a pour avantage d’être hiérarchique au lieu de parvenir d’emblée à un nombre de classes fixé à l’avance (comme la méthode K-means, présentée ci-après). La CAH est appliquée aux jours médians de chacun des eTLES, pour détecter les principales configuration d’eTLES dans le bassin méditerranéen, comme évoqué précédemment.

1.4.5.2 L’analyse en composante principale (ACP)

L’analyse en composantes principales (ACP) est un outil statistique ré-gulièrement utilisé en climatologie, car il permet d’extraire le maximum d’informations d’une matrice spatio-temporelle. L’ACP permet d’obtenir les combinaisons linéaires et orthogonales d’un seul champ climatique (Mo-ron, 2000). Réaliser une ACP revient à créer de nouvelles variables ortho-gonales 2 à 2 appelées composantes principales (CP), à partir des variables initiales corrélées entre elles. L’intérêt de cette méthode statistique est de permettre de ne retenir qu’un petit nombre de composantes expliquant un maximum de variance de la matrice initiale. Dans cette étude, l’ACP est la première étape dans la classification en principaux régimes de circulation atmosphérique,via la méthode des nuées dynamiques (ou K-means).

1.4.6 Classification en régimes de circulation

atmo-sphérique

La classification en régimes de circulation atmosphérique est régulière-ment utilisée, en climatologie, pour synthétiser les configurations récurrentes de circulation atmosphérique (Vautard, 1990 ; Michelangeli et al., 1995 ; Plaut et Simonnet, 2001 ; Cassou et al., 2004 ; Cassou et Terray, 2005 ; UIl-mann et Moron, 2008 ; UllUIl-mannet al., 2014). Les différents régimes de circu-lation atmosphérique sont caractérisés par trois éléments : leur récurrence, la persistance de chacune des séquences et la stationnarité de la géographie ba-rométrique qui les composent (Michelangeliet al.,1995 ; Ghil et Robertson, 2002). Un régime est une circulation atmosphérique moyenne qui intègre de multiples conditions atmosphériques aux échelles plus fines. La méthode ici appliquée permet de détecter les principaux régimes de circulation at-mosphérique récurrents sur le domaine Euro-Atlantique, puis d’étudier des associations préférentielles entre les régimes de circulation atmosphérique et les eTLES sur le bassin Méditerranéen.

Dans cette étude, la classification en régimes de circulation atmosphé-rique se concentre sur le domaine nord-atlantique/européen (50 O à 30 E et 20 N à 70 N), domaine sur lequel la NAO, le mode dominant de la variabilité du climat dans la région nord-atlantique en hiver (Hurrell, 1995 ; Hurrell et Van Loon, 1997 ; Cassou, 2004), est la plus influente (Hurrell et al., 2003). Comme Beck et al.(2016) le soulignent dans leur étude, le résul-tat d’une classification en régimes de circulation atmosphérique est influencé par la taille du domaine sur lequel la classification est effectuée. C’est pour-quoi, dans cette étude, la classification est effectuée sur le domaine 50 O à 30 E et 20 N à 70 N, qui est davantage resserré sur la région nord-atlantique que le domaine sur lequel sont extraits les champs de pression atmosphérique des réanalyses NCEP-NCAR (voir section 1.3.2.1).

L’ACP est ici appliquée aux données quotidiennes de SLP, pour les 13 552 jours qui couvrent les 56 saisons sur la période 1957-2013. On uti-lise ici les champs bruts de SLP, et non les anomalies désaisonnaliées, car

les régimes de circulation atmosphérique sont partie intégrante des varia-tions saisonnières des condivaria-tions atmosphériques associées aux jours étudiés. Ainsi, les cycles saisonniers des conditions atmosphériques sont conservés dans cette classification. Dans un premier temps, les données quotidiennes de SLP sont standardisées. Leurs moyennes sont alors égales à 0 et leur écart-type à 1. Cette action permet de diminuer l’échelle de dispersion du jeu de données, tout en conservant la forme des distributions conjointes. Dans un deuxième temps, les données standardisées sont pondérées par le cosinus des latitudes, afin de s’affranchir de la rotondité de la Terre. L’ACP permet de compresser la matrice initiale en 13 composantes principales, qui représentent 90 % de la variance totale. La méthode de classification des nuées dynamiques (ou K-means ; Diday et Simon, 1976) est alors appliquée aux 13 composantes principales, pour en extraire 4 classes, représentant chacune un régime de circulation atmosphérique récurrent sur le domaine Atlantico-Européen. L’algorithme utilisé dans la méthode du K-means se base sur la minimisation de la distance euclidienne au carré entre les 4 centres de gravité de départ, appelés centroïdes.

Pour s’assurer de la robustesse de la classification effectuée via la mé-thode du K-means, 500 classifications à partir de la même matrice d’origine sont réalisées, en modifiant aléatoirement la localisation des centres de gra-vité. Un indice de « classifiabilité » mesure la similarité moyenne entre les différentes partitions par rapport à du bruit et permet de vérifier la repré-sentativité des 4 régimes de circulation atmosphérique déterminés (Miche-langeli et al., 1995). Le choix d’extraire 4 classes (plutôt que 3 ou 5, par exemple) résulte donc de ce test. Au final, les 13 552 jours de SLP, répartis en 56 saisons de 242 jours, sur la fenêtre 50 O à 30 E et 20 N à 70 N, sont classés en 4 régimes de circulation représentatifs du domaine Atlantico-Européen. Cette classification en régimes de circulation atmosphérique per-met d’observer s’il existe un certain contrôle des 76 eTLES méditerranéens détectés sur la période 1957-2013 par les principaux régimes de circulation atmosphérique du domaine Euro-Atlantique.

Contrairement à la CAH, qui utilise une méthode hiérarchique, le K-means utilise un processus de "division" : on part d’une partition donnée

(un nombre "n" de centroïdes prédéfinis) et chacun des jours étudiés est ensuite alloué à un de ces centroïdes, en fonction de la distance euclidienne. Cette méthode, qui se base d’abord sur une ACP, est adapté aux champs climatiques large échelle et stables, telle que la pression. La méthode du K-means est la plus utilisée dans les études qui réalisent une classification en régimes de temps (Michelangeli et al., 1995 ; Plaut et Simonnet, 2001 ; Cassou et al., 2004 ; Cassou et Terray, 2005 ; UIlmann et Moron, 2008 ; Cattiaux et al., 2012 ; Ullmann et al., 2014).

Le recensement de la durée de toutes les séquences des régimes de circu-lation atmosphérique est également effectué, pour observer si des courtes ou longues séquences des 4 régimes de circulation atmosphérique ont une in-fluence préférentielle sur les eTLES. La durée d’une séquence d’un régime de circulation est matérialisée par le nombre de jours consécutifs appartenant à ce régime.

Dans le but d’appréhender l’influence des variations saisonnières des conditions atmosphériques du domaine Euro-Atlantique sur les potentiels contrôles des régimes de circulation sur les 76 eTLES méditerranéens dé-tectés, une deuxième classification est effectuée. Cette classification se base exactement sur la même méthodologie que celle présentée ci-dessus, à cela près que cette fois-ci, l’ACP est appliquée aux données quotidiennes de SLP désaisonnalisées. Cela permet ainsi de supprimer le cycle saisonnier dans la nouvelle classification obtenue, contrairement à la classification précédente, et donc de dissocier les liens statistiques dus à une saisonnalité conjointe entre les régimes de circulations atmosphérique et les eTLES des réels liens climatiques entre ces deux variables. Les 13 552 jours de SLP désaisonna-lisée sont également classés en 4 régimes de circulation représentatifs du domaine Atlantico-Européen.

1.4.7 Le V de Cramer

Pour mesurer l’association préférentielle entre les 4 principales configu-rations d’eTLES sur le bassin méditerranéen et les 4 principaux régimes de

circulation atmosphérique Euro-Atlantique, la valeur du V de Cramer est calculée (une valeur du V de Cramer pour chacune des 16 combinaisons possibles). Le V de Cramer est une amélioration du test du Khi-2 (qui per-met de tester l’indépendance entre deux variables quantitatives discrètes ou qualitatives), et permet, au-delà de vérifier la présence ou non d’un lien sta-tistique entre deux variables discrètes, de mesurer l’intensité du lien entre les deux variables en question (Cramér, 1999). Le V de Cramer se base sur un tableau de contingence, qui permet de répartir un effectif selon deux variables (une en ligne et une en colonne) découpées en modalités . Ici, l’effectif correspond aux jours étudiés, et les variables sont les régimes de circulation et les configurations d’eTLES, les modalités sont les 4 régimes et les 4 configurations. La valeur du V de Cramer s’obtient grâce à l’équation suivante : V = v u u t χ2 χ2 max = v u u t χ2 n[min(l, c)−1] (1.9)

χ2 est le test statistique du Khi-2, n la taille du tableau, l et c le nombre de configurations d’eTLES et le nombre de régimes de circulation atmosphérique. Une valeur du V de Cramer supérieure à 0.05 indique, de façon graduelle, un lien de plus en plus fort entre les deux variables (faible entre 0,05 et 0,2 et modéré à fort au-dessus de 0,2). En revanche, une valeur du V de Cramer inférieure à 0,05 indique une absence de lien statistique entre les deux variables.