4.2.3 Les méthodes de clustering - Les nuages de mi-niveau en Afrique de l'Ouest : observation,

Une visualisation des séries temporelles à Niamey et des échantillonnages spatiaux sur l'Afrique de l'Ouest à partir des instruments radar et lidar montre une grande diversité dans les propriétés macro- et microphysiques des nuages de mi-niveau. Afin de regrouper les nuages de mi-niveau ayant des caractéristiques communes, une analyse par clusters a été effectuée. Les techniques de clustering sont couramment utilisées dans les applications météorologiques et peuvent être séparées majoritairement en deux types d'algorithmes, l'algorithme de hiérarchisation agglomérative ascendante (Classification Ascendante Hiérarchique - CAH) (Jain and Dubes 1988) et l'algorithme K-means (MacQueen 1967). Une synthèse sur l'ensemble des méthodes de clustering est disponible dans l'annexe (A).

Récemment, différentes études ont appliqué des méthodes de clustering pour séparer les familles de nuages. La méthode de hiérarchisation a été appliquée par Hoareau et al. (2013) avec des lidars au sol et spatiaux (Observatoire de Haute Provence (HOP) et CALIOP, respectivement) pour déterminer trois classes distinctes de cirrus dans le sud de la France. Pour distinguer les différentes classes, ils ont utilisé l'altitude du sommet des cirrus et leur épaisseur. Pope et al. (2009a) se concentrent sur les systèmes convectifs à méso-échelle (MCS), dans le nord de l'Australie et les océans environnants. Ils ont utilisé les données obtenues à partir du satellite géostationnaire de l'agence météorologique japonaise (Geostationary Meteorological Satellite 5 - GMS5), à savoir la durée de vie des nuages, leur direction de propagation, la température au sommet du nuage ayant une durée de vie minimale, la zone nuageuse des nuages ayant une durée de vie maximale et le taux d'expansion de la zone nuageuse pendant la première heure des MCS tropicaux pour obtenir quatre groupes durant six saisons humides (septembre-avril). La durée de vie et la direction de propagation des nuages étaient les variables ayant le plus de poids dans le clustering. Pope et

al. (2009b) ont poursuivi l'étude en se focalisant sur les régimes météorologiques, déterminés par la direction du vent et l'humidité. Jakob and Tselioudis (2003) ont également utilisé cette méthode de classification pour analyser les produits nuageux de l'ISCCP dans la région ouest du Pacifique tropical. Ils ont détecté quatre régimes de nuages basés sur la pression au sommet du nuage et l'épaisseur optique. Le premier régime correspond aux cumulus peu profonds, le second aux cirrus isolés transparents, le troisième aux cirrus épais avec de la convection et le dernier à la convection profonde. Tan and Jakob (2013) ont observé les mêmes types de nuages à travers la détection de huit régimes de nuages dominés par quatre types de nuages principalement (cumulus, nuages de mi-niveau, convection profonde et cirrus) dans cette même région. Bankert and Solbrig (2015) se sont concentrés sur l'océan Pacifique Nord Est pour déterminer les structures verticales des nuages pendant les saisons d'été (juin-août) et d'hiver (décembre-février) de 2006 à 2009 en utilisant les données de CloudSat-CALIPSO et MODIS (Moderate Resolution Imaging Spectroradiometer). L'altitude de la base et du sommet des nuages, ainsi que le profil du contenu en eau des nuages ont permis de mettre en évidence 32 clusters, dont 16 en été et 16 en hiver, regroupés principalement en nuages bas, moyen et haut et en convection profonde. Zhang et al. (2007)

ont défini cinq régimes de nuages tropicaux en utilisant également les données de CloudSat; pour valider le clustering, ils ont également utilisé les données MODIS (c'est-à-dire la pression au sommet du nuage et l'épaisseur optique). L'algorithme K-Means a été appliqué sur les distributions de fréquences conjointes d'altitude et de réflectivité radar de juin à septembre 2006.

Une certaine précaution est nécessaire avec les méthodes de clustering car elles fournissent toujours un résultat. Par conséquent, afin de porter un regard critique à nos résultats, ces deux algorithmes de clustering fondamentalement différents, la méthode K- means (MacQueen 1967) et la méthode de hiérarchisation ascendante (CAH) (Jain and Dubes 1988), ont été systématiquement appliquées et comparées entre elles. Par construction, une méthode de regroupement performante garantit une grande similitude intra-groupe et une faible similitude inter-groupes. La méthode K-Means est une méthode de partitionnement qui permet de diviser de manière optimale l'ensemble des objets en un nombre fixe et pré- déterminé de groupes K. D'abord, chaque grappe est représentée par un centre disposé de façon aléatoire. Ensuite, chaque élément de l'ensemble du jeu de données est affecté au groupe dont le centre est le plus proche (basé sur la distance euclidienne) et le centre des groupes est recalculé. Cela se fait itérativement jusqu'à ce qu'il y ait convergence, c'est-à-dire jusqu'à ce que plus aucun élément ne change des clusters à la suite d'itérations consécutives. Les avantages de cet algorithme sont sa simplicité, son efficacité (la convergence est parfois possible en une seule itération) et la possibilité de traiter de grandes bases de données. Cependant, c'est un algorithme non déterministe qui produit un résultat différent à chaque nouvelle réalisation. L'algorithme CAH est basé sur le calcul de la distance euclidienne suivant le critère de «Ward» (Ward 1963), dont l'objectif est d'avoir un gain minimum d'inertie intra-groupe à chaque agrégation. Il produit une séquence de groupes imbriqués les uns dans les autres fusionnant les nœuds ayant la plus faible dissemblance deux à deux. Les résultats peuvent être visualisés avec un dendrogramme qui permet d'identifier le nombre optimal de clusters et qui montre les relations hiérarchiques entre les groupes. Les avantages de l'algorithme CAH sont que le dendrogramme permet de déterminer le nombre optimal de classes (il n'est pas nécessaire de connaître le nombre de classes à l'avance comme dans l'algorithme K-Means) et c'est un algorithme déterministe ce qui signifie qu'il produit le même résultat à chaque réalisation. Les faiblesses sont ses calculs coûteux dès qu'il y a un nombre important de données et le fait que la qualité de la représentation diminue avec le nombre de clusters.

Dans le document Les nuages de mi-niveau en Afrique de l'Ouest : observation, caractérisation, modélisation (Page 59-61)