• Aucun résultat trouvé

8 CONCLUSIONS ET PERSPECTIVES

A. Synthèse sur les méthodes de regroupement : le clustering Cette annexe a pour objectif dans un premier temps de décrire les différentesCette annexe a pour objectif dans un premier temps de décrire les différentes

A.2 Sensibilité à la méthode de clustering utilisée

A.2.2. Niamey pendant la période de mousson

Comme vous avez pu le découvrir dans la partie 5.4.1, la majorité des nuages observés sur le site ARM de Niamey en 2006 se concentre durant la période de mousson avec 270 nuages, ce qui représente environ 56% de l'ensemble des nuages détectés. Ces 270 nuages ont leur date de début d'occurrence entre les mois de juin et septembre inclus. Dans le tableau 5.1, le nombre de nuages est référencé par rapport à la date moyenne d'occurrence des nuages. Nous n'avons donc pas exactement le même nombre de nuages par mois d'où le fait que nous ayons dans ce tableau un total de 269 nuages sur la période de mousson.

Afin de savoir comment se répartissaient ces 270 nuages, nous avons appliqué les mêmes méthodes de clustering en utilisant les variables « base » et « épaisseur ». La méthode de partitionnement K-Means nous a indiqué au travers de la méthode Elbow (cf. annexe (A)) que le nombre de clusters le plus approprié pouvait être 3 ou 4. Le dendrogramme obtenu avec la méthode de hiérarchisation suivant la méthode de « Ward » suggérait quant à lui que le nombre de clusters le plus pertinent était 3. Nous avons donc scindé le nuage d'individus en trois groupes.

Mais est-ce que ces trois clusters sont similaires à ceux que nous avons pu observer au cours de l'année entière ? Effectivement pour les deux méthodes, ils le sont. Nous avons bien retrouvé un cluster avec des bases basses, un autre avec des bases hautes et enfin un dernier avec des épaisseurs élevées. Cependant, la méthode de hiérarchisation suivant la méthode de « Ward » sépare les deux clusters se différenciant par leur base vers 3925 m d'altitude (c'est-à-dire la moyenne de la base minimale du cluster 2 : 4000 m et de la base maximale du cluster 3 : 3850 m) (cf. Fig. 22) alors que la méthode K-Means vers 5200 m (cf. Fig. 23). Précédemment, avec le jeu de données complets, la séparation entre ces deux clusters s'effectuait vers 5280 m d'altitude (c'est-à-dire la moyenne de la base minimale du cluster 2 : 5160 m et de la base maximale du cluster 3 : 5400 m) (cf. Fig. 6.4). La méthode K- Means au travers de cette échantillon représente donc mieux les clusters puisque la méthode de Ward crée un cluster avec 26 nuages. De plus, cette répartition effectuée par la méthode de hiérarchisation suivant la méthode de « Ward » implique également des différences dans la distribution des sommets entre les deux méthodes puisque le cluster ayant des bases basses possède également des sommets plus bas. Nous avons également noté que des nuages appartenant dans l'étude réalisée sur l'ensemble de l'année au cluster possédant des nuages épais avec de fortes réflectivités se retrouvaient dans le cluster ayant des bases hautes.

Figure 22: Distribution de l'épaisseur des nuages en fonction de l'altitude de la base des nuages pour les trois clusters obtenus après l'application de la méthode de hiérarchisation suivant la méthode de « Ward » avec ces deux variables. Le cluster 1 est en vert, le cluster 2 en rouge et le cluster 3 en cyan. Chaque point représente l'un des 270 nuages observés à Niamey durant la période de mousson 2006. Le point jaune représente le barycentre de l'ensemble des nuages.

Figure 23: Distribution de l'épaisseur des nuages en fonction de l'altitude de la base des nuages pour les trois clusters obtenus après l'application de la méthode de partitionnement K-Means avec ces deux variables. Le cluster 1 est en vert, le cluster 2 en rouge et le cluster 3 en cyan. Chaque point représente l'un des 270 nuages observés à Niamey durant la période de mousson 2006. Le point jaune représente le barycentre de l'ensemble des nuages.

Étant donné qu'avec la méthode de hiérarchisation suivant la méthode de « Ward » nous avons obtenu un groupe de nuages comportant de très faibles bases de nuages (c'est-à- dire inférieures ou égales à 3900 m d'altitude), nous avons voulu savoir si en ne récupérant que les nuages de cette période ayant des épaisseurs supérieures ou égales à 100 m, cela modifierait les groupes de nuages. Ce changement réduit de 8 nuages l'échantillon des 270 nuages observés durant la période de mousson ; ce qui laisse présager de faibles modifications dans les groupes nuageux. Avec la méthode K-Means, aucune modification n'est notable. En revanche, avec la méthode de « Ward », on note des changements puisque cette fois-ci elle sépare les deux clusters se différenciant par leur base vers 5617 m d'altitude (c'est-à-dire la moyenne de la base minimale du cluster 2 : 5400 m et de la base maximale du cluster 3 : 5833 m) (cf. Fig. 24) modifiant par la même les distributions des sommets de ces deux clusters. Le cluster est cette fois-ci mieux représenté puisqu'il compte 59 nuages au lieu de 26 précédemment. Finalement, avec ce second test, nous obtenons une répartition différente avec la méthode de « Ward » que précédemment mais plus semblable des clusters entre les deux méthodes que lors du premier test. Cela est également plus identique à la répartition avec l'ensemble de la base de données.

Figure 24: Distribution de l'épaisseur des nuages en fonction de l'altitude de la base des nuages pour les trois clusters obtenus après l'application de la méthode de hiérarchisation suivant la méthode de « Ward » avec ces deux variables. Le cluster 1 est en vert, le cluster 2 en rouge et le cluster 3 en cyan. Chaque point représente l'un des 262 nuages observés à Niamey durant la période de mousson 2006. Le point jaune représente le barycentre de l'ensemble des nuages.

Au travers de ces tests, nous pouvons noter que de faibles modifications du jeu de données en entrée des méthodes de clustering peuvent engendrer des changements importants dans les clusters finaux notamment avec la méthode de « Ward » qui semble beaucoup plus sensible que la méthode K-Means. Finalement, même si nous n'observons pas exactement les mêmes caractéristiques pour ces trois clusters durant la période de mousson comparées à celles durant l'année entière nous en concluons que les nuages observés durant la période de mousson sont ceux qui dominent dans le clustering appliqué à l'année entière. Cela est tout à fait cohérent puisque les nuages se concentrent majoritairement durant cette période.