• Aucun résultat trouvé

Evaluation des variables pertinentes pour chaque classe de la CAH

Matériel et méthode

2. Soft-Subspace clustering basé sur SOM: 2S-SOM

2.3. Evaluation des variables pertinentes pour chaque classe de la CAH

Chaque classe de la CAH est associée, pour chaque variable et chaque bloc, à

poids inversement proportionnels à l’inertie des observations dans les cellules de la carte. Nous proposons d’estimer le poids de la classe par la moyenne de ces poids :

et où désigne les cellules appartenant à la

classe de la CAH. Sous hypothèse d’une bonne conservation de la topologie des observations sur la carte , dans les classes de la CAH sont regroupés les neurones présentant les mêmes caractéristiques par rapport aux variables. Autrement dit, la distance entre deux individus appartenant à deux cellules différentes d’une même classe de la CAH est souvent plus faible que leur distance à une observation d’une autre classe. Les poids étant inversement proportionnels à l’inertie des observations dans les cellules de la carte, dans une classe de la CAH, les poids d’une variable auront tendance à être proches présentant alors une faible variabilité. D’autres estimations plus robustes peuvent être envisagées.

On considère une variable pertinente pour la classification si son poids dans la

classe est supérieur à contribution moyenne des variables de son bloc. De manière identique, les blocs pertinents pour une classe sont ceux ayant des poids en

moyenne supérieurs à .

Ainsi, il est possible de sélectionner l’ensemble des variables pertinentes pour les blocs à travers une première application de la méthode 2S-SOM. L’approche hiérarchique que nous proposons ici, consiste ensuite, à appliquer de nouveau 2S-SOM sur les variables sélectionnées pour obtenir la partition recherchée. La méthode permet une simplification de l’interprétation des classes obtenues grâce à la réduction du nombre de variables associée à une bonne conservation de la qualité de la partition comme cela est illustré ci-dessous sur des données labellisées.

Le jeu de données Image Segmentation (IS) issu du site de UCI (Université de Californie à Irvine) et les données simulées D ont servi à évaluer les performances de la méthode en terme d’indice de Rappel, de F-mesure et de Pureté relativement aux étiquettes des données (Cf Annexe 1).

Tableau 1 : Comparaisons des performances de la méthode 2S-SOM avant (2S-SOM1) et après (2S-SOM2) la sélection des variables.

Rappel F-mesure Pureté

D 2S-SOM1 0.48 0.62 0.51

2S-SOM2 0.61 0.70 0.71

IS 2S-SOM1 0.60 0.65 0.71

2S-SOM2 0.75 0.79 0.82

On observe que la partition obtenue au niveau 2 (2S-SOM2) est plus ressemblante aux étiquettes des données. Ce qui montre effectivement qu’en moyenne des poids forts sont attribués aux variables les plus importantes dans les classes de la CAH.

3. Application

3.1 Données

Les données utilisées, sont les champs météorologiques ré-analysées ERAInterim du centre européen de prévision météorologique (ECMWF). Les produits sont fournis toutes les 3 heures selon des grilles superposées en altitude correspondant aux 9 niveaux de pressions (1000 hpa, 925 hpa, 850 hpa, 700 hpa, 500 hpa, 400 hpa, 300 hpa, 250 hpa, 200hpa) et dont chaque maille carrée de 0.5° de coté décrit l’état de l’atmosphère. Ces données sont constituées de variables, telles que la température (T), l’humidité spécifique (Q), le géopotentiel (Z), le vent zonal(U) et le vent méridien (V), la hauteur de la couche limite (BLH), la vitesse verticale du vent (W) qui vont nous servir à la classification des données. En nous inspirant des travaux de (Yahi, H. et al 2013), pour chacune des variables, on a extrait 17 pixels centrés sur la station de Mbour sur chacun des 9 niveaux de pression. L’étude porte sur les données de la saison sèche (d’Octobre à Mai) de chaque année, de 2006 à 2010. Ainsi, on a formé une base de données de 9727 observations sur 935 variables.

Pour faire cette étude, nous avons utilisé la base de données en tenant compte de deux blocs, un bloc composé 612 variables et un autre composé de 323 variables. Une carte topologique a été réalisée avec 2S-SOM introduisant pour chaque bloc et pour chaque variable un système de poids adaptatifs. A partir des poids adaptatifs on pourra identifier les variables et les blocs les plus importants dans la classification.

3. 2 Résultats

Au niveau 1 de l’algorithme, plusieurs applications de 2S-SOM ont été réalisées en faisant varier les paramètres d’initialisation, notamment les paramètres et , les dimensions et paramètres du voisinage de cellule de carte étant définis par le principe d’initialisation proposée par Vesanto (1999). La meilleure carte en termes de quantification vectorielle est retenue. La projection d’une variable de la base de données sur la carte obtenue montre une bonne organisation de la carte. Les autres variables n’ont pas été représentées à cause du nombre important de variables d’apprentissage, mais un travail préalable a été effectué pour s’assurer de leur bonne organisation avant de procéder à l’exploitation de cette carte topologique. Les 2 blocs de la base contribuent à égal niveau dans les cellules de la carte du niveau 1. On observe cependant, que le bloc 1 à des contributions relativement supérieures pour la majorité des cellules de la carte du niveau 2 (Cf. Figure 2 en Annexe 2). La suppression des variables de bruit révèle mieux la véritable structure des données.

Concernant les variables, nous évaluons leur pertinence dans les 6 classes obtenues par la CAH avec le critère de Ward. La représentation des classes obtenues est présentée sur la figure 3 (Cf Annexe 2). Les variables pertinentes, celles dont le poids moyen sur

les cellules d’une classe est supérieure à sont sélectionnées pour les classes. 38% (351 variables) des variables ne sont pertinentes pour aucune classe. Les 62% (584 variables) des variables restantes ont servi à déterminer la partition finale au niveau 2. La concordance des deux classifications obtenues sur les mêmes observations au niveau 1 et 2 a été évaluée avec l’Indice de Rand qui est une mesure de similarité entre deux partitions d'un même ensemble. Son principe est, pour chaque paire d'objets, de voir si elle a été classée de la même façon dans les deux partitions. L’indice de Rand obtenu entre les deux classifications est de 0.85. Ce qui montre qu’il existe une très bonne similarité entre les deux partitions et que le fait de supprimer les variables les moins importantes n’a pas un grand effet sur la classification.

La base de données de 584 variables pertinentes contient 371 variables du bloc 1 et 213 variables du bloc 2. Pour le bloc 1, on a 126 variables pour T, 123 variables pour U, 16 variables pour V et 116 variables pour Z. Pour le bloc 2, 153 variables pour Q, 49 variables pour W et 11 variables pour BLH. Pour chaque paramètre, la majorité des variables sélectionnées est caractéristique d’une ou plusieurs profils donnés. Par exemple la majorité des 16 variables du paramètre V sélectionnées est mesurée au niveau de pression 300 hpa. L’utilisation de 2S-SOM au niveau 2 a permis d’avoir des classes avec une saisonnalité particulière chacune (Cf. Figure 5 en Annexe 2) ce qui permet de dire qu’à la sortie, la sélection de variables permet d’avoir des résultats cohérents interprétable du point de vue géophysique.

4. Conclusion

Dans cette communication nous avons proposé une approche de sélection des variables en classification. Les meilleurs résultats de classification obtenus sur les variables pertinentes sélectionnées au niveau 1 vis-à-vis des données étiquetées montrent l’intérêt de ce processus de filtrage. De plus, l’application de la méthode sur les données météorologiques montre que nous avons proposé une méthode originale de sélection de variable permettant de fournir en sortie un résultat compréhensible et visuel des clusters identifiés.

Notre méthode nécessite de prendre pour seuil de chaque bloc le poids moyen des variables du bloc. Ainsi une amélioration possible consisterait à déterminer de façon statistique le seuil de sélection des variables.

Bibliographie

Allab, K., Benabdeslem, K., et Aussem, A. (2011). Une approche de co- classification automatique à base des cartes topologiques.Revue des Nouvelles Technologies de l'information (RNTI), 1-24.

Agrawal, R., J. Gehrke, D. Gunopulos, et P. Raghavan (1998). Automatic subspace clustering of high dimensional data for data mining applications. pp. 94–105.

Charrad M et Ben Ahmed M : Simultaneous clustering : A survey. In Kuznetsov S, Mandal D, Kundu M et Pal S, éditeurs : Pattern Recognition and Machine Intelligence, volume 6744, pages 370_375. Springer Berlin Heidelberg, 2011

Chen, X., Y. Ye, et al. (2012). A feature group weighting method for subspace clustering of high-dimensional data. Pattern Recogn 45(1), 434–446.

Gordon, A. et M. Vichi (1998). Partitions of partitions. Journal of Classification 15 (2), 265–285.

Govaert G : Classification croisée. Thèse d'état, Université Paris, 6, 1983

.

Govaert G : Classification simultanée de tableaux binaires. In E. Diday, M. Jambu, Jollois F.-X : Contribution de la classification automatique à la fouille de données. These de Doctorat, Université de Metz, 12, 2003.

L. Lebart, J. Pages, and R. Tomassone, editors, Data analysis and informatics III,North Holland, 67(337)(1):233-236

Nadif M et Govaert G (1984) : Binary clustering with missing data. Applied stochastic models and data analysis, 9(1):59-71.

Huang J. Z, Ng M. K, Rong H et Li Z : Automated variable weighting in k-means type clustering. IEEE Transaction on pattern analysis and machine intelligence, 27(5):657 668, 2005

.

Jing, L., M. Ng, et J. Huang (2007). An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data. Knowledge and Data Engineering, IEEE Transactions on 19 (8), 1026 –1041.

Kohonen, T. (1998). The self-organizing map. Neurocomputing 21(1-3).

Ouattara, M., N. Niang, F. Badran, et C. Mandin., (2014). 2S-SOM : une méthode de soft-subspace clustering pour données multi-blocs basée sur les cartes topologiques auto-organisées. Revue des Nouvelles Technologies de l'information (RNTI).

Parsons, L., E. Haque, et H. Liu (2004). Subspace clustering for high dimensional data: a review. SIGKDD Explor. Newsl. 6, 90–105.

Vesanto, J., Himberg, J., Alhoniemi, E., & Parhankangas, J. (1999, November). Self- organizing map in Matlab: the SOM Toolbox. In Proceedings of the Matlab DSP

conference (Vol. 99, pp. 16-17).

Yacoub, M., Niang, N., Badran, F., & Thiria, S. (2001). A new hierarchical clustering method using topological map. ASMDA (Applied Stochastic Models and Data

Analysis)

Yahi, H., B. Marticorena, S. Thiria, B. Chatenet, C. Schmechtig, J. L. Rajot, M. Crepon 2013. Statistical relationship between PM10 surface concentration and Aerosol Optical Depth over the Sahel as a function of weather types with the help of neural networks methods. Journal of Geophysical Research (Impact Factor: 3.17). 12/2013; 118(23): 13, 265.

Annexe 1

Les indices de comparaison de deux partitions et Nous désignons par :

-

,

le nombre de fois où deux observations sont dans une même classe

dans et dans une classe

(accords positifs)

-

, le nombre de fois où deux observations sont dans la même classe

de et dans des classes différentes dans .

-

, le nombre de fois où deux observations sont dans la même classe

de et des classes différentes

-

, le nombre de fois où deux observations sont dans des classes

différentes de et de

(accords négatifs)

L'indice de précision indique la probabilité que deux objets soient regroupés dans la partition s'ils le sont dans la partition ’ :

Le coefficient de rappel évalue la probabilité que deux objets soient regroupés dans la partition s'ils le sont dans la partition :

La F-mesure est la moyenne harmonique de l'indice de précision et du coefficient de rappel :

La pureté d'une partition s'évalue en quantifiant la cohérence d'une partition par rapport une autre. La manière la plus simple d'évaluer la pureté est de rechercher le label majoritaire de chaque classe et de sommer le nombre d'observations ayant le label majoritaire par classe. La pureté se définit alors simplement par l'expression suivante :

est le nombre d’observation dans la classe de et dans la classe de .

L'indice de Rand indique la proportion de paires d'observations pour lesquelles deux partitions sont en accord.

Figure 2 : Les poids des blocs au niveau 1 (à gauche) et au niveau 2 (à droite) pour les cellules de la carte

Figures 3 : Les classes obtenues après une CAH sur le résultat de 2S-SOM(les chiffres

** CNRS

Institut de Mathématiques de Bordeaux

351 Cours de la Libération, 33405 TALENCE Cedex, France nicolas.papadakis@math.u-bordeaux1.fr

ABSTRACT. Satellites images can provide a lot of information on the earth system evolution. Although

those sequences are frequently used, the importance of spatial error correlation are rarely taken into account in practice. This results in discarding a huge part of the information content of satellite image sequences. In this paper, we investigate a method based on wavelet or curvelet transforms to repre- sent (at an affordable cost) some of the observation error correlation in a data assimilation context. We address the topic of monitoring the initial state of a system through the variational assimilation of images corrupted by a spatially correlated noise. The feasibility and the reliability of the approach is demonstrated in an academic context.

RÉSUMÉ. Les images satellites sont une source importante d’information sur l’évolution du système

terre. Bien que ces séquences d’images soient de plus en plus utilisées, l’importance des corrélations spatiales entre les erreurs présentes en leur sein est rarement prise en compte en pratique. Cela conduit à une sous utilisation de l’information contenue dans ces données. Dans cet article, une nou- velle manière (peu coûteuse) d’intégrer cette information dans le cadre de l’assimilation de données est proposée. Le problème de l’utilisation d’images corrompues par un bruit fortement corrélé en es- pace afin de contrôler l’état initial du système est abordé. La faisabilité et la pertinence de l’approche proposée est démontrée dans le cadre d’une configuration académique.

KEYWORDS : Data assimilation, covariance modelling, wavelet, curvelet

1. Introduction

One of the problems in numerical weather prediction is the determination of the initial state of the system. Indeed, the true state of the atmosphere and ocean, at a given mo- ment and in all points of space, are not accessible. In order to retrieve an optimal initial condition one uses the so called data assimilation methods that combine information from observations, model equations and their respective error statistics.

Since the late 70s, various satellites were put into orbit in order to increase our knowl- edge of the atmosphere and ocean. Geostationary satellites produce, among other things, sequences of images showing the dynamical evolution of certain types of weather and ocean objects such as clouds, fronts, vortices, . . .

Currently, in numerical models of weather prediction, the information contained in this type of sequences is considered through AMV (Atmospheric Motion Vector). They are pseudo-observation of wind velocities derived from satellite image sequences using cross-correlation techniques. However, the error due to the pre-processing of images usually can not be quantified accurately and the information in the estimated velocity fields is therefore difficult to use in practice.

More recently several researches led to propose ways of assimilating images avoiding the use of pseudo-observation. Among them one can cite [3] where they incorporate optical flow constraint directly in the optimality system and [4] where a sequence of model equivalent to the image is created and compared to the observed image. However the description of observation error statistics in this framework has been overlooked so far. In the present paper, an extension of this method is presented in section 3 using several ways to quantify the difference between model and observation. Then the robustness to correlated observation error is then studied in an academic context in section 4.