• Aucun résultat trouvé

Les modèles gaussiens proposés dans ce mémoire peuvent naturellement être utilisés dans des contextes très différents et même combinés à d’autres modélisations afin d’acquérir des caractéris-tiques supplémentaires. Dans ce paragraphe, nous allons présenter les travaux en cours où nos mo-dèles gaussiens adaptés aux données de grande dimension entrent en jeu. Nous illustrerons notre propos avec quelques résultats préliminaires.

7.2.1 Classification de données de grande dimension spatialement corrélées

Dans de nombreux problèmes, par exemple en analyse d’images, les données sont à la fois de grande dimension et spatialement corrélées. Nous nous sommes intéressés à ce thème dans le contexte de la reconnaissance de textures. La reconnaissance de texture est un problème difficile pour les rai-sons suivantes : les observations sont en grande dimension, il existe une relation spatiale entre les observations et les textures étudiées ne sont pas homogènes. En effet, les points d’intérêts détectés sur chaque image de la base sont décrits par de vecteur de dimension 128 (cf. chapitre6) et les méthodes de classification classiques ont des difficultés à traiter de telles données. D’autre part, il est naturel de penser qu’il existe une relation spatiale entre deux points d’intérêts voisins. Enfin, il n’est pas raison-nable de modéliser une texture par une unique densité car les textures sont généralement hétérogènes. Ce travail est réalisé en collaboration avec J. Blanchet (sous la direction de thèse de C. Schmid et de F. Forbes).

Données et protocole

Nous avons donc proposé de combiner les modèles gaussiens adaptés aux données de grande di-mension, présentés dans ce mémoire, à une modélisation des relations spatiales des textures basée sur les champs de Markov cachés proposée dans [12]. En outre, nous avons considéré que chaque texture était composée de 10 parties homogènes et nous avons utilisé le graphe de Delaunay, dual du dia-gramme de Voronoï, comme système de voisinage. Pour nos expérimentations, nous avons utilisé une base composée de 7 textures (brique, moquette, tissu, sol 1, sol 2, marbre et bois) et qui comporte 10 images d’apprentissage pour chaque texture. La base de validation comporte quant à elle 250 images.

FIG. 7.1 – Segmentation d’une image composée de 3 textures différentes (moquette, tissu et sol 2) : à gauche, image originale et, à droite, image segmentée.

FIG. 7.2 – Segmentation d’une image composée de 3 textures différentes (moquette, tissu et sol 2) avec, de haut en bas : modèle indépendant et diag-GMM, modèle indépendant et [aibiQidi], champ de Markov caché et diag-GMM, champ de Markov caché et[aibiQidi].

Nous avons comparé sur cette base notre approche, qui sera notée « Markov +[aibiQidi]», aux ap-proches « Indep. + diag-GMM », « Indep. +[aibiQidi]» et « Markov + diag-GMM ». La notation « Indep. » traduit le fait que l’approche ne prend pas en compte les relations spatiales et la notation « diag-GMM » indique que le modèle parcimonieux diag-GMM a été utilisé.

Résultats expérimentaux

Le tableau7.1 présente les taux de classification correcte obtenus par les 4 approches étudiées. On observe tout d’abord que notre approche permet une reconnaissance particulièrement bonne et, en tout cas, nettement meilleure que les autres approches. On peut également remarquer que, même si la modélisation spatiale par champs de Markov cachés permet une grande amélioration des résultats par rapport au modèle indépendant, l’utilisation du modèle gaussien[aibiQidi]améliore également et de manière significative les résultats de reconnaissance de textures. La figure7.1montre, à gauche, une image comportant trois textures différentes et, à droite, la segmentation idéale. La figure7.2présente les segmentations obtenues sur cette image de validation avec les 4 approches étudiées. Il apparaît que

notre approche « Markov +[aibiQidi]» fournit une segmentation très satisfaisante et bien meilleure que les autres approches.

7.2.2 Catégorisation automatique du sol de la planète Mars

Nous nous sommes récemment intéressés au problème de la catégorisation d’images hyper-spectrales du sol de la planète Mars pour lequel les données sont à la fois de grande dimension et en très grand nombre. L’imagerie hyper-spectrale visible et infrarouge est une technique de télé-détection clef pour l’étude et le suivi des planètes du système solaire. Les spectromètres imageurs intégrés dans un nombre croissant de satellites génèrent des images hyper-spectrales à trois composantes (deux composantes spatiales et une spectrale). Au mois de mars 2004 l’instrument OMEGA (Mars Express, ESA) [8] avait déjà collecté 310 giga-octets de données brutes. Une nouvelle génération de spec-tromètres imageurs est en train d’émerger et est dotée d’une composante supplémentaire de mesure (angulaire) pour une meilleure caractérisation des matériaux planétaires et pour mieux séparer les si-gnaux venant de l’atmosphère et de la surface. Les sites planétaires seront maintenant observés non seulement à la verticale mais aussi selon différents points de vue le long de la trajectoire du satel-lite. Le spectromètre imageur CRISM de l’orbiteur Mars Reconnaissance Orbiter sera la première caméra hyper-spectrale multi-angulaire à opérer depuis l’espace. Ces nouveaux instruments accentue-ront encore plus la taille des données qui devrait atteindre plusieurs tera-octets pour une dimension de l’ordre de 4000 variables. Il est donc crucial pour les scientifiques et les agences qui devront traiter ces nouvelles données de disposer d’outils d’analyse performants.

Données et protocole

Les données, mises à notre disposition par le laboratoire de Planétologie de Grenoble, ont été acquises par l’imageur OMEGA. Cet imageur a observé le sol de la planète Mars avec une résolu-tion spatiale variant entre 300 et 3000 mètres en foncrésolu-tion de l’altitude du satellite. Il a acquis pour chaque pixel observé les spectres dont les longueurs d’ondes vont de 0.36 à 5.2µm et stocké ces informations dans un vecteur de 256 dimensions. Le but de cette étude préliminaire est de caractériser la composition de la surface du sol martien en affectant chacun des pixels observés à une des 5 classes minéralogiques indiquées par les experts. Pour cette expérimentation, visant à vérifier l’aptitude de nos méthodes de classification à traiter de telles données, nous avons considéré une image de taille

300×128pixels de la surface de la planète Mars dont chacun des 38 400 pixels est décrit par 256 variables. L’image de gauche de la figure7.3représente la zone étudiée.

Résultats expérimentaux

L’image de droite de la figure7.3montre la segmentation obtenue avec le modèle[aibiQidi]de l’HDDC. On peut tout d’abord observer que la segmentation fournie par l’HDDC est très satisfaisante sur une grande partie de l’image. Les résultats insuffisants de la partie supérieure droite de l’image

FIG. 7.3 – Catégorisation de la composition de la surface de la planète Mars avec l’HDDC : à gauche, image de la zone étudiée et, à droite, segmentation obtenue avec l’HDDC sur les données de dimension 256 associées à chaque pixel de l’image de gauche.

0 50 100 150 200 250 −0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 Bande spectrale Cl. 1 Cl. 2 Cl. 3 Cl. 4 Cl. 5

sont dus à la courbure de la planète et peuvent être corrigés. Les experts du laboratoire de Planétologie de Grenoble ont particulièrement apprécié que notre méthode soit capable de détecter le mélange de glace et de carbonate (liseré noir) présent autour des zone de glaces (zones claires de l’image). La figure 7.4 présente les moyennes spectrales des 5 classes. A partir de cette information, les experts peuvent déterminer avec précision la composition minéralogique de chacune des classes. Cette étude a démontré que notre méthode de clustering HDDC est capable de traiter efficacement des bases de données réelles de grande dimension et de grande taille. De plus, cette étude préliminaire a été réalisé sans prendre en compte les relations spatiales existantes entre les pixels et gageons que la prise en compte de ces relations améliore encore la segmentation. Nous envisageons de prendre en compte ces relations spatiales en utilisant l’approche qui combine l’HDDC à la modélisation par champs de Markov cachés et qui a donné des résultats prometteurs en reconnaissance de textures.

7.2.3 Incorporation de nos modèles dans le logiciel MixMod

Très récemment, les responsables du logiciel MixMod [10]1 nous ont donné l’opportunité d’in-clure dans leur logiciel les modèles gaussiens adaptés aux données de grande dimension présentés dans ce mémoire. Ainsi, dans un futur proche, il sera possible de choisir le modèle gaussien[aijbiQidi]ou l’un de ses 27 sous-modèles pour modéliser et classer des données dans le logiciel MixMod. Cela nous permettra en outre de comparer nos modèles adaptés aux données de grande dimension à l’ensemble des modèles parcimonieux proposés par Celeux et Govaert dans [21] et d’utiliser les différents cri-tères bayésiens de sélection de modèle disponibles (notamment le critère ICL [9]). Enfin, les modèles à matrices d’orientations communes pourront certainement être mis en œuvre grâce à la présence de l’algorithme FG dans le logiciel Mixmod et des temps de calculs optimisés.