Analyse et choix d’une repr´esentation - Apprentissage automatique des classes d'occupation du

5.4 Apprentissage

6.1.4 Analyse et choix d’une repr´esentation

Rappelons que nous souhaitons déterminer les structures sémantiques de l’image, en exploitant les relations spatiales et contextuelles entre les mots visuels. Nous avons donc testé les différents modes de représentation sus-présentés, afin de choisir la mieux appropriée pour notre objectif.

En ce qui concerne les hypergraphes, l’idée est de mêler segmentation et reconnais- sance pour mettre directement en évidence les structures de l’image. Pour ce faire, nous nous proposons d’exploiter les outils de partitionnement des hypergraphes pour la segmentation d’images, les relations spatiales et contextuelles étant alors prises en compte directement dans la segmentation. La procédure que nous avons adoptée est la suivante. A partir de l’image multispectrale, l’hypergraphe de voisinage spatiocolorimétrique de l’image est construit. Nous avons choisi de suivre une approche vectorielle qui prend en compte les dépendances entre les composantes. La distance colorimétrique permettant de générer les hyperarêtes est la distance euclidienne, appliquée dans une grille rectan- gulaire et un 8-voisinage.

La figure 6.2(a) montre une image dont l’hypergraphe a été construit en utilisant un seuil colorimétrique fixé à 35. Afin de visualiser le comportement de l’hypergraphe ob-

6.1. REPRESENTATION DES INFORMATIONS EXTRAITES´ 113

(a)

(b)

FIG. 6.2 – Visualisation du comportement d’un hypergraphe de voisinage spatiocolo- rimétrique vectoriel avec un seuil de 35. (a) Image Pelican de Toulouse, à 1 m ; (b) Chaque pixel de l’image a une intensité qui est fonction du nombre de pixels de son voisinage qui appartiennent à l’hyperarête dont il est le centre : les zones blanches sont les plus homogènes.

tenu, nous présentons dans la figure 6.2(b), la même image dans laquelle chaque pixel a un niveau de gris dépendant du nombre de pixels de son voisinage qui appartiennent à l’hyperarête centrée en ce pixel : plus un pixel a de voisins appartenant à l’hyperarête dont il est le centre, plus son intensité est forte. Donc dans la figure 6.2(b), les zones blanches sont les plus homogènes.

Le but d’un k-partitionnement d’hypergraphes1 est de partitionner les noeuds de l’hypergraphe en k sous-ensembles disjoints, de telle sorte qu’une certaine fonction défi- nie sur les hyperarêtes soit optimisée (minimisation de la coupe des hyperarêtes, minimisation de la somme des degrés externes). Une représentation par hypergraphes paraˆıt donc intéressante pour représenter plus efficacement le contenu de l’image de façon à faire apparaˆıtre les structures d’intérêt pour l’utilisateur. Mais cela nécessite de définir une fonction adéquate sur les hyperarêtes (par exemple une fonction de saillance parti- culière), ce qui n’est guère trivial. Et lorsqu’elle est mal choisie, cela peut aboutir à un

1_{Pour ce faire, il existe un outil de partitionnement d’hypergraphes appel´e HMETIS : http ://gla-}

(a) (b)

FIG. 6.3 – Test de codage de l’image en un texte, puis segmentation de l’image par partitionnement du texte. (a) Image Pelican de Toulouse à 1 m de résolution ; (b) Image seg- mentée : une région est une suite de lettres dans le texte et les frontières des régions sont données par les noeuds terminaux dans l’arbre recouvrant de poids minimal. Les couleurs sont distribuées de manière aléatoire.

partitionnement de l’image totalement non intuitif.

Par ailleurs, nous avons testé la représentation de l’image en un texte sur une image Pelican. L’idée était de transformer l’image en un texte et d’utiliser cette représentation linéaire qui conserve l’information spatiale (puisque la suite de lettres est obtenue par parcours de l’arbre recouvrant de poids minimal) pour identifier des suites de lettres ou des sous-séquences particulières pouvant représenter des objets ou structures parti- culiers de l’image. Un partitionnement judicieux (suivant un critère d’entropie minimale par exemple) du texte code de l’image pourrait nous aider à parvenir à nos fins. De même, l’utilisation de méthodes a contrario, afin de mettre en évidence des sous-séquences sin- gulières de la chaˆıne, pourrait être une alternative intéressante. Cependant, les difficultés liées à la manipulation et à l’exploitation des informations contenues dans le texte pour nos besoins, ainsi que la longueur du texte pour de grandes images se sont avérées très contraignantes. En effet, les tests de partitionnements du texte que nous avons effectués ne nous ont guère donné de résultats convaincants. La figure 6.3 montre un exemple de segmentation de l’image par partitionnement du texte, o ù les frontières des régions sont données par les noeuds terminaux des brins de l’arbre pendant le parcours selon 4 di- rections. Outre les structures linéaires qui sont assez bien détectées, les autres structures ou objets de l’image sont assez confuses. Différents autres tests ont été effectués sur des images synthétiques plus simples, généralement avec des résultats décevants.

Précisons que si dans ces expérimentations nous avons travaillé avec le pixel, cela est tout à fait généralisable au niveau de la région, en segmentant l’image au préalable et en considérant un noeud comme étant une région. Par ailleurs, ces deux modes de représentation, d’une manière ou d’une autre, sont basés sur les graphes qui sont un outil classique pour ce type de problème. Donc dans la suite, nous utiliserons les graphes

6.2. D ´ETERMINATION NON SUPERVISEE DE STRUCTURES D´ ’INTER´ ETˆ 115

FIG. 6.4 – Chaˆıne de traitement d´efinie pour la d´etection des structures dans une image.

d’adjacence comme mode de représentation dans nos expérimentations. Nous en ferons usage comme d’un outil pour le regroupement spatial des régions.

Dans le document Apprentissage automatique des classes d'occupation du sol et représentation en mots visuels des images satellitaires (Page 113-116)