Des r´ egions vers les objets - The DART-Europe E-theses Portal

Figure 2.13 – Une variabilité importante de l’initialisation : épaisseur, positionnement, régularité (première ligne) entraˆıne une faible variabilité des résultats (deuxième ligne)

initialise le traitement : en effet, une variabilité importante de l’épaisseur du ruban, de son positionnement (plutôt intérieur ou extérieur), de sa forme (plus ou moins régulière), fournit des résultats très similaires.

Le ruban peut être tracé soit à l’aide de segments (figures2.13.b,c,d,e), soit à main levée (figure2.13.f,g).

Les figures 2.13.b et c présentent deux résultats obtenus avec deux épaisseurs différentes (10 et 40 pixels). Le ruban de la figure2.13.c est obtenu avec 10 clics de la souris seulement ; en revanche, il fournit des détails précis de la tête et des jambes de l’animal.

Dans la figure2.13.d, la segmentation est obtenue avec un ruban positionné plutôt dans l’objet alors que dans la figure 2.13.e, il est plutôt dans le fond. Bien que ces résultats ne soient pas exactement identiques, ils diffèrent assez peu.

Dans les figures 2.13.f et g, on a joué sur la régularité de la forme du ruban : l’utilisateur peut effectivement dessiner des ”pâtés” qui contiennent de nombreux détails de contour afin de les extraire correctement, comme le montre la jambe arrière dans les figures2.13.m et n.

Enfin, la méthode présentée peut être utilisée telle quelle, sans modification, avec un nombre quel-conque de racines et un ruban fermé peut avoir une topologie quelconque et être connexe à un nombre quelconque de racines, comme le montre l’exemple de la figure 2.14. L’approche proposée garantit un nombre d’objets final égal au nombre de racines. Il est donc important que le ruban soit fermé pour que l’intérieur puisse se distinguer de l’extérieur.

2.10 Des r´ egions vers les objets

Dans cette section, nous proposons une approche qui simplifie un r´esultat de segmentation en regroupant les r´egions en objets.

Pour ce faire, nous utilisons des crit`eres de plus haut niveau.

L’outil utilisé est toujours la pyramide irrégulière.

2.10.1 Introduction

Nous traitons ici les problèmes relatifs à une méthode générique et automatique d’extraction d’objets dans les images (voir [MLT99] pour un récapitulatif des méthodes existantes). Afin de proposer une

(a) Image originale (b) Initialisation (c) Partition obtenue

Figure 2.14 – Segmentation de plusieurs régions d’intérêt

nouvelle méthode non fondée sur la connaissancea priori du contenu sémantique de l’image ou sur un modèle quelconque d’objet, plusieurs méthodes efficaces sont intégrées et interviennent successivement dans la pyramide de graphe irrégulière : (1) Une analyse locale de l’homogénéité de l’image est effectuée pour initialiser une segmentation locale et ainsi éviter une sur-segmentation. (2) La pyramide de graphe réalise unesegmentation localedes zones hétérogènes de l’image. En utilisant un critère de similarité, elle génère un empilement de partitions précises. (3) La pyramide est de nouveau utilisée sur les régions issues de la segmentation pour un traitement degroupement perceptuelselon des critères issus de la théorie du Gestalt. Ces critères sont bien adaptés à une méthode n’utilisant pas de modèle puisqu’ils prennent en compte uniquement la pertinence visuelle des régions.

2.10.2 Groupement de r´ egions orient´ e perception

Principe

Nous appelons groupement perceptuel le fait de fusionner plusieurs r´egions sur des crit`eres perceptuels.

Lors du traitement de groupement perceptuel, deux contraintes doivent être respectées : premièrement, seuls les meilleurs groupements locaux doivent être retenus ; ce qui signifie qu’un maximum de combinai-sons de régions doit être étudié (parmi deux, trois, quatre, . . . , nvoisins). Deuxièmement, le résultat ne doit pas être influencé par l’ordre des groupements.

La pyramide irrégulière a été choisie afin de réaliser l’étape de groupement pour trois raisons prin-cipales. Premièrement, sa structure de graphe est bien adaptée à la manipulation en parallèle (i.e.

indépendante) de régions. Deuxièmement, les critères de groupement de régions sont facilement inter-changeables. Enfin, les itérations du traitement sont simplement obtenues par génération de niveaux supplémentaires résultant des fusions entre régions.

Le graphe final de la pyramide locale constitue le graphe initial de la pyramide de groupement. En effet, la pyramide locale est étendue avec des niveaux supplémentaires induits par le groupement de régions.

Dans [LeG03] les auteurs groupent seulement des paires de régions. Contrairement à leur travail, avec notre méthode, un nombre quelconque de régions peut fusionner simultanément en un seul groupement.

Cela fournit plus de choix dans la strat´egie de groupement et donc, plus d’adaptativit´e au contenu de l’image.

Crit`eres de groupement

Les critères choisis pour effectuer le groupement sont dérivés de la théorie du Gestalt [Wer58] qui n’utilise aucun modèle d’objet. La vision humaine effectue des groupements indépendants (appelés Ges-talt) fondés sur cinq propriétés principales : la proximité, la similarité, la fermeture, la continuité et la symétrie [ZTB04].

2.10. DES R ÉGIONS VERS LES OBJETS 39 Des énergies sont extraites de ces propriétés et sont calculées pour des régions ou des groupements de régions. Le but est de sélectionner les groupements de plus faibles énergies représentant une forte pertinence visuelle. Le coût d’un groupement est composé de plusieurs fonctions d’énergie proposées par [LeG03].

Ef usionest le coût de l’opération de fusion fondé sur la différence des moyennes des composantes Lab, et sur l’étude des jonctions (continuité des contours) des différentes régions du groupement.

Eregion est le coût de la région résultant d’une fusion. il peut être considéré comme le degré de pertinence du groupement potentiel (plus l’énergie est faible, plus le degré de pertinence est important).

Ce coût est fondé sur la compacité, la convexité et l’aire du groupement.

La fonction d’énergie d’une région résultant d’un groupement est donnée parE=Ef usion+Eregion. Une énergie faible indique un fort intérêt visuel. Au contraire, une forte valeur indique une région ou un groupement indésirable. Le but étant de réaliser le groupement qui assure la plus faible énergie localement.

2.10.3 Choix des meilleurs groupements

Sélection du meilleur groupement local Soit vc un sommet, c ∈ J1, NK et nc le nombre de ses voisins. Tous les groupements incluant vc et les différentes combinaisons de ses voisins sont considérés.

Le nombre de combinaisons est donn´e par la formule suivante : C(v_c) = E_{f usion} etE_region sont calcul´ees pour chacun de ces groupements.

Soitgc le groupement incluantvc ayant la plus faible énergieE(gc).gc est un groupement potentiel si : (1)g_c améliore localement l’énergie de la partition, (2)E(g_c) indique une forte pertinence visuelle. Si ce n’est pas le cas,gc n’est pas retenu.

Notons que dans nos expérimentations, le nombre maximum de voisins par combinaisons est limité à 5 ou 6, ce qui donne respectivementC(vc) = 31 ouC(vc) = 63.

Sélection du meilleur groupement global Un ensembleGde groupements potentiels est à présent défini sur toute l’image. Les groupements effectivement réalisés sont sélectionnés dansGpar ordre crois-sant des énergies. Lorsqu’un groupementgsest sélectionné, tout groupement deGqui intersecte avecgs

est exclu. Ainsi, la fusion de chaque groupement sélectionné peut être correctement réalisée. Ces fusions engendrent, dans la pyramide, un niveau supplémentaire correspondant à la nouvelle partition.

Cette sélection assure les meilleurs groupements dans l’image entière. Le traitement de groupement est réitéré jusqu’à ce que le nombre de sommets reste stable.

2.10.4 R´ esultats

Les différents résultats obtenus avec cette méthode sont présentés dans les figures2.15,2.16et 2.17.

Pour des images complexes dont la dimension est d’environ 300×300 pixels, la segmentation locale génère habituellement une partition de 100 à 200 régions. De cette partition, l’étape de groupement donne une partition de moins de 20 régions. En général, l’étape orientée similarité converge en moins de 100 niveaux et l’étape orientée perception s’étend seulement sur 10-15 étages supplémentaires. L’aspect hiérarchique de la pyramide constitue un grand avantage car lorsque dans les derniers niveaux de la pyramide des objets sémantiques sont perdus, l’utilisateur peut facilement parcourir la pyramide afin de les récupérer.

C’est le cas dans la figure2.15.d qui représente une partition comportant 13 régions, qui définit avec une bonne précision les animaux.

(a) Image originale (b) Masque d’ho-mogénéité Lab

Figure2.15 – Différents niveaux de segmentation avec plusieurs objets d’intérêt

(a) Image originale (b) R´esultat de la pyra-mide locale

(d) Groupement final

Figure2.16 – Différents niveaux de la segmentation d’une image comportant un objet d’intérêt

(a) Image originale (b) Utilisation de 2 r´egions maximum par groupement

(d) Utilisation de 6 r´egions maximum par groupement

Figure 2.17 – Résultats obtenus avec des groupements locaux pour des nombres de régions maximum différents

Dans le document The DART-Europe E-theses Portal (Page 44-48)