Indexation de bases d’objets à niveaux de gris

3.2 Moments complexes et indexation de bases d’images (thèse de R. Mezhoud)

3.2.4 Indexation de bases d’objets à niveaux de gris

L’essor des dispositifs d’acquisition (caméras numériques, scanner, IRM), des capacités de sto-ckage (mémoire de masse), des systèmes de transmission et de diffusion (réseau Internet, réseaux spécialisés à hauts-débits) a favorisé la création et le développement de bases d’images volumi-neuses et de natures très diverses. Ceci pose le problème de l’archivage, de l’exploitation et de la consultation de ces bases d’images. Les techniques traditionnelles d’indexation manuelle de ces bases (essentiellement sous forme de mots-clés) sont confrontées à deux problèmes majeurs. Le premier concerne la quantité de travail nécessaire au processus d’annotation textuel. Le second est lié à la richesse du contenu sémantique des images et à la subjectivité de la description.

Pour tenter de s’affranchir de ces problèmes, l’accès aux bases par le contenu visuel des images est devenu, depuis une vingtaine d’années, un sujet de recherche particulièrement dynamique. Au lieu d’une annotation manuelle par des attributs textuels, les images sont indexées automatique-ment par leur propre contenu, grâce à des caractéristiques traduisant la couleur, la forme et la texture des images. De part les enjeux scientifiques mais aussi commerciaux, la recherche dans ce domaine reste particulièrement active.

(a)

(b)

(c)

40 50 60 70 80 90 100 110

Figure 3.5 – La ligne (a) montre l’évolution de la reconstruction de la lettre⁰E⁰ avec un nombre croissant de MC. La ligne (b) montre la version binarisée de ces images reconstruites (seuil à 0.5). La ligne (c) montre la différence pixel à pixel entre l’image originale et l’image reconstruite.

Résultats extraits de [88].

Principe :L’architecture typique d’un système d’indexation est schématisée par la figure 3.6. Dans ce modèle, on distingue deux étapes : la phaseoff-linepour les pré-traitements, l’organisation et la gestion de la base d’images de référence (sous-système d’indexation de la base), et la phase de consultationon-linepour les traitements propres à chaque nouvelle requête de l’utilisateur (sous-système de recherche). Les deux sous-(sous-systèmes ont en commun les deux traitements suivants :

3 L’extraction de descripteurs caractéristiques des images, que ce soit une image de la base durant la phaseoff-lineou une image requête proposée par l’utilisateur lors de la phase on-line.

3 La construction des index à partir des descripteurs. Le rôle principal des index est d’accélérer la recherche des images similaires à la requête durant la phase de consultation.

Pendant la consultation de la base, l’utilisateur sélectionne une image par le biais d’une in-terface graphique. Les index de la requête sont confrontés aux index des images de références.

Finalement, le système sélectionne et présente à l’utilisateur les « images les plus similaires » à la requête.

Illustration :Le système d’indexation que nous avons proposé à partir de la représentation des images par la famille complète d’invariants issue des moments complexes est illustré au travers de l’expérience rapportée dans la figure 3.7. La base utilisée est constituée de 1440 images représen-tant 20 objets 3D pris dans 72 positions différentes (par rotation de 5˚ autour d’un axe vertical)⁴. La principale difficulté de cette base réside dans le fait que le mouvement apparent des objets fausse sensiblement le modèle de transformation géométrique que nous considérons ici. Cette base permet de tester la stabilité et la robustesse de nos descripteurs invariants aux déformations de formes.

Nous avons reporté les résultats obtenus à l’aide des invariants complets issus des moments

4. — Base d’objets de l’université de Columbia.

Off-line Sous-système d’indexation

Indexation de la requête Indexation de la base

Base d’images Base des index

Index résultant de la similarité

Images résultant de la requête

On-line Sous-système de recherche

Interface utilisateur

Utilisateur

similarité Étude de la

Figure 3.6 – Architecture générique d’un système d’indexation de bases d’images.

complexes et de la transformée de Fourier-Mellin Analytique, et les invariants de Hu. Chaque ré-sultat présente, de gauche à droite et de haut en bas, les 16 premières images classées dans l’ordre de similarité avec l’image requête (que l’on retrouve dans le coin supérieur gauche). L’image si-tuée en première position est la requête elle-même.

Amélioration de la recherche : L’extraction de primitives pertinentes est un problème qui ne connaît pas de solution dans le cas général. D’une part, parce qu’un unique type de descripteurs ne permet pas de caractériser aussi bien une base d’empreintes digitales qu’une base de visages ou une base de tableaux de maîtres par exemple. Le type de descripteur à inclure dans la repré-sentation des images dépend de la nature de la base et de l’application qui en est faite. D’autre part, il semble qu’il n’existe pas d’attributs qui puissent modéliser une base selon tous les points de vues, pour des raisons multiples qui peuvent être illustrées par la subjectivité de la requête de l’utilisateur.

Les moteurs de recherche tentent de combiner des primitives variées pour améliorer la discri-mination et la classification. Par conséquent, le nombre de descripteurs de formes par image est de plus en plus élevé. Un des problèmes est alors de déterminer le poids approprié pour chaque type de descripteur. La plupart des moteurs font donc également intervenir l’utilisateur par le moyen d’une interface interactive qui l’associe à l’interprétation des résultats en permettant, par exemple, la sélection de plusieurs requêtes simultanées. Le système recherche alors les modèles les plus semblables à toutes les requêtes présentées. Pour améliorer les performances de recherche et pour s’adapter à la subjectivité de la requête de l’utilisateur, les efforts portent sur la concep-tion de systèmes d’apprentissage dynamique qui modifient les poids des descripteurs au fur et à

Figure 3.7 – Résultats d’une recherche séquentielle sur l’image requête Obj16_69 en utilisant (a) les invariants complets des MC, (b) les invariants complets de la TFMA et (c) les invariants de Hu.

Résultats extraits de [128].

mesure des requêtes lancées par l’utilisateur⁵.

Une autre solution pour améliorer les résultats de recherche consiste à ne plus considérer une unique image requête mais un ensemble d’images requêtes. Cela permet d’aider l’utilisateur à préciser ce qu’il recherche. Pour illustrer ce concept, nous présentons dans la figure 3.8, les résul-tats de recherche à partir d’une unique requête (a) et ceux obtenus avec deux images requêtes (b).

Dans ce dernier cas, pour mesurer la similarité nous avons simplement trié les images selon la somme des erreurs obtenues individuellement sur chaque image requête. Le résultat de recherche est visuellement bien plus satisfaisant.

5. — Exemples : moteurs de recherche FOUREYES et PHOTOBOOK [130, 141] (http://www.media.mit.edu/

~tpminka/photobook/foureyes/), MARS[161] (http://jadzia.ifp.uiuc.edu:8000) et PICHUNTER[41].

(a) Recherche avec une image requête (b) Recherche avec deux images requêtes

Figure 3.8 – Résultats d’une recherche pour les invariants complets. Résultats extraits de [128].

3.3 A priori géométrique pour les snakes et détection d’objet (master

Dans le document Université Paul Cézanne d Aix-Marseille III Faculté des Sciences et Techniques de Saint Jérôme HABILITATION À DIRIGER DES RECHERCHES (Page 78-82)