Nos choix de descripteurs - Indexation de bases d'images : évaluation de l'impact émotionnel

Nous avons choisi de juger l’eﬃcacité et la précision de cinq descripteurs de caractéristiques locales dans notre solution de recherche d’images par le contenu. Il s’agit de :

– CM (Colour Moments) : 24 dimensions ;

– CMI (Colour Moment Invariants) : 30 dimensions ;

– SIFT (Scale-Invariant Feature Transform) : 128 dimensions ; – SURF (Speeded Up Robust Feature) : 64 dimensions ;

– Opponent-SIFT que nous noterons OpSIFT pour la présentation des résultats : 384 dimensions.

Exceptés les descripteurs SURF, tous les autres ont été calculés avec le logiciel Co- lorDescriptor proposé par van de Sande et al. [van de Sande 10].

Nous avons choisi comme détecteur, celui de Harris-Laplace qui oﬀre de très bonnes performances notamment dans les travaux de Zhang et al. [Zhang 07] dans le cadre d’une tâche de classification. Pour tous les descripteurs sauf pour SURF, la configu- ration de notre détecteur est la suivante :

– k=0.06 ;

– le seuil de la fonction de Harris est égal à 10−9_;

– le seuil pour le laplacien est égal 0.03.

Les descripteurs SURF ont été calculés avec Opencv avec un seuil du Hessian fixé à 300 puisqu’ils intègrent leur propre schéma de détection des caractéristiques locales. Tous les détecteurs sont appliqués sur les images en niveaux de gris. Les descripteurs SIFT et SURF n’exploitent que l’information en niveaux de gris ce qui n’est pas le cas pour CM, CMI et OpponentSIFT.

2.3 Nouvelle méthode de construction du diction-

naire visuel : Iterative Random visual words

Selection (IteRaSel)

Comme nous l’avons mentionné dans le chapitre précédent, la technique "Sac de mots visuels" est l’une des méthodes les plus utilisées pour la création de la signa- ture d’une image. En effet, c’est une solution facile à mettre en œuvre et qui offre des résultats satisfaisants. Son inconvénient majeur est de nécessiter d’un dictionnaire de grande taille. La méthode traditionnelle de construction de ce dictionnaire est l’algorithme K-means. L’utilisation de cet algorithme doit prendre en compte la dimensionnalité des descripteurs. En effet, son efficacité tend à baisser avec une dimensionnalité élévée, produisant même des résultats proches de l’aléatoire comme l’indiquent Parsons et al. [Parsons 04]. Nous proposons alors une construction du dictionnaire qui n’est pas sensible à ces problèmes de dimensionnalité. Elle est basée sur une sélection aléatoire des mots. Nous l’avons nommé Iterative Random visual words Selection (IteRaSel).

Deux solutions s’oﬀrent à nous pour construire notre vocabulaire visuel à partir d’une sélection aléatoire des mots :

– Choisir de façon aléatoire un certain nombre de descripteurs et les considérer comme les mots visuels ;

– Créer un vocabulaire visuel synthétique en prenant en compte la dimension des descripteurs.

Nous avons choisi la première solution pour la sélection des mots visuels de façon aléatoire. Une fois les mots choisis, seuls ceux ayant un gain d’information intéressant appartiendront au dictionnaire visuel final. Dans notre cas, nous avons choisi un critère d’information en analogie avec le schéma de pondération tf-idf. Le gain d’information du mot w, noté IGw, est donné par :

IGw = n_wD n_D log N nw " #$ % tf −idf + _Sal wD n_wD " #$ % Saillance visuelle , (2.1)

avec n_wD le nombre d’occurrences du mot w dans l’ensemble des descripteurs de points clés de toute la base d’images ; cet ensemble de descripteurs de points clés est noté D, nD le nombre total de points clés de la base, nw le nombre d’images

contenant le mot w dans la base, N le nombre d’images dans la base et Sal_wD le score de saillance de tous les points clés de la base assignés au mot w.

On reconnait dans l’expression de IGw, le facteur de pondération tf-idf (équation

(1.14)) dans la première partie de la somme. Pour l’estimation de la saillance visuelle, nous avons choisi d’utiliser le modèle d’attention visuelle de Itti. Nos cartes de saillance ont été calculées avec le logiciel GBVS (Graph-Based Visual Saliency) [Harel ]. Les valeurs de saillance sont comprises entre 0 et 1 ; 0 pour une caractéris- tique locale non saillante et 1 pour le maximum de saillance. Cela correspond à un pixel en blanc sur la carte de saillance illustrée sur la Figure 2.3.

(a) Image originale (b) Carte de saillance

Figure 2.3: Illustration d’une carte de saillance.

L’algorithme 2 décrit notre méthode de construction de vocabulaire visuel.

L’étape de tri mentionnée dans notre algorithme permet de supprimer les mots vi- suels ayant très peu de gain d’information. Nous avons défini un seuil α permettant de faire cette suppression. Il a été fixé à 10% après de nombreux tests. Si certains mots visuels ont un gain d’information nul (ce qui est fort probable puisque les mots sont choisis dans une base diﬀérente de celle de tests ; dans notre cas Pascal VOC2012 pour les mots et UKB pour les test), alors à la première itération ils sont supprimés sans prendre en compte α. Nous avons également supprimé les mots vi- suels ayant un gain d’information trop important à la première itération. Un seuil a été fixé par rapport à la taille de la base. Ceci permet d’éliminer les informations

Algorithme 2 : Construction du vocabulaire visuel avec IteRaSel Entrées : D, K la taille souhaitée du dictionnaire visuel

Sorties : W le vocabulaire visuel final

Initialisation de W en choisissant de façon aléatoire un ensemble de mots visuels;

répéter

Aﬀecter chaque point clé de l’ensemble D au mot visuel dont il est le plus proche par rapport à la distance euclidienne;

Calculer le gain d’information IGw de chaque mot w à l’aide de l’équation

(2.1);

Trier et supprimer des mots en fonction de leur valeur de gain d’information;

jusqu’à Taille de W<K;

trop présentes dans toute la base qui "pollueraient" l’indexation. Il pourrait s’agit ici de patterns sporadiques qu’on retrouverait dans beaucoup d’images mais qui ne sont pas représentatifs de l’objet (de la scène). Ceci est intimement lié à la détection de caractéristiques locales. Une fois cette suppression faite, seuls les points clés de la base n’étant désormais plus aﬀectés à aucun mot visuel sont réaﬀectés. L’opération de suppression est réitérée si la taille désirée du dictionnaire n’est pas atteinte. Nous discuterons de l’impact et de la nécessité de ce processus itératif dans la Section suivante.

Ayant choisi une sélection aléatoire du dictionnaire initial, si on fait plusieurs sé- lections successives de mots, le dictionnaire visuel a de grandes chances d’être diﬀé- rent conduisant ainsi à diﬀérents résultats expérimentaux. Nous avons alors proposé une stabilisation de notre algorithme qui consiste à générer un nombre β de dic- tionnaires visuels initiaux de façon aléatoire. L’algorithme 2 est appliqué sur chacun d’eux. Les β vocabulaires visuels ainsi obtenus sont ensuite concaténés, formant un unique vocabulaire visuel, considéré à nouveau comme une entrée de l’algorithme. Dans ce cas l’initialisation de W dans l’algorithme 2 n’est pas refaite. Le nouveau dictionnaire visuel est désormais stable. Nous avons évalué plusieurs valeurs de β et 3 est un très bon compromis ; choisir β > 3 donne des résultats similaires mais avec un temps de construction du dictionnaire plus important. Les résultats des dif- férentes évaluations sont également donnés dans la Section suivante.

Une fois le dictionnaire visuel obtenu, nous l’avons utilisé pour créer les signatures visuelles des images à l’aide d’un "Sac de mots visuels". Si la distance entre les vecteurs de descripteurs et les mots visuels a été évaluée à l’aide d’une distance euclidienne, nous avons estimé la similarité des signatures visuelles avec une distance

Dans le document Indexation de bases d'images : évaluation de l'impact émotionnel (Page 59-62)