Fonctionnement du bouclage de pertinence - Boucles de pertinence avec des repr´esentations par

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots

3.5.2 Fonctionnement du bouclage de pertinence

FIG. 3.28 – Principe du bouclage de pertinence

La figure 3.28 illustre de manière schématique le fonctionnement du bouclage de pertinence. Quel que soit le scénario considéré, l’objectif d’un tel système est de limiter au maximum le nombre d’itérations nécessaires pour parvenir à un résultat correct. On trouve deux principaux composants qui permettent d’implémenter le bouclage de pertinence dans un moteur de re-cherche : l’algorithme d’apprentissage et la strat égie de sélection des images à présenter à l’uti-lisateur. En fonction des images qui lui sont présentées, l’utilisateur indique au système leur pertinence par rapport à ce qu’il cherche. Selon les approches, ces indications peuvent prendre des formes diverses. Nous considérerons le cas le plus courant dans lequel l’utilisateur marque les images globalement. Il peut indiquer qu’une image est pertinente, non-pertinente ou bien ne fournir aucune indication. L’interface utilisateur peut fournir différents outils permettant de simplifier cette transmission d’informations de l’utilisateur vers le système. A partir de ces in-dications, un modèle de ce que cherche l’utilisateur est construit et affiné au fur et à mesure des itérations. A partir de ce modèle, le système doit choisir quelles images présenter à l’uti-lisateur pour l’itération suivante. L’algorithme d’apprentissage et la stratégie de sélection des images sont étroitement liés puisqu’une bonne connaissance du modèle généré est nécessaire pour optimiser le choix des images à présenter à l’utilisateur. La tâche de l’algorithme d’ap-prentissage est très complexe dans ce contexte. En effet, le nombre d’images marquées par l’utilisateur, et donc, disponibles pour générer un modèle, est très faible face à la dimension des représentations visuelles. De plus, cet ensemble est généralement très déséquilibré avec beau-coup plus d’images non-pertinentes que d’images pertinentes. Ce constat est particulièrement vrai lors des premières itérations.

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 129

Dans la continuité de nos travaux sur l’annotation automatique, nous étudions le bouclage de pertinence basé sur des SVM utilisant un noyau triangulaire. De nombreux travaux ont déjà été menés sur cette approche [HTH00, TC01]. Plus précisément, nous poursuivons les travaux de Ferecatu [Fer05]. A chaque itération, un SVM est entrainé à partir des images qui ont été marquées par l’utilisateur. Le modèle ainsi généré est utilisé sur le reste de la base pour fournir un score de confiance pour chaque image. Une stratégie classique est alors de présenter à chaque itération les images jugées les plus pertinentes par ce modèle. Cette stratégie est appelée MP (most pertinent). Une autre stratégie consiste à se focaliser sur les images les plus ambiguës. Cette idée est introduite dans [TK00, CCS00] et est souvent référencée sous l’appellation d’ap-prentissage actif (active learning) [CG08]. Le SVM doit trouver la meilleure fronti ère permet-tant de séparer les images pertinentes et non-pertinentes. Pour affiner au mieux cette frontière, cette stratégie va proposer à l’utilisateur les images qui sont les plus proches de la frontière et permettre ainsi de lever plus rapidement les ambiguit és. Cette stratégie est appelée MA (most

ambiguous). Un inconvénient de cette stratégie est qu’elle propose souvent des images très

similaires à l’utilisateur. Cette redondance fait que le système ne se concentre que sur une pe-tite partie de l’espace visuel et ne cherche à optimiser la frontière qu’à un endroit précis. Il faut donc plus d’itérations pour optimiser complètement le modèle. Pour lever ce problème, Ferecatu propose l’introduction d’une condition d’orthogonalité sur les images présentées à l’utilisateur [FCB04]. La conséquence est d’imposer que les images sélectionnées, en plus d’être proches de la frontière, soient les plus éloignées les unes des autres. Cette stratégie est appelée MAO (most

ambiguous and orthogonal). Ferecatu montre ´egalement que l’utilisation du noyau triangulaire

est particulièrement adaptée dans le cas du bouclage de pertinence puisque ne disposant pas d’information a priori sur le concept visuel que l’utilisateur cherche, nous ne pouvons fixer au préalable un quelconque facteur d’échelle.

Le démarrage d’une session peut se faire à l’aide des paradigmes de requête standard (requête par mot clé, navigation dans la base, requête par l’exemple, . . . ). Nous utilisons des SVM bi-classes, aussi il est nécessaire d’avoir une image pertinente pour amorcer le processus.

A titre d’exemple, nous présentons deux sessions d’interrogation utilisant les boucles de per-tinence. L’interface graphique est celle du moteur de recherche Ikona développé dans l’équipe Imédia. L’implémentation des boucles de pertinence est celle de Ferecatu. Nous utilisons tou-jours le noyau triangulaire, avec la constante C = 1. Les images utilisées sont celles de la base Pascal VOC 2007 trainval. Les images sont décrites avec les trois descripteurs globaux utilis és précédemment (prob, four et leoh, voir page 67). La première page affiche simplement un tirage aléatoire sur la base. Dans le premier exemple (figure 3.29), nous souhaitons annoter les images dans lesquelles une voiture apparaˆıt. Sur le premier écran, on voit que quatre images corres-pondent à ce concept. Nous marquons donc ces images comme pertinentes (bordure verte) et toutes les autres comme non-pertinentes (bordure rouge). La stratégie de sélection des images est MP. On voit sur le deuxième écran que 9 images sur les 16 contiennent une voiture. Par

3.5 Boucles de pertinence avec des repr´esentations par sacs de mots 131

ailleurs, on peut remarquer un des effets de la strat égie MP qui retourne des images très proches de celles déjà annotées. Ainsi l’image de la voiture rouge dans la soufflerie (2ème image, 3ème ligne) est très proche d’une image vue sur le premier écran. Ces deux images font très certaine-ment partie d’une série. De la même manière, la voiture de sport prise en photo de face (1 ère image, 3ème ligne) est la même que sur le premier écran avec un léger décalage dans la position de prise de vue. Les écrans suivants montrent les résultats des itérations 2 et 3.

FIG. 3.30 – Boucles de pertinence, exemple 2. Haut droite : MP. Bas gauche : MA. Bas droite :

MAO.

Pour le second exemple (figure 3.30), nous n’effectuons qu’une seule itération. Les deux images contenant des avions sont marquées comme pertinentes sur le premier écran. Nous présentons ensuite les 16 images retournées par le système selon les stratégies MP, MA et

MAO. Pour la stratégie MP, on constate clairement que les images à forte dominante bleue sont retournées. On retrouve ainsi des avions et des bateaux. Pour la stratégie MA, bien que le bleu domine encore, on constate une plus grande diversité du contenu. Enfin, pour la stratégie MAO, on remarque que certaines images retourn ées par la stratégie MA ne sont plus présentes, car trop similaires à celles déjà sur l’écran. Cela permet d’afficher d’autres images plus diverses (comme les 3 dernières).

Dans le document Vers une description efficace du contenu visuel pour l'annotation automatique d'images (Page 147-151)