L’indexation de séquences d’images - Modélisation et gestion de concepts, en particulier tempor

L’indexation contribue à la création d’une représentation virtuelle du document vidéo sous forme de modèles ou de signatures, servant d’intermédiaire entre le document et les besoins d’informations exprimés sous forme de requêtes. Il s’agit donc de générer une in-formation qui sera le point de repère pour accéder ensuite aux séquences d’images et qui permet d’identifier les zones d’intérêt de ces documents. Il existe plusieurs stratégies pour effectuer l’indexation de documents.

– l’indexation manuelle (figure 2.1-gauche) : un opérateur annote manuellement chaque séquence d’images. La sémantique est très bien renseignée mais l’augmentation constante du nombre de documents vidéo rend cette tâche de plus en plus difficile à mettre en place ;

– l’indexation automatique (figure 2.1-droite) : elle consiste à appliquer des algorithmes d’extraction, de modélisation et de classification permettant d’indexer les séquences d’images de manière automatique. L’avantage de cette stratégie est la possibilité d’in-dexer de grandes collections de documents vidéo. Néanmoins, pour un nombre im-portant d’applications, la qualité de l’indexation n’est pas suffisante pour obtenir des recherches précises et efficaces. La sémantique est peu représentée. Il faut noter que ce type d’indexation demande la plupart du temps une étape manuelle d’indexation d’une base dite d’apprentissage afin de construire les modèles (vérité terrain) ;

– l’indexation ’mixte’ ou ’assistée’ : un utilisateur intervient plusieurs fois durant le pro-cessus d’indexation soit pour annoter soit pour affiner les résultats d’indexation auto-matique.

En théorie, le niveau d’indexation (signal ou sémantique) n’est pas nécessairement lié à la manière de l’effectuer (manuelle, automatique ou mixte). En pratique, ce qui est produit au-tomatiquement est le plus souvent de bas niveau et ce qui doit être indexé à haut niveau (concept signifiant) ne peut l’être que manuellement (pour des raisons de qualité et de fai-sabilité). Cependant, dans des applications très spécifiques, l’analyse automatique peut être utilisée pour la détection et la reconnaissance de concepts spécifiques. Dans un cadre géné-rique, c’est actuellement inenvisageable.

2.2.1 Indexation manuelle : l’annotation

L’annotation permet de classer, de résumer, de commenter ou d’enrichir des documents. Dans notre problématique, elle représente l’intermédiaire créé entre le document et les requêtes et peut être vue comme une indexation effectuée manuellement.

De manière générale, cette tâche est considérée comme longue et fastidieuse car elle nécessite l’intervention d’un opérateur ou expert humain, et dépend d’un processus totalement manuel. Toutefois, celle-ci reste très intéressante car elle permet d’obtenir une description du contenu de type sémantique et permet d’analyser le contenu d’un point de vue utilisateur.

Figure 2.1 —Processus d’annotation. L’annotation peut être complètement manuelle (voie de gauche). Elle peut être complètement automatique (voie de droite) mais nécessite une annotation manuelle pour l’apprentissage.

– L’annotation libre qui consiste à laisser l’utilisateur annoter un document avec les descripteurs de son choix pose rapidement le problème de la pertinence et de la sub-jectivité de l’annotation. Deux opérateurs différents n’annoteraient pas un document de la même façon. Ce type d’annotation est désormais très peu utilisé sauf dans les cas d’un unique opérateur d’annotation et de bases très spécifiques.

On peut citer par exempleVideo-Annex[Smith et Lugeon, 2000] qui est un outil IBM4 permettant d’effectuer l’annotation conceptuelle de vidéo sur tout ou partie d’un do-cument (segment vidéo ou image clé d’un plan). L’annotation qui porte sur le docu-ment en entier est effectuée via une liste mais peut égaledocu-ment être saisie manuelle-ment (voir figure 2.2). Cette annotation peut être collaborative ou bien indépendante.

Figure 2.2 —Interface de l’outil Video-Annex (IBM).

L’annotation collaborative a pour objectif de permettre le partage des interprétations visuelles. L’annotation conceptuelle libre est subjective et permet d’élargir le vocabu-laire d’annotation.

– L’annotation conceptuelle consiste à mettre en place une ou plusieurs ontologie(s) pour faciliter l’interprétation du contenu des séquences d’images. L’opérateur effectue l’annotation en ayant uniquement recours aux concepts de l’ontologie. Celle-ci est généralement représentée de manière graphique, sous forme d’arbre, ce qui permet à l’utilisateur de parcourir rapidement l’arbre et de sélectionner au niveau hiérarchique de son choix, le concept qui lui semble le plus pertinent. Cette annotation est intéres-sante dans le cas où l’opérateur ne connait pas le concept correspondant mais dispose cependant d’une idée approximative de celui-ci.

Smart VideoText est un système d’annotation vidéo basé sur le formalisme des graphes conceptuels [Sowa, 1984; Chein et Mugnier, 1992] proposé par [Kokkoras

et al., 2002]. Dans ce système, les portions vidéo représentent les nœuds du graphe. Ces portions sont identifiées par des références liées à la structure physique du document (identifiant du plan, numéro de l’image dans le plan, etc.) et aussi par les annotations libres. L’idée de base du modèle d’annotation Smart VideoText est de relier les descriptions du contenu de document, décrites par des annotations, au flux vidéo. Chaque annotation sera représentée par un segment logique qui est en général une partie du flux vidéo.

– L’annotation lexicale consiste à utiliser un lexique déterminé à l’avance pour per-mettre d’unifier les descriptions.

Le projet COALA5[Fatemi et Khaled, 2001] (Content Oriented Audiovisuel Library) conduit par l’EPFL en Suisse a permis la réalisation d’une plate-forme d’indexation et d’annotation de journaux télévisées de la TSR (Télévision Suisse Romande). Il s’agit donc d’une application spécialisée dans l’annotation d’un genre particulier de docu-ments vidéo qui est utilisable comme une application web. Video-Annex [Smith et Lugeon, 2000], cité dans l’annotation libre, est également un exemple d’annotation lexicale lorsqu’on utilise l’annotation par liste.

2.2.2 Indexation automatique

De manière générale, un système d’indexation automatique vise à associer à un élé-ment (docuélé-ment ou partie du docuélé-ment) une classe ou une catégorie donnée selon des caractéristiques extraites du document. En général, les algorithmes utilisés s’appuient sur une phase d’apprentissage qui consiste à apprendre un ensemble de relations entre les les caractéristiques et l’index ou le concept. Ces algorithmes ont recours à un ensemble d’exemples afin d’apprendre ces relations. On trouve ainsi deux classes d’approches : l’apprentissage supervisé qui, à partir d’exemples et une phase de classification, peut associer un document à une classe définie préalablement et l’apprentissage non-supervisé où les exemples ne sont pas étiquetés et où la classification consiste à regrouper les éléments en classe distinctes non nommées. On parle alors de clustering.

On commence par extraire des caractéristiques telles que :

– la texture (filtre de Gabor, transformée en ondelette discrète, etc.),

– la couleur (histogramme de couleurs, histogrammes dans l’espace RGB, TSV, etc.), – segmentation d’objets (contours ou zones homogènes),

– le mouvement (dominant, déplacement local, etc.), – points particuliers (SIP, STIP, SURF, etc.),

– une combinaison de plusieurs de ces caractéristiques.

Ces caractéristiques sont dites de bas-niveau, car elles sont très proches du signal, et ne véhiculent pas de sémantique particulière sur l’image.

Il s’agit ensuite de définir le modèle qui lie les caractéristiques extraites de bas niveau aux concepts qui correspondent aux différents index qui seront attachés aux documents vidéo, et qui ont un contenu sémantique important. La définition de tels modèles est complexe, liée à l’application aussi bien qu’à l’utilisateur potentiel du système d’indexation. On parle alors de fossé sémantique (’semantic gap’). La comparaison entre le modèle du concept et les caractéristiques du document à analyser peut être réalisée par de nombreuses méthodes (mesure de distance, de similarité, de proximité) et permet de décider s’il y a correspondance.

Une technique simpliste consiste à choisir un seul représentant du concept à définir et d’en extraire une signature à partir des caractéristiques extraites, signature qui sert de

dèle du concept. Puis lors de la phase d’indexation, la même signature est évaluée pour tous les documents vidéo, et le concept est validé si la distance entre la signature de référence et la signature calculée est suffisamment petite. Cette approche n’est généralement pas assez per-formante pour réaliser une indexation robuste de la base d’apprentissage. Il est préférable de définir des modèles plus riches.

Dans le document Modélisation et gestion de concepts, en particulier temporels, pour l'assistance à la caractérisation de séquences d'images (Page 29-33)