Indexation manuelle ou assistée : annotation

III.4 Indexation et recherche des documents vidéo

III.4.1 Indexation manuelle ou assistée : annotation

Le processus d’annotation consiste à attribuer des descriptions pour le contenu de chaque séquence vidéo. L’annotation est une tâche souvent considérée comme étant un travail laborieux qui nécessite l’intervention de l’opérateur humain et qui dépend d’un processus totalement manuel. Cependant, l’annotation reste toujours plus sollicitée pour la description du contenu sémantique d’un document vidéo. En effet, elle permet d’analyser le contenu selon un point de vue utilisateur et ceci coïncide donc avec l’image réelle qu’un utilisateur peut retenir en regardant un une séquence vidéo.

Pour l’annotation conceptuelle, il est important de mettre en place une ou plusieurs ontologie(s) pour faciliter l’interprétation du contenu vidéo. En effet, l’utilisateur effectue l’indexation manuelle en recourant à des concepts de l’ontologie. L'ontologie est présentée dans l’outil d’annotation sous forme d'arbre graphique, ce qui permet à l'utilisateur de la parcourir rapidement et de sélectionner à tous les niveaux (hiérarchies de concepts) un concept qui lui semble pertinent pour son indexation.

Dans le cas où l’annotateur a une idée précise de ce qu’il veut mais ne connaît pas précisément le concept correspondant, la visualisation arborescente n’est pas adaptée : l’utilisation d’une terminologie permet d’assister l’utilisateur dans sa recherche. Celui-ci organise, par rapport à un élément d’information, les concepts correspondants selon un ordre de pertinence. Il existe des systèmes spécifiques pour réaliser les annotations qui génèreront l’ensemble des interprétations qu’on peut associer aux segments vidéo. Nous présentons dans ce qui suit une liste non exhaustive des systèmes d’annotation vidéo.

Plusieurs travaux proposés ([Vasconcelos 97], [Arslan 02], [Timothy 94]) dans ce contexte suggèrent l’utilisation d’un lexique bien déterminé permettant d’unifier les descriptions associées au document. De façon générale, le processus d’annotation est une tâche difficile qui nécessité l’attention de l’opérateur humain dans le choix des descriptions associées au document. D’autre part, les annotations dépendent aussi de la manière avec laquelle le document est structuré. En effet, associer une description à un plan vidéo est souvent sémantiquement mois riche qu’une description associée à une scène. Nous détaillerons Dans ce qui suit quelques outils d’annotation vidéo ensuite, nous passerons en revue quelques travaux de recherche sur l’extraction automatique de l’information contenue dans la vidéo.

III.4.1.1 Video-Annex : un outil d’annotation conceptuelle

L’une des spécificités de l’outil Video-Annex [Lin 03] semble être le fait que ces annotations conceptuelles peuvent s’appliquer à la fois sur le document complet, et sur des parties du document (segment vidéo ou image clé d’un plan). L’annotation qui porte sur le document en entier est effectuée à l’aide de possibilité de champs d’annotation libre (voir figure III.2). Ce champ permet aussi d’utiliser d’autres concepts qui ne figurent pas forcément dans la liste.

Cette annotation peut être collaborative ou bien indépendante. En ce qui concerne l’annotation collaborative, son rôle est de permettre le partage des interprétations variées. Ces informations peuvent être génériques (titre, auteur, date, ..) et ne posent pas de problème de principe. Par contre, l’annotation conceptuelle libre est subjective et permet d’élargir le vocabulaire d’annotation,

Figure III.2 : Interface de l’outil d’annotation Video-Annex Cet outil est divisé en trois régions :

(a) Zone pour affichage et visualisation du plan vidéo

(b) Zone d’annotation du plan, dans laquelle apparaît l’image-clé de chaque

plan et aussi les concepts sélectionnés pour annoter ce plan.

vidéo (onglet2) et aussi les images de chaque plan (onglet1).

Nous avons exploité les annotations générées l’outil Video-Annex sur la collection TRECVID pour la description et la modélisation du contenu visuel que nous allons détailler dans le chapitre V. Notons enfin que cet outil se base sur une structure ontologique pour l’annotation composée de trois catégories de concept (scène, objets, événements) comme indiqué dans la figure ci-dessus.

III.4.1.2 Smart VideoText

Smart VideoText est un système d’annotation vidéo basé sur le formalisme des graphes conceptuels [Sowa 84], [Chein 92] proposé par [kokkoras 02]. Dans ce système, les portions vidéo représentent les nœuds du graphe. Ces portions sont identifiées par des références liées à la structure physique du document (identifiant du plan, numéro de l’image dans le plan, etc.) et aussi par les annotations libres.

L’idée de base du modèle d’annotation Smart VideoText est de relier les descriptions du contenu de document, décrites par des annotations, au flux vidéo. Chaque annotation sera représentée par un segment logique qui est en général une partie du flux vidéo.

III.4.1.3 COALA – Log Creator –EPFL

Le projet COALA (content Oriented Audiovisuel Library) conduit par l’EPFL en Suisse a débouché sur la réalisation d’une plate-forme prototype d’indexation et d’annotations des journaux télévisés de la TSR (Télévision Suisse Romande). Contrairement aux autres outils, il se présente comme une application du Web spécialisé dans l’annotation d’un genre particulier de document vidéo.

Le système se compose d’une interface (Log Creator) de segmentation et d’annotation des journaux télévisés [Fatemi 01]. La segmentation consiste à découper a priori le document selon une structure hiérarchique (voir figure III.3). L’annotation consiste à ajouter une description appropriée à chaque segment.

Figure III.3 : Interface de segmentation du système Log Creator

III.4.1.4 Autres système d’annotations audiovisuelles

Le système d'annotation Anvil [Kipp 01] développé par M. Kipp a été originellement développé pour l'étude de la gestuelle. Le système Anvil permet une annotation suivant des schémas d'annotations prédéfinis par l'utilisateur. La trace d'observation issue de l'annotation est composée d'une marque temporelle de début et de fin d'événement, de l'événement lui-même puis d'un ensemble d'attributs relatifs à cet événement. Suite à une annotation, le logiciel propose des fonctions de regroupement de données suivant les besoins d'analyse de l'utilisateur. On peut noter également que le fichier de traces résultant est au format XML (eXtensible Markup Language) [Bray 98] afin de permettre l'exportation des résultats d’annotation vers d'autres applications.

Le système SignStream [Neidle 01] a été élaboré pour l'étude de données audiovisuelles sur le langage parlé et langage des signes. Le système permet d'annoter les vidéos à partir d'un ensemble d’éléments prédéfinis par le logiciel ou définis par l'utilisateur. De plus, le logiciel

propose un module de création de script c'est-à-dire le scénario correspondant au corpus audiovisuel, ce script permettant par la suite de naviguer dans les médias utilisés. Finalement, le résultat de l'annotation peut être exporté au format XML.

Nous avons fait ici un rapide tour d'horizon des systèmes disponibles pour l'annotation et l'analyse de documents vidéo. Il nous a permis de voir leurs principes de fonctionnement et quelques uns de leurs applications dans le cadre de la recherche. Nous avons pu remarquer que la plupart des travaux se proposent de configurer les annotations autorisées pour permettre ainsi aux chercheurs de bénéficier uniquement d'annotations pertinentes pour la description du contenu vidéo. De plus, ces logiciels présentent, en général, la possibilité de gérer et d'annoter une collection pouvant comporter plusieurs documents vidéo. Une autre caractéristique commune à ces systèmes, c'est la possibilité de traduire les annotations sous forme graphique ou textuelles permettant ainsi aux utilisateurs de disposer d'une vue qui leur convient.

Dans le document Modèles de Documents Vidéo basés sur le Formalisme des Graphes Conceptuels pour l'Indexation et la Recherche par le Contenu Sémantique (Page 44-47)