Conclusion - Gestion des documents multimédia : Etat de l’art

Chapitre II Gestion des documents multimédia : Etat de l’art

II.6. Conclusion

II.1. Introduction

La richesse et l’hétérogénéité des informations contenues dans les documents multimédia compliquent leurs processus de gestion. Exploiter de façon automatique ces documents dans le cadre d’une base documentaire représente un vrai défi qui passe par : leur représentation c’est à dire leur modélisation, leur intégration dans une base de stockage et leur exploitation en terme d’interrogation et d’accès à l’information. Nous présentons ici un état de l’art sur les travaux qui ont été réalisés pour faire face à chacun de ces challenges.

Le problème majeur des documents multimédia est qu’il est difficile d’accéder directement à leur contenu. Il faut passer par une phase de description et d’indexation qui permettra de leur associer des métadonnées (descripteurs) plus ou moins fins (mot-clés généraux ou index précis). Une première section est consacrée à l’indexation des documents multimédia, où nous présentons la richesse des descripteurs et quelques systèmes automatiques d’extraction de ces descripteurs. La modélisation des documents permet d’organiser les métadonnées issues de la précédente phase d’indexation et de prendre en compte les liens entre les différents fragments qui forment le document. Ils doivent non seulement décrire la richesse des documents au niveau contenu, mais aussi au niveau structurel. Nous définissons dans une seconde section, un panorama des modèles de représentations des documents multimédia.

Ces modèles serviront de base ensuite à l’intégration des documents. L’intégration est basée sur l’ajout des structures et des contenus des documents. L’hétérogénéité des structures documentaires, conduira vers une multiplication des structures stockées. Afin d’optimiser le nombre de structures gérées, un processus de comparaison pourra permettre de détecter les ressemblances entre des structures hétérogènes. Nous décrivons dans une troisième section le processus d'intégration des documents dans un espace de stockage. Nous présentons notamment quelques approches techniques de comparaison de structures.

Enfin, les documents stockés doivent être accessibles de façon automatique aux utilisateurs. Il faut pouvoir accéder, interroger et analyser ces documents. L’intégration doit préparer au mieux la phase d’accès à l’information au sens large. Dans la dernière section de ce chapitre, nous décrivons quelques langages d’interrogation de documents. Nous nous intéressons principalement aux langages mixtes portant sur le contenu et/ou la structure des documents.

II.2. Indexation de documents multimédia

L’indexation d’un document permet de caractériser des parties de son contenu de manière à ce qu’elles soient facilement et efficacement interprétées localisées et retrouvées. Les métadonnées (cf. Section I.4.3) constituent les briques essentielles pour cette indexation. Elles sont particulièrement importantes pour les ressources audio et visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. Les utilisateurs sont dépendants en effet des informations ajoutées aux images, audio ou vidéo pour effectuer des recherches pertinentes et précises.

II.2.1.

Exemples de descripteurs

Dans cette section, nous présentons une liste non exhaustive des descripteurs (ou métadonnées) que nous pouvons utiliser pour indexer les différents types de média. Nous donnons également des références bibliographiques qui proposent des méthodes et des outils pour l’extraction de ces métadonnées.

II.2.1.1. Descripteurs pour le texte

À partir d’un élément textuel, nous pouvons extraire un ensemble de sections. À chaque section, nous pouvons affecter les métadonnées suivantes [Maarek Y. S. et Ben Shaul I., 1996], [Sebastiani F., 2002] et [Sparck-Jones et al, 2003] :

- les mots-clés, qui caractérisent le contenu textuel. Ces mots-clés peuvent être extraits d’une manière manuelle, semi-automatique ou entièrement automatique ;

- les liens sortants et les liens ;

- la langue qui peut être déduite des mots clés et de leur catégorisation ; - le thème en utilisant une ontologie sur l’ensemble des mots clés.

Étant donné que les textes sont des flux de caractères hiérarchisés (mots, expressions, phrases, paragraphes, etc.), la segmentation des média textuels est plus facile que celle des média graphiques ou sonores. De plus, l’avènement et le déploiement des technologies XML permettent de créer des média textuels de plus en plus exploitables par la machine, car de plus en plus structurés en éléments identifiables. En effet, [Kunze M. et Roesner D., 2001] propose une approche pour exploiter le contenu de documents Web basée sur l’intégration des technologies XML et le traitement du langage naturel. Cependant, il existe aussi des limitations au niveau de l’analyse sémantique liées à la richesse et à l’ambiguïté de la langue naturelle, d’où le besoin d’associer des informations complémentaires sous forme de métadonnées, comme avec l’infrastructure Annotea ([Kahan J. et al., 2001] et [Koivunen M-R. et al., 2003]), qui fournissent un système d’indexation de documents Web basé sur RDF.

II.2.1.2. Descripteurs pour l’image

Un élément image peut être décomposé en régions. Chaque région correspond à une forme qui peut être extraite par des processus d’identification tels que ceux proposés dans [Mikolajczyk K. et Zisserman A., 2003]. Pour chaque région, nous pouvons extraire les métadonnées suivantes :

- la description de la couleur, de la texture et des caractéristiques spatiales [Belongie S. et al., 1998] ;

- l’identification de visages et leur indexation (forme, couleur, etc.). Comme par exemple dans [Dowdalla J.B. et al., 2003] où un système pour détecter le visage, les yeux et les sourcils est proposé ;

- les mots-clés image qui indexent le contenu sémantique de l’image. [Shen H.T. et al., 2000] emploient le contenu textuel des pages web en tant que description potentielle des images qui figurent dans les mêmes pages. [Srihari R.K. et al., 2000] élicitent des entités spécifiques (exemples : les gens, les endroits, etc.) à partir du texte collatéral pour classer automatiquement les images. [Lieberman H., 2000] exploite les messages électroniques dans lesquels des images sont incluses pour indexer ces dernières ;

- les informations sémantiques codées sous forme de texte et associées aux fragments de la structure extraite peuvent être ajoutées manuellement comme proposé dans SIGMA [Matsuyama T. et Hwang V., 1990] (un système de segmentation d’images aériennes qui utilise une base de connaissance codée manuellement). [Dillon C., et Caelli T., 1998] proposent un système d’indexation et de segmentation incrémentale d’images en référençant des informations entrées par les utilisateurs.

II.2.1.3. Descripteurs pour l’audio

Pour les éléments audio, nous distinguerons des descripteurs différents suivant la nature du signal. Une première information, qui peut servir de base pour une segmentation temporelle du signal est la décomposition Parole/Musique. Chaque segment est caractérisé comme étant de la Parole, de la Musique, de la Parole et de la Musique ou du bruit (ni parole, ni musique) [Pinquier J. et André-Obrecht R., 2004]. Il peut être très intéressant aussi de connaître les zones de silence qui permettent de marquer par exemple les changements de locuteurs, de thème, etc. Sur les zones de musique, il est possible d’extraire par exemple :

- les descripteurs de timbre, d’instruments, de contour mélodique [Peeters G. et al., 2000] ; - les jingles : un jingle est une boucle de quelques secondes de musique qui caractérise une émission ou une partie d’émission. Un outil de détection automatique est proposé par [Pinquier J. et André-Obrecht R., 2003].

D’autres informations liées à la parole peuvent être utilisées :

- l’identification des locuteurs et leur suivi [Barras C. et al., 2004], qui consiste à rechercher tous les segments qui ont été prononcés par un locuteur particulier. Nous pouvons également extraire des informations spécifiques sur les locuteurs comme le genre (homme, femme) et l’âge ;

- la transcription textuelle [Gauvain J-L et al., 2002] et les mots-clés audio qui caractérisent ce type de segment [Parlangeau-Vallès et al., 2003] ;

- le thème qui détermine le sujet général d’un segment parole en employant une ontologie de mots-clés audio [Yamron JP. et al., 2000] ;

plusieurs locuteurs. Cette information permet en outre d’adapter les techniques d’extraction de mots-clés ou de transcription. Plusieurs techniques permettent d’obtenir cette métadonnée [Pellegrino F. et al., 2004].

II.2.1.4. Descripteurs pour la vidéo

Un élément vidéo peut contenir un ensemble de séquences, qui peuvent être indexées par les métadonnées suivantes :

- les mots-clés vidéo : en utilisant les techniques d’identification automatique de caractères (VOCR : Video Optical Character Recognition, la reconnaissance optique des caractères visuelles) qui permettent l’extraction et l’identification des passages textuels à partir des séquences vidéos [Chahir Y. et al., 2002]. Ces passages assurent l’indexation du contenu visuel par des mots- clés implicites (le nom d’un présentateur d’une émission télévisée, le titre d’une chanson, etc.) ;

- les sons-clés vidéo, qui représentent les sons pertinents dans une séquence vidéo [Nefian A. et al., 2002] ;

- les images clés vidéo qui représentent des images moyennes calculées sur l’ensemble des images de la séquence vidéo [Lozano R. et Martin H., 2000] ;

- l’identification de costumes qui permet de faciliter la reconnaissance et le suivi des personnes dans une séquence vidéo [Jaffre G. et Joly P., 2004] ;

- la détection et l’identification de logo qui permet par exemple de déduire les sponsors d’une manifestation sportive [Pelisson F. et al., 2004] ;

- les "invariants de production" qui caractérisent un document ou un ensemble de documents appartenant à la même "collection" ou produits selon les mêmes directives. Ces invariants permettent de classer sémantiquement les séquences vidéos [Haidar S. et al., 2004]. Pouvant être couplé à d’autres média, le medium vidéo peut être indexé aussi par des descripteurs qui reflètent les relations entre les descripteurs des média texte, image et audio. Par exemple, dans un film, nous pouvons établir des liens entre les apparitions des acteurs (image) et leurs discours (audio).

II.2.2. Bilan sur les descripteurs

Les métadonnées sont employées pour assurer l’indexation du contenu des documents multimédia. En effet, l’extraction des métadonnées permettra une description plus détaillée et donc une restitution des granules de documents plus ciblée et une exploitation plus flexible de contenu. Si la plupart des métadonnées que nous avons citées sont plutôt de nature sémantique, certaines peuvent être des données de bas niveau telles que des courbes, des histogrammes de couleurs, des vecteurs de représentation, etc. On peut y adjoindre aussi des descripteurs tels que ceux définis dans MPEG-7 (cf. Section I.4.3.6).

Pour de multiples raisons comme le mauvais codage des informations ou l’ambiguïté dans la représentation des couleurs, des formes, le résultat de l’analyse automatique est souvent incomplet ou erroné. Par conséquent, l’intervention humaine pour compléter et corriger le

résultat de ces analyses est le plus souvent nécessaire, en particulier dans le cas de l’extraction d’informations sémantiques.

II.2.3. Exemples de projets d’indexation

L’utilisation des descripteurs présentés dans la section précédente a fait l’objet de plusieurs projets. Nous exposons dans ce qui suit quelques exemples. Nous présentons pour chaque projet les travaux émergeants ainsi que leurs objectifs.

II.2.3.1. Indexation du medium texte

Le principal objectif du projet METAXTRACT [W3 METAXTRACT] est de permettre l’indexation sémantique automatique ou semi-automatique en utilisant des techniques linguistiques sur des ressources textuelles. Ce projet qui a débuté au mois de mai 2003, est l'une des activités du laboratoire de Web sémantique [W3 LWS] (Canada). Son cadre applicatif concerne des données collectées auprès d’un ensemble d’entreprises. Le prototype qui a été développé permet de visualiser ces entreprises sur une carte sémantique et géographique. En outre, les données de ces entreprises sont normalisées selon le schéma d’indexation mis en place dans le cadre de ce projet (lieu d’entreprise, nom d’entreprise, etc.).

II.2.3.2. Indexation du medium image

Le projet ANNAPURNA (ANNotation Automatique d'images PoUr la Recherche et la NAvigation) [Chupeau B., 2004] implique comme partenaires THOMSON multimedia [W3 THOMSON], LTU Technologies [W3 LTUTECH], l’INRIA [W3 INRIA] et CLIPS-IMAG [W3 CLIPS-IMAG]. Il a pour but de développer un prototype d'indexation automatique par le contenu et de navigation dans une base de données d'images. Le système comporte un moteur d’indexation automatique qui ajoute des mots-clés descriptifs (mer, neige, paysage, ville, intérieur, bébé, groupe de personnes, etc.). Dans le cadre de ce projet, une application de recherche et de navigation par similarité sémantique et/ou visuelle démontre les potentialités de services offerts par un tel enrichissement des contenus. Le domaine d'application visé en priorité est la gestion d'une collection d'images personnelles, issues par exemple de caméras numérique ou d'appareils photo numériques.

Une approche pour assurer une indexation personnalisée de photographies par apprentissage non supervisé de régularités est proposée dans [Bissol S. et al., 2007]. Cette approche permet de structurer les caractéristiques d’un corpus d’image en utilisant un processus en deux étapes. La première étape est non supervisée et permet d’extraire des régularités sur des caractéristiques extraites des images. La seconde étape est supervisée et associe aux régularités extraites dans la première étape des termes suivant une approche statistique classique.

II.2.3.3. Indexation du medium audio

RAIVES (Recherche Automatique d’Informations Verbales Et Sonores) est un projet d’indexation des documents sonores [Parlangeau-Vallès N. et al, 2003]. Les partenaires du ce projet sont les laboratoires Dynamique Du Langage (DDL) [W3 DDL] à Lyon, l'IRIT (Institut de

Recherche en Informatique de Toulouse) [W3 IRIT] à Toulouse et le LORIA [W3 LORIA] à Nancy. Le projet a pour objectif de structurer les documents sonores, en particulier radiophoniques, à partir de l’indexation de leur contenu, de manière à leur donner un sens du point de vue d’un utilisateur du Web et de produire à partir de ces documents des connaissances exploitables. Ce contenu pourrait alors être accessible aux moteurs de recherche et devenir disponible aux internautes au même titre que le contenu textuel de pages HTML. Ce projet utilise un ensemble de descripteurs du contenu d’un document radiophonique : segments de Parole/Musique, sons clés, langue, changements de locuteurs associés à une éventuelle identification de ces locuteurs, mots clés et thèmes. Cet ensemble peut être étendu et enrichi. Chaque descripteur doit être associé à un marqueur temporel qui donne accès directement à l’information. Cependant, l’organisation de l’ensemble des descripteurs appartenant à des niveaux de description différents est souvent loin d’être linéaire dans le temps : un même locuteur peut parler en deux langues sur un même segment de parole, ou encore sur un segment de parole dans une langue donnée, plusieurs locuteurs peuvent intervenir. Le projet cherche donc aussi à fournir une structuration de l’information sur différents niveaux de représentation (cf. Figure II.1).

Thème 1 Mot Clé1 Mot Clé1 Mot Clé1 Mot Clé1 Locuteur 2 (F) Locuteur 1 (H) Locuteur 1 (H) Locuteur 2 (F) Locuteur 1 (H) Locuteur 1 (H) Anglais Français Anglais Anglais Français Anglais bruit musique parole musique bruit musique parole musique Couche Mots clés Couche Thèmes Couche Langues Couche Locuteurs Couche Segments Signal Sonore

Figure II. 1. Exemple de description dans le cadre de projet RAIVES

La campagne d’évaluation ESTER [Galliano S. et al., 2005] [W3 ESTER] vise à l’évaluation des performances des systèmes de transcriptions d’émissions radiophoniques. Les transcriptions sont enrichies par un ensemble d’informations annexes, comme le découpage automatique en tours de paroles, le marquage des entités nommées, etc. La transcription enrichie vise à obtenir une transcription lisible d'une part et, d'autre part, une représentation structurée du document à des fins d'extraction d'informations.

II.2.3.4. Indexation du medium vidéo

Le projet DOMUS VIDEUM implique comme partenaires THOMSON multimédia, Polytech’Nantes, l’INRIA, l’INA (Institut national de l’audiovisuel) [W3 INA] et les laboratoires IRCCyN (Institut de Recherche en Communication et Cybernétique de Nantes) [W3 IRCCyN] et IRIN (Institut de Recherche en Informatique de Nantes). Ce projet a comme objectif de fournir un ensemble d’outils associés à des plates-formes multimédia centrées sur la télédiffusion en répondant aux problématiques de gestion des contenus audiovisuels qui peuvent être stockés sur

de telles plates-formes. En effet, il assure le développement de procédés pour l’élaboration de profils utilisateur et l’extraction de structures et de résumés de contenus vidéo. L’ensemble de ces procédés est mis en œuvre dans une application réunissant les fonctions de filtrage de contenus, de navigation dans une base de documents audiovisuels, de prévisualisation ainsi que de sélection de contenus.

II.2.3.5. Indexation de documents multimédia

Le projet Opéra de l’INRIA (Institut National de Recherche en Informatique et en Automatique) Rhône-Alpes [W3 OPERA] et l'EQUIPE du W3C (World Wide Web Consortium [W3 W3C]) [W3 EQUIPE W3C] s’est intéressé aux documents multimédia. Il permet d’assurer l’intégration de média de plusieurs types, la synchronisation entre les média dans le temps, l’organisation de la logique de présentation, l’interaction avec l’utilisateur et l’animation de la présentation des média [Villard L., et al., 2000].

Le projet Opéra s'est terminé fin 2002. Une partie de ses activités se poursuivent dans le projet WAM (Web, Adaptation et Multimédia). WAM est également un projet de l'INRIA Rhône-Alpes créé en janvier 2003 en collaboration avec le W3C, XRCE (Xerox Research Centre Europe) [W3 XRCE], HTTV (High Tech TV) [W3 HTTV], INA [W3 INA] et NRCD (National Rehabilitation Center for person with Disabilities) [W3 NRCD]. Il aborde quelques problèmes posés par les évolutions du Web notamment la transformation de documents issus d’Internet.

II.2.4. Bilan sur les projets

Les projets cités dans cette section ainsi que leurs caractéristiques (partenaires, medium traité, période de réalisation et axes de recherche) sont exposés dans le tableau récapitulatif suivant :

Projet Partenaires Medium

traité

Périodes de réalisation

Axes de Recherche

METAXTRACT laboratoire de Web

sémantique (Canada)

Texte 2003-2006 Indexation sémantique automatique ou semi-automatique

ANNAPURNA THOMSON multimedia,

LTU technologies-INRIA CLIPS-IMAG

Image 2002-2003 Indexation automatique et recherche d’images Fixes

RAIVES DDL, IRIT et LORIA Audio 2002-2005 Structuration et indexation de

contenu des documents sonores

DOMUS VIDEUM THOMSON multimedia,

Polytech’Nantes, INRIA, INA, IRCCYN et IRIN

Vidéo 2002-2004 Analyse et indexation des vidéos

OPERA INRIA Rhône-Alpes et

l'Equipe du W3C

Tous les média

1997-2002 Indexation et exploitation de grosses documentations multimédia

WAM W3C, XRCE, HTTV, INA et NRCD Tous les média 2003-En cours

Indexation des documents multimédia et assurance de l’indépendance des outils d'accès au Web

Tableau II. 1. Récapitulatif des projets d’indexation

Il est clair que la description et l’indexation constituent une première étape très importante pour gérer les documents multimédia. Ce sont ces informations, complexes, de bas ou de haut niveau qui devront être prises en compte dans la modélisation des documents multimédia.

II.3. Modélisation de documents multimédia

Nous nous intéressons dans ces travaux aux documents multimédia, en tant qu’objets complexes, et à leur description générique dans un modèle de représentation. L’hétérogénéité dans ce type de documents est d’autant plus forte qu’ils combinent des media différents (textes, sons, images fixes ou animées, vidéos, etc.) ayant des caractéristiques à la fois spécifiques et très diverses d’un media à l’autre.

Ces documents peuvent être hétérogènes selon plusieurs points de vue :

- sur le fond : ils peuvent concerner des domaines très divers. L’utilisateur doit fouiller et parcourir les documents pour trouver l’information utile ;

- sur la forme : ils peuvent être de structures différentes, plus ou moins structurés, de formats standards ou non. L’utilisateur doit ainsi disposer d’outils adéquats pour visualiser et/ou exploiter l’information.

Pour gérer cette diversité, la modélisation des documents multimédia doit permettre la représentation de toutes les relations qui peuvent exister entre leurs éléments. Ces relations reflètent les différents types de structures présentés dans la section I.3.1. En effet, elles peuvent porter sur la description de l'organisation logique du document, sa présentation spatiale, sa synchronisation temporelle ainsi que l'interconnexion entre ses différents éléments (hypermédia). Nous décrivons dans cette section un panorama des modèles de représentation des documents multimédia. Nous analysons ensuite un bilan qui montre les analogies entre ces modèles ainsi que les spécifications de chacun d’entre eux.

II.3.1.

Exemples de modélisation de documents multimédia

Le modèle d’un document repose sur une représentation abstraite qui reflète sa structuration et sa sémantique. Afin de pouvoir manipuler des documents multimédia incluant des images, des vidéos et des séquences audio, plusieurs modèles ont été proposés. Nous les avons classés en deux catégories.

Dans la première catégorie, les modèles se caractérisent par la séparation qu’ils imposent dans la présentation des média. Ils associent un modèle à chaque medium. Cette séparation permet une description détaillée orientée medium mais pas une modélisation générique et globale d’un document multimédia. L’objectif de cette catégorie de modèles est plutôt de décrire chaque élément monomedia indépendamment des autres mais pas de restituer sur un même schéma l’ensemble de média différents qui résulte de la dématérialisation d’un document multimédia [Amous I. et al., 2002], [Moënne-Loccoz N. et al., 2004].

Dans la deuxième catégorie, les modèles visent à traduire la totalité de chaque document en se basant à la fois sur leur structure et leur contenu. Ils assurent ainsi une représentation plus fidèle des documents multimédia[Loisant E. et al., 2002],[Darmont J. et al., 2002].

II.3.1.1. Modélisation séparée des média

[Amous I. et al., 2002] proposent de décomposer chaque document en plusieurs parties mono- média dont chacune correspond à un type de données particulier (texte, audio, image et vidéo). Ainsi, ils proposent deux types de métadonnées :

- métadonnées génériques, valables pour tout type de données (exemple : taille, type, extension, etc.) ;

- métadonnées spécifiques à un type de données (exemple : les unités textuelles pour un passage textuel, les segments parole pour un segment audio, etc.).

Dans le document Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia (Page 61-102)