LES CONTRIBUTIONS - : L’ÉTAT DE L’ART - Contribution à la modélisation des métadonnées associé

PARTIE I : L’ÉTAT DE L’ART

PARTIE 2 LES CONTRIBUTIONS

Introduction

L’étude de l’état de l’art présentée dans la partie précédente, nous permet de constater que les métadonnées, utilisées par le système ou par l’utilisateur à chaque étape du processus de gestion des contenus multimédias, constituent l’élément central de ce processus. Dans la gestion des méta- données nous pouvons identifier des insuffisances qui touchent leur modélisation, leur création et leur enrichissement.

1. La modélisation des métadonnées :

Il existe beaucoup de standards de métadonnées définis pour chaque type de média qui ne sont pas interopérables. Ces standards sont soit trop limités en terme de capacité de description des contenus (ils contiennent peu d’éléments ou seulement des éléments de bas niveau), soit trop vastes (ils contiennent beaucoup d’éléments et ils offrent la possibilité de décrire la même chose de plusieurs manières). Ils sont donc soit insuffisants, soit trop difficiles à employer.

Les travaux qui adressent le problème de l’interopérabilité des métadonnées se focalisent surtout sur le côté sémantique des métadonnées en tentant de créer une ontologie qui décrit le plus complètement possible un document. Or, la majorité des algorithmes d’indexation qui existent ont une sortie encodée en XML et nécessitant donc une transformation pour pouvoir utiliser ces ontologies. De plus, on peut noter que les technologies du web sémantique ont du mal à s’imposer dans le monde industriel.

2. La création des métadonnées :

Il y a de plus en plus d’algorithmes d’indexation qui traitent le contenu multimédia pour en extraire des informations (i.e., des métadonnées). Ces algorithmes sont de plus en plus performants mais aussi de plus en plus consommateurs de ressources.

Les travaux présentés dans l’état de l’art utilisent tous les algorithmes d’indexation dont ils disposent sur toute la collection de documents multimédias, pour extraire des informations. D’un côté, cette utilisation emploie beaucoup de ressources, en créant peut-être une surcharge du système, et d’un autre côté, beaucoup de métadonnées sont créées et certaines d’entre elles peuvent ne jamais être utilisées dans le processus de recherche.

En outre, pour les systèmes qui indexent les contenus multimédias en temps réel, les algorithmes utilisés pour indexer les contenus multimédias ne changent pas pendant le fonctionnement du système, et donc les systèmes ne s’adaptent pas au besoin de l’utilisateur. Dans le cadre des systèmes qui ne sont pas en temps réel, à tout moment de nouveaux algorithmes d’indexation peuvent être ap- pliqués, mais de manière générale, toute la collection de documents est indexée par les mêmes algorithmes. Dans les deux cas, la création de métadonnées n’est pas optimale : dans le premier cas, des métadonnées qui intéressent l’utilisateur ne sont pas créées, et dans le deuxième cas trop de métadon- nées sont créées.

3. L’enrichissement des métadonnées :

Les travaux de modélisation des métadonnées ne prennent pas en compte la notion d’usage. Dans ce cas, les métadonnées sont extraites à partir du contenu multimédia qu’elles décrivent, ou bien elles sont associées directement par l’utilisateur à travers des tags et des annotations.

Comme nous avons vu dans le Chapitre 3, le comportement de l’utilisateur est analysé afin de déterminer quels sont les meilleurs indicateurs de son intérêt envers un document multimédia avec lequel il interagit. Parmi ces indicateurs, les clics sont les plus utilisés pour prendre en compte son intérêt pour le document dans sa globalité. Il n’existe pas, à notre connaissance, de travaux qui regar- dent plus en détails les intérêts de l’utilisateur envers des parties du document.

Dans notre travail, nous essayons de prendre en considération et de donner des éléments de solution à ces insuffisances en proposant :

1. Un format générique de métadonnées qui intègre les standards et les normes les plus uti- lisés dans l’état de l’art et identifiés dans le projet LINDO. Ce format est extensible en structure et en vocabulaire. Des règles de mappage ont été définies pour les standards sé- lectionnés dans le contexte du projet LINDO et le format proposé.

2. La création d’un résumé des métadonnées multimédias, dans le cadre d’un système dis- tribué. Ce résumé est envoyé au serveur central et utilisé d’une part, pour sélectionner les serveurs distants susceptibles de contenir des documents pertinents pour la requête de l’utilisateur, et d’autre part, pour diminuer la quantité d’information véhiculée sur le ré- seau. Ce résumé peut être appliqué au format de métadonnées que nous proposons ou à tout autre modèle et représentation de métadonnées.

3. La réalisation de l’indexation des contenus multimédias en deux temps : une première fois lors de l’acquisition des contenus, avec une liste fixe d’algorithmes d’indexation (nous qualifions cette indexation d’« implicite ») et une deuxième fois, si nécessaire, au moment de la requête de l’utilisateur (nous qualifions cette indexation d’« explicite »). La sélection des algorithmes à utiliser sur chacun des serveurs distants du système, pour l’indexation implicite mais aussi pour l’indexation explicite, se réalise en fonction des caractéristiques des serveurs, des métadonnées déjà extraites (i.e., les résumés de méta- données), des besoins de l’utilisateur, et du contexte d’acquisition des contenus multimé- dias.

4. L’extension du modèle de métadonnées proposé pour prendre en compte l’utilisateur à deux niveaux : (1) l’ajout de liens entre les documents et/ou parties de documents en fonction du comportement de l’utilisateur tout au long du cycle de vie du document mul- timédia (i.e., une structure d’usage), (2) en capturant l’évolution de l’usage du document dans le temps à travers l’inclusion dans le modèle de métadonnées du concept de « tem- pérature », qui est calculé en fonction de la façon dont l’utilisateur interagit avec le do- cument multimédia, mais aussi avec les métadonnées

5. La définition d’un algorithme de mise à jour de la température en fonction des interac- tions des utilisateurs avec le document, ou avec ses métadonnées. Nous avons choisi d’implémenter un processus de propagation amorti pour le calcul de la température. Dans cette deuxième partie du manuscrit nous détaillons nos contributions.

Dans le premier chapitre nous nous focalisons sur la modélisation de métadonnées, en dé- taillant le format de métadonnées proposé. Nous présentons d’abord l’approche que nous avons abor- dée pour la réalisation de ce modèle. Ensuite chaque composant du modèle est décrit.

Le deuxième chapitre contient la plus grande partie de notre contribution, en incluant la prise en compte de l’usage dans la gestion de métadonnées. Le principe d’indexation en deux temps est présenté. Cette indexation différenciée peut être appliquée à n’importe quel système distribué de gestion de documents multimédias. En ce qui nous concerne, nous l’appliquons et l’adaptons à l’architecture proposée dans le cadre du projet LINDO. Cette indexation différenciée se base sur une sélection des algorithmes d’indexation les plus pertinents pour un besoin donné. Pour réaliser cette

sélection nous nous appuyons sur les descriptions des ressources du système et également sur un ré- sumé des métadonnées. Nous présentons dans ce chapitre, trois versions de cet algorithme de sélec- tion : (1) une version qui ne prend en compte que la requête de l’utilisateur ; (2) une version qui utilise les contextes d’acquisition et des caractéristiques techniques des contenus multimédias ; (3) une der- nière version qui prend en compte l’historique des requêtes des utilisateurs pour mettre à jour les algorithmes utilisés dans la première phase de l’indexation des contenus multimédias (indexation implicite).

La dernière partie du deuxième chapitre est dédiée à la prise en compte des interactions de l’utilisateur avec le document multimédia mais aussi avec ses métadonnées. Dans un premier temps nous présentons l’enrichissement du modèle avec l’ajout du concept de température et de la structure d’usage. L’algorithme de calcul de la température est détaillé également et la création des liens entre les documents/parties des documents est présentée à la fin de ce chapitre.

Chapitre 4. Le format générique de méta-

Dans le document Contribution à la modélisation des métadonnées associées aux documents multimédias et à leur enrichissement par l’usage (Page 82-88)