• Aucun résultat trouvé

Standards de description de données

III. Structuration de document

III.3. Document structuré et standards

III.3.2. Standards de description de données

III.3.2.1. IPTC

L'IPTC (International Press and Telecommunications Council) est un consortium développé dans le but d‘échanger des données dans le domaine de la presse. Le format de transmission des documents (textes, images, sons, multimédias) émis par les agences de presse est considéré comme l‘un des principaux avantages de ce consortium. L'IPTC repose sur un modèle global de données appelé « IPTC-NAA Information Interchange Model » élaboré en association avec la NAA (Newspaper Association of America). Ce modèle a servi de base à la société Adobe pour définir dans son logiciel Photoshop les informations associées à une image. Ce modèle se base sur 33 métadonnées de type interne appelé « métadonnées IPTC », c'est-à-dire stockées à l'intérieur des fichiers images JPEG, TIFF ou PSD (pour Photoshop). Ce consortium propose plusieurs standards d‘annotations de documents de différentes natures : les informations, les événements, le sport, etc.

A titre d‘exemple, nous retiendrons les standards suivants :

- NewsML (News Markup Language) est une spécification des métadonnées IPTC pour la transmission et l‘échange des informations d‘actualités. Elle est conçue pour l‘échange des textes, graphiques, photos, séquences audio, vidéo et animations. NewsML étend le jeu des métadonnées prédéfinies dans IPTC, ainsi que l‘utilisation de vocabulaires contrôlés pour spécifier certaines métadonnées propres au domaine des informations (news) ;

3

Abstract Syntax Notation One

4

Cascading Style Sheets

5

- SportsML (Sports Markup Language) est un format spécialisé pour des scores et des statistiques sportives ;

- ProgramGuideML est un format spécialisé pour les listes des guides de programme à la télévision et à la radio.

III.3.2.2. Le standard RDF

Le W3C travaille également sur la normalisation d‘applications génériques permettant de décrire des graphes de documents en explicitant des relations sémantiques. C‘est le cas de RDF6

(Resource Description Framework) qui constitue un outil très puissant pour l‘indexation et la recherche de documents.

En annotant des documents non structurés et en servant d'interface pour des applications et des documents structurés, RDF permet une certaine interopérabilité entre des applications échangeant de l'information non formalisée et non structurée sur le Web. Il est une des bases du succès du Web sémantique.

Un document traduit en RDF est un ensemble de triplets. Un triplet RDF est une association {sujet, objet, prédicat}. Par exemple, le sujet peut être un document à commenter, l'objet une propriété de ce document (comme son titre) et le prédicat est la valeur de cette propriété. RDF est une structure de données constituée de nœuds et organisée en graphe. Chaque sujet est un URI (Uniform Resource Identifier) ou un nœud anonyme. Chaque prédicat est un URI. Chaque objet est un URI, un littéral ou un nœud anonyme. Un document RDF ainsi formé correspond à un multigraphe orienté étiqueté. Chaque triplet correspond alors à un arc orienté dont le label est le prédicat, le nœud source est le sujet et le nœud cible est l'objet.

III.3.2.3. Le standard Dublin Core

Le Dublin Core, schéma descriptif normalisé né à l‘issue d‘un meeting sur les métadonnées, entre parmi les standards destinés à améliorer la RI sur Internet et le Web. Il s‘agit d‘une initiative visant à la consolidation de la normalisation des métadonnées. Nous rappelons à ce niveau que les métadonnées sont un ensemble de rubriques, contenues dans ou associées à un document, donnant des informations sur son contenu. Ce sont ces informations qui sont destinées à être traitées par les moteurs de recherche.

Le Dublin Core a pour objectif d‘être assez simple, mais est encore assez peu utilisé sur le Web, alors même qu‘il peut parfaitement être exploité avec des technologies existantes, notamment les éléments <META> d‘HTML exploitables par les moteurs de recherches comme AltaVista, Excite, Google, etc. En effet, dans les documents HTML, des balises META (META signifie METADATA) permettent de définir un certain nombre d‘informations sur le contenu d‘une page Web. Leur utilisation faciliterait l‘échange d‘informations, comme l‘ont permis les codes ISBN que l‘on emploie pour les livres.

Le Dublin Core propose quinze propriétés descriptives de base (métadonnées). Certaines de ces propriétés sont relatives au contenu de la ressource décrite, et les autres à

6

la propriété intellectuelle de ce contenu et aux caractéristiques physiques de la ressource : « title », « creator », « subject », « description », « publisher », « contributor », « date », « type », « format », « identifier », « source », « language », « relation », « coverage », « rights ». Certaines de ces métadonnées ont été étendues par raffinement des métadonnées de base existantes. A titre d‘exemple, la métadonnée date peut être raffinée par les métadonnées : « dateSubmitted » pour préciser la date de soumission d‘un document, « dateCopyrighted » pour préciser la date de prise en compte du copyright, etc. D‘autres métadonnées ont également été ajoutées aux métadonnées de base du Dublin Core7 : « abstract », « available », « audience », etc. Ces métadonnées sont compatibles avec plusieurs langages tels que RDF.

III.3.2.4. MPEG-7

Pour décrire des métadonnées dans des documents multimédias, le standard le plus utilisé actuellement est le standard MPEG-7 du groupe MPEG (Moving Picture Experts

Group ou MPEG). MPEG-7 (Manjunath et al. 2002) est un standard ISO/IEC développé

par le comité MPEG pour la description de contenu de données multimédias supportant un certain degré d‘interprétation du sens des informations. Les principaux éléments de MPEG-7 (Martinez 2002) sont :

– les descripteurs (D) qui définissent la syntaxe et la sémantique de chaque caractéristique ou métadonnée d‘un document multimédia (par exemple : Video Segment, Ball, Player, GoalKeeper, etc.) ;

– les schémas de description (DS) qui spécifient la structure et la sémantique des relations (par exemple : IsCloseTo, RightOf, SameAs, etc.) qui existent entre composants MPEG-7 i.e entre des descripteurs et/ou des schémas de description ;

– un langage de définition de description (DDL), décrit avec XML schéma, qui définit la syntaxe des outils de description de MPEG-7. Il permet la création de nouveaux schémas de description et de nouveaux descripteurs, mais également autorise l‘extension et la modification des schémas de description existants ;

– un système d‘outils qui supporte la représentation binaire pour : le stockage, les mécanismes de transmission, la synchronisation des descriptions avec le contenu, la gestion et la protection de la propriété intellectuelle, etc.

La Figure I.13 contient un exemple indicatif de décomposition d‘un schéma de description d‘une vidéo. Ce schéma décrit l‘ensemble des composants d‘une vidéo retenus par MPEG-7. La Figure I.13 montre également un ensemble de descripteurs associés au schéma de description présenté. Par exemple, une vidéo est composée d‘un ensemble de séquences et une bande sonore. Chaque séquence est, d‘une part, composée d‘un ensemble de scènes, et d‘autre part, décrite par un type, un identifiant, un sujet, etc.

7

Figure I.13. Un exemple simplifié de décomposition du schéma de description d’une vidéo associé à quelques descripteurs selon MPEG-7.

III.3.2.5. Bilan sur les standards de description de données

Avec l‘intégration des éléments de nature complexe tels que les médias dans les documents numériques, il devient nécessaire de définir des standards pour représenter et exploiter par la suite les descriptions de ces éléments complexes. Ces descriptions sont traduites par deux types de métadonnées : descriptives et techniques. Les métadonnées descriptives décrivent le contenu des médias (les sujets abordés, les objets retrouvés, etc.). Les métadonnées techniques décrivent les médias utilisés eux mêmes (par exemple le format du média, les outils nécessaires à son exploitation, etc.). Le Tableau I.5 présente une synthèse des différents standards que nous avons introduits dans cette sous-section. Les standards IPTEC et DC proposent un nombre fixe de métadonnées prédéfinies. Cependant, bien que les standards MPEG-7 et RDF proposent un ensemble de métadonnées, ils permettent d‘utiliser aussi des métadonnées non définies a priori. Parmi l‘ensemble des standards cités, MPEG-7 est le seul qui assure la description des informations techniques au travers des métadonnées techniques.

Tableau I.5. Comparatif des standards de description Standard Nombre de métadonnées Métadonnées descriptives Métadonnées techniques

IPTC 33 Oui Non

RDF Pas fixe Oui Non

DC 15 de base Oui Non

MPEG-7 Pas fixe Oui Oui

IV. Multistructuralité des documents :