• Aucun résultat trouvé

IV. Plan de la thèse

2. La sémantique dans les mondes 3D

2.1. Standards pour la description sémantique de documents

2.1.3. Moving Pictures Expert Group-7

L'attachement d'informations sémantiques à des objets multimédia n'est pas un sujet récent dans la communauté multimédia. Des efforts importants de recherche ont été faits pour la caractérisation (des propriétés de bas niveau, ou sémantiques dites de haut niveau) de fichiers audio, d’images ou de vidéo. Les descripteurs et les schémas de description MPEG-7 [Martinez

et al., 2002] sont largement acceptés en tant qu'outils standard de description de données multimédia. Sa flexibilité fait de MPEG-7 un bon candidat pour remplir la tâche qui consiste à associer des annotations sémantiques aux différents types de contenus média y compris les contenus 3D.

Nous commençons par introduire les concepts sur lesquels repose le standard MPEG-7 et nous analysons les schémas de descriptions visuelles et multimédia proposés par MPEG-7.

Présentation générale de MPEG-7

Issu des efforts de standardisation du groupe de travail Moving Picture Experts Group

(MPEG), MPEG-7 est une norme qui vise la description sémantique des ressources média. Même si les descripteurs proposés dans MPEG-7 couvrent plus particulièrement les ressources de type audio et vidéo, MPEG-7 est extensible et peut couvrir d'autres types de média.

MPEG-7 fournit une série d’outils de description de contenus audio-visuels multimédia regroupés dans les catégories suivantes : descripteurs (D), schémas de description (DS) et un langage de définition de descriptions (DDL). Un descripteur est une unité d'indexation décrivant les caractéristiques primaires visuelles, audio ou sémantiques des objets. Les schémas de description, qui constituent des descripteurs de haut niveau, regroupent plusieurs D et tout autre DS en unités structurées et sémantiques. Le DDL définit la syntaxe pour créer de nouveaux DS. Dérivé de XML Schema [Fallside et al., 2004], le DDL assure l'extensibilité de la norme MPEG-7.

Les DS définis dans MPEG-7 couvrent actuellement les catégories suivantes : la description visuelle (VDS), la description audio (ADS) et la description structurelle de contenu multimédia (MDS). Les VDS et les ADS décrivent les structures physiques, logiques ou sémantiques d’un document multimédia. Ces structures sont construites en utilisant les DS offerts par MDS. Nous nous intéressons plus particulièrement aux descripteurs issus de VDS et MDS. Les descripteurs VDS peuvent être utilisés afin de caractériser l’apparence des données 3D. Les descripteurs MDS servent à identifier des fragments cohérents d’un point de vue sémantique au sein d’une scène 3D.

Schémas de description visuelle

Les schémas de description visuelle décrivent les caractéristiques spécifiques au contenu visuel telles que l’image et la vidéo.

Afin de caractériser une image ou une vidéo d’une manière précise, il est possible de les décomposer en région spatio-temporelle à l’aide de trois schémas de décomposition spatiale et deux schémas de décompositions temporelles. Le GridLayout sectionne une image en régions rectangulaires de mêmes dimensions afin de décrire individuellement chacune d’entre elles en termes de couleur, texture, etc. Les 2D/3D Multiple Views préconisent une structure combinant des descripteurs 2D qui représentent les caractéristiques visuelles d'un objet 3D selon différents points de vue. Le Spatial 2D Coordinates définit un système de coordonnées 2D dans lequel on référencie de manière absolue les limites de la région concernée. Les deux derniers éléments sont les Time Series et Temporel Interpolation. Ils se prêtent plus particulièrement aux données vidéo caractérisant les aspects temporels.

Les descripteurs visuels MPEG-7 s’intéressent à la caractérisation d’une région et couvrent les caractéristiques suivantes :

• la couleur : Colour Space (l'espace de couleurs), Colour Quantisation (le nombre de couleurs uniques), Dominant Colour, Scalable Colour (histogramme de couleur basé sur le modèle de couleurs HSV : hue (type de couleur: rouge, bleu, vert), saturation (niveau de saturation), value (l'intensité)), Colour Layout (la distribution spatiale des couleurs), Colour-Structure (similaire à Colour Layout, lie la structure et la couleur du contenu), GoF/GoP Colour (étend le Scalable Colour à un ensemble d'images, voire une vidéo).

• la texture : Homogenous Texture – description quantitative précise, Texture Browsing

– régularité, direction, rugosité, Edge Histogram – répartition spatiale de cinq types d'arêtes (verticale, horizontale, diagonale à 45° et 135° et une isotopique).

• la forme : Region Shape – caractérise la forme de la région (une région pleine, un ensemble de régions pleines ou régions avec trous ou avec discontinuités), Contour Shape – utilise un histogramme de courbures ce qui assure : la généralisation de formes, la robustesse aux mouvements non rigides, la robustesse au recouvrement partiel, l’invariance en rapport avec des transformations de perspective, Shape 3D – décrit comme un maillages de polygones ou un codage de maillage 3D (MPEG-4).

• le mouvement : Camera Motion – décrit le mouvement de la caméra, Motion Trajectory – caractérise la trajectoire d’un mouvement, Parametric Motion – décrit un déplacement paramétré et Motion Activity – signale et analyse un déplacement.

• la localisation : Region Locator – décrit des régions spatio-temporelles au sein des images à l'aide de boîtes 2D (Box) ou de polygones 2D (Polygon), Spatio Temporal Locator – décrit des régions spatio-temporelles dans une séquence vidéo (objets en mouvement) et offre des possibilités de localisations applicables seulement aux vidéo.

• la reconnaissance de visages.

Ces descripteurs peuvent être attachés à n’importe quelle partie de contenu d’un document multimédia. Dans la sous-section suivante, nous présentons les schémas de description permettant de décrire la structure d’un document.

Schémas de description multimédia

Les MDS de MPEG-7 constituent des structures de métadonnées qui s'intéressent aux entités génériques ou multimédia. Le MDS est organisé selon les axes suivants :

• l’organisation du contenu (Content Organisation)

L'axe Content Organisation compte les structures permettant d'organiser les collections de segments, événements et/ou objets, et de décrire les propriétés communes présentes dans le Collection Structure DS et dans divers Model DS. Diverses relations peuvent être exprimées entre les éléments d'une même collection ou bien de collections distinctes telles que : l'ordre temporel, la disposition spatiale, le niveau de similarité, etc. De plus, en utilisant différents modèles et mesures statistiques, une collection peut être caractérisée par un ensemble d'attributs communs.

• la navigation et l’accès (Navigation and Access)

L'accès et la navigation (axe Navigation and Access) sont mis en œuvre en utilisant des sommaires, vues, partitions et variantes des contenus média. Les sommaires hiérarchiques organisent le contenu en niveau de détail successifs. Les sommaires séquentiels correspondent à une présentation de type diaporama du contenu. Les View DS décrivent une vue structurelle, une partition ou une décomposition de contenu suivant l'emplacement spatial, le scénario temporel ou la fréquence audio. Les Variation DS introduisent les variantes de contenu telles que les sommaires, les résumés, les versions compressées (ou de moindre qualité), ou les diverses modalités disponibles (audio, vidéo, image, texte, etc.).

À l’aide de l’axe User Interaction, l'interaction utilisateur se manifeste à travers les préférences utilisateur et l'historique de l'utilisation relative à l'usage et aux modalités de diffusion du matériel multimédia. MPEG-7 contient des descripteurs de contenu qui peuvent être comparés aux préférences utilisateurs pour personnaliser l'accès, la présentation et la modalité de diffusion.

• les éléments de base (Basic Elements)

L'axe BasicElements inclut les composantes et les structures nécessaires pour le développement de schémas de description plus évolués. Des éléments permettant la description temporelle et spatiale, l'annotation textuelle, la description des groupes et des individus sont également considérés par cet axe. Il est également possible de construire des schémas de classification.

• la description et la gestion de contenu (Content Description and Management)

Le cycle de vie des contenus multimédia, de la création au codage (stockage, formats de fichier) jusqu’à la diffusion et l'usage, est décrit en utilisant les outils de Content Management. Le Creation Information DS est composé d'information concernant la création et la classification du contenu. Les informations relatives à la création sont le titre, les annotations textuelles, le(s) créateur(s), le lieu et la date de la réalisation. La classification se fait par rapport au genre, au sujet, au but, au langage, etc. Puisque ce type d'information est rarement inclus dans le contenu, les descripteurs doivent être saisis manuellement. Les Media Description DS s'intéressent au stockage des média (format, techniques de compression et du codage, etc.). Ils identifient la source principale (Master Source) associée au contenu à partir de laquelle des variantes (Media Profiles) peuvent être dérivées en utilisant différents formats et codages. Les informations relatives à l'utilisation de contenus (droits de diffusion, disponibilité, droits d'enregistrement, etc.), sont décrites avec les Content Usage DS.

• la description de contenu (Content Description)

L'axe Content Description fournit des schémas de descriptions de la structure physique et logique du contenu, ainsi que de la sémantique en utilisant des concepts du monde réel. Nous détaillons ces schémas dans la suite de cette section.

Définition de segments multimédia

Les éléments structurels du contenu sont les segments qui correspondent à un partitionnement spatial, temporel ou spatio-temporel. Un segment est associé à une partie du contenu. Le segment peut être décomposé en sous-segments ce qui mène à définir une structure de segmentation hiérarchique suivant plusieurs niveaux de détail.

Dans la Figure 2.4, nous illustrons ce type de décomposition (partie gauche de la Figure 2.4) en considérant une image (partie droite de la Figure 2.4) issue d’une scène 3D représentant un bureau qui contient une table, une chaise et des livres. La table est décomposée à son tour en : plan de travail, pied gauche et pied droit.

Le Segment DS constitue le type de base abstrait qui est ensuite dérivé pour obtenir des sous-classes telles que : les segments audio, les segments vidéo, les segments audio-visuel, les régions fixes/en mouvements. Chaque segment est caractérisé en utilisant les autres outils de descriptions proposés par MPEG-7 (les descripteurs visuels/audio/… et les schémas de descriptions).

Bureau

Chaise Table Livres

Pied G Plan Pied D 2.1 2.2 2.3 2 3 1 Segment StillRegion is instance of StillRegion

Figure 2.4 Décomposition hiérarchique des segments identifiés sur une image.

Association de la sémantique aux segments multimédia

Le MDS assure également la description sémantique. La sémantique associée à une entité est introduite par les éléments sémantiques de MPEG-7 regroupés dans le schéma de description

Semantic Base DS. Les éléments sémantiques disponibles dans ce schéma de description sont :

• les objets (Object DS),

• les événements (Event DS),

• les lieux (Semantic Place DS),

• les instants temporels (Semantic Time DS) et

• les concepts abstraits (Concept DS) représentés par des libellés, des définitions, des propriétés et des relations.

Ces concepts abstraits (libellés, définitions, propriétés, relations) peuvent être instanciés en utilisant des termes faisant référence à des ressources décrites en RDF. Le terme lui-même peut être vu comme une ressource caractérisée par un ensemble de propriétés le caractérisant. Ainsi, on combine la puissance de caractérisation de contenus multimédia spécifiques à MPEG-7 et à RDF. De manière semblable à la description de la structure logique du contenu média, une nouvelle description de la décomposition du contenu à base de segments sémantiques peut être réalisée. Les nœuds de la structure ainsi obtenus représentent les concepts identifiés au sein de la scène. Les arêtes correspondent aux liens existants entre concepts.

SemanticTimeDS 2007.10.24 8am SemanticPlaceDS Le bureau D322 ObjectDS time of location of livres plan chaise describes describes describes

Le schéma structurel (Structure DS) et le schéma sémantique (SemanticBase DS) peuvent être interconnectés. Ainsi, la description d’un contenu média peut inclure l’organisation logique d’éléments du contenu ainsi que leur sémantique.

Une description sémantique du bureau présenté dans la Figure 2.4 est illustrée dans la Figure 2.5. La description sémantique comporte la définition de trois objets sémantiques : la chaise, les livres et la table. Les descripteurs spatial et temporel définissent l’endroit et le moment auxquels les objets sont rattachés.

Dans la suite de ce chapitre, nous concentrons notre attention sur les spécificités des données 3D au regard de l’attachement et de l’exploitation de la sémantique.