• Aucun résultat trouvé

Aperçu du processus de caractérisation des données

IV. Plan de la thèse

4. L’adaptation de données 3D

5.1. Aperçu du processus de caractérisation des données

Nous considérons un processus de caractérisation qui se réalise en trois temps : a) identifier les données 3D au sein d’une scène.

Suivant le langage de modélisation utilisé, l’organisation logique de la scène est plus ou moins enfouie dans le document matérialisant la scène. Des outils et des notations spécifiques correspondant à chaque type de modélisation supporté par la plate-forme doivent être pris en compte. Nous avons identifié deux grandes classes de notations permettant de localiser du contenu au sein d’une scène 3D :

les notations structurelles qui indiquent la position dans le

document du fragment multimédia correspondant au contenu cible. Dans le cas de documents structurés tels que l’encodage XML de X3D, la notation structurelle prend la forme d’une expression XPATH [Clark et al., 1999]. Dans le cas d’un encodage binaire, la notation structurelle correspond à l’indication de la position du début et de celle de la fin dans le flux binaire encodant le contenu ciblé.

les notations spatiales qui définissent des volumes et/ou surfaces

b) analyser de manière automatique les fragments multimédia identifiés afin d’extraire les informations relatives aux caractéristiques multimédia, de la géométrie, de l’apparence, de la topologie.

Ces dimensions des fragments ne sont pas stockées dans leur état brut (à bas niveau), mais nous retenons en priorité leurs caractéristiques de haut niveau plutôt que les détails de modélisation. Plusieurs types de fragments multimédia sont supportés. En plus des fragments multimédia représentant des contenus 3D, nous caractérisons également des contenus 2D et audio diffusés au sein de la scène. Les contenus 2D peuvent correspondre aux textures qui habillent la géométrie 3D de la scène.

c) associer les fragments multimédia à une ou plusieurs entités sémantiques.

Chaque entité est décrite par un ensemble de propriétés et relations organisées en plusieurs profils sémantiques. À ce niveau l’entité est caractérisée indépendamment des scènes où les fragments multimédia qui lui sont associés se trouvent. Un deuxième niveau permet de décrire les propriétés sémantiques de chaque fragment multimédia au sein de la scène d’origine. Nous considérons que ces deux niveaux (générique et local) de description sémantique sont nécessaires afin d’accroître la flexibilité du processus de gestion de connaissances sémantiques.

Nous proposons un modèle qui supporte le processus de caractérisation et stocke les principales propriétés des données 3D selon l’approche de caractérisation illustrée précédemment. Le modèle ne se veut en aucun cas être une solution ultime de caractérisation, mais il est issu de la volonté de montrer l’importance de la prise en compte des caractérisations de haut niveau des dimensions des données 3D. En fonction d’une application spécifique, certaines parties du modèle prennent une plus grande importance et sont détaillées d’une manière plus poussée que d’autres.

Logical Structure General Semantics Media Instance contains isLocalize dBy +semantics 1 +entity 1 +entity 1 +instance 1..N MMFragment MediaLocator Entity Scene Semantics MediaProfile isDescribedBy +scene 1 +fragment 1..n Local Sema ntics

+semantics 0..1 +fra

gment 1

Figure 5.1 Aperçu du modèle 3D SEmantic Annotation Model.

Une vue générique du modèle, qui résume cette première section, est présentée dans la Figure 5.1. Une scène (Scene) est composée d’une série de fragments multimédia (MMFragment – objets 3D, textures, sons) localisés au sein de scènes par des repères spécifiques (MediaLocator). Ces fragments caractérisés par leur profil média (MediaProfile), peuvent également être associés aux entités du monde (Entity), chacune caractérisée par un ensemble d’informations sémantiques (Semantics). Les entités permettent donc, indirectement, d’associer de la sémantique aux fragments média indépendamment d’une scène et d’une application spécifique. Un niveau sémantique spécifique au fragment dans la scène est introduit grâce à une relation directe (LocalSemantics) entre le fragment multimédia et la classe sémantique (Semantics) représentant

la sémantique locale. Cette séparation entre les deux niveaux sémantiques confère une certaine flexibilité et facilite la réutilisation de notions sémantiques entre les différentes matérialisations d’une même entité à travers divers fragments multimédia.

Le modèle n’introduit pas directement la classe des fragments 3D, mais il utilise la notion de fragment multimédia qui est par la suite spécialisée soit en tant que fragment 3D, soit en tant que fragment 2D (texture image ou vidéo), soit en tant que fragment audio. Les caractéristiques d’apparence, géométriques et topologiques, que nous avons étudiées dans le paragraphe précédent, sont associées à l’extension Object3D de la classe MMFragment comme indiqué dans le diagramme UML présenté dans la Figure 5.2.

Figure 5.2 Partie spécifique 3D du modèle 3DSEAM.

Les deux diagrammes présentés dans la Figure 5.1 et la Figure 5.2 contiennent le squelette fixe de notre modèle. Nous considérons qu’indépendamment d’une application donnée il est impératif de séparer la sémantique, les entités et l’ensemble des caractéristiques média d’un objet 3D.

Pour chaque dimension de caractérisation que nous retenons dans notre modèle (géométrique, topologique, d’apparence), en fonction des besoins applicatifs spécifiques, une certaine variabilité des caractéristiques à exploiter peut être observée. Ainsi, par exemple, alors que des applications s’intéressent aux caractéristiques de forme de l’objet 3D en utilisant les descripteurs de forme de MPEG-7 [Zaharia et al., 2002], d’autres applications s’appuient, pour cette même notion de forme, sur d’autres descripteurs déterminés par exemple, à partir de relations spatiales pondérées [Del Bimbo et al., 1998], de projections sphériques [Kazhdan et al.,

2003], d’images de spin [Johnson et al., 1999], de vues caractéristiques [Mahmoudi et al., 2002], [Weiss et al., 2001]. En conséquence, dans 3DSEAM les classes sont associées à des listes de propriétés qui stockent les descripteurs caractérisant les dimensions d’une donnée 3D. Nous proposons à la fin de ce chapitre un modèle de descripteurs qui permet de gérer la variabilité dans le choix des descripteurs.

Ce choix de modélisation, qui donne une grande flexibilité à notre proposition, permet d’accroître le niveau d’adaptation du modèle aux besoins potentiels. La liste des descripteurs pour une dimension peut, en effet, être constitué en fonction des besoins applicatifs. En contrepartie, il nous oblige à mettre à la disposition des utilisateurs du modèle des moyens de stockage, de gestion (ajout, suppression, mise à jour) et d’interrogations robustes, prenant en compte cette variabilité. En ce qui concerne l’exploitation effective de ces informations, des réponses dans ce sens sont apportées dans le chapitre suivant consacré à la gestion des instances du modèle 3DSEAM.

Après cet aperçu des principaux concepts mis en avant par le modèle 3DSEAM, nous présentons les méthodes qui nous permettent de localiser le contenu sémantique au sein de différents types de scènes 3D. Nous commençons par la dimension relative à la localisation des

contenus. Les repères utilisés nous permettent de bien cibler et délimiter les fragments de la scène auxquels nous nous intéressons et auxquels nous voulons associer une caractérisation de haut niveau. L’identification, au sein d’une scène 3D, de parties cohérentes d’un point de vue spatial et sémantique est déjà une manière basique d’apporter de la sémantique à la scène. En effet, cela reflète l’organisation logique d’une scène selon le point de vue des utilisateurs de la scène. Comme nous l’avons souligné dans le premier chapitre, la structure logique de la scène telle que celle encodée par le concepteur, traduit plus un objectif d’optimisation de la visualisation que l’organisation naturelle.