Le modèle EMIR² - Solutions basées sur des modèles

Chapitre II – Approches de gestion de documents multistructurés

III. Solutions basées sur des modèles

III.6. Le modèle EMIR²

EMIR² « Extended Model for Image Representation and Retrieval » (Mechkour 1995) est un modèle conçu afin de représenter une image fixe. L‘objectif de ce modèle est d‘offrir plusieurs descriptions d‘une même image. A travers un ensemble de « vues » appelées encore « facettes », ce modèle combine diverses interprétations de l'image permettant d'établir une description complète de son contenu. La Figure II.20 détaille le modèle EMIR² selon BNF (Backus–Normal Form).

1. <Image> ::= <VuePhysique> [ <VueLogique> ]

2. <VuePhysique> ::= <BitMap>|<GreyScale>|<Colour>|<TrueColour> 3. <VueLogique> ::= { <VueSymbolique> } <VueStructurelle>

4. <ObjetImage> ::= <IdObjetImage> ( [ <VueSpatiale> ], { <VueSymbolique> }, [ <VueStructurelle> <VuePerspective> ]) | <IdObjetImage>

5. <VueStructurelle>::= {<ObjetImage>}

6. <VueSpatiale> ::= <IdVueSpatiale> [<ObjetSpatiale>] {(<RelationSpatiale> <VueSpatiale>)}|<IdVueSpatiale> 7. <RelationSpatiale>::= <RelationTopologique>|<RelationVectorielle>| <RelationMétrique> 8. <ObjectSpatiale> ::= <Point>|<Segment>|<Polygone>| {<ObjectSpatiale>} 9. <RelationTopologique> ::= Dans|Disjoint|Chevauche|Touche|Croise 10. <RelationVectorielle> ::= Nord|Sud|Est|West 11. <RelationMétrique> ::= Proche|Loin 12. <VuePerspective> ::= <Couleur>|<Luminosité>|<Texture> 13. <VueSymbolique> ::= <Attribut>|<Classe>

14. <Attribut> ::= <NomAttribut> :<Domaine>|Set(<Attribut>)|Liste (<Attribut>|[<Tuple>]

15. :<Domaine> ::= <Entier>|<Réel>|<Chaine>|<Booléen>

Figure II.20. Modèle de EMIR² selon BNF (Backus–Normal Form).

Les facettes proposées dans le modèle EMIR² (Cf. Figure II.20) sont classifiées en deux niveaux de description :

– le niveau physique permet de décrire des caractéristiques de bas niveau de l'image. A ce niveau, l‘image est définie par une matrice de pixels. Des objets peuvent être identifiés dans cette matrice par des régions ;

– le niveau logique rassemble toutes les facettes décrivant le contenu de l'image :

- la facette structurelle définit l‘ensemble des objets de l‘image qui sont considérés par l‘indexeur comme étant les plus pertinents pour la description de cette image. Chaque objet de l‘image peut être un objet simple ou complexe. Les objets complexes peuvent être décrits par d‘autres facettes de ce même niveau logique, - la facette spatiale décrit la forme des objets ainsi que les relations spatiales entre ses

objets. Ces relations peuvent être des relations topologiques (dans, disjoint, chevauche, touche, croise, etc.), des relations vectorielles (nord, sud, est ou ouest) ou des relations métriques (loin, proche, etc.),

- la facette perspective inclut tous les attributs visuels de l‘image et/ou des objets de l‘image. Elle décrit l‘apparence des composantes de l‘image telles qu‘elles sont perçues par l‘observateur. Le modèle EMIR² considère essentiellement trois attributs visuels : la couleur, la luminosité et la texture,

- la facette symbolique associe une description sémantique à l‘image et/ou aux objets de l‘image. Elle est composée par des attributs de nature entiers, réels, chaîne de caractères ou booléens.

Afin de décrire les documents vidéo, (Charhad et Quénot 2004) proposent d‘étendre le modèle EMIR² par un ensemble de facettes spécifiques. Les auteurs ont classifié les facettes proposées en deux catégories :

– les facettes génériques regroupent l‘ensemble des facettes qui décrivent les caractéristiques communes dans un document vidéo indépendamment de sa décomposition en média (images, bande audio et texte), telle que par exemple la nature temporelle de la vidéo. Deux types de facettes ont été définis :

- les facettes temporelles qui représentent l‘ensemble des relations temporelles reliant les éléments d‘informations dans le document vidéo,

- les facettes événementielles qui décrivent les différents événements contenus dans un document vidéo. Un événement est considéré comme une ou plusieurs actions. Une action est un fait qui survient à un moment défini d‘une séquence vidéo ; – les facettes spécifiques permettent une description du contenu vidéo par média. En effet, la décomposition d‘un document vidéo en un ensemble de média (image, audio ou texte) offre une description spécifique orientée média. La représentation spécifique d‘un document vidéo contient les facettes suivantes :

- la facette sémantique associe une description sémantique du contenu visuel, du contenu audio ou au contenu textuel. Cette description est souvent définie par des métadonnées traduites en concepts. Chaque facette sémantique peut être composée de trois autres facettes. Une sous-facette visuelle pour décrire les différents frames (image) constituant la séquence vidéo, une sous-facette audio pour interpréter le contenu audio et une sous-facette texte pour traiter toutes les informations textuelles qui appartiennent à ce document,

- la facette signal assure la description des caractéristiques de bas niveau afin de générer des descriptions sémantiques telles que les caractéristiques des couleurs dans le contenu d‘un frame. La facette signal regroupe plusieurs sous-facettes, notamment lorsqu‘il s‘agit de la description du niveau visuel. Chaque sous-facette présente une caractéristique spécifique telle que la couleur, la texture ou les positions spatiales des objets visuels.

La Figure II.21 illustre l‘ensemble des facettes d‘un document vidéo selon (Charhad 2005).

Figure II.21. Modélisation multifacette d’un document vidéo (Charhad 2005).

Le modèle EMIR² est l‘un des premiers modèles conçus pour la description d‘un document non textuel. Ce modèle permet de représenter une image au travers d‘un ensemble de vues. Ces vues traitent différents aspects de l‘image. L‘extension du modèle EMIR² découle essentiellement du besoin de décrire les documents vidéo. Si l‘on considère que le document vidéo est un ensemble d‘images synchronisées avec une bande audio, l‘extension du modèle EMIR² doit traiter l‘aspect dynamique des documents vidéo.

L‘inconvénient majeur de l‘ensemble de ces deux approches réside dans l‘aspect statique des structures proposées. En effet, elles sont figées et proposent une liste d‘attributs fixes, ce qui engendre un manque de flexibilité dans la représentation des

documents. Avec de telles approches, nous ne pouvons pas exploiter que les descripteurs identifiés dans la structure de base proposée. Cela implique d‘autre part, que tous les descripteurs doivent être renseignés même avec des valeurs nulles et d‘autre part que l‘on ne peut rajouter aucun nouveau descripteur.

L‘objectif de ces modèles est d‘offrir plusieurs descriptions d‘une image ou d‘une séquence vidéo afin de faciliter leur exploitation au sein d‘un processus de recherche d‘informations classique. Ainsi, le partage de contenu entre ces descriptions n‘est pas abordé. De ce fait, les problèmes de chevauchement d‘éléments, de cohérence et de restitution ne sont pas traités.

Dans le document De la modélisation à l'exploitation des documents à structures multiples (Page 90-93)