• Aucun résultat trouvé

Multistructuralité des documents : problématique et applications

problématique et applications

La diversité typologique des structures retrouvées dans un même document (Cf. Section III.2.2) nous permet de dire que le document peut avoir plusieurs structures de natures différentes. De plus, un document peut avoir également plusieurs structures de même type. Quel qu‘en soit leur rôle, leur nature et leur représentation, les structures qui sont définies sur un même document permettent d‘introduire le concept de la multistructuré de documents. Avant d‘aborder les problèmes et les applications relatives aux documents multistructurés, nous présentons les définitions d‘un document à structures multiples.

IV.1. Définitions

Dans la littérature plusieurs définitions de la multistructuralité ont été proposées. Dans ce qui suit, nous présentons les deux définitions les plus appropriées au contexte général de nos travaux.

Selon une première vision, les différences entre les structures qui décrivent un document sont seulement dues à la décomposition ou au regroupement des parties de contenu de ce document. Dans ce contexte, (Durusau et O‘Donnell 2002) et (Tennison et al. 2002) considèrent que le concept de multistructuralité est apparu du fait qu‘il est souvent très difficile de réduire la structure d‘un document à un arbre unique. Ils supposent que les documents textuels ont souvent plusieurs structures. Ils donnent l‘exemple des poèmes qui ont à la fois une structure « poétique » sous forme de strophes et de vers et une structure « textuelle » (ensemble de paragraphes) ou de la Bible qui peut être composée en chapitres et versets ou en sections et paragraphes. La multistructuralité couvre dans ce contexte seulement des structures de type logique et physique.

(Abascal et al. 2004) proposent une définition plus large de la multistructuralité. Ils définissent le document multistructuré comme une entité unique dans laquelle sont englobées des structures différentes. Dans ce cadre, un document multistructuré est décrit par un ensemble de structures mises en correspondance. L‘une de ces structures est constitutive du document et toute autre structure doit être rattachée à cette structure pivot (Chatti 2006). La diversité de ces structures est due au cadre d‘utilisation du document. Dans ce sens, la multistructuralité est une description d‘un document par « un ensemble

d‘éléments en relation les uns avec les autres, au cours ou en vue d‘un usage » (Abascal et al. 2003).

IV.2. Problématique

Les différents standards évoqués dans ce chapitre sont définis à partir de modèles de données qui ne permettent de représenter qu‘une seule structure du document. Or, exploiter le caractère multistructurel des documents nécessite la définition de modèles de données permettant de représenter les différentes structures. Cependant, la coexistence de ces structures dans un même document et notamment dans un document multimédia présente plusieurs enjeux.

Le premier enjeu est celui de l‘intégration de toutes les structures du document. Si le document est décomposable en plusieurs entités reliées entre elles de sorte à avoir plusieurs matérialisations d‘un même document, chaque entité peut à son tour être décomposée en d‘autres entités ayant plusieurs matérialisations possibles. Des structures multiples peuvent donc être définies soit au niveau global du document soit au niveau des entités qui le composent. Dans la Figure I.14, nous présentons un exemple de deux matérialisations différentes d‘un ensemble d‘entités. La matérialisation 1 traduit l‘agencement des entités « A », « B » et « C ». La matérialisation 2 présente l‘organisation des entités « A », « B », « C », « D » et « E ».

Assurer la flexibilité de représentation des structures est un vrai challenge. Ces structures doivent pouvoir être définies sur un même niveau du document, mais aussi sur des niveaux différents tout en assurant les liaisons entre-elles.

Figure I.14. Deux matérialisations différentes des mêmes entités d’un document.

Le deuxième enjeu concerne le partage du contenu. La définition de plusieurs structures sur un même niveau revient à les articuler sur un même contenu. Ces structures sont appelées dans la littérature des structures concourantes ou encore parallèles. Les éléments de ces structures concourantes peuvent ne pas s‘imbriquer les uns dans les autres. Si l‘on considère qu‘associer un élément de structure à son contenu est une bijection du fait que chaque fragment de contenu admet un élément qui le représente, la définition de

A B C D E A B C A B C D E Entités Matérialisation 2 Matérialisation 1

plusieurs structures sur un même contenu transforme cette bijection en surjection : chaque fragment de contenu peut avoir plus qu‘un antécédent issu des différentes structures. Cette surjection ne peut être valide que si chaque élément admet une image unique. Or, dans le cas de structures concourantes, si deux éléments issus de deux structures ne peuvent pas s‘imbriquer l‘un dans l‘autre, on ne peut plus associer à ces deux éléments le même fragment de contenu bien qu‘ils admettent une partie de contenu commune. Le problème qui se pose dans ce cas est l‘entrelacement de contenu entre ces éléments. Ce problème est connu par sa nomination anglaise « overlapping markup » traduite en chevauchement d‘éléments.

Pour illustrer ce problème, nous considérons deux structures (une physique et une logique) d‘un même extrait de document. Si l‘on souhaite fusionner ces structures, on s‘aperçoit que l‘imbrication du deuxième élément « phrase » de la structure logique avec un élément « ligne » de la structure physique est impossible du fait que le contenu de la phrase s‘étale sur deux lignes.

Figure I.15. Un extrait de document structuré de deux façons différentes.

La gestion de la cohérence est un point non négligeable dans la représentation des structures multiples. Ce point s‘avère d‘autant plus important lorsque les structures sont représentées les une indépendamment des autres et le contenu est dupliqué autant de fois que le nombre de structures définies. En effet, la modification du contenu d‘une structure doit se répercuter sur les autres structures. La mise à jour des autres structures est donc indispensable pour garder la cohérence du document. Si nous reprenons l‘exemple de la Figure I.15, le changement d‘un fragment de contenu relatif à l‘une des deux structures, tel que le titre, doit se répercuter sur la deuxième structure sinon le document devient incohérent.

<Titre> Le document </Titre> <Paragraphe>

<Phrase> Le document est « une pièce écrite

donnant des renseignements divers ou servant de preuve, de témoignage ». </Phrase>

<Phrase> Il peut avoir plusieurs … </Phrase>

</Paragraphe>

<Page>

<Ligne> Le document </Ligne>

<Ligne> Le document est « une pièce </Ligne> <Ligne> écrite donnant des </Ligne>

<Ligne> renseignements divers ou servant de

preuve, de témoignage ». Il </Ligne>

<Ligne> peut avoir plusieurs … <Ligne>

</Page>

(b) Structure logique (c) Structure physique (a) Extrait d’un document

Le dernier enjeu est celui de la restitution. Les informations documentaires doivent pouvoir être restituées de deux façons différentes selon deux objectifs différents. Le premier objectif consiste en la restitution du document selon une vision particulière, un usage et/ou un contexte bien précis. Si chaque matérialisation dépend d‘une structure, il est nécessaire de pouvoir restituer le document selon ses différentes structures les unes indépendamment des autres. Dans un deuxième objectif, celui de l‘interrogation et la recherche d‘information, l‘exploitation du caractère multistructurel des documents peut offrir des avantages.

IV.3. Applications de la multistructuralité

Généralement, les différentes structures d‘un document sont exploitées indépendamment les unes des autres. Cependant, leur combinaison peut offrir de nouvelles dimensions utiles. L‘exploitation du caractère multistructurel des documents peut s‘intégrer dans plusieurs applications pour des finalités diverses.

 Gestion des versions

Les documents, une fois écrits sont rarement figés dans le temps. Plusieurs versions d‘un même document peuvent être créées. La gestion de ces versions peut être assurée au traves de la multistructuralité. Chaque version est représentée par une structure (n versions ≡ n structures). Gérer ces versions au travers de la multistructuralité permet de gérer le partage de contenu ainsi que les relations entre les versions.

 Restitution orientée contexte

Les systèmes d‘information pervasifs se situent au cœur des avènements technologiques. Cependant, l‘exploitation des documents dans un contexte en perpétuelle mutation nécessite le développement de mécanismes d‘adaptations spécifiques afin de générer des versions d‘un même document pour des situations contextuelles différentes. Le document doit être adapté par rapport au contexte de son utilisation, selon le profil de l‘utilisateur, sa localisation, l‘application et le terminal utilisé. La définition de plusieurs structures pour un même document est une solution appropriée pour assurer cette adaptation. En effet, à partir de chaque structure, il est possible de restituer une version du document orientée contexte.

 La recherche d‘informations

La définition de plusieurs structures pour un même document peut améliorer la pertinence des résultats d‘un processus de recherche d‘informations. En effet, chaque structure apporte des informations supplémentaires qui identifient de façon différente les fragments de contenu. De plus, ces informations peuvent jouer le rôle de paramètres dans des requêtes d‘interrogation de documents. Par conséquent, celles-ci deviennent de plus en plus riches et auront des résultats de plus en plus précis. En effet, la combinaison des contraintes sur plusieurs structures permet d‘exploiter les corrélations qui existent entre les éléments de ces structures et par conséquent apporter une dimension supplémentaire au document.