Extraction de structures spécifiques - Démarche de classification des documents

Chapitre II Gestion des documents multimédia : Etat de l’art

III.3. Démarche de classification des documents

III.3.1. Extraction de structures spécifiques

III.3.2.1. Notions de base ...111 III.3.2.2. Filtrage...112 III.3.2.3. Pondération ...116 III.3.2.4. Conservation d’ordre...118 III.3.2.5. Evaluation de l’ajout de nœuds...121 III.3.2.6. Calcul de similarité...123 III.3.3. Adaptation des structures ...126

III.1. Introduction

Les documents numériques et particulièrement les documents multimédia sont des objets complexes et hétérogènes, fédérant des granules documentaires de nature différente, répondant à des représentations différentes (chapitre I). Cette hétérogénéité documentaire peut concerner deux aspects différents :

- l’hétérogénéité intra-document est due à la diversité des éléments monomédia qui peuvent coexister dans le même document (textes, sons, images fixes ou animées, vidéos, etc.). Ces éléments ont des caractéristiques spécifiques et très diverses d’un media à un autre ;

- l’hétérogénéité inter-documents concerne les différences qui peuvent être détectées entre les contenus (domaines très divers, langues différentes, etc.) d’un ensemble de documents ou entre leurs "formes de représentation" (différences de structures, de formats, de standards ou normes, etc.). Ces différences de contenu peuvent être dûes à des variations autour d’un type de document, ou encore à des évolutions des versions d’un même document. Cela peut engendrer un grand nombre de structures documentaires qui sont relativement semblables.

Après étude des modèles de représentation de la littérature (chapitre II), nous proposons un modèle de représentation des documents multimédia qui permettra de gérer cette hétérogénéité documentaire. Le modèle est basé sur une dichotomie entre la description de la structure logique du document et la description de son contenu. Il permettra de :

- représenter chacun des éléments constitutifs du document en fonction de ses spécificités ; - ne pas perdre de vue la structure globale du document ;

- séparer la structure du contenu ; - gérer la multistructuralité.

Afin de maîtriser le nombre de structures générées et d’optimiser la gestion des structures des granules documentaires communs, le modèle est basé sur une dichotomie entre la description de niveau spécifique (le document lui-même) et la description de niveau générique. Ainsi, un document sera décrit par sa structure spécifique et sera rattaché à une structure générique qui permettra de représenter une classe de documents similaires.

Nous présentons dans ce chapitre, dans un premier temps le modèle ainsi que des exemples d’instanciation. Ensuite, nous préciserons la notion de classe de documents, et nous présenterons le processus de classification qui permet de rattacher une structure spécifique à une structure générique suite à une adaptation de l'une des deux structures ou suite à une création d'une nouvelle structure générique.

III.2. Modélisation des documents multimédia

En résumé des différents modèles de représentation des documents multimédia présentés dans l’état de l’art (cf. Section II.3), nous avons pu déduire deux catégories de travaux :

- dans la première catégorie [Amous I. et al., 2002] [Moënne-loccoz N. et al., 2004], les modèles se caractérisent par la séparation qu’ils imposent dans la représentation des média. Ils associent un modèle à chaque medium. Cette séparation permet une description détaillée orientée medium mais pas une modélisation globale et générique d’un document multimédia ;

- dans la seconde catégorie [Darmont J. et al., 2002] [Loisant E. et al., 2002], les modèles visent à traduire la composition totale de chaque document en se basant à la fois sur leur structure et leur contenu. Ils assurent ainsi une représentation plus fidèle des documents multimédia. Néanmoins, ils n’offrent pas une séparation claire des informations relatives au contenu de celles relatives à la structure ce qui induit un manque de flexibilité dans l’exploitation et les manipulations possibles des documents. En particulier, les amalgames faits entre descriptions structurelles et sémantiques ne facilitent ni la classification des documents, ni la gestion de leurs versions.

Nos travaux de modélisation se positionnent dans cette deuxième catégorie et visent à proposer un modèle capable de gérer les deux niveaux d’hétérogénéité documentaire afin de gérer :

- l’hétérogénéité intra-document, nous proposons d’utiliser une dichotomie entre les structures et les contenus des documents. Il s’agit de traduire séparément l’organisation logique des éléments de documents multimédia et le contenu de chacun d’eux. A chaque document, il sera possible de rattacher autant de structures que nécessaires (nature des documents, points de vue de l’utilisateur, etc.) ;

- l’hétérogénéité inter-documents, nous proposons de définir la notion de classe de document. Chaque classe sera présentée par une structure appelée structure générique.

III.2.1. Gestion de l’hétérogénéité intra-document

Parmi les différents types de structures documentaires présentés dans le premier chapitre (cf. Section I.3.1), nous utilisons :

- le concept de structure logique pour décrire la composition globale d’un document multimédia ;

- le concept de structure des métadonnées pour pouvoir associer à la structure logique une ou plusieurs descriptions du contenu des différents éléments mono média.

Nous rappelons que la structure logique permet un découpage de l’information d’un point de vue hiérarchique (une représentation sous forme d’arbre). Elle permet d’identifier de façon non ambiguë les granules d’information (entité) composant le document. La structure sémantique permet de représenter l’organisation des différents granules de documents ainsi que le sens des contenus de chacun de ces granules.

III.2.1.1. L’organisation logique d’un document

Dans notre approche de modélisation, nous présentons la structure logique d’un document sous forme d’un ensemble imbriqué et ordonné d'éléments logiques spécifiques ("EltSpe") (cf. Figure III.1). Chaque élément spécifique représente un granule documentaire, qui peut-être lui-même décomposé en sous-granules. Les attributs spécifiques permettent de décrire les éléments spécifiques. Une description détaillée de cette modélisation sera présentée dans la section III.2.3.

Figure III.1. Modélisation de la structure logique d’un document

A titre d’exemple, la structure logique de la page web présentée dans la figure III.2 peut être décrite par un fichier XML fourni par l’auteur de ce document (cf. Figure III.3). La structure logique de ce document ("Présentation_Monument") est composée des éléments suivants : "Nom" du monument, "Date de construction", "Localisation", "Description" et "Photo". La localisation est composée des éléments : noms de la "Ville" et du "Pays". L’élément "Description" est composé : d’une partie textuelle (balise "D_Textuelle") et de deux séquences vidéo (balise "D_Vidéo"). L’élément "Photo" est composé d’une "Légende" et d’un "Corps" (balise "Corps_Photo"). Une "Photo" est décrite également par l’attribut "src".

Figure III.3. Description du document "Les pyramides de Gizeh" (en utilisant XML)

Nous constatons à ce niveau que la structure logique offre uniquement une idée de la composition globale d’un document multimédia sans pouvoir donner plus de détails sur le contenu de chaque élément monomédia. L’ajout de la description des contenus de ces éléments permettra de créer des structures sémantiques.

III.2.1.2. La description sémantique d’un document

En reprenant l’exemple précédent, nous constatons que des informations supplémentaires concernant les éléments "Corps_Photo", "D_Textuelle" et "D_Vidéo" peuvent être fournies par différents utilisateurs du document (cf. figures III.4, III.5 et III.6) pour décrire plus précisément leurs contenus. Le corps de la "Photo" est composé de régions (balise "Région_Spéciale"). Chaque région est identifiée par un "Nom" et une "Position" : coordonnées du centre de la région par rapport au coin haut gauche de la photo. Ces régions correspondent aux trois pyramides de Gizeh (cf. Figure III.4).

Figure III.4. Description de l’élément "Corps_Photo"

La description textuelle est composée de paragraphes (balise "Paragraphe"). Chaque paragraphe est annoté par un ensemble de références (balise "Référence"). Un "Lien" hypertexte est associé à chaque référence. Par exemple, la référence "IIIe dynastie" fait un renvoi vers une page web qui donne plus de détails sur ce mot (cf. Figure III.5).

Figure III.5. Description de l’élément "D_Textuelle"

Une description vidéo est composée d’une séquence d’images (balise "seq") et de séquences "audio". Ces deux séquences se déroulent d’une façon parallèle (balise "par") (cf. La description SMIL présenté dans la figure III.6). Nous pouvons associer des descriptions aux contenus de chaque image et de chaque séquence audio. Par exemple, une bande son peut être considérée comme un ensemble de segments. Chaque segment est caractérisé par ses dates de début et fin (attribut "Deb_fin") et il contient une liste de "Thèmes" (balise "Thème"). Chaque thème est caractérisé également par un repère temporel (attribut "Deb_fin"). Un thème peut être exprimé en une ou plusieurs "Langues" et il contient une série de transcriptions textuelles (balise "Transcription") (cf. deuxième partie de la figure III.6).

Nous proposons de représenter le contenu des éléments par une structure des métadonnées

(cf. Figure III.7). Le contenu des documents est structuré en composants qui peuvent être imbriqués. Chaque composant est annoté par des métadonnées propres à chaque type de média. L’association entre la structure logique et la structure des métadonnées décrivant chacun des éléments forment ce que nous appellerons la structure sémantique du document. L’arborescence de la figure III.8 est une instanciation du modèle dans le cas de l’exemple traité.

Figure III.7. Modélisation de la structure sémantique d’un document

Figure III.8. Instanciation du modèle sémantique dans le cas du document "Les pyramides de Gizeh"

Le contenu des séquences audio peut être également présenté grâce à une deuxième description basée sur la composition des segments en locuteurs (cf. Figure III.9) au lieu de la composition en thèmes.

Figure III.9. Deuxième description de l’élément "Bande_Son_1"

Ceci signifie qu'un même fragment (éléments ou composant) générique peut être décrit par plusieurs structures de métadonnées selon les besoins des utilisateurs. Ainsi, nous retrouvons la notion de multistructuralité qui a été présentée dans la section I.3.5.2.

Dans ce cas de figure, les modèles de la littérature (cf. section II.3) proposent de créer entièrement une nouvelle structure sémantique. Ceci engendre une description redondante des parties communes entre structures. La gestion de ce partage de granules documentaires permettra d’éviter cette redondance.

III.2.1.3. Modélisation spécifique d’un document

Notre modélisation s'appuie essentiellement sur la notion de fragmentation. Nous définissons cette notion comme étant la possibilité de décrire séparément les différentes entités qui forment un document ainsi que les relations qui les relient. A ce titre, Concernant la gestion de la multistructuralité, notre modèle se positionne dans la catégorie de modèles flexibles qui ne se limitent pas à des structures prédéfinies pour décrire l’organisation de documents hétérogènes. Par analogie avec les travaux de la littérature, la modélisation s’organise autour d’une structure pivot qui peut prendre des formes différentes (cf. Section sur la multistructuralité : I.3.5.2). Notre approche s’appuie sur la structure logique du document comme structure pivot. [Mbarki M. et al., 2007a] [Djemal, Mbarki M., Vallés-Parlangeau N., 2007].

La fragmentation permet d’éviter la redondance de stockage des granules à travers la gestion du partage des granules communs. Elle assure également la gestion des versions liées à un seul document en ajoutant dans la base de stockage seulement les descriptions qui ont été modifiées ou ajoutées aux versions précédentes de documents. Ainsi, dans notre modèle, un document est découpé en éléments structurants (éléments de structure logique) autour desquels s’articuleront des composants qui seront décrits par des métadonnées. Il sera ainsi possible de rattacher à une même structure logique plusieurs structures de métadonnées (cf. Figure III.10 et Figure III.11). De plus, une telle décomposition facilite la gestion du contenu et des structures de documents complexes, ceci sans perdre la vue globale de ces documents : il est tout à fait possible de reconstruire l’intégralité du document à partir des granules qui le composent.

Figure III.10. Modélisation sémantique spécifique d’un document

Figure III.11. Instanciation du modèle sémantique : cas du partage de granules documentaires

La description structurelle correspond à la modélisation de la structure logique. La description des métadonnées vise à identifier et à organiser les métadonnées associées aux composants liés aux éléments des structures logiques [Mbarki M., et al., 2005b]. La description de métadonnées peut servir également pour décrire le contenu d’un composant complexe. Par exemple, la structure "D_Audio_Présentation_Pyramides" décrit le contenu du composant "Audio" (cf.

Figure III.11). La classe "StrMSpe" (structure des métadonnées spécifique) permet de rattacher, d’une manière transparente, une ou plusieurs descriptions des métadonnées à un élément ou à un composant (cf. Figure III.10). Par exemple, l’élément "D_Vidéo" est rattaché à la structure des métadonnées "D_video_Présentation_Pyramides" et le composant Audio est rattaché à deux structures des métadonnées : "D_Audio_Présentation_Pyramides (composition basée Thème)" et "D_Audio_Présentation_Pyramides (composition basée Locuteur) " (cf. Figure III.11).

Une description plus précise de cette modélisation ainsi que des exemples d’instanciation seront détaillés dans la section III.2.3.

III.2.2. Gestion de l’hétérogénéité inter-documents

Les bases de documents mono ou multimédia (bibliothèques numériques par exemple) sont très hétérogènes : elles ne sont peu ou pas structurées et lorsqu’elles le sont, elles n’obéissent pas forcément aux mêmes règles et aux mêmes normes. L'hétérogénéité inter-documents pose en général le problème :

- de l’identification des granules de documents ;

- de l’évaluation des similarités entre granules ou types de granules ;

- la sélection de ces granules au sein d’un document ou d’une collection de documents.

III.2.2.1. Regroupement des documents similaires : pourquoi ?

Pouvoir rassembler les documents qui décrivent le même type d’information et ayant des structures similaires ou identiques (curriculum vitae, films documentaires, un type d’émission radio particulier, etc.) semble être très utile pour simplifier la gestion et l’exploitation de ces documents. La classification est un moyen d’identifier des sous-collections de nature à cibler par la suite la sous-collection utile, avec laquelle on souhaite travailler, et en conséquence l’ensemble des documents rattachés à cette sous-collection.

L’identification des documents ayant des structures similaires ou identiques afin de les regrouper dans une même classe permet d’optimiser la recherche ultérieure de tel ou tel type de documents. Chaque classe sera caractérisée par une "structure générique" qui représente une collection de "structures spécifiques". Une structure spécifique caractérise l’organisation d’un document particulier. La liste des structures génériques peut être utilisée ainsi comme index pour diminuer le temps d’accès et de recherche dans les structures spécifiques. Ainsi, les utilisateurs de la base peuvent avoir un accès direct à une collection particulière qui répond à leurs besoins. Par exemple : faire des recherches seulement dans les flashs d’informations annotés dans le cadre d’un corpus particulier et non pas dans tous les flashs d’informations ou dans tous les documents audio de la base. La figure III.12 illustre cette optimisation d’accès.

La dichotomie entre les structures logiques et les structures des métadonnées permettra de réduire le nombre de structures génériques à créer. En effet, deux structures sémantiques génériques différentes peuvent avoir la même structure logique et/ou une ou plusieurs structures de métadonnées en commun. Par exemple, la description d’une photo selon la norme Dublin Core (DC) est considérée dans notre approche comme une structure générique de métadonnées.

Elle sera stockée d’une manière indépendante et elle peut être utilisée par plusieurs structures logiques génériques.

Figure III.12. Regroupement et indexation par structures génériques

Supposons que nous voulions extraire la liste des locuteurs qui interviennent dans les trois documents de la figure III.13. Dans ces documents les fragments "Locuteur", "Loc" et "Speaker" désignent tous l’entité sémantique "Locuteur". Ces fragments ont alors la même sémantique mais des noms est des chemins différents dans les arborescences de chaque document. Le regroupement des structures similaires nous permet de simplifier l'interrogation du contenu de ces documents. En effet, avec le regroupement de structures nous pouvons formuler une seule requête à partir de la composition d’une structure générique. Les requêtes qui vont interroger les structures spécifiques seront générées automatiquement et d’une manière transparente.

Figure III.13. Regroupement des structures sémantiques

III.2.2.2. Regroupement des documents similaires : comment ?

Nous traiterons de ce point au travers d’un exemple : supposons que nous voulions intégrer dans notre base de départ le document "Présentation_Colisée" (cf. Figure III.14). La structure logique de ce document est présentée dans la figure III.15. Nous constatons que cette structure est très similaire à celle du document "Présentation_Pyramides" (cf. Figure III.3). L'utilisation des modèles proposés dans la section II.3.1 garantit le regroupement de ces deux structures selon un schéma unique comme indiqué dans la figure III.16.

Figure III.14. Le document "Présentation_Colisée"

Localisation Description Photo

Nom Date de

construc- tion

Ville Pays Continent Description_

Textuelle D_Video (src) D_Video (src) Légende Corps Les grandes pyramide s de Gizeh 2516

Av J-C Gizeh Egypte Néant

Le mot pyramide vient du Grec pyramis, du nom d'un petit gâteau de blé… Elles furent le tombeau de rois et de reines de la IIIe dynastie à la XIIe dynastie. … http://.. .desc_P 1.flv http://.. .desc_P 2.flv Panorama des Pyramides de Gizeh Le

Colisée 80 Ap J-C Rome Italie Europe L' flavien (en latin Amphitéâtre

Amphitheatrum Flavium), connu aussi sous le nom de Colisée), est un amphithéâtre de Rome qui pouvait …

Néant Néant Vue

extérieur de Colisée

Figure III.16. Regroupement des structures similaires selon un schéma unique

Comme nous pouvons le constater sur la figure III.16, le regroupement des structures selon un schéma unique présente les limites suivantes :

- perte du nom des fragments (élément ou attribut) spécifiques (ceux donnés par le créateur de document) quand ils sont différents de ceux des fragments génériques. Par exemple, l’élément générique "Localisation" remplace l’élément spécifique "Emplacement" du document "Présentation_Colisée". Ainsi, les documents risquent de perdre leurs spécificités qui peuvent être importantes lors d’une analyse par structure spécifique uniquement, et surtout si nous voulons pouvoir reconstruire le document tel que l’auteur l'avait écrit ;

- risque d’avoir des champs vides. Par exemple, le champ "Continent" n’est pas renseigné pour le document "Présentation_Pyramides" et le document "Présentation_Colisée" ne contient pas de "Descriptions vidéo" ("D_Video").

Figure III.17. Illustration de notre regroupement de structures similaires

Afin de regrouper les structures spécifiques autour d’une structure générique, nous avons conçu une démarche qui consiste à rattacher les fragments spécifiques aux fragments génériques (cf. Figure III.17). Cette démarche nous permettra de résoudre les problèmes que nous venons de citer :

- nous ne perdons pas les noms des fragments spécifiques car ils seront rattachés aux fragments génériques sans être modifiés. Exemple : l’élément spécifique "Emplacement" de la structure spécifique "Présentation_Colisée" sera rattaché à l’élément générique "Localisation" ;

- nous ne risquons pas d’avoir de champs vides car nous ne rattachons que les fragments spécifiques qui admettent des fragments pères dans la structure générique. Exemple : nous n’établissons par de lien entre l’élément générique "Description vidéo" et la structure spécifique "Présentation_Colisée".

Par souci de clarté, nous n’avons pas présenté dans la figure III.17 tous les liens qui relient les fragments génériques aux fragments spécifiques.

III.2.2.3. Modélisation générique d’une classe de documents

La notion de structure générique permet de regrouper les documents sous forme de classes (cf. figure III.18). Une classe de documents est considérée comme un ensemble homogène et cohérent d’un point de vue structurel et/ou sémantique. Comme pour la partie spécifique, la partie générique est composée d’une structure générique pour décrire la composition logique des documents et d’une structure des métadonnées pour décrire le contenu de chaque élément logique.

Figure III.18. Modèle sémantique générique de documents

III.2.3. Notre modèle de représentation des documents multimédia

Le constat que l’on a pu faire au travers des modèles de la littérature montre un manque de flexibilité dans la gestion et la manipulation de documents multimédia en grande partie liée au fait que, pour les uns, ils se focalisent sur un seul medium, et que, pour les autres, ils abordent les documents dans leur globalité (où sémantique du contenu et structure sont confondues). Or, si l’on souhaite pouvoir stocker et manipuler, sous plusieurs facettes et plusieurs points de vue, un seul ou un ensemble de documents multimédia hétérogènes, il s’avère important de pouvoir modéliser tous les concepts liés d’une part aux aspects structurels et d’autre part à la sémantique du contenu. Aussi, nous proposons un modèle [Mbarki M. et al., 2005a] qui permet de décrire le contenu et d’associer cette description aux éléments structurels du document afin de gérer l’hétérogénéité inter et intra documents. Notre modèle intègre plusieurs niveaux d’organisation imbriqués (cf. Figure III.19) :

- une couche générique et une couche spécifique. La structure spécifique est associée à un seul document. Les structures spécifiques similaires sont liées à une même structure

Dans le document Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia (Page 99-124)