Analyse multidimensionnelle - Exploitation de l'entrepôt

Chapitre IV Validation Proposition d’un outil de gestion d’entrepôts de

IV.4. Exploitation de l'entrepôt

IV.4.2. Analyse multidimensionnelle

IV.4.2.1. Construction des schémas des magasins ...166 IV.4.2.2. Génération automatique des magasins ...170 IV.4.2.3. Visualisation des contenus des magasins...175 IV.4.2.4. Autres exemples d’analyse ...176

IV.1. Introduction

Nous détaillons dans ce chapitre, la mise en œuvre de l’approche de modélisation proposée dans le chapitre précédent. Cette mise en œuvre est basée sur la création d'un système de gestion d'entrepôt de documents multimédia. Nous cherchons essentiellement à valider notre processus d’intégration et à montrer que l'implantation de notre modèle permet d'exploiter les documents de façon simple et flexible.

Afin d’évaluer l’impact des spécificités de la modélisation sur les processus d’intégration et d’exploitation de documents hétérogènes, nous avons cherché un cadre applicatif dans lequel :

- nous pouvons intégrer un nombre important de documents hétérogènes dans un même espace de stockage ;

- nous voulons offrir plusieurs possibilités de recherche et d'exploitation des documents intégrés.

Les entrepôts de documents visent à centraliser l’ensemble des données utiles d’une entreprise afin d’organiser et de partager les informations documentaires. De plus, l’entrepôt doit permettre l’analyse des informations stockées pour obtenir des connaissances mises en perspectives et possédant une réelle valeur ajoutée. L'utilisation des entrepôts de documents semble ainsi être une solution appropriée pour modéliser, intégrer et exploiter les documents multimédia hétérogènes. Pour ces raisons, nous avons conçu un outil de gestion d’entrepôt de documents multimédia.

Dans une première section, nous présentons le concept d’entrepôt de documents et l’architecture de notre entrepôt MDOCREP. Cet entrepôt, instanciation de la modélisation proposée, doit intégrer en plus des documents ou granules documentaires, l’ensemble des structures spécifiques associées (structure logique, structure des métadonnées). Ces structures sont regroupées au sein de classe représentées par des structures génériques. Le processus d’intégration est présenté dans la seconde section de ce chapitre. Nous nous intéresserons particulièrement à la construction des classes de documents sur un corpus de pages web issues de Wikipedia. Nous proposons ensuite d’exploiter les documents ainsi intégrés par le biais de deux types d’approches : la recherche d’information et l’analyse multidimensionnelle. La modélisation des documents, basée sur une fragmentation en granules documentaires permet une recherche d’information précise (niveau du granule), sans pour autant perdre la vue globale du document. L’analyse multidimensionnelle permet l’analyse et la visualisation des informations de l’entrepôt selon plusieurs dimensions. Ceci est présenté dans la dernière section de ce chapitre.

IV.2. Cadre applicatif

Pour mettre en place notre cadre applicatif, nous avons développé un outil de gestion d'entrepôts de documents multimédia intitulé MDOCREP (Multimedia DOCument REPository). Avant de détailler le fonctionnement de cet outil, nous présentons dans cette section la notion d’entrepôt de documents.

IV.2.1. Les entrepôts de documents

Parmi les définitions proposées dans la littérature, nous avons retenu ici celles qui semblent être les plus courantes et les plus appropriées à notre vision concernant l’architecture, la modélisation et la gestion des entrepôts de documents.

D’un point de vue architecture, dans [W3 IOS] l’entrepôt de document est défini comme « une architecture intégrée qui offre un accès quasi instantané à une quantité considérable de documents divers pouvant être dispersés dans toute l'entreprise. Il permet d'accéder en toute sécurité à tout document ou enregistrement depuis n'importe quel poste de travail, indépendamment du lieu et du format de stockage ».

Concernent la modélisation, dans [Balmisse G., 2002] il est supposé qu’une activité fructueuse d’une entreprise « repose sur la centralisation des documents dans un entrepôt. Grâce à cette centralisation, la capture, la conservation et l’accès aux documents de l’entreprise sont réalisés selon un modèle unique ».

Enfin, d’un point de vue gestion (intégration et exploitation des documents), [Sullivan D. 2001] suppose que « l’entrepôt de documents doit être considéré comme un environnement fondé sur des standards permettant aux utilisateurs de capturer, d’analyser et de croiser un ensemble d’informations dans un contexte facilitant son accès et sa diffusion ». Dans le même sens, selon [Khrouf K., 2004] « un entrepôt de documents est une source d’informations orientées-sujets, filtrées, intégrées, historisées et organisées comme support d’un processus de recherche, d’interrogation ou d’analyse ».

La centralisation des documents dans un entrepôt facilite l’accès et les analyses qui peuvent être menées. Elle permet également de déduire de nouvelles informations ou connaissances à partir de documents qui n’ont a priori aucun lien entre eux. Plus précisément, un entrepôt de documents doit permettre :

- l’acquisition des documents. Les documents sont collectés à partir des systèmes de gestion des informations de l’entreprise (GED : Gestion Electronique des Documents, workflow, groupware, etc.) ou issus de sources externes et disséminées (Internet, bibliothèques numériques, etc.) ;

- l’échange et le partage de documents. L’environnement de l’entrepôt doit favoriser l’échange et le partage de documents dans un cadre d’interopérabilité de systèmes d’information par l’utilisation d’un format standard d’échange (la liste des standards les plus utilisés a été présentée dans le premier chapitre cf. section I.4) ;

- l’accès aux documents. L’accès à l’ensemble des informations, quels que soient les formats, les contenus et les lieux physiques de stockage doit être simple et facile. Cet accès aux informations doit pouvoir être réalisé suivant différents modes possibles, tels que la recherche directe ou l'exploration.

IV.2.2. Architecture de MDOCREP : un outil de gestion d’entrepôts de

documents multimédia

Nous avons proposé MDOCREP afin de valider nos propositions concernant la gestion de l'hétérogénéité documentaire. Cet outil permet notamment d'optimiser l'intégration et l'exploitation des documents hétérogènes dans le cadre d'un entrepôt de documents multimédia. L'intégration des documents est basée sur l'instanciation du modèle logique (cf. Annexe 4) généré à partir du modèle de représentation de documents multimédia (cf. Figure III.19). Le passage vers le modèle physique a été effectué en utilisant les règles de transformation décrites dans [Soutou C., 1999] (cf. Annexe 5). Cette intégration suit la démarche de classification décrite dans le chapitre précédent. Pour assurer l'exploitation des documents intégrés dans l'entrepôt, nous proposons d'adapter les techniques de recherche d'information et d'analyse multidimensionnelle. MDOCREP présente des interfaces graphiques dédiées à des non-informaticiens afin de les guider dans leurs démarches d’intégration et d’exploitation du contenu de l’entrepôt. Les interfaces graphiques proposées se caractérisent par les critères suivants [Mbarki M., 2003]:

- flexibles : elles peuvent être adaptées aux différentes utilisations possibles ;

- incrémentales : l’exploitation se fait étape par étape, en visionnant si nécessaire ou souhaité les résultats intermédiaires de chaque étape ;

- uniformes : les modes d’interaction identiques pour les différentes fonctionnalités permettent d’améliorer l’ergonomie de l’outil.

MDOCREP permet ainsi d’automatiser une grande partie des tâches de manipulation et de les rendre plus abordables à tout utilisateur. Sur la figure IV.2 nous visualisons la structure sémantique d'un document. Chaque type de granule est représenté par un graphisme différent (cf. Figure IV.1) :

- les ovales pour les éléments ; - les rectangles pour les attributs ;

- les rectangles aroondi pour les composants ; - les hexagones pour les métadonnées.

Chaque fragment est précédé par sa cardinalité si elle est différente de un (? : zéro ou une occurrence, + : une ou plusieurs occurrences, * : zéro ou plusieurs occurrences).

Dans les analyses multidimensionnelles (cf. Section IV.2), nous utilisons les rectangles rouges pour désigner les dimensions et les rectangles oranges pour désigner les faits.

Figure IV.1. Légende de présentation de granules documentaires dans MDOCREP

MDOCREP se base sur une architecture modulaire [Mbarki M. et al., 2007b]. Il se compose de quatre composants complémentaires (cf. Figure IV.3) :

- le module d’administration : permet d’attribuer les droits d’utilisateurs concernant (1) l’ajout de structure, (2) l’intégration de document, (3) la suppression de documents et/ou structure et (4) l’exploitation de contenu de l’entrepôt ;

- le module d’intégration : supporte la construction incrémentale de l'entrepôt de documents suite à l’ajout de nouvelles structures et/ou de nouveaux documents issus de sources disséminées et hétérogènes ;

- le module d’exploitation : permet de formuler des requêtes de recherche d’information documentaire et d’assister l’utilisateur dans l’élaboration de magasins de documents pour effectuer des analyses multidimensionnelles ;

- le module de communication : il s’agit des interfaces graphiques permettant à l’utilisateur de dialoguer avec les différents modules de l’outil. Ces interfaces supportent une ergonomie adaptée à la résolution des tâches complexes avec multi-fenêtrage, navigation facile et manipulation directe et intuitive des différentes parties de l’entrepôt.

Figure IV.3. Architecture de MDOCREP

IV.3. Intégration de documents

Selon le modèle présenté dans le chapitre précédent :

- plusieurs structures des métadonnées peuvent être rattachées à un même élément logique ;

- une même structure des métadonnées peut être liée à plusieurs éléments logiques différents.

La figure IV.4 illustre la manière dont les structures sémantiques seront gérées et stockées dans notre entrepôt de documents. Par exemple, la structure logique SL(1) est rattachée aux structures des métadonnées SM(1), SM(3) et SM(n) au sein de la structure sémantique SS(1). La même

structure logique SL(1) est rattachée aux structures SM(3), SM(5) et SM(m) au sein de la structure sémantique SS(2). Ces deux structures sémantiques partagent une même structure des métadonnées SM(3). Le traitement (notamment la classification et le stockage) séparé des structures logiques et des structures des métadonnées assure que les granules communs ne soient pas dupliqués. Ainsi, la structures logique SS(1) et la structure de métadonnées SM(3) ne seront stockées qu'une seule fois dans l’entrepôt.

Figure IV.4. Gestion des structures sémantiques

Nous commençons, dans MDOCREP, par ajouter la structure logique spécifique de document en lui rattachant à une structure générique. Ce rattachement sera établi selon le processus de classification détaillé dans le chapitre précédent. Une fois stockés dans l’entrepôt, les éléments de

la structure logique peuvent être étendus par des structures de métadonnées qui décrivent leurs contenus. Pour ajouter ces nouvelles structures, il suffit de sélectionner l’élément en question et d’aller chercher un document auxiliaire qui contient sa description (cf. Figure IV.5) : par exemple un document auxiliaire qui décrit le contenu d’une photo. Le contenu et la structure de ce document seront intégrés dans l’entrepôt. La nouvelle démarche de classification concernera cette fois-ci les structures de métadonnées. ainsi l'intégration d'une nouvelle structure peut être effectuée comme le montre la figure IV.5 en deux étapes (la partie logique puis la partie des métadonnées).

Figure IV.5. Ajout d’une structure de métadonnées

Les documents qui décrivent l’organisation logique de la totalité d’un document ou le contenu d’un seul élément logique (structure de métadonnées) peuvent être classés en deux catégories :

(1) les documents types ; (2) les documents ordinaires.

Un document type est un document jugé, par l’utilisateur, comme représentant d’une classe de documents bien déterminée (un CV type par exemple). La structure d’un document type sera insérée dans l’entrepôt sans aucune modification de sa composition. Ainsi l’ajout d’un document type correspond à la fois à l'ajout d’une nouvelle structure générique et à l'ajout d’un document. Un document ordinaire est un document qui pourra donner lieu à l'ajout d'une nouvelle structure générique ou au rattachement à une structure générique existante sans ou avec adaptation (d'une structure générique ou de la structure spécifique du document).

En fonction de cette typologie documentaire et en se basant sur notre démarche de classification (cf. III.3), nous distinguons les quatre possibilités d'intégration suivantes (cf. Figure IV.6) :

- Ajout automatique d'un document ordinaire (cf. Exemples de la section IV.3.1.1) : l’utilisateur n’a pas de pré-connaissance de la structure à laquelle le document sera rattaché. Nous proposons alors de comparer la structure du document avec les structures de l’entrepôt (cf. Section III.3.2). Cette comparaison donnera lieu soit à l'adaptation d'une structure générique existante soit à la création d’une nouvelle structure générique (cf. Section III.3.3) ;

connaît a priori la structure générique de l’entrepôt à laquelle il souhaite rattacher son document. La structure spécifique de ce document sera éventuellement adaptée à la structure générique cible grâce un ensemble de règles appliquées manuellement (cf. Annexe 2) ;

- Ajout d'un document type (cf. Exemple de la section IV.3.1.3) : l’utilisateur peut juger que le document fourni est un représentant d’une nouvelle structure générique. Ce document sera considéré alors comme un document type. La structure de ce document va être insérée dans l’entrepôt sans aucune modification en donnant lieu à la création d'une nouvelle structure générique sans avoir recours à une classification ;

- Ajout d'une structure générique (cf. Exemples de la section IV.3.1.4) : parallèlement à ces trois possibilités d’insertion de structure liées à l'intégration d’un nouveau document, l’utilisateur peut donner uniquement la composition d’une structure générique à laquelle il voudra attacher ultérieurement des documents.

Figure IV.6.Processus d’intégration dans MDOCREP

IV.3.1. Exemples de mise en œuvre du processus d'intégration

Nous présentons dans cette section des exemples d'ajout de documents selon les quatre types d'intégration proposés par MDOCREP. Ces ajouts peuvent engendrer des mises à jour des structures logiques ou des structures des métadonnées.

IV.3.1.1. Ajout automatique d'un document ordinaire

Nous allons détailler les étapes d’intégration d’un document ordinaire (cf. Figure IV.7) "Transcription_Débat_Economique.txt" qui décrit le contenu d’un document audio. Il s’agit donc de l'ajout d’une nouvelle structure de métadonnées. Dans cette figure, les balises "<D_Eco>" et "Trans" désignent respectivement "débat économique" et "transcription".

Figure IV.7. Contenu d'un document ordinaire

Pour assurer cette intégration, nous allons reprendre les étapes décrites dans la section III.3.2 (comparaison de structures).

1) Extraction de la structure spécifique du document

L’extraction de la structure spécifique de document "Transcription_Débat_Economique.txt" est réalisée à l’aide d'un parseur PERL selon les étapes détaillées dans l'annexe 1. Le résultat de cette extraction est présenté dans la figure IV.8.

Figure IV.8. La structure spécifique du document ordinaire à intégrer dans l’entrepôt

2) Processus de comparaison : 2.1 Filtrage

Dans cette étape, nous sélectionnons les structures de l’entrepôt, dont le coefficient de filtrage Cf

est supérieur ou égal au seuil Sf.. Dans cet exemple, les structures des métadonnées génériques

retenues (cf. Figure IV.9) sont celles qui décrivent le contenu : - d’un flash d’information "D_F_Info" ;

Figure IV.9. Les structures génériques de métadonnées retenues après filtrage

2.2 Pondération

Dans cette étape, nous associons à chaque nœud, des deux arborescences à comparer, un nombre réel x tel que 1<= x < 2.

2.3 Conservation d’ordre

Dans cette étape, nous vérifions l’ordre des ancêtres et celui des fils. Nous ne gardons, pour la suite du processus de comparaison, que les structures de l’entrepôt qui conservent ces ordres. Dans notre exemple, la structure "D_F_Info" ne vérifie pas cette contrainte. En effet, le nœud "Locuteur" est un frère de nœud "Thème" dans la structure "D_Eco" par contre il est un ancêtre de ce même nœud dans la structure "D_F_Info". Ce changement d’ordre peut être expliqué sémantiquement par le fait que :

- dans un "flash d’information", nous identifions souvent un seul "locuteur" qui aborde plusieurs "thèmes" ;

- dans un "débat", un seul "thème" est abordé par plusieurs "locuteurs".

Ainsi, seule la structure "D_Débat" vérifie la conservation d’ordre, elle sera donc retenue pour la suite du processus de comparaison.

2.4 L’ajout des nœuds

Dans cette étape, nous ajoutons fictivement des nœuds (des ancêtres ou des fils) à une structure générique pour lui rapprocher de la structure spécifique à intégrer. Dans l'exemple, comme il est illustré par l’interface de la figure IV.10, nous ajoutons les nœuds :

- Thème général "Thème_G" comme fils feuille du nœud "Passage" ;

- "Langue" comme fils du nœud "Locuteur" et père du nœud transcription "Trans".

A la fin de cette étape, les ajouts fictifs de nœuds sont concrétisés si la structure spécifique est incluse dans la structure générique. Dans ce cas, nous adaptons la structure générique "D_Débat" (cf. Figure IV.10). La structure spécifique du document "Transcription_Débat_Economique.txt" sera ensuite rattachée à cette structure générique.

Figure IV.10. Résultat de l’adaptation d’une structure générique IV.3.1.2. Ajout dirigé d’un document ordinaire

MDOCREP offre deux types d'ajout dirigé :

- le mode simple qui utilise les règles de gestion de noms de balises (cf. Première section de l'annexe 2) ;

- le mode expert qui utilise les règles basées sur l’analyse de contenu de balises (cf. première section de l'annexe 2).

Pour ces deux types d’ajouts, un code Perl est généré automatiquement à partir des règles exprimées par l'utilisateur (via une interface Java). Ce code permet de modifier la structure spécifique du document. Ceci nécessite que l'utilisateur ait une bonne connaissance des compositions de la structure spécifique et des structures génériques stockées dans l’entrepôt (par exemple, l'administrateur de l'entrepôt).

Nous sommes toutefois conscients qu’il reste des améliorations à apporter en matière d’applications de ces règles sur les documents. Nous prévoyons de stocker les règles utilisées pour transformer un document et ainsi pouvoir les appliquer de nouveau lors d’une future intégration. Par exemple, lors du choix de l’intégration dirigée le système pourra proposer à l’utilisateur de définir un nouvel ensemble de règles de transformation ou bien d’appliquer l’un des ensembles de règles préalablement stockées pour les appliquer directement sur le document. Nous présentons dans l'annexe 8 une liste d'interface qui détaille les possibilités de saisie des règles de gestion pour ces deux modes d'ajout de document ordinaire.

IV.3.1.3. Ajout d’un document type

Pour ajouter un document type, l'utilisateur doit sélectionner le document désiré (cf. Figure IV. 11). Le système extrait et intègre dans l’entrepôt :

- la structure générique du document. Cette structure aura par défaut le nom de la première balise significative du contenu du document (cf. Figure IV.12) ;

- le contenu ainsi que la structure spécifique du document qui sera rattachée à la structure générique que nous venons de créer (cf. Figure IV.13).

Figure IV.11. Sélection d’un document type

Figure IV.13. Ajout de la structure spécifique et du contenu d’un document type IV.3.1.4. Ajout de structures génériques

Nous proposons dans cette section la possibilité d’ajout de nouvelles structures génériques (logique ou de métadonnées) personnalisées selon les besoins de l’utilisateur. Il peut ainsi définir librement la composition de la structure à insérer dans l'entrepôt.

Pour effectuer ce type d’ajout, l’utilisateur doit préciser le nom et le type (logique ou de métadonnées) de la structure. Il doit décrire ensuite la composition de cette structure en saisissant la liste de ses nœuds. Il doit fournir notamment pour chaque nœud :

- son nom ;

- son type (élément, attribut, composant, métadonnée) ; - sa cardinalité (zéro-un, un, un-plusieurs, zéro-plusieurs) ; - le nom de son nœud père ;

- son ordre dans la composition de son père.

La figure IV.14 détaille la composition d’une nouvelle structure logique générique (CV). L’arborescence de cette structure est présentée dans la figure IV.15.

Figure IV.15. Résultat d’ajout d’une nouvelle structure logique générique

Remarque : La saisie est effectuée sous forme tabulaire (cf. Figure IV.14) pour composer les nouvelles structures. La possibilité d’utiliser une interface graphique reste toujours envisageable pour définir ces structures.

IV.3.2. Expérimentations et discussion sur la classification

Nous ne prétendons pas, au travers de cette section, présenter une validation complète du processus de classification des structures de documents. Nous présentons et discutons les premiers résultats obtenus sur un corpus de test relativement restreint [Idarou A., 2007]. Au travers de l’expérimentation qui a été menée, nous cherchons d’une part à « valider » le processus de comparaison et d’autre part nous discutons de la représentativité des classes de documents obtenues.

IV.3.2.1. Le Corpus

Les documents ayant servi à nos expérimentations ont été extraits d’un corpus de pages web du site de l’encyclopédie Wikipedia [Denoyer L., et Gallinari P., 2006]. Les documents de ce corpus contiennent du texte, des liens, des tableaux, des images, etc. Les caractéristiques des documents sont présentées dans le tableau IV.1.

Nombre de documents 81

Taille de la collection (en KO) 323

Taille moyenne d’un document (en K O) 3,98

Nombre Moyenne des granules / document 161,53

Nombre Moyenne des nœuds / structure générique 16,81 Profondeur Moyenne d’une structure générique 6,83

Largeur moyenne d’une structure générique (nombre moyenne de fils / nœud générique)

2,46

IV.3.2.2. Intégration des documents

Dans la suite, nous noterons structure spécifique SS et structure générique SG. Dans ces expérimentations, nous avons utilisé un seuil de filtrage Sf de 0,7 et un seuil de similarité Ss de

0,75. Ces seuils ont été fixés de façon empirique.

Au départ, notre entrepôt contenait des documents et des SG issus de corpus différents. Après intégration du corpus d’expérimentation dans l’entrepôt, nous avons constaté qu’aucune des

Dans le document Gestion de l'hétérogénéité documentaire : le cas d'un entrepôt de documents multimédia (Page 147-200)