• Aucun résultat trouvé

Module d’Annotation et d’Acquisition

6.2.4 Le Module de Stockage

Ce module consiste à stocker les annotations sémantiques et les réseaux sémantiques, qu’ils soient valides ou tampon. Il possède différents modes de stockage et offre un accès permanent à ces résultats pour permettre leur exploitation par l’application cliente.

6.2.4.1 L’architecture

Ce module intervient une première fois après le Module de Peuplement d’Ontologie pour enregistrer les réseaux sémantiques valide et tampon. Puis il intervient à nouveau à la suite du Module

d’Annotation Sémantique pour enregistrer les deux modèles RDF. Il peut également être directement appelé par l’application ITM, et notamment par l’interface de validation qui a besoin de récupérer ces quatre résultats pour les présenter à l’utilisateur humain. Ce module s’interface avec les composants suivants (cf. Figure 73) :

- le Module d’Administration qui lui fournit les objets à stocker ainsi que la référence au document source et auquel il renvoie les objets stockés si demandés ;

- le serveur ITM sur lequel il va enregistrer, récupérer ou supprimer le réseau sémantique valide issu du document analysé ;

- un gestionnaire de contenus documentaires (CMS) externe où il peut transférer les annotations sémantiques valides.

- un système de fichiers, local ou distribué, où il va (selon la configuration choisie) enregistrer, récupérer ou supprimer les réseaux sémantiques ou les annotations, qu’ils soient valides ou tampon.

Figure 73. Architecture du Module de Stockage

6.2.4.2 Le processus détaillé

Le Module de Stockage est appelé par le Module d’Administration général à diverses étapes du processus d’Acquisition et d’Annotation. Premièrement, il est appelé pour stocker les résultats du Module de Peuplement d’Ontologie. Les deux réseaux sémantiques, valide et tampon, sont stockés séparément. Généralement, le réseau valide est directement importé dans la base de connaissance d’ITM. Lors de cet import, les trois métadonnées suivantes sont ajoutées à chaque instance :

- la langue : cette métadonnée précise la langue correspondant au libellé de l’instance (Français, Anglais, etc.). Cette information provient du moteur d’extraction linguistique lorsqu’il a pu détecter la langue dans laquelle le document était rédigé. Lorsqu’il n’est pas possible de connaître la langue d’origine, alors l’instance est importée dans ITM avec la valeur « pas de langue ».

Module d’Annotation et d’Acquisition

Module de Stockage

Intelligent Topic Manager

Ontologie du domaine de l’application Système de Fichiers (local ou distribué) Base de Connaissance Module d’Administration 1. documents RDF, documents XTM, adresse du document source 3. documents RDF, documents XTM (valides et tampon)

2a. écriture, lecture, suppression de la connaissance valide Gestionnaire de Contenus Documentaires (CMS) 2b. écriture des annotations valides 2c. écriture, lecture, suppression des annotations et/ou de la connaissance, valides et/ou tampon

- la source de l’information : cette métadonnée précise l’origine de l’instance. En fait cette métadonnée est double : il y a une métadonnée stockant l’adresse du document afin que toutes les instances liées à ce document source puissent être retrouvées ultérieurement par l’application ITM, et il y a une métadonnée stockant l’origine du processus. En effet, deux manières sont aujourd’hui possibles pour créer une instance dans ITM : soit manuellement depuis les interfaces utilisateurs, soit automatiquement par l’utilisation d’OntoPop. Il est important aussi bien pour les différentes interfaces utilisateurs que pour les utilisateurs eux-mêmes de connaître l’origine d’une nouvelle instance dans ITM. En effet, le degré de confiance accordé à cette nouvelle instance n’est pas la même si cette dernière provient d’un utilisateur humain ou d’un processus automatisé. Cette métadonnée précise donc que ces instances ont été créées ou mises à jour via un processus d’extraction linguistique.

- Le statut de l’information : cette métadonnée précise le statut de l’instance créée ou mise à jour dans la base de connaissance ITM. Il y a deux statuts possibles : « à valider » ou « validée ». Lorsqu’une instance est importée dans ITM, son statut est automatiquement « à valider ». Ainsi, dans le cadre d’un processus semi-automatisé où un utilisateur humain doit valider ces instances importées automatiquement, il devient aisé de retrouver toutes les instances ayant ce statut « à valider ». Une fois validées par les utilisateurs humains, leur statut change pour « validée ». Comme le réseau sémantique tampon ne peut être importé dans la base de connaissance, il est donc enregistré dans un fichier situé sur le serveur ITM. Mais on peut tout aussi bien imaginer ne pas vouloir le stocker du tout, notamment lors d’un processus entièrement automatisé où il n’y aurait pas de validation humaine a posteriori.

Deuxièmement, le Module de Stockage enregistre les résultats du Module d’Annotation Documentaire, i.e. les modèles RDF valide et tampon. Dans la plupart des applications, ils sont stockés dans des fichiers RDF sur le serveur ITM. Mais le modèle valide peut aussi être transmis à un gestionnaire de contenus externe où il est alors rattaché au document source.

Troisièmement, dans le cadre d’un processus semi-automatisé, l’interface de validation récupère, pour un document donné, les quatre résultats produits par le Module d’Annotation et d’Acquisition afin de les afficher dans l’interface utilisateur dédiée à la validation (cf. prochaine section).

Quatrièmement, dans le cadre d’une maintenance de l’application, ITM peut se connecter au Module de Stockage afin de supprimer tout ou partie des résultats. Cela permet notamment de nettoyer le serveur ITM des différents fichiers temporaires créés.

6.2.4.3 L’implémentation technique

Le package Java de ce module, com.mondeca.indexation.storage, contient 13 classes réparties en 3 sous-packages (cf. Figure 74) :

a) Le package « Manage » récupère les paramètres enregistrés dans le fichier de configuration « storage-config.xml » et coordonne les différentes actions.

b) Le package « ReadWrite » contient les différentes actions de stockage dépendantes de la configuration de l’application cliente.

c) Le package « Util » contient un utilitaire pour reconstruire un document XTM.

Figure 74. Architecture des classes Java du package « com.mondeca.indexation.storage »