• Aucun résultat trouvé

La maintenance des lexiques et autres ressources linguistiques

Les annotations sémantiques :

4.3 La maintenance des lexiques et autres ressources linguistiques

L’objectif principal d’OntoPop est d’assister les utilisateurs dans les tâches fastidieuses d’annotation sémantique et de peuplement d’ontologie de leurs applications métier. Ils pourront ainsi consacrer leur temps et leurs compétences aux activités propres à leur métier. Or, le gain en qualité et en productivité procuré par le Module d’Annotation et d’Acquisition ne doit pas être perdu lors de l’étape de validation décrite précédemment. En d’autres termes, si l’utilisateur se voit contraint de constamment corriger et valider la plupart des propositions remontées par le Module d’Annotation et d’Acquisition, tout le bénéfice apporté par les étapes précédentes devient alors caduc. Par conséquent, il est nécessaire de capitaliser sur ces corrections et validations entrées par l’utilisateur. Nous avons choisi d’intégrer ces corrections et validations au processus grâce à la maintenance des ressources terminologiques et ontologiques. Cette maintenance s’applique aux nouvelles entités (instances et descripteurs) créées et validées dans le référentiel dans le cadre de la tâche de peuplement de l’ontologie. Comme nous l’avons vu au chapitre 2, le document est analysé en fonction de la cartouche linguistique spécifique au domaine étudié. Chaque entrée du lexique est extraite puis les patrons d’extraction sont appliqués au fur et à mesure jusqu’à l’obtention de l’arbre conceptuel final. Parmi les informations extraites, il y a donc de la connaissance reconnue provenant des lexiques et de la connaissance déduite provenant des patrons d’extraction (cf. section 4.1).

A priori, l’outil de représentation des connaissances contient le référentiel terminologique et ontologique de l’application, ce qui signifie que toutes les informations extraites à partir des lexiques sont également connues de ce référentiel. Par contre, dans le cas de la connaissance déduite, le référentiel peut ne pas posséder d’entité correspondant à cette nouvelle connaissance. C’est cette nouvelle connaissance qui est exportée vers l’outil d’extraction d’information afin qu’elle soit intégrée à ses lexiques puis reconnue.

En fait, nous pouvons pousser le raisonnement un peu plus loin car il est également intéressant de capitaliser les opérations d’ajout, de modification et de suppression réalisées par les utilisateurs humains dans le référentiel commun à travers les écrans d’édition standard de l’outil de représentation des connaissances. Toutefois, les suppressions ou modifications d’entités existantes du référentiel sont à manier avec une certaine précaution : la suppression ou même la modification d’une entité peut entraîner une incohérence au niveau des annotations sémantiques qui reposent sur la référence à cette entité [MAG 05].

Par maintenance des ressources terminologiques ou ontologiques, nous entendons donc la mise à jour des lexiques, et autres ressources linguistiques, des outils d’extraction d’information en fonction des entités (instances de la base de connaissance ou descripteurs d’un thésaurus) validées, créées, modifiées ou supprimées dans le référentiel d’une application donnée. Comme illustré dans la Figure 52, ces entités enrichissent les lexiques de la cartouche linguistique conçue pour le domaine de l’application. Ainsi, ces entités seront automatiquement reconnues et interprétées par l’outil

d’extraction d’information à sa prochaine utilisation par l’application cible. Précisons que la maintenance RTO est un processus optionnel dans OntoPop car dépendant des objectifs et des besoins de l’application cible. En effet, nous désirons conserver toute la flexibilité de la solution apportée par OntoPop.

Figure 52. Capitalisation des entités du référentiel en entrées des lexiques de l’outil d’extraction Nous allons à présent illustrer le processus de maintenance des RTO toujours à l’appui du même exemple. Comme montré dans la Figure 53, à l’issue de l’étape de validation :

- une nouvelle instance de la classe « Personnalité », i.e. « Francesco Pennino », a été créée dans la base de connaissance,

- une autre instance de cette classe « Personnalité », i.e. « Francis Ford Coppola », a été modifiée afin de lui ajouter l’alias « Francis Coppola »,

- et enfin un descripteur du thésaurus géographique, i.e. « Détroit », a été modifié afin de lui ajouter la variante orthographique « Detroit ».

Figure 53. Exemple de mise à jour des ressources terminologiques et ontologiques

La mise à jour des lexiques du moteur d’extraction est déclenchée en fonction d’un ensemble d’alertes configurées dans l’outil de représentation des connaissances sur chacune des classes du référentiel

Information extraite

Personnalité : Francesco Pennino Personnalité : Francis Ford Coppola Personnalité : Francis Coppola Descripteur Lieu : Detroit Information créée et validée

Personnalité : Francesco Pennino

Personnalité : Francis Ford Coppola, alias=Francis Coppola Descripteur Géographique : Détroit, variante=Detroit Information exportée

Personnalités : Francesco Pennino, Francis Ford Coppola (alias=Francis Coppola) Descripteurs Géographique : Détroit (variante=Detroit)

Outil d’Extraction d’Information Outil de Représentation des

connaissances Mise à jour du Référentiel : • Base de Connaissance • Thésaurus

Mise à jour de la cartouche linguistique

• Lexiques Maintenance des Ressources

Terminologiques et Ontologiques Extraction d’Information pour

l’annotation sémantique et le peuplement d’ontologie Opérations manuelles

(validation, ajout, modification, suppression) Entités (instances et/ou descripteurs) Entrées Entrées Entrées

dont les instances doivent être exportées. Ces alertes écoutent les différentes opérations effectuées sur ces entités, notamment dans les cas de :

- création automatique ou manuelle d’une entité inconnue du référentiel ;

- modification manuelle d’un des termes (libellé, alias, synonyme, variante orthographique, traduction, etc.) représentant une entité existante ;

- validation du libellé de l’information extraite comme nouveau terme d’une entité existante ; - suppression manuelle d’une entité existante.

Lorsqu’une alerte reconnaît l’un des cas ci-dessus au sujet d’une entité dont la classe a été configurée, elle récupère alors les différents termes de l’entité concernée, l’intitulé de sa classe ainsi que l’opération exécutée (création, modification ou suppression) :

1) La nature de l’opération effectuée dans le référentiel permet de savoir quelle action exécuter du côté de l’outil linguistique. En effet, s’il s’agit d’une création, alors l’entrée exportée est ajoutée au lexique correspondant dans l’outil d’extraction d’information. Par contre, s’il s’agit d’une modification ou d’une suppression, l’outil d’extraction doit d’abord retrouver l’entrée existante dans le bon lexique avant de mener à bien la modification de cette entrée ou sa suppression définitive.

2) L’intitulé de la classe permet à l’outil d’extraction de connaître le lexique à enrichir ou à modifier le cas échéant. En effet, il se peut que l’outil d’extraction d’information utilise plusieurs lexiques dans la même cartouche linguistique. Il est donc nécessaire d’avoir une information permettant de déduire à quel lexique doit être ajoutée la nouvelle entrée. Par contre, un couplage simple (car non contextualisé, à l’inverse des Règles d’Acquisition de Connaissance) doit pouvoir être mis en place. En effet, les noms des lexiques ne coïncident pas forcément avec les noms donnés aux classes de l’ontologie ou des thésaurus de l’application. Ainsi, l’instance « Francisco Pennino » appartient à la classe « Personnalité » dans l’ontologie du domaine de la presse people mais son entrée associée est enregistrée dans le lexique « Personne » de la cartouche linguistique d’extraction des Entités Nommées, elle-même incluse dans la cartouche du domaine de la presse People.

3) Les différents termes de l’entité transmise correspondent aux entrées du lexique concerné dans l’outil d’extraction. Selon le langage utilisé par l’outil d’extraction pour créer ces entrées, il se peut que des heuristiques doivent être appliquées afin de générer la forme correspondante à l’entrée pour que celle-ci puisse être extraite. Par exemple, dans l’outil d’extraction IDE™, un espace entre deux mots est représenté par le caractère « \ ». Ainsi, l’entrée « Francis Coppola » doit être générée par l’application d’une de ces heuristiques afin d’obtenir la forme « Francis \ Coppola ». De même, pour certaines entrées dont la forme correspond à un nom commun, comme la société « Orange » par exemple, il est nécessaire d’appliquer une heuristique spécifiant que cette entrée ne doit être repérée par l’outil que si elle débute par une lettre majuscule. Ainsi, le nom commun « orange » ne sera jamais étiqueté comme un nom de société.

En résumé, chacune des entités exportées est analysée par le moteur d’extraction qui complète ses dictionnaires d’entités nommées ou toute autre ressource lexicale avec les différents termes attachés à l’entité. Ces nouvelles ressources linguistiques sont compilées dans une nouvelle version de la cartouche linguistique de l’application afin d’être prises en compte durant la prochaine tâche d’extraction d’information. Par conséquent, la cohérence des ressources linguistiques est conservée vis-à-vis de l’ensemble du référentiel de l’application détenu par l’outil de représentation des connaissances.

4.4 Conclusion

La démarche OntoPop propose un certain nombre de modules logiciels permettant d’implémenter des applications orientées métier pour le peuplement d’ontologie et l’annotation sémantique. La démarche d’enrichissement du référentiel de l’application grâce aux RTO extraites par le moteur d’extraction d’information est habilement complétée par la capitalisation à partir du retour d’expérience prodigué par les utilisateurs humains. Ce retour d’expérience a lieu aussi bien lors de la phase de validation des propositions suggérées par le Module d’Annotation et d’Acquisition que lors de l’enrichissement manuel du référentiel à travers ses écrans standards d’édition. Il permet ainsi l’enrichissement des ressources linguistiques utilisées par le moteur d’extraction. L’ensemble du processus de peuplement d’ontologie et d’annotation sémantique peut donc être considéré comme un cercle vertueux. De plus, une attention constante est apportée à la préservation de l’intégrité du référentiel de l’application à chacune des phases du processus.

Forte des expériences acquises au cours de divers projets en entreprise, nous avons élaboré une méthodologie proposant une opérationnalisation de cette démarche étape par étape. La prochaine partie de ce mémoire présente cette méthodologie puis décrit l’implémentation technique des différents composants logiciels qui forment la plateforme proposée aux entreprises pour la mise en œuvre de la démarche OntoPop.

Troisième Partie.