La Phase de Structuration - La Phase de Livraison : Livraison et maintenance auprès du client

Troisième Partie. L’implémentation de

5) La Phase de Livraison : Livraison et maintenance auprès du client

5.3 La Phase de Structuration

Cette phase a pour objectif d’une part de modéliser l’ontologie du domaine et d’autre part de construire la cartouche linguistique appliquée à ce domaine.

5.3.1 Modélisation de l’ontologie du domaine

Cette tâche consiste à structurer et organiser les données obtenues à l’étape précédente. Pour cela, l’ontographe doit acquérir la connaissance du domaine, que cette connaissance soit explicite dans les

Couverture de l’ontologie du domaine

Couverture de l’analyse linguistique

Intersection maximale entre

bases de données ou les thésaurus disponibles ou implicite dans le savoir et le savoir-faire de l’expert du domaine. D’après John F. Sowa [SOW 00], l’acquisition de la connaissance s’effectue en trois étapes: « Knowledge Acquisition is the process of eliciting, analysing and formalizing the patterns of thought underlying some subject of matter. In elicitation, the knowledge engineer must get the expert to articulate tacit knowledge in natural language. In formalisation, the knowledge engineer must encode the knowledge elicited from the expert in the rules and facts of some AI language. Between those two stages lies conceptual analysis: the task of analysing the concepts expressed in natural language and making their implicit relationships explicit ».

En fait, il n’existe pas de méthodologie générique, standardisée et consensuelle ayant pour but d’acquérir cette connaissance du domaine afin de la modéliser sous la forme d’une ontologie. Plusieurs méthodologies ont plutôt vu le jour, notamment celles formulées par Uschold [USC 95], Gruninger [GRU 95], Fernandez & Gomez-Perez dans Methontology [FER 97] [BLA 98] et York Sure et al. dans On-To-Knowledge [SUR 03]. Le cycle de vie de ces méthodologies est fortement inspiré du génie logiciel, tout comme notre propre méthodologie OntoPop, et nous pouvons identifier des étapes communes telles que :

o la spécification / l’évaluation du besoin

o la conceptualisation, i.e. la capture des connaissances

o la formalisation ou « l’ontologisation », i.e. le codage de l’ontologie

o l’intégration d’ontologies existantes, par alignement ou par fusion entre ces ontologies o l’opérationnalisation, i.e. l’implémentation de l’ontologie

o l’évaluation, la documentation et la maintenance de l’ontologie

Diverses méthodes, techniques et outils ont été proposés pour aider dans les différentes tâches du cycle de vie, et notamment au niveau de la conceptualisation, comme :

- l’extraction d’ontologies à partir de textes [BAC 96] [BOU 04] [AUS 00] ;

- la structuration des hiérarchies de concepts et de relations [GUA 92] [GUA 00] [BAC 01] [KAS 02] ;

- la fusion et l’adaptation d’ontologies existantes par l’utilisation des systèmes Onions [GAN 99] et Prompt [NOY 03] par exemple ;

- le développement collaboratif [DOM 98], [TOL 05].

L’étape de formalisation de l’ontologie dans un langage de modélisation peut être effectuée à l’aide des éditeurs d’ontologie tels que Protégé [NOY 00] [NOY 01], Swoop [KAL 05], WebODE [ARP 01], DOE [TRO 02] [BAC 02] ou encore OntoEdit [SUR 02],...

Nous n’avons pas la prétention de préconiser ici une méthodologie pour la construction d’ontologie. A l’ontographe d’opter pour la méthodologie la plus adaptée à ses données et à sa pratique. Par ailleurs, les spécificités du domaine et de l’application cible obligent souvent l’ontographe à faire certains choix de modélisation discutables. Par exemple, est-il préférable de modéliser un lieu de naissance comme un attribut ou comme une relation entre concepts ? La décision d’opter pour telle ou telle

représentation de la connaissance va impacter les modes d’utilisation de l’application. Par exemple, un moteur de recherche reposant sur ce modèle de l’ontologie n’offrira pas les mêmes fonctionnalités à l’utilisateur suivant que le champ d’interrogation du lieu de naissance a été représenté comme un attribut prenant une chaîne de caractère quelconque en entrée ou une relation entre classes conditionnant les valeurs possibles parmi les instances de celles-ci. Mais quelle que soit l’approche adoptée, le processus de construction d’une ontologie reste basé sur une collaboration étroite avec l’expert du domaine qui doit valider le modèle choisi.

5.3.2 Construction des cartouches linguistiques

Concernant la construction des cartouches linguistiques, nous avons déjà vu au chapitre 2 qu’elles s’appuient le plus souvent sur différents lexiques du domaine ainsi que sur un ensemble de patrons d’extraction composants l’automate à états finis du moteur d’extraction. Pour déterminer les patrons d’extraction, le linguiste étudie minutieusement chaque document du corpus représentatif du domaine, et par extension de l’application, afin d’identifier le vocabulaire spécifique utilisé par les auteurs de ce domaine, la structure des phrases, celle des documents, etc. [ENJ 05b]. Par exemple, le contenu d’une décision de jurisprudence dans le domaine juridique est bien différent de celui d’un article journalistique du domaine de la presse dite « people » :

- le vocabulaire de la décision est constitué de termes juridiques très précis alors que celui de la presse people est constitué de termes du langage commun, voire familier ;

- une décision de jurisprudence est souvent décrite par une seule phrase de plusieurs pages alors que l’article « people » se compose de phrases simples et courtes ;

- le document représentant la décision de jurisprudence comporte une structure bien particulière avec un en-tête composé de tous les éléments identificatoires de cette décision (cour de justice, date de la décision, la juridiction, la formation, etc.) suivi d’un corps de document narrant les argumentaires des différentes parties jusqu’au rendu de décision par la cour. Dans ce cas, le linguiste peut plus facilement cerner l’emplacement de telle ou telle information à extraire et la manière dont elle peut être extraite comparé à un texte non structuré comme l’article de la presse « people » qui n’est généralement constitué que d’un titre, parfois un chapô et du corps de l’article.

Au vu du corpus documentaire du domaine, l’une des premières tâches du linguiste consiste à élaborer les lexiques de ce domaine nécessaires à l’élaboration des patrons d’extraction. Dans certains cas, il aura à sa disposition des thésaurus, des listes d’entités nommées, ou toute autre terminologie, déjà exploités dans une version précédente de l’application et fournis par l’expert, ou bien qui font référence dans le domaine concerné. Une autre étape consiste à définir les différents traitements linguistiques nécessaires à l’analyse des documents du corpus : est-il nécessaire de découper le document en unités textuelles ? Ces unités textuelles sont-elles les paragraphes, les phrases, les mots ou autres ? A-t-on besoin d’un lemmatiseur ? L’analyse morpho-syntaxique est-elle absolument requise ? Et ainsi de suite... La décision d’inclure tel ou tel traitement dans la solution finale du moteur d’extraction est généralement dictée par la langue dans laquelle est rédigé le document, leur niveau de structuration, la nature des informations à extraire, etc.

Figure 56. Extrait d’un véritable document de spécifications détaillées des arbres conceptuels délivré par un linguiste de Temis pour le domaine de la veille économique, ici l’exemple est « isManagerOf »

Une fois les traitements définis, reste à écrire les patrons d’extraction. Pour cela, il est parfois possible de réutiliser certaines cartouches linguistiques comportant des patrons d’extraction génériques pour certains éléments particuliers à un langage. L’exemple le plus courant est celui des entités nommées comme les noms de personnes, d’organisations, de lieux, etc. Par exemple, dans le domaine de la presse « People », une cartouche existante permettant d’extraire le nom des personnes, et donc des personnalités en vogue, peut être réutilisée telle quelle. Par contre, dans le domaine juridique, cette même cartouche linguistique n’est pas suffisante pour décrire les différentes personnes intervenant dans une décision de jurisprudence : le nom des parties, celui des avocats, du juge, du président, etc. Cette cartouche doit être adaptée en lui ajoutant de nouveaux patrons d’extraction permettant de repérer et de distinguer clairement ces différents acteurs. Le linguiste étudie donc dans quelle mesure il est possible de réexploiter des cartouches existantes. A partir de là, il lui faut créer les patrons

a) « isManagerOf »

Objectif

Relation entre une organisation (reconnue ou déduite) et une personne (reconnue ou déduite).

Dans le document Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d'une plateforme logicielle (Page 144-147)