• Aucun résultat trouvé

SYNTEX- UPERY est un outil composé de deux modules développé par D. Bourigault à l’ERSS (Toulouse) (Bourigault et al., 2005). SYNTEX est un module d’analyse syntaxique dé-

veloppé à l’origine pour remplacer le logiciel LEXTER. Il prend en entrée un corpus de textes étiquetés (à chaque mot du texte est affecté une catégorie grammaticale par l’outil Treetagger, développé à l’Université de Stuttgart) en français ou en anglais, effectue l’analyse syntaxique de chacune des phrases du corpus et produit comme résultat un réseau de mots (noms, adjectifs, verbes . . .) et de syntagmes nominaux, adjectivaux ou verbaux extraits du corpus. Dans le réseau terminologique construit, chaque syntagme est relié d’une part à sa tête et d’autre part à son (ses) expansion(s). SYNTEXfournit un certain nombre d’informations numériques associées à chacun des candidats termes, en particulier la fréquence (le nombre de fois que le candidat terme a été repéré dans le corpus), la productivité (le nombre de contextes dans lesquels le candidat terme apparaît) et la répartition (le nombre d’articles différents dans lesquels le candidat terme a été repéré). La figure 3.22 représente le formulaire d’entrée du module SYNTEX dans l’interface TERMONTO.

UPERY est un module d’analyse distributionnelle (Bourigault, 2002). Il exploite l’ensemble des données présentes dans le réseau terminologique construit par SYNTEX pour effectuer un calcul des proximités distributionnelles entre ces unités. UPERYrapproche deux à deux des can-

didats termes qui se retrouvent dans les mêmes configurations syntaxiques, c’est-à-dire qui sont exprimés en tête d’un même ensemble de termes.

Nous avons utilisé cet outil dans notre travail de doctorat aussi nous préciserons certains points méthodologiques dans le chapitre 4 consacré à nos expérimentations.

7.4

Conclusion

En dehors des caractéristiques techniques, les critères utilisés pour évaluer un outil d’in- génierie ontologique portent sur le modèle de représentation de connaissances qu’il utilise, les fonctionnalités de raisonnements qu’il offre, son interopérabilité avec les autres outils, et la fa- cilité d’usage qu’il propose. La plupart des outils utilisent pour paradigme de représentation de

FIG. 3.22 – Formulaire d’entrée du module SYNTEX dans l’interface TERMONTO.

connaissances le modèle des frames enrichi de formules de la logique du premier ordre ou celui des logiques de description.

CHAPITRE

4

Construction d’une ontologie dans le domaine de la

pneumologie

« L’examen de ces propriétés forme cette branche de la philosophie dont toutes les autres empruntent en partie leurs principes : on la nomme l’ontologie ou science de l’être, ou métaphysique générale. » Jean le Rond d’Alembert Discours préliminaire à l’Encyclopédie (1751) Nous construisons une ontologie régionale de la pneumologie à partir de ressources textuelles. Pour cela, nous nous sommes dotés d’un certain nombre de principes de bonne modélisation. Ces critères sont également utilisés pour évaluer le modèle achevé, aussi nous les détaillons au chapitre 6, sections 2.2 et 2.2.2. Pour dévelop- per les corpus nécessaires à la structuration de l’ontologie, nous appliquons sur ces ressources des techniques appartenant au domaine du Traitement automatique du langage. La méthode ARCHONTE que nous employons a été mise au point par B. Bachimont au sein du groupe Terminologie et Intelligence Artificielle et est fondée sur, entre autres, les principes de la sémantique différentielle (Bachimont, 2000). Notre principale hypothèse de recherche concerne l’utilisation en parallèle de deux méthodes pour enrichir le travail de construction de l’ontologie et particulièrement la mise en œuvre des principes différentiels :a) une méthode éprouvée qui consiste à construire des ressources termino-ontologiques par analyse distributionnelle (Bou- rigault & Lame, 2002), et b) une méthode fondée sur la définition a priori d’une relation sémantique, puis sur l’observation de séquences en corpus qui véhiculent la relation souhaitée (Séguéla, 2001). L’expérimentation menée avec cette seconde mé- thode (b) a été faite en collaboration avec V. Malaisé1. Sachant qu’aucune ontologie

d’une part, de construire l’ontologie de la pneumologie et, d’autre part, d’apporter des précisions sur les premières étapes de la méthode. Nous proposons notre propre expérimentation de construction d’ontologie médicale dans la même optique que le travail de Le Moigno et al. (2002b). Un point de vue quelque peu différent a ce- pendant été adopté puisque l’ontologie est construite par un ingénieur des connais- sances et non par un expert du domaine médical comme dans ce précédent travail. Rappelons que l’intérêt consiste à mettre au point un processus méthodologique pré- cis, destiné à l’ingénieur des connaissances, de manière à ne faire appel à l’expert médical que pour des moments particuliers de validation.

Nous apportons dans la section 1 des précisions sur les principes méthodologiques d’ARCHONTE et soulignons l’originalité de cette méthode. La section 2 s’intéresse au corpus de référence, à sa définition et aux ressources qui le constitue. La section 3 décrit en détails les différents traitements que nous appliquons sur nos corpus. La section 4 s’intéresse au choix des connaissances à modéliser, aux opérations d’ex- traction, de filtrage et de sélection de ces connaissances. La section 5 compare les résultats obtenus avec l’analyse distributionnelle et le repérage par patrons lexico- syntaxiques sur nos corpus et l’apport de cette expérience sur la définition des prin- cipes différentiels. La section 7 résume les étapes de formalisation et d’opérationa- lisation de l’ontologie de la pneumologie. Nous présentons ensuite brièvement, en section 6, notre tentative de « raccrochage » de cette ontologie avec l’ontologie de haut niveau issue du projetMENELAS. Puis, en section 8, nous résumons les étapes successives de la construction de la hiérarchie de l’ontologie. Enfin, nous concluons ce chapitre, en section 9, en discutant les résultats obtenus.

1

Méthode ARCHONTE

: principes et originalité

Le langage médical est caractérisé par un vocabulaire extrêmement riche et difficile à ma- nipuler. Il n’y a pas de consensus établi sur la définition des termes employés. Les synonymes sont nombreux (plusieurs termes désignant le même objet) tandis que le même terme peut avoir plusieurs significations selon l’auteur ou le contexte (polysémie). Les textes médicaux sont donc souvent imprécis, ambigus d’autant qu’ils font un large usage d’abréviations et d’acronymes. Pour permettre une description et une communication efficaces et dépourvues d’ambiguïté, a fortiori un traitement automatique, un minimum de standardisation du langage est nécessaire. Comme nous l’avons vu au chapitre 3 section 4, peu de méthodologies proposent réellement de guider l’ingénieur des connaissances pour organiser les connaissances d’un domaine et, par la suite, les concepts entre eux. L’essentiel des démarches reposent sur une intuition quant à la ma-

son interface de validation des résultats. La préparation et la mise à disposition des corpus sur lesquels nous avons appliqué ces patrons sont de mon fait ainsi que tout le travail de validation des résultats que nous avons obtenus. Les dernières étapes d’analyse des résultats et de synthèse ont été faites en commun. Nous avons bien conscience qu’il existe d’autres travaux sur les patrons dont nous aurions pu nous inspirer – notamment pour améliorer nos résultats – mais il s’agissait là de tester avec l’existant.

1 – Méthode ARCHONTE : principes et originalité 81

nière de modéliser le domaine ou sur l’avis d’un expert. Aucune des méthodologies présentées, mis à part le système ARCHONTE et TERMINAE, ne définit de directives précises pour explici-

ter véritablement les concepts à l’aide du langage. L’utilisation d’ARCHONTE est une donnée de départ de mon sujet de thèse. B. Bachimont propose de contraindre l’ingénieur des connais- sances à un « engagement sémantique », c’est-à-dire à expliciter clairement le sens de chacun des concepts de l’ontologie, en introduisant une « normalisation sémantique ».

« Les primitives nécessaires à la représentation des connaissances doivent être mo- délisées à partir des données empiriques dont on dispose, à savoir l’expression lin- guistique des connaissances. Le travail de modélisation doit s’effectuer à partir de documents attestés dans la pratique d’un domaine et rassemblés en un corpus. Le corpus est constitué de documents produits dans le contexte où le problème à ré- soudre se pose » (Bachimont, 2000).

B. Bachimont considère que le corpus textuel est la source privilégiée permettant de caractériser les notions utiles à la modélisation ontologique et le contenu sémantique qui leur est associé. C’est pourquoi ARCHONTE permet de décrire les variations des sens des termes considérés en

contexte.

Comme le montre la figure 4.1 reprise de (Troncy, 2004), ARCHONTEcomporte initialement trois étapes : la normalisation, la formalisation et l’opérationalisation (Bachimont et al., 2002). Nous détaillons ces étapes ci-dessous.

FIG. 4.1 – Les trois étapes d’ARCHONTEtelles que proposées par B. Bachimont (2000).