G ÉDITERM : gestion de bases de connaissances terminologiques

1.17.1.1 Caractéristiques des modèles construits

Développé par D. Fournier en étroite collaboration avec des linguistes, GÉDITERM est un environnement de gestion de BCT [Mémoire-FOURNIER, 98]. Il intègre toutes les composantes de la BCT, y compris le corpus. Ainsi, à partir de l'étude de l'usage des mots en corpus, sont définis des termes, des concepts, des types de relation et des relations entre concepts, ainsi que des liens entre termes et des passages de textes. Chaque structure de donnée peut être documentée de commentaires pour consigner la justification des choix de modélisation et des occurrences.

Les modèles construits avec GÉDITERM ne sont pas formels. Il s'agit de réseaux conceptuels formés de concepts et de types de relation dont la cohérence formelle n'est pas vérifiée. En effet, j’ai montré dans la partie précédente qu'une BCT doit s'appuyer sur une structure de données non formelle [Traité-IC, 01]. Seul le type de relation Est-Un est interprété par le logiciel : il assure l'héritage des autres types de relation. La sémantique de ces autres relations est explicitée à l’utilisateur sous forme de commentaires.

Enfin, la visualisation graphique du réseau obtenu en facilite la lecture et la construction progressive. Ce réseau conceptuel peut constituer une étape vers une éventuelle formalisation.

1.17.1.2 Fonctionnalités

Les fonctionnalités du logiciel permettent de paramétrer la définition des termes, de stocker et enregistrer des données pour construire un modèle selon les structures de base du modèle (termes, concepts, relations et textes), de guider l’utilisateur pour structurer les connaissances, de les visualiser et enfin de les vérifier.

Aide à la définition de composants du modèle

Chaque type de donnée peut être consulté de manière globale sous forme de liste, ou individuellement sous forme de « cartes » ou fiches (fig. 5.3.1). La

143

carte présente les informations spécifiques à cette donnée et ses composants reliés, dont la sélection ouvre une nouvelle carte. Les cartes se superposent (3 au maximum) à l'écran et des onglets permettent de passer rapidement des unes aux autres. L’utilisateur dispose alors de « vues » sur plusieurs composants ayant une parenté sémantique : triplet concept-relation-concept ou terme-lien-concept. L’accès au texte se fait alors depuis les liens ou les relations.

Figure 5.3.1.2 : Exemple de carte de concept active : le concept #acteur interne.

Pour accélérer l’inventaire des termes et des unités de texte à consigner dans une BCT, il est préférable d’utiliser en amont un outil d’extraction de candidats termes comme LEXTER ou NOMINO. GÉDITERM offre une fonction permettant d’intégrer dans la BCT le corpus, une liste de termes candidats (préalablement validés) et même des hypothèses de concepts tirés de HTL (Bourigault, 1994). Cette fonction déclenche un transfert des données systématique puis une rapide validation interactive par le linguiste pour corriger leur organisation.

Aide à la structuration et à l’organisation des composants

Pour guider l’organisation des concepts, les relations conceptuelles sont typées, et l’ensemble des types de relation est répertorié, organisé en hiérarchie et accessible via des listes ou sous forme d’arbre. L’organisation hiérarchique est supposée refléter le caractère plus ou moins général des relations et s’appuie sur les liens de spécialisation tels que les interprète le linguiste. Tout nouveau type de relation doit être ajouté à la hiérarchie et défini avant d’être utilisé.

Pour rechercher des données, on peut appliquer des filtres, ensembles de critères sémantiques, sur les listes. Ces critères portent sur les attributs des

onglet s

Informatio ns spécifique s

Composan ts reliés Étiquette

du concept

terminologiques et ontologiques

données et sur les relations entre données. Par exemple (Fig. 5.3.1.3), les critères de sélection sur une liste de termes peuvent être un syntagme nominal, une variante de forme (ellipses, abréviations et formes les plus utilisées d'un terme), un locuteur, un concept (les termes retenus auront au moins un lien avec ce concept) ou un degré de validité.

Figure 5.3.1.3. : Fenêtre de définition d’un filtre pour la liste des termes

De même, on peut filtrer des données afin de créer une vue qui sera visualisée graphiquement. Ainsi, on peut sélectionner les concepts ou les termes reliés à un concept précis ou fixer un type de relation particulier. La figure 5.3.1.4 présente un sous-ensemble de la BCT Mouglis : ce sont tous les concepts reliés par une relation autre que EST-UN au concept #cycle de développement produit.

Figure 5.3.1.4 : Extraits du réseau conceptuel de la BCT Mouglis.

145

Aide à la vérification

Enfin, le logiciel permet de vérifier les données saisies selon des principes prédéfinis et à la demande de l’utilisateur. Pour cela, toute donnée possède un degré de validité, qui peut prendre plusieurs valeurs dont une seule est valide.

Lorsqu’on valide une donnée, le processus de vérification est déclenché à la fermeture de la fiche, et les informations manquantes ou incorrectes sont signalées. Voici quelques exemples de vérifications prévues :

- types des concept reliés par les relations conceptuelles : toute relation spécifique entre deux concepts doit relier des concepts fils des classes indiquées dans la définition de cette relation ;

- place des concepts dans la hiérarchie EST-UN : tout concept doit, en fin de construction de la BCT, être situé dans la hiérarchie EST-UN ;

- fournir des informations minimales pour définir des structures (termes ou concepts), comme son nom, mais aussi un terme relié pour un concept, sa langue pour un terme, etc. .

Une BCT n’est terminée que si ces vérifications ont été effectuées pour tous les termes et concepts, qui doivent avoir le statut de « valides ». Or ce mode de vérification a été remis en question par la pratique des linguistes, qui, à l’utilisation de GÉDITERM, n’ont jamais déclaré les données valides afin d’éviter les vérifications. En effet, celles-ci sont trop contraignantes et demandent des connaissances parfois non disponibles. Ces principes de validations correspondent en fait à des critères de « bonne modélisation », adaptés du principe de différenciation en vue de préparer une formalisation.

Or, l’application de ces règles directives requiert des connaissances pas toujours présentes dans le corpus.

1.17.1.3 Bilan

Le développement de GÉDITERM représente un résultat pertinent à double titre, tant par la réflexion approfondie menée sur la représentation des connaissances et le modèle de données (présentés au 5.2) que par les aspects méthodologiques (qui seront abordés au 5.5). En tant que logiciel, il s’avère un des rares logiciels opérationnels de ce type, destiné à des linguistes et facilitant l’exploitation de résultats d’extracteurs de termes.

Une première version de GÉDITERM a été présentée à la conférence TIA 99 [TIA, 99]. Son utilisation a été suivie par une ergonome qui a pu en faire une évaluation ergonomique [mémoire-SERRA, 97]. Elle a confirmé la pertinence de choix comme la visualisation graphique l’organisation de l’interface de saisie.

Elle a également conduit à enrichir le modèle de données, qui s’est avéré limité pour rendre compte de relations complexes, faisant intervenir plus de deux concepts, ou pour rendre compte de liens possibles entre relations. Par exemple, dans une relation de découpage en parties, on voudrait pouvoir préciser quels concepts sont complémentaires et forment ensemble l’objet entier. On peut aussi souhaiter rendre compte de schémas de type agent-verbe-objet-moyen. Dans cette perspective, dans l’esprit de DocKMan de D.

Skuce (1998), la notion de relation a été enrichie de manière à pouvoir conserver, dans la partie terminologique, des schémas syntactico-sémantiques ou lexico-syntaxiques correspondant à leur expression dans les textes. Une autre perspective, non développée, serait de construire, dans le réseau conceptuel, l’équivalent des relations sous forme de frames rassemblant des sous-ensembles de réseaux.

terminologiques et ontologiques

Parmi les enseignements tirés de ces expériences, il ressort qu’un environnement comme GÉDITERM doit intégrer ou être interfacé avec des logiciels automatisant les traitements sur corpus. Ces logiciels réduisent le coût de la démarche tout en maintenant le degré de validité des données. Un éditeur hypertextuel du document y est indispensable pour passer aisément du texte (d’un terme pris dans le texte) aux termes ou aux concepts, pour retrouver le texte sous sa présentation d’origine ou pour mettre en valeur les termes qu’il contient.

Ensuite, les rubriques des structures de données, en particulier celles qui décrivent les termes, doivent pouvoir être adaptées à chaque type d’application. Initialement, l’hypothèse que ces informations sont indépendantes de l’utilisation prévue des données de la BCT a été mise à mal.

En effet, il est clair que le modèle actuel ne peut anticiper tout type de besoin.

Par exemple, il serait insuffisant s’il fallait utiliser une BCT pour l’aide à la traduction.

Enfin, la formalisation des données doit intervenir dans une phase finale, après leur structuration rigoureuse en fonction des besoins de l'application.

Dans le modèle conceptuel, la trace des choix de modélisation doit être conservée sous plusieurs formes : à l'aide de commentaires dans chaque structure, grâce au lien vers des occurrences des termes dans les textes et enfin grâce au lien entre les structures elles-mêmes.

Dans le document Td corrigé Publications - TEL (thèses pdf (Page 145-149)