• Aucun résultat trouvé

CHAPITRE III : CONSTITUTION DE BASES DE CONNAISSANCES TERMINOLOGIQUES :

1. D U CORPUS A LA BCT : MISE EN PLACE ET PROBLEMATIQUES

1.1. Constitution d’un modèle de données

Le modèle de données va servir de guide à l’analyse puisqu’il va déterminer a priori le type des éléments que l’on va chercher en corpus et la façon de les représenter. Il ne s’agit pas à ce niveau de définir un modèle spécifique à une application mais plutôt un modèle général qui permette de rendre compte des phénomènes lexicaux les plus courants : ellipse, polysémie, synonymie, homonymie, et bien sûr, relations conceptuelles. Comme dans tout modèle, les fonctionnements sont figés, voire contraints par la représentation choisie. Mais ce modèle sert aussi à stabiliser les résultats et à leur donner une cohérence, à un moment donné. Le modèle que nous28 avions constitué pour le projet EUROLANG à Aramiihs (Condamines et Amsili, 1993) est encore d’actualité même s’il a été quelque peu modifié pour s’adapter aux différents projets et outils, par exemple la constitution de l’outil support par une équipe de l’Irit (Aussenac-Gilles et Séguéla, 1999), et aussi aux différentes difficultés d’utilisation rencontrées par les linguistes utilisateurs. En voici une schématisation.

Figure 1 : Modèle de BCT

28 Le "nous" que j’utilise dans ce chapitre me permet d’associer dans cette présentation tous les collègues et collaborateurs qui ont travaillé sur différents projets de constitution de BCT : P. Amsili, J. Rebeyrolle, A.-M. Soubeille, M.-P. Jacques, N. Aussenac-Gilles, P.Séguéla, J. Feliu, I. Orlac, P. Monnier, E. Lecorgne, D. Fournier, J. Mell, F. Zerguini

C1 C3 C2 R1 R2 T1 T3

62

Ce modèle est organisé en trois champs principaux : le concept, le terme et le lien terme/concept.

En réalité, ce type de modélisation n’est pas extrêmement rigoureux du point de vue linguistique. Il sert surtout d’une part à rendre compte de phénomènes sémantiques comme la synonymie, l’homonymie et la polysémie et d’autre part à maintenir un lien important entre la modélisation et le texte. Mais ce choix de modélisation laisse entière la question de la nature

linguistique du lien entre le terme et le concept. En effet, les relations sémantiques

s’établissent en principe de signe à signe, sans intervention d’un autre élément. L’utilisation du concept pour rendre compte de ces phénomènes constitue une facilité de représentation qui a le mérite, en tout cas, de mettre en évidence que l’instauration de relations lexicales et conceptuelles relève d’un choix d’interprétation et de représentation qui se manifeste par la création d’un concept.

Dans les faits, les informations sur le fonctionnement en discours sont plutôt dans le champ « terme » et celles sur le fonctionnement hors discours, fruit d’une interprétation, dans le champ « concept » ; l’établissement des liens terme/concept est également le fruit d’une interprétation même si ce choix d’interprétation se base sur une analyse des occurrences de termes (ce qu’indique le lien qui existe avec le corpus dans le modèle).

Le champ concept

Ce champ joue un rôle fondamental dans le modèle, les autres champs s’organisant autour de lui. C’est en effet dans ce champ que sont déclarées les relations d’un groupe terme/concept à un ou plusieurs autre(s). Les concepts et plus exactement les relations conceptuelles jouent un rôle majeur pour la modélisation mais aussi pour la méthode d’analyse du corpus (ces questions seront longuement évoquées dans le chapitre V). Dans la mesure du possible, les relations viennent remplacer la définition en langue naturelle, classiquement donnée dans les bases de données terminologiques mais qui n’a d’intérêt que pour une lecture humaine. La représentation sous forme relationnelle oblige, elle, à s’interroger sur la sémantique de ces relations et constitue, comme on l’a vu dans le chapitre précédent une ouverture très nette sur la problématique des ontologies. Dans certains cas, lorsque, par exemple, elle est donnée dans le corpus, il est possible de maintenir une définition en langue naturelle, une des possibilités d’utilisation des résultats étant la consultation directe des données.

Le concept est étiqueté par le (ou un des) terme(s) qui lui correspond(ent). Le fait qu’il s’agit d’une étiquette est signalé par un # qui précède le terme choisi. Les étiquettes pourraient être de nature numérique mais le concept perdrait alors tout lien avec sa dimension linguistique, ce qui poserait un problème à la fois du point de vue de la réflexion théorique qui a amené à la constitution du modèle et du point de vue de la lecture même des données.

Le champ terme

Le champ « terme » contient des informations de nature lexicale et discursive :

– Nombre et genre : le nombre n’est précisé que lorsque le terme est toujours utilisé soit au singulier soit au pluriel.

– Catégorie grammaticale : cette information sera surtout utilisée pour calculer les cas de synonymie,

– Existence de variantes : certains termes apparaissent dans le corpus sous différentes formes ; le cas le plus fréquent concerne l’ellipse d’un déterminant et/ou d’une préposition, par exemple, dans un corpus d’EDF : phase de

spécification produit/ phase de spécification du produit,

– Existence d’un sigle (qui est une autre forme de variable). De nombreux termes sont utilisés sous leur forme siglée (SCAO pour Système de Contrôle d’Attitude et

63

Le terme est entré sous la forme la plus étendue mais la forme la plus utilisée dans le corpus (forme étendue, variante, sigle) est précisée. Dans le cas d’une BCT multilingue, comme celle que nous avons construite pour MMS, la langue à laquelle appartient le terme est précisée, ceci afin de permettre un calcul d’équivalence d’une langue à l’autre.

Dans la perspective d’une utilisation en TAL, ce champ « terme » pourrait être enrichi de données sur le type de collocations dans lequel apparaît le terme : par exemple, type d’arguments pour un verbe ou une nominalisation comme dans (L’Homme et Gemme, 1997) par exemple. Hormis dans le cas de la BCT MMS, où les données devaient être intégrées à un outil d’aide à la traduction, les autres BCT construites étaient beaucoup plus en lien avec la modélisation de connaissances ou de fonctionnements sémantiques, si bien qu’il n’a pas été nécessaire de développer ce champ, ce qui nous a certainement évité bien des difficultés !

Le champ lien terme/concept

Ce champ contient des informations sur l’usage en général, c’est-à-dire sur des éléments extra-linguistiques qui justifient l’établissement d’un lien entre terme et concept. Il s’agit en fait surtout de préciser quel « locuteur collectif » utilise tel terme pour renvoyer à tel concept. Le plus souvent, dans une entreprise, les différents « locuteurs collectifs » possibles correspondent à des Divisions ou Départements internes. Au moment de la constitution du corpus, chacune des Divisions concernées par le projet a été représentée sous la forme d’un sous-corpus, identifié comme tel. Ainsi, nous verrons en IV que le traitement de la polysémie de satellite dans un corpus du CNES tient compte d’usages langagiers dans trois Divisions : Mathématiques spatiales, Systèmes électriques et automatiques et Observation de la terre. Ce champ déroge à la règle qui veut que l’on ne rende compte que de l’usage dans le corpus puisqu’il permet aussi de rendre compte de « conseils d’utilisation » d’une instance normalisatrice ; par exemple, le terme senseur, pourtant largement utilisé à MMS est déconseillé par le Journal Officiel car il s’agit de la francisation de sensor ; les termes conseillés sont capteur et détecteur, seul le premier est utilisé à MMS. La BCT permet de rendre compte du fonctionnement de l’usage de ces trois termes.

Figure 2 : Exemple de traitement de recommandations par un organisme officiel

Autre exemple, le service qualité, commanditaire du projet EDF (voir présentation en annexe) ne souhaitait pas que le sigle PVC soit utilisé pour renvoyer à Plan de Validation Composant. Cette recommandation a été indiquée dans le champ terme/concept. On voit bien ici combien la nécessité de constituer un modèle qui soit aussi économique que possible peut amener à ce qui peut apparaître comme des contradictions du point de vue linguistique. En effet, ce choix de modélisation nous a amenés à rendre compte dans le même champ de ce qui relève de l’usage attesté et de ce qui relève de l’usage souhaité (par les instances de normalisation). L’important est alors de maîtriser parfaitement le mode de représentation choisi et de contrôler comment se décide l’instanciation des champs définis.

capteur détecteur senseur

# capteur

Utilisé à MMS, conseillé JO

Non utilisé MMS

64

Dans la perspective de maintenir un lien fort entre le corpus et la modélisation qui en est proposée, des éléments du corpus peuvent être utilisés pour justifier tel ou tel choix de modélisation, tout particulièrement pour justifier les relations conceptuelles comme dans l’exemple suivant, issu du corpus fourni par EDF :

Le cycle de développement composant se déroule pendant la phase de réalisation

Figure 3 : Exemple de relation entre concepts justifiée par un extrait de corpus

Ainsi, lorsque le modèle est mis en oeuvre dans un outil (comme dans l’outil GEDITERM), le corpus est stocké en même temps que les données du modèle de façon à ce que des liens puissent être établis entre certaines données du modèle et des passages du corpus qui justifient la modélisation choisie. Ces liens données/corpus permettent à un utilisateur humain de comprendre comment s’est faite l’élaboration du modèle. La lecture des seuls passages sélectionnés peut aussi donner un bon aperçu du contenu du texte puisque ces passages ont été choisis en fonction de leur pertinence sémantique, c’est-à-dire, le plus souvent, de leur capacité à exprimer une relation sémantique. Du point de vue de la construction de la BCT, la nécessité d’établir ces liens peut paraître fastidieuse (et elle l’est souvent). En revanche, elle amène les linguistes à avoir une réflexion sur leur manière d’analyser les données textuelles et à essayer de systématiser cette analyse.

1.2. Représentation et calcul des relations sémantiques : synonymie, homonymie,