• Aucun résultat trouvé

Identification de relations conceptuelles en corpus spécialisés : mise en saillance définitoire métalinguistique vs épilinguistique

N/A
N/A
Protected

Academic year: 2021

Partager "Identification de relations conceptuelles en corpus spécialisés : mise en saillance définitoire métalinguistique vs épilinguistique"

Copied!
12
0
0

Texte intégral

(1)

HAL Id: halshs-01591995

https://halshs.archives-ouvertes.fr/halshs-01591995

Submitted on 22 Sep 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Identification de relations conceptuelles en corpus

spécialisés : mise en saillance définitoire métalinguistique

vs épilinguistique

Anne Condamines

To cite this version:

(2)

Identification de relations conceptuelles en corpus spécialisés : mise en saillance définitoire métalinguistique vs épilinguistique.

Anne Condamines, CNRS CLLE-ERSS, UMR 5263

Résumé : L’article concerne la construction de réseaux terminologiques à partir de corpus. Au-dela des marqueurs métalinguistiques, traditionnellement utilisés pour repérer dans les textes les relations unissant les termes, il présente des marqueurs

épilinguistiques dont le rôle dans le repérage de relations ne peut se faire que par la

prise en compte d’éléments de co-texte ou concernant la nature du genre textuel dont relève le texte. Le rôle du linguiste consiste à décrire précisément le fonctionnement de ces marqueurs, c’est-à-dire à leur donner un statut de marqueur métalinguistique. Deux exemples de tels marqueurs sont présentés : la reprise par une anaphore infidèle et la préposition chez.

Abstract : The article deals with the issue of building terminological networks from corpora. Beyond the well-known metalinguistic patterns using for spotting the links between terms within texts, it presents epilinguistic patterns. For being useful in the spotting of relations, the description of these patterns must involve co-text elements or textual genre nature. So, the linguist’s role becomes to describe precisely these patterns, in order to give them a metalinguistic pattern status. Two examples of epilinguistic patterns are given: indirect anaphora and the preposition chez.

Mots-clés : marqueur épilinguistique, marqueur méronymique, relation conceptuelle, réseau terminologique

Key-words : epilinguistic pattern, metalinguistic pattern, conceptual relation, terminological network.

1. Introduction

L’étude que nous présentons a pour origine une problématique qui se situe à l’interface de la linguistique et du Traitement automatique de la langue (TAL). Un de nos objectifs est de montrer que ce point de départ commun, ré-interprété dans les termes de l’analyse linguistique, ouvre des perspectives inédites pour l’analyse de corpus spécialisés et permet d’interroger les modes de collaborations possibles entre informatique et linguistique. La question de départ est celle de la possibilité d’utiliser, en corpus spécialisés, des marqueurs linguistiques afin de repérer systématiquement des relations conceptuelles. Pour les informaticiens, cette idée de systématicité suppose que, lorsqu’ils seront utilisés, ces marqueurs permettront d’identifier avec le moins de bruit possible (résultats retenus par l’outil mais non pertinents) des triplets terme-relation-terme, qui contribuent à définir les termes. Un grand nombre d’études se sont ainsi développées sur la description de ces marqueurs. Dans la grande majorité des cas, les marqueurs étudiés sont ceux que, traditionnellement, on désigne en linguistique sous l’appellation « marqueurs métalinguistiques ». Mais différents types d’analyses mettent en évidence que, dans la construction de ces triplets, les humains (terminologues ou linguistes) utilisent un certain nombre de données langagières dont la vocation n’est pas initialement d’être utiles à l’identification de relations. Nous proposons d’appeler ces marqueurs des « marqueurs épilinguistiques », en reprenant un terme de Culioli (Culioli, 1999). A travers la description du fonctionnement de ces marqueurs, qui donne un rôle important à la notion de genre textuel, nous montrerons comment la construction d’une interprétation (ici d’un triplet terme-relation-terme) peut être complexe et difficile à décrire sous la forme d’une « simple » structure composée de formes utilisable par des outils. La seconde partie présente le cadre d’étude (marqueurs de relations conceptuelles (métalinguistiques vs épilinguistiques)), les deux suivantes présentent deux études montrant comment la notion de marqueurs épilinguistiques peut se décliner. La partie 5, quant à elle, situe les marqueurs épilinguistiques par rapport à la notion d’indice.

2. Problématique

(3)

que, à la suite des travaux de Culioli, nous définissons comme relevant d’un fonctionnement moins conscient que dans le cas des marqueurs métalinguistiques.

2.1 Les marqueurs de relations conceptuelles

Depuis une vingtaine d’années, deux communautés se sont rapprochées avec un objet d’étude similaire : la construction de réseaux terminologiques, c'est-à-dire d’un ensemble de triplets du type [satellite a-pour-partie charge utile], [satellite d’observation de la terre est-un satellite] intégrés les uns avec les autres. Il s’agit d’une part de la linguistique-terminologie (dans l’objectif de construire des référentiels terminologiques) et d’autre part de l’ingénierie des connaissances (dans l’objectif de construire des ontologies1). Dans les deux cas, la construction de ces réseaux se fait à partir de corpus spécialisés et, dans les deux cas, les communautés de chercheurs ont bénéficié des recherches en traitement automatique des langues qui ont été dédiées à deux tâches : repérer des termes et repérer des relations aussi systématiquement que possible dans les textes (Auger et al., 2008), (Bourigault et al., 2001). De nombreux travaux se sont ainsi développés pour essayer d’identifier et de décrire des « marqueurs de relation », c’est-à-dire des éléments morpho-lexico-syntaxiques ou même typo-dispositionnels qui permettent de repérer une relation conceptuelle. Cette idée de marqueur est travaillée depuis longtemps en linguistique, en particulier par les sémanticiens ou les lexicologues qui cherchent à construire des définitions à partir de corpus. En effet, le repérage de relations conceptuelles peut constituer une première étape pour élaborer des définitions (Flowerdew, 1992), (Pearson, 1996).

Ce n’est que récemment que la systématicité du fonctionnement des marqueurs de relation a été interrogée. Il s’agit de savoir si les mêmes marqueurs se retrouvent d’une langue à l’autre (et correspondent ainsi à la traduction l’un de l’autre), d’un domaine à l’autre et même, d’un genre textuel à l’autre. C’est précisément ces types de variation qui sont interrogées dans le projet ANR CRISTAL (Contextes RIches en

ConnaissanceS pour la TrAduction terminoLogique, ANR-12-CORD-0020-03).

Nous nous sommes particulièrement intéressée à la variation en fonction du genre textuel. Ainsi, dans différentes études que nous avons menées, nous avons noté que le genre textuel correspondait à un paramètre très pertinent pour la description d’un certain nombre de marqueurs. Pour expliquer la finesse de fonctionnement des marqueurs dans ces cas-là, la notion de marqueur épilinguistique, (nous empruntons ce terme « d’épilinguistique » à Culioli, voir ci-dessous), nous semble particulièrement adaptée. Nous allons montrer pourquoi dans le prochain paragraphe.

2.2 Marqueurs métalinguistiques vs épilinguistiques

Dans tous les travaux que nous avons mentionnés, qu’ils soient en informatique ou en linguistique, la notion de marqueur de relation s’inscrit dans une sorte de schéma communicationnel très stable qui fait intervenir trois types de protagonistes :

- un locuteur ou rédacteur collectif, c’est-à-dire un locuteur qui parle en tant qu’il représente une communauté (de domaine de compétences et de mode d’expression langagière) (notons que les textes utilisés pour construire des réseaux terminologiques sont justement sélectionnés pour leur capacité à représenter la connaissance « consensuelle » d’un domaine) ;

- des interlocuteurs ou lecteurs, dont les locuteurs connaissent au moins en partie les besoins et intérêts ;

- des interprètes (terminologues ou ingénieurs de la connaissance) qui ne sont qu’exceptionnellement les interlocuteurs initiaux pressentis.

Dans cette situation, la notion de marqueur métalinguistique de relation conceptuelle est associée à une intention similaire de la part de tous les protagonistes qui veulent

1

« On peut caractériser une ontologie comme une structuration des concepts d’un

(4)

construire un réseau terminologique : celle de mettre en saillance certains termes, en donnant une information sur la façon dont ils sont en relation avec d’autres termes. Pour tous ces intervenants, les marqueurs sont associés à une volonté définitoire qui se caractérise par le fait que cette intention définitionnelle est consciente et partagée par l’ensemble des protagonistes. Dans une définition proposée par Culioli, on retrouve cette idée de systématicité :

Ce qui est important, c’est que ça [les marqueurs d’opération] déclenche […] ce qui fait que les gens puissent avoir, devant tel texte, telle interprétation (Culioli, 2002, 175)

C’est d’ailleurs cette systématicité de l’interprétation qui fait que de tels marqueurs peuvent être décrits sans que le contexte sémantico-syntaxique ou situationnel soit pris en compte. C’est par exemple le cas d’un marqueur d’hyperonymie comme « tous les X sauf le/la Y »

(1) Tous les Invertébrés sauf les Insectes se rangent dans les Vers (biologie)

ou encore « déterminant X a pour partie déterminant Y et déterminant Z ». Ces marqueurs représentent les marqueurs « idéals » pour les informaticiens car ils génèrent très peu ou même pas du tout de bruit : tous les extraits proposés par les outils lorsque ces contextes sont recherchés « expriment » une relation conceptuelle. Ils sont malheureusement très rares. La plupart des marqueurs doivent, pour fonctionner, prendre en compte une caractérisation soit dans la structure elle-même, soit dans le contexte plus large dans lequel elle apparaît (Aussenac et al., 2012). Ainsi, une structure comme « X comprend Y (et Z) » ne constitue un marqueur de relation que si X n’est pas un animé. Le marqueur fonctionne alors quel que soit le domaine ; c’est le cas en (2) et (3).

(2) L’acceptation client comprend l’ensemble des opérations de contrôle (Corpus

technique EDF)

(3) Un système vertical comprend deux piliers antérieurs (naso-ethmoïdo-frontal), deux piliers latéraux (malaire et zygomatique), deux piliers postérieurs (ptérygoïdiens) (Corpus de médecine).

En revanche, ce même marqueur, sans cette restriction sur la nature du sujet, ne fonctionne pas dans l’exemple (4).

(4) Un français anglophone comprend le français et l’anglais

Remarquons que plusieurs études ont montré que les textes les plus riches en marqueurs (entendu comme marqueurs métalinguistiques) relèvent du genre didactique (Bowker et al., 2002), (Rebeyrolle, 2000). Cela n’a rien d’étonnant car ce qui caractérise ce genre de textes, c’est justement que la volonté définitoire y est manifeste. Les rédacteurs savent qu’ils vont être lus par des apprenants, qui ont besoin d’avoir les idées claires sur les concepts d’un domaine. Ils vont donc utiliser des moyens linguistiques connus et partagés qui signaleront qu’à certains endroits du texte (ceux qui utilisent des marqueurs de relation explicites), les lecteurs vont pouvoir trouver des éléments de définition. Ce sont ces mêmes « endroits » que vont utiliser principalement (en tout cas dans un premier temps) les terminologues qui travaillent « à la main » mais aussi les informaticiens qui développent des outils d’extraction de relations. Ces portions de textes ont été appelés « Contextes Riches en Connaissances » (Knowledge Rich Contexts) par I. Meyer (Meyer, 2001).

Toutefois, d’autres études ont mis au jour le lien entre marqueurs de relation et genres textuels, alors que ces genres n’impliquent pas forcément une situation didactique (Condamines, 2002, 2008), (Marshman et al., 2008). C’est à la suite d’études de ce type que nous proposons de situer les marqueurs métalinguistiques par rapport à d’autres marqueurs, que nous proposons d’appeler épilinguistiques. Comme le notent plusieurs auteurs, épilinguistique et métalinguistique ne s’opposent pas (en tout cas dans une perspective linguistique) mais se situent dans un continuum qui va du non-conscient au non-conscient.

(5)

métalinguistique, c’est-à-dire représenté, construit et manipulé en tant que tel à l’aide d’un métalangage […] (Auroux, 1989, 18).

Epilinguistique et métalinguistique ne s’opposent pas mais au contraire le second se nourrit constamment du premier. (Paillard, 2006, 176).

Le rôle du linguiste, en particulier dans le cas où il veut proposer des résultats qui seront utilisables par des outils, est très précisément de permettre à des marqueurs épilinguistiques d’accéder au statut de marqueurs métalinguistiques. En d’autres termes, il s’agit dans un premier temps de rendre conscients à la fois leurs pairs linguistes et leurs collègues informaticiens de la façon dont un contexte (ou des contextes) peu(ven)t être utilisé(s) pour construire une relation conceptuelle et, dans un deuxième temps, de proposer un mode de description qui soit automatisable.

Dans les deux parties suivantes, nous allons présenter des exemples de fonctionnement de deux marqueurs épilinguistiques et montrer comment, par la description précise de leur fonctionnement, nous pouvons leur donner un statut métalinguistique.

3. Exemple de la reprise par une anaphore infidèle

Les anaphores infidèles sont des syntagmes nominaux dont la tête est différente de celle de l’antécédent (Le Pesant, 2002, 39).

Différents auteurs ont interrogé le type de relation qui peut être impliqué, dans ce cas de figure, entre l’élément anaphorique et son antécédent (Apothéloz et al., 1999), (Cornish, 1986), (Lerat, 1981). Il s’agit en particulier de cas où le nom anaphorique est un synonyme (X vient d’écrire un livre. Cet ouvrage…), un sigle (Astrium a construit

le Système de Contrôle d’Attitude et d’Orbite du projet. Ce SCAO…) la nominalisation

d’un verbe situé dans le contexte précédent (X a décrit la scène du meurtre. Cette

description…) ou encore une métaphore ou un terme métalinguistique. Ces cas nous

intéressaient moins dans notre perspective et nous les avons regroupés, dans le tableau 1, sous la rubrique « autres ».

Une relation également repérée par les auteurs précédemment cités nous a particulièrement intéressée dans une étude que nous avons menée en 2005 (Condamines, 2005). Il s’agit de la relation d’hyperonymie qui est présente dans un exemple proposé par Cornish :

(5) A bomb exploded yesterday in a car. No-one was hurt, but the vehicle was completely destroyed (Cornish, 1986).

Le point de départ de notre étude est venu de l’hypothèse que, dans des corpus techniques, la relation entre le nom anaphorique et son antécédent pourrait souvent être une hyperonymie et que, inversement, dans le cas où cette relation ne serait pas connue

a priori (cas du linguiste non spécialiste du domaine) elle pourrait être retrouvée dans

des corpus de ce type en sélectionnant les contextes correspondant à des anaphores infidèles.

Compte tenu de sa fréquence (voir ci-dessous), un autre type de relation a particulièrement attiré notre attention : la relation de supplétivité (Lerat 1981). Dans ce cas, le nom anaphorique ne reprend pas un autre nom mais tout un paragraphe ou une partie de paragraphe :

(6) la pression atmosphérique avait été évaluée il y a une trentaine d’années à 1 .12 de celle de l’atmosphère terrestre. On a réduit cette appréciation car Mariner 4 a trouvé qu’elle équivalait à 6 milibars […]. (Géomorphologie).

L’étude a été faite sur des corpus contrastés, trois manuels techniques, des extraits du Monde Diplomatique et un roman :

- Le roman, en l'occurrence Bel-Ami de Maupassant (Bel A) fait 170 200 mots.

(6)

géopolitique.

- Un premier manuel technique (Moug.) : « Méthode et Outils de Génie Logiciel pour l’Informatique Scientifique » constitué de 45 100 mots.

- Un deuxième manuel technique, également fourni par EDF (GDP) : « Guide de Planification » de 148 100 mots.

- Un manuel « scientifique » (Géo) : « Précis de géomorphologie », qui s’adresse aux étudiants débutants composé de 206 700 mots.

Précisons que nous n’avons travaillé que sur les anaphores avec déterminant démonstratif ce qui nous a permis de sélectionner un nombre plus restreint d’occurrences à examiner. Grâce à l’aide d’un collègue informaticien, L. Tanguy, qui a développé un programme pour cela, les exemples ont été sélectionnés automatiquement de la façon suivante : les ce/cet/cette/ces N sont repérés puis le programme recherche dans le paragraphe gauche si ce nom N apparaît déjà. Dans ce cas, la structure n’est pas retenue puisque l’anaphore n’est pas « infidèle ». Par ailleurs, nous avons constitué une stop-liste contenant un ensemble de N à exclure d’emblée soit parce qu’ils ont très probablement un sens déictique (ouvrage, colonne, article) soit parce qu’ils font partie d’adverbiaux plus ou moins figés (moment, époque, (que l’on trouve dans des adverbiaux avec démonstratif du type à ce moment-là ou durant

cette époque)…).

Pour chacune des 1339 occurrences, nous avons caractérisé la relation entre le N et son antécédent. Le tableau 1 rend compte des résultats obtenus.

Tableau 1 : Répartition en types de relation anaphorique selon les corpus Corpus Hy Supp. Autre Total

GEO 26 % 50% 24% 100% (266) GDP 32% 55% 13% 100% (246) Moug 60% 31,5% 9,5 100% (107) LMD 19% 64,5% 16,5% 100% (415) Bel A. 15,5% 47% 37,5 % 100% (305)

Ces résultats montrent que notre hypothèse n’a pas été, au moins dans un premier temps, confirmée. En effet, hormis pour Moug (60%), la relation d’hyperonymie n’est pas massive entre le N anaphorique et le N anaphorisé dans les manuels (26 % pour GEO et 32 % pour GDP) même si elle est plus présente que dans les autres sous-corpus. En revanche, dans tous les corpus (hormis pour Moug.), la relation la plus fréquemment présente est la supplétion, c’est-à-dire l’anaphorisation d’une portion de phrase ou de paragraphe et pas d’un GN. Cette structure ne peut donc pas être utilisée pour repérer automatiquement des triplets complets du type [N1 est hyperonyme de N2]. En revanche, nous nous sommes intéressée aux noms « supplétifs » pour nous rendre compte que, dans les manuels, ils avaient un ensemble de caractéristiques :

(7)

(7) Rédaction du PGC. Cette responsabilité incombe au Responsable Assurance Qualité

N’est pas suffisant pour décider du statut du N responsabilité (comme classifieur ou comme caractériseur),

l’extrait :

(8) Quatre types de responsabilités sont associés au Plan de Gestion de Configuration

comporte un marqueur explicite d’hyperonymie (Dét numéral + types de + N), qui permet de comprendre que responsabilité est un hyperonyme dans le corpus. - Plusieurs de ces noms sont répertoriés à la fois dans la rubrique « supplétifs » et

dans la rubrique « hyperonymes ».

- La plupart de ces noms sont des têtes de polytermes qui sont le plus souvent des hyponymes du terme désigné par la tête du syntagme (responsable de la rédaction

du GDP/responsable).

Ces caractéristiques convergent pour permettre de penser que, dans les manuels, les N de la structure [ce N] peuvent jouer un rôle de « père » (selon le terme utilisé en ingénierie des connaissances) dans les taxinomies, c’est-à-dire d’hyperonyme. Ainsi, la reprise par une anaphore infidèle ne serait pas un marqueur complet d’hyperonymie (puisque l’hyponyme n’est souvent pas accessible) mais certainement un marqueur d’hyperonyme.

En d’autres termes, la recherche des anaphores infidèles démonstratives dans des corpus de relevant du genre « manuels » devrait permettre de repérer des têtes de taxinomies, d’autres contextes devant être recherchés pour trouver les hyponymes (Condamines et al., 2006) et ainsi compléter le triplet. Evidemment, rien, dans l’anaphore infidèle ne peut être considéré, avant étude approfondie, comme relevant du marquage explicite d’une relation. En revanche, deux éléments dont les locuteurs ne sont pas conscients : le principe même du fonctionnement de l’anaphore, qui est basé sur une présupposition d’existence d’un antécédent discursif et la connaissance « inconsciente » de régularités dans le fonctionnement des genres textuels, en particulier des manuels, font que cette structure ce/cet/cette/ces N peut être considérée comme un marqueur d’hyperonyme dans les manuels. Le rôle du linguiste est ici patent : il est d’amener à la conscience les conditions qui font que l’anaphore infidèle peut jouer un rôle de marqueur de relation.

4. Exemple des énoncés contenant chez

C’est dans une thèse d’informatique (Morin, 1999) que nous avons rencontré l’idée que

chez pouvait être considéré comme un marqueur de méronymie. Effectivement dans un

énoncé comme :

(9) Chez les primates, la mandibule a des mouvements verticaux.

On peut comprendre que [mandibule est-une-partie de primate].

Toutefois, on sent bien qu’il est difficile de dire que chez « marque » cette méronymie. Pour comprendre le fonctionnement éventuel de chez comme marqueur, nous avons étudié un certain nombre de textes, relevant de domaines et genres différents et avons repéré les cas où l’interprétation méronymique était avérée (Condamines, 2001). Quatre corpus ont été constitués, faisant varier le domaine (sciences naturelles vs autres domaines, les articles ont été sélectionnés en fonction de leur appartenance domaniale) et le genre (didactique vs autre). Le corpus global était ainsi constitué

(8)

- Cahier de Claude Bernard (- didactique, + sciences naturelles) (CB) : 127 occurrences de chez.

- Articles de Le Monde (- didactique, + sciences naturelles) (LM) : 100 occurrences de chez.

- Encyclopaedia Universalis (- didactique, - sciences naturelles) (EU2): 78 occurrences de chez.

L’analyse s’est focalisées sur les relations existant entre le nom introduit par chez et un autre nom de la phrase2 avec lequel il est en relation « sémantique ». Nous avons identifié quatre types de cas :

- Relation méronymique (comme en (9)) - Relation spatiale, par exemple :

(10)Les pompiers ont repêché le chien avant de l’emmener se faire opérer chez un vétérinaire

- Autre type de relation, par exemple, hyponyme :

(11)Chez les moracées, les genres Lanessania et Antaris ont des états préfloraux.

- Pas de relation identifiable (l’aspect sémantique ne peut se manifester sous la forme d’une relation conceptuelle)

(12)L’arrivée du printemps crée une sorte de fièvre chez les observateurs d’oiseaux.

La répartition des différentes interprétations en fonction du genre/domaine est donnée dans le tableau 2.

Tableau 2. : Interprétation des énoncés en chez dans les textes relevant de différents genres textuels

Partie-tout

Autre relation

Localisation Autre Total

EU1 172 44,4% 215 55,6 % 0 0 387 CB 65 51,2 % 19 15% 7 5,5% 36 28,3% 127 LM 20 20% 27 27% 32 32% 21 21% 100 EU2 0 0 4 5,1% 74 94,9% 78

L’observation de ce tableau est très instructive. On voit en effet que, tout à la fois le domaine (sciences naturelles) et le genre textuel (didactique) jouent un rôle important dans le « marquage » de la méronymie.

En réalité, le fonctionnement comme marqueur de relation de la préposition chez fait intervenir différentes connaissances plus ou moins conscientes chez le locuteur et l’interpréteur :

2

Nous ne parlons pas ici des trois structures syntaxiques dans lesquelles peuvent apparaître

chez. Nous renvoyons le lecteur à l’article complet. Il ressort de cette étude que l’aspect

(9)

- La capacité de chez à topicaliser un élément, c’est-à-dire à lui donner un statut de thème.

- Découlant du premier élément, la nécessité de chercher quel élément de la phrase va être lié au nom introduit par chez et fournir des informations sur lui (rhème). - Le fait que, dans un texte ayant une visée didactique, particulièrement dans le

domaine des sciences naturelles, l’un des objectifs consiste à fournir une connaissance sur des êtres vivants, en particulier sur son anatomie (mais aussi sur son habitat, son mode d’alimentation….). C’est cette importance de la présentation d’informations anatomiques qui a pu faire penser que chez pouvait être un marqueur de méronymie.

Ce sont ces éléments qui, mis au jour et explicités, permettent de faire passer chez du statut de marqueur épilinguistique à celui de marqueur métalinguistique.

Ce n’est que lorsque cette fine analyse est terminée que l’on peut envisager de « rentabiliser » le repérage informatique et de tenir compte, au moment d’utiliser chez comme marqueur de méronymie, du domaine et du genre textuel, afin de limiter le bruit.

5. Marqueurs épilinguistiques ou indices ?

A partir des deux exemples que nous avons développés, on peut déduire que la possibilité d’utiliser certains passages de textes comme pour construire des relations, alors que ces passages ne sont pas explicitement en lien avec des relations, se fait de la manière suivante.

a) Un élément déclenche une possible interprétation : la présence de tel ou tel verbe, de telle ou telle préposition ou de telle structure. Cet élément déclencheur rappelle « l’indicateur linguistique » utilisé dans la méthode d’exploration contextuelle développée par Desclés et son équipe (Minel et al., 2005). Dans le cas d’un marqueur métalinguistique, cet « élément déclencheur » seul suffit pour garantir l’interprétation.

b) Dans la plupart des cas, pour conforter ou compléter l’interprétation, le lecteur/auditeur examine le co-texte et/ou la situation de communication (i.e, le genre textuel).

c) Si ce n’est pas suffisant pour assurer soit que l’interprétation peut se faire sous la forme d’une relation conceptuelle, soit qu’il s’agit de la bonne relation, il faut alors consulter, dans le corpus, d’autres occurrences des termes à l’étude.

Si l’on tient compte de la linéarité de la lecture et des capacités mémorielles de l’auditeur/lecteur, on pourrait associer l’étape b) au fonctionnement d’un marquage épilinguistique. L’interprétation peut être assez rapide. Mais si, dans une perspective de traitement automatisé, des caractéristiques de type sémantique doivent être prises en compte par des outils voulant intégrer ces marqueurs, l’opération peut être très coûteuse, voire impossible. En revanche, l’étape c), correspondant aussi à un fonctionnement de type épilinguistique demande une lecture/compréhension hypertextuelle, qui entraîne une déstructuration du texte afin de traiter dans le même mouvement de compréhension, l’ensemble des occurrences d’un texte. Ce mode de lecture est celui qui est proposé par les concordanciers. Mais il peut amener le linguiste/terminologue à devoir examiner un grand nombre d’occurrences ce qui est à nouveau très chonophage.

En résumé, dans la perspective de construire des réseaux de termes, trois types de fonctionnements linguistiques peuvent être décrits :

- Des marqueurs métalinguistiques dont l’interprétation est quasi immédiate et qui sont très faciles à utiliser automatiquement.

(10)

- Des marqueurs épilinguistiques du type « indices » qui demandent de faire intervenir non seulement le co-texte immédiat et/ou le genre textuel mais aussi l’ensemble des occurrences du terme dont on fait l’hypothèse qu’il peut être mis en relation. Les énoncés avec anaphore infidèle relèvent de ce type de fonctionnement.

Comme toujours en linguistique, il peut être difficile de décider si un élément langagier relève d’une catégorie de fonctionnement ou d’une autre.

On voit aussi que, si l’on se place dans la perspective de la mise en œuvre informatique et de l’utilisation par un utilisateur humain, il se peut que les choix des marqueurs les plus efficaces (c’est-à-dire qui font le moins appel à des ressources extérieures, surtout si ces ressources sont sémantiques et donc potentiellement « incertaines »), soient ceux qui, du point de vue linguistique seront les plus épilinguistiques (les moins conscients, qui relèvent plus d’un fonctionnement de type indice). En effet, on pourra compter alors sur la capacité de l’humain à interpréter un ensemble d’indices comme constituant un marqueur indubitable de relation. Mais pour en arriver à ce type de conclusion, il faut passer par une description linguistique fine du fonctionnement des éléments langagiers susceptibles de contribuer à construire des triplets terme-relation-terme.

6. Conclusion

Le terme de mise en saillance définitoire utilisé dans le titre de cet article demande que soient précisées ce que l’on appelle définition et mise en saillance dans les corpus spécialisés. Une des évolutions des travaux en terminologie dans les années 1990 a été d’aller vers une plus grande systématisation des définitions, ce qui a conduit à les représenter, dans la mesure du possible, par des relations explicites entre termes. La terminologie s’est ainsi rapprochée de l’ingénierie des connaissances, tant dans les modes de représentations de la connaissance que dans la mise en œuvre d’outils d’exploration de textes. En effet, ces deux communautés cherchent à repérer des triplets terme-relation-terme dans des textes spécialisés aussi systématiquement que possible et mettent en œuvre à cet effet des marqueurs de relation conceptuelle. Or, si les informaticiens se focalisent sur des marqueurs très explicites et utilisables dans tous les domaines et textes indépendamment de leur genre textuel, les linguistes terminologues peuvent proposer d’autres modes de caractérisation. Les fonctionnements sont alors basés sur ce que nous avons proposé d’appeler des marqueurs épilinguistiques qui ne sont pas associés à une mise en saillance consciente mais qui font appel à des compétences langagières communes à tous les locuteurs. Ainsi que nous espérons l’avoir montré avec l’exemple de l’anaphore démonstrative infidèle et celui de phrase contenant chez, la description de ces éléments afin d’expliquer la possibilité de leur faire jouer un rôle de marqueurs de relations (et donc de les faire passer du statut de marqueurs épilinguistiques à celui de marqueurs métalinguistiques) demande que des analyses linguistiques fines soient menées. Ces analyses peuvent être chronophages, ce qui ne correspond souvent pas aux besoins des informaticiens mais, au final, elles permettent de proposer des marqueurs qui génèrent peu de bruit. Dans cette collaboration avec les informaticiens, qui s’inscrit dans la thématique de l’extraction d’information, de nouvelles réflexions sont ouvertes pour la linguistique. Les contraintes de représentation qu’imposent les outils informatiques deviennent ainsi un contexte d’étude stimulant pour la linguistique, à condition de ne pas sacrifier la finesse de la description linguistique sur l’autel de la supposée efficacité informatique.

Apothéloz, D., Reichler-Béguelin, M.-J. (1999). Interpretations and functions of demonstrative NPs in indirect anaphora. Journal of Pragmatics, 31, 363-397.

(11)

“Pattern-based approaches to semantic relation extraction”. Amsterdam/Philadelphia: John

Benjamins Publishing Company, 1-19.

Auroux, S. (1989). « Introduction ». S.Auroux (ed) : Histoire des idées linguistiques,

Tome 1 : la naissance des métalangages. Liège-Bruxelles : Mardaga. 13-35

Aussenac-Gilles, N., Condamines, A. (2012). Variation and semantic relation interpretation : Linguistic and processing issues. In Aguado de Cea et al. (Eds.),

Proceedings of the 10th Terminology and Knowledge Engineering Conference (TKE 2012), 106-122.

Bourigault, D., L’homme, M.-Cl et Jacquemin, C. (eds) (2001). Recent Advances in

Computational Terminology. Amsterdam/Philadelphia : John Benjamins.

Bowker, L. et J. Pearson (2002). Working with Specialized Language: A Practical

Guide to Using Corpora. London/New York: Routledge.

Condamines, A. (2001). Chez dans un corpus de sciences naturelles : un marqueur de méronymie ?. Les Cahiers de Lexicologie n° 77. 2000-2, pp. 165-187.

Condamines, A. (2002). Corpus Analysis and Conceptual Relation Patterns.

Terminology, volume 8 number 1. 2002, pp.141-162.

Condamines, A. (2005). Anaphore nominale infidèle et hyperonymie : le rôle du genre textuel. Revue de Sémantique et Pragmatique n°18. pp.23-42.

Condamines, A. (2008). Taking genre into account for analyzing conceptual relation patterns . Corpora. Vol.8., 115-140.

Condamines, A. et Jacques, M.-P. (2006). Le repérage de l’hyperonymie par un faisceau d’indices : mise en question de la notion de « marqueur ». Journée « Textes et

Connaissances », Nantes : Semaine de la connaissance, 185-194.

Cornish, F. (1986). Anaphoric Relations in English and French: A Discourse

Perspective. London: Croom Helm.

Culioli, A. (2002). Variations sur la linguistique. Paris : Klincksieck.

Culioli, A. (1999). Pour une linguistique de l’Enonciation. Formalisation et opérations

de repérage. Paris : Ophrys.

Flowerdew, J. (1992). Salience in the performance of one speech act: the case of definitions.

Discourses Processes, Vol. 15, Numéro 2, pp 165-181.

Le Pesant, D. (1998). Utilisation des propriétés des anaphores dans la définition de certaines relations lexicales. Langages n° 131 : 115-124.

Lerat, P. (1981). Les noms de relation, Cahiers de lexicologie, 39-2. : 55-65.

Marshman, E., L'Homme, M.-C. et Surtees, V. (2008). Portability of cause-effect relation markers across specialised domains and text genres: a comparative evaluation.

Corpora, 3, pp.141-17.

Meyer, I. (2001). Extracting knowledge-rich contexts for terminography: A conceptual and methodological framework. In Bourigault, D., Jacquemin, C. & L'Homme, M.-C.

Recent Advances in Computational Terminology. 279-302.

(12)

Morin, E. (1999).Extraction de liens sémantiques entre termes à partir de corpus de

textes techniques. Thèse en Informatique, Université de Nantes, Décembre 99.

Paillard, D. (2006). De la reconnaissance. In D. Ducart et C. Normand (dir.) : Antoine

Culioli, un homme dans le langage. Paris : Ophrys.169-184.

Pearson, J. (1996). The Expression of Definition in Specialized Texts: A Corpus-based Analysis. In Proceedings of 7th International Congress on Lexicography

(EURALEX'96). 817-24, Goteborg, Sweden.

Rebeyrolle, J. (2000). Forme et fonction de la définition en discours. Thèse de Sciences du langage, Université Toulouse Le Mirail.

Références

Documents relatifs

for the estimation of v with both algorithms and their averaged versions as a function of the number of observations. These estimates are obtained over 100 independent Monte Carlo

Abstract—This paper proposes a Model Predictive Control (MPC) for a High Voltage Direct Current (HVDC) inserted in an AC network, in order to improve the dynamic behavior

Les entretiens individuels de recherche menés auprès de 14 élèves de cycle 3 révèlent que, pour une très large majorité des enfants, l’ambiance au sein des TAP

Dans cette sous-section, nous suivons la même procédure de réglage que celle utilisée pour les méthodes convexes afin de comparer fidèlement les 3 méthodes gloutonnes présentées

Notre analyse a fait ressortir trois niveaux différents dans l’architecture d’un environnement de télé-enseignement : le niveau Support, le niveau Structure et le niveau

1 Kaplan –Meier analyses indicate the natural history of thirteen patients with CTX for time to diarrhea, cataract, school difficulties, walking difficulty and psychiatric

Within BAD-JAM (Bias ADJustment for Agricultural Models), started in Fall 2017, a community of climate modelers and statisticians (au- thoring this article) has used 13 B-A

Les expériences que nous avons faites à l'aide d'un OPO NT242 d'EKSPLA émettant des impulsions de 5ns avec un taux de répétition de 1kHz à une longueur d'onde qui peut