• Aucun résultat trouvé

CHAPITRE III : CONSTITUTION DE BASES DE CONNAISSANCES TERMINOLOGIQUES :

1. D U CORPUS A LA BCT : MISE EN PLACE ET PROBLEMATIQUES

1.3. Constitution du corpus

1.3.1 Le problème de la clôture

Dans la perspective de la terminologie traditionnelle, le corpus et son statut dans l’étude est très rarement problématisé. On considère qu’il y a des langues de spécialité par domaines et la difficulté est tout entière dans la nécessité de définir ces domaines ; il s’agit moins d’un

68

problème linguistique que d’un problème cognitif. A l’intérieur du système autonome garanti par la notion de domaine, tout ce qui permet d’accéder au fonctionnement jugé propre à ce domaine est pris en considération et retenu comme attestation : textes de toutes sortes, entretiens avec des experts, glossaires déjà existants…

On retrouve le même type de perception du domaine comme garant de la cohérence dans la théorie des sous-langages où la notion de clôture est fondamentale. Le corpus constitué pour étudier le sous-langage à l’œuvre dans ce domaine joue un rôle de référence ; il doit donc être très représentatif du système que l’on veut décrire.

Dans ces deux approches, la notion de clôture est donc clairement associée à celle de système autonome :

« Les composantes du texte spécialisé sont étudiées dans le cadre de la linguistique de spécialité qui tient pour acquis que la langue de spécialité (LSP) peut être étudiée comme un système linguistique et opposée à des ensembles mieux connus, comme la langue commune. » (Auger et L’homme, 1995).

« Une question que l’on peut se poser, selon Harris, est celle de savoir si l’on n’aurait pas intérêt à considérer que les langages sont des systèmes " linguistiques " spécifiques plutôt que des sous-langues d’une langue naturelle. » (Dachelet, 1994, 111).

Ainsi, s’il peut y avoir clôture d’un corpus, c’est parce que cette idée est sous-tendue par la notion de système. Cela permet aussi de ne pas considérer le corpus comme un ensemble d’attestations mais plutôt comme des manifestations linguistiques d’un système sous-jacent que l’on peut mettre au jour. Une telle conception permet donc de décrire une langue (que l’on dit spécialisée) et pas seulement un discours. Dans (Condamines, 1997), j’évoque cette opposition langue/discours en essayant de montrer qu’une des conditions de passage du discours au système est celle d’un locuteur collectif qui permet de stabiliser en partie (et de donner un sens à) des régularités ; mais il est peu probable que ce locuteur collectif soit systématiquement assimilable à un locuteur compétent dans un domaine spécialisé. Ce locuteur collectif peut même n’avoir une pertinence que temporaire : le temps de la réalisation d’un projet ou de la rédaction d’un manuel, la situation de co-locution et l’objectif commun de cette collaboration créant en eux-mêmes des conditions suffisantes pour que s’instaurent des régularités d’usage constatables en corpus.

Cette idée de clôture permettant de délimiter un système autonome est évidemment séduisante et, d’une certaine façon, elle est à la base de notre point de vue sur les BCT, qui prennent le corpus pour référence. En effet, nous cherchons à décrire au plus près les régularités qui apparaissent en corpus avec l’hypothèse que ces régularités permettront de travailler sur l’ensemble du corpus en faisant appel le moins possible à des connaissances extérieures. Dans le même temps, les expériences que nous avons menées sur des corpus nous montrent que le seul recours au corpus est impossible. Même si la plupart des choix de modélisation sont inspirés par des éléments du corpus, il faut reconnaître que des fonctionnements sont décrits dans la BCT qui n’apparaissent pas dans le corpus comme tels mais qui font appel à des connaissances que nous avons sur le fonctionnement linguistique, c’est-à-dire, d’une certaine façon, des connaissances que nous avons rencontrées dans d’autres corpus, d’autres productions qui ont précédé notre analyse du corpus à l’étude, des régularités de différente nature que nous avons intégrées inconsciemment. Dans ce cas-là, la nécessité de faire des choix est encore plus cruciale car ils ne peuvent être étayés par des passages du corpus. Prenons un exemple. Dans un corpus sur les maladies coronariennes31, plusieurs noms qui dénomment des affections potentielles des artères ont été repérés : lésion, obstruction,

31 Il s’agit du corpus MENELAS constitué par les membres du groupe DIAM de l’AP-HP et qui a été mis à la disposition du groupe TIA afin de servir de matériau d’étude commun.

69

sténose, occlusion, réocclusion. Pour la plupart de ces noms, on trouve un dérivé de type

adjectival :

Lésion d’une artère artère lésée Sténose d’une artère artère sténosée Occlusion d’une artère artère occluse

En revanche, on ne trouve ni artère obstruée ni artère réoccluse. Ces deux termes ont un statut différent puisque obstrué fait partie des éléments connus de la langue alors que réocclus n’en fait pas partie. Que décider alors ? Qu’artère obstruée peut être intégré comme élément terminologique mais pas artère réoccluse ? Que la régularité de la dérivation est suffisante pour que l’on puisse retenir également artère réoccluse ? Que l’on décide de demander à un expert lesquels de ces deux termes il accepte (et il n’est pas rare que les experts, eux-mêmes influencés par leur compétence de locuteurs de la langue et des règles de dérivation aient des jugements bien plus tolérants que les productions réelles que l’on trouve en corpus)? Quel que soit le choix, doit-on conclure que le corpus n’était pas assez important et donc avait été clos trop tôt, i.e, qu’il ne comportait pas assez de données ?

Même si des éléments quantitatifs interviennent dans la constitution d’un corpus (Habert et al., 1998), aucun corpus, aussi volumineux soit-il ne peut prétendre être parfaitement clos : cela signifie qu’en réalité, même constitué avec le plus grand soin, un corpus ne se suffit pas lui-même pour son interprétation. Outre des connaissances sur les éléments extra-linguistiques qui ont présidé à sa constitution, le contexte au sens large, son interprétation fait nécessairement appel à des connaissances linguistiques, c’est-à-dire à des connaissances acquises lors de l’interprétation, au sens large de compréhension, d’autres textes, c’est-à-dire de manifestations linguistiques contextualisées. Bien entendu, le corpus à l’étude doit entretenir un lien étroit avec la situation extra-linguistique dans laquelle s’inscrit son interprétation ; il doit donc être constitué avec cet objectif. A un moment donné, on va le déclarer clos mais il faudra alors savoir que cela ne signifie pas qu’il aura un fonctionnement parfaitement autonome. Il aura un statut spécial qui lui confèrera un statut de référence fort mais pas d’autonomie complète ; comme le dit François Gaudin :

« …Cette relative clôture existe dans les faits, dans les objets étudiés… mais la pensée, les mots ne connaissent pas de frontières… » (Gaudin, 1995, 229).

Par ailleurs, même, si l’on peut mettre au jour des régularités dans un tel corpus, ces régularités ne sont pas en lien seulement avec un domaine défini a priori mais avec un ensemble d’éléments situationnels dont le domaine (par exemple, si l’on travaille sur un corpus provenant de Matra Espace, le domaine spatial sera à prendre en considération). Ce critère du domaine est d’ailleurs souvent difficile à délimiter : lorsque, dans le projet SGGD, nous avons à travailler sur un corpus traitant de la circulation dans l’agglomération toulousaine, quel domaine est concerné ? Est-ce que la « circulation automobile » constitue un domaine qu’on aurait pu déterminer a priori ?

Parfois, les contraintes extra-linguistiques qui ont permis de stabiliser les régularités d’usage sont si fortes que l’on peut se demander comment on pourra dégager les résultats de cette gangue contextuelle pour pouvoir les réutiliser tels quels dans d’autres analyses. Dans le chapitre 5, sur les relations conceptuelles, je donne des pistes pour cette généralisation. La difficulté vient donc de concilier à la fois le dynamisme de la langue en lien avec des situations extra-linguistiques toujours mouvantes et la nécessaire stabilisation que requiert une description « scientifique ».

70