Le problème du concept - L E CONCEPT DE BCT : CARACTERISTIQUES DU MODELE DE DONNEES

CHAPITRE II : LES BASES DE CONNAISSANCES TERMINOLOGIQUES

2. L E CONCEPT DE BCT : CARACTERISTIQUES DU MODELE DE DONNEES

2.2. Le problème du concept

La notion de concept est utilisée par un grand nombre de disciplines : linguistique, psychologie, terminologie, pédagogie, représentation des connaissances… pour n’en citer que quelques-unes. Mais chaque utilisation prend un sens différent selon le point de vue que l’on adopte. Si cette notion a pu servir de point de contact entre l’IA et la terminologie, cela s’est souvent fait au prix d’une occultation de leurs points de vue. Or, si ce même terme peut être utilisé à la fois en terminologie et en IA, il est nécessaire de mettre au jour ce qui constitue les différences dans les deux disciplines. Alors seulement peut-on caractériser la complémentarité des disciplines et leurs apports mutuels.

2.2.1 Concept et terminologie

La notion de concept est à la base de la plupart des travaux en terminologie, en tout cas dans une vision traditionnelle. Dans ce type d’approche, un terme sert à désigner un concept, également appelé notion et considéré comme préexistant :

« Le terme se définit comme unité signifiante constituée d’un mot (terme isolé) ou de plusieurs mots (termes complexes) qui désigne un concept, de façon univoque à l’intérieur d’un domaine … » (OLF, 1985).

« Terme : désignation au moyen d’une unité linguistique d’une notion définie dans une langue de spécialité. » (ISO 1087, 1990).

Il faut noter que ce point de vue s’intègre dans une vision d’ensemble de la terminologie qui s’inscrit dans l’approche initiée par Wuster dans les années 30. Comme l’a montré Monique Slodzian (Slodzian, 1994), la doctrine wustérienne se fonde sur le postulat d’une langue universelle permettant l’accès à la connaissance. Avec les langues « spécialisées », associées à des domaines parfaitement maîtrisés par des experts, ce type de doctrine a cru trouver confirmation de son hypothèse de la possibilité d’une langue qui, à défaut d’être pure, pourrait être purifiée (normalisée) :

«[…] jusqu’à une date récente, la linguistique n’a fait valoir que l’évolution libre, non dirigée, de la langue. C’est l’usage effectif de cette dernière qui, dans la langue commune, sert de norme. On peut appeler cette norme la norme descriptive. En revanche, en terminologie, fertile en notions et en termes, cette évolution libre de la langue mène à une confusion inacceptable… » (Wuster, 1981, 65).

Un tel point de vue suppose des éléments parfaitement définis et cernés : les concepts, et un parti-pris exclusif pour la monosémie. Même si le dogme s’est parfois assoupli, la notion de concept reste très présente en terminologie et il est nécessaire de s’interroger sur sa pertinence linguistique.

En linguistique, le terme de concept est peu utilisé. Lorsqu’il l’est, il me semble que deux opinions essentielles prévalent : l’une fait du concept l’équivalent du signifié, position que l’on retrouve chez Saussure par exemple, l’autre donne au concept un statut particulier, premier :

« Nous pensons que les items lexicaux présupposent l’existence de concepts, c’est-à-dire d’entités générales plus connues sous le nom d’universaux lorsqu’elles se présentent sous forme nominale. » (Kleiber, 1981, 24).

Cette deuxième position n’est pas très éloignée de celle des terminologues « classiques », en tout cas pour ce qui concerne la préexistence des concepts.

Une position souvent adoptée consiste à présenter le concept comme l’élément qui va permettre de rendre compte de certains phénomènes sémantiques comme la polysémie ou l’homonymie ou l’équivalence d’une langue à l’autre :

« Le concept ne peut se confondre avec un signifié interlinguistique, à la fois parce que plusieurs signes linguistiques peuvent être synonymes (ou équivalents de langue à langue) et parce qu’un concept peut être propre à un groupe social ou universel et également lexicalisé dans une langue. » (Lerat, 1989, 57-58).

« la distinction entre signe et concept peut contribuer à mettre en valeur ce genre de phénomène [la possibilité pour un signe d’être polysémique en corpus spécialisé], en prenant en considération la nature foncièrement polysémique des signes de langues » (Depecker, 2000, 107).

Dans ce type d’approche, si l’on a besoin du concept c’est pour permettre une généralisation, une reconnaissance de similitudes à travers des formes différentes. Cette façon de voir pourrait plaider pour une vision qui maintient un lien fort avec le linguistique, les usages ; ce n’est pas toujours le cas et beaucoup d’auteurs tiennent à maintenir le concept comme premier et universel. Pourtant, il est possible de retenir la notion de concept comme un élément qui rassemble, qui permet de définir, sans qu’il soit nécessaire de le poser comme premier. On peut au contraire considérer qu’il se constitue à partir d’usages de la langue d’une part et de construction de terminologues (ou de n’importe quel type d’interprétant) d’autre part. Je reprendrai la définition de Rastier du concept comme « signifié normé » (Rastier et al., 1994) mais en attribuant à normé deux sens. L’un qui serait lié à celui de « normaison », l’autre à celui de « normalisation » :

« L’analyse tirerait profit à opposer deux procès normatifs : la normaison, relevant de l’activité spontanée à l’œuvre dans tout échange, et la normalisation, domaine des interventions conscientes et planifiées » (Gaudin, 1993, 173).

Je retirerais simplement le terme de planifié de la définition de Gaudin qui me semble renvoyer à une obligation d’utilisation par une instance investie d’un pouvoir particulier. En revanche, dans une vision qui va des usages à la construction d’un modèle (cf. chapitre III), l’élaboration d’un signifié en concept se fait bien, me semble-t-il, d’abord par le repérage de régularités d’usages (normaison) puis par le choix de conférer à certains signes linguistiques un statut particulier (normalisation)²¹.

De mon point de vue, il n’y a donc concept que si :

– il existe des conditions d’énonciation communes à un ensemble de locuteurs qui permettent de neutraliser les éléments propres à ce locuteur ; on a pu parler d’un locuteur collectif dans le courant de l’analyse de discours,²² ou de communautés de locuteurs (Gaudin, 1995);

– un interprétant (terminologue, linguiste, documentaliste, expert…), ayant un objectif précis, et qui, à partir du constat de régularités « immanentes »

21 Je monterai dans le chapitre IV que ce processus de « normalisation » concerne en réalité l’interprétation de l’ensemble du texte. La normalisation terminologique n’est ainsi qu’un aspect d’un processus beaucoup plus complexe qui peut concerner la totalité des phénomènes textuels et qui vise à construire une cohésion globale.

22 « Le concept de communauté discursive, en tant qu’institution qui reçoit sa cohérence de ses pratiques discursives, quelle que soit la nature de son organisation sociale et technique est probablement de nature à fonder des analyses de discours autres que monographiques, puisqu’il assure la constitution d’espaces discursifs structurés par des instances de production et de diffusion repérables » (Beacco et Moirand, 1995, 49).

« Le locuteur collectif désigne le groupe social (groupes politiques, religieux, syndicaux, etc.) partageant un certain type de culture et produisant un discours qui apparaît comme celui de toute la comunauté » (Dubois et al., 1994, 289).

(normaison), attribue à certains des signifiés d’un texte, le statut de concept (normalisation) ; il y a donc passage d’un système sémiotique à un autre, relevant tous les deux du linguistique.

Ainsi, si l’idée de concept est à retenir dans le cadre de l’analyse de corpus spécialisés, c’est, me semble-t-il, sous deux conditions :

– les concepts ne sont pas préexistants mais construits par un interprétant,

– les manifestations linguistiques à partir desquelles sont établis les concepts ont en commun des caractéristiques liées à la situation d’énonciation.

La notion de concept est donc à corréler avec celle d’interprétation qui se reconnaît comme telle. La particularité de l’interprétation du sémanticien de corpus est qu’elle doit être la plus consciente possible ; elle doit tenir compte de tous les éléments en sa connaissance, y compris et peut-être surtout de son objectif propre d’interprétation. En effet, le linguiste de corpus analyse du matériau textuel qui, le plus souvent, ne lui était pas destiné ; il y a donc entrecroisement d’intentions diverses : celle des rédacteurs des textes, celle des lecteurs à qui ils étaient destinés et enfin celle du linguiste qui est guidé par un objectif précis. D’une certaine façon, il ne peut y avoir concept pour l’interprétant linguiste que lorsqu’il y a

conscience du passage d’un système sémiotique à un autre. Le rôle du linguiste est alors

d’expliquer comment se fait ce passage : à partir de quels éléments, avec quelle élaboration, pour quels objectifs… C’est en ce sens que l’interprétant linguiste se distingue d’un autre type d’interprétant : terminologue, ingénieur de la connaissance… : il cherche à justifier ses choix par les différents éléments qui les influencent (connaissances linguistiques, régularités internes, objectif de la modélisation), avec l’objectif de pouvoir dégager des régularités. Ainsi s’amorce une véritable linguistique de corpus²³.

Enfin, on peut dire que, d’une certaine façon, le sens, tellement labile dans son dynamisme, ne se laisse approcher que par la conceptualisation, c’est-à-dire par la création de concepts, au sens où je les ai définis ci-dessus. Cette création s’accompagne d’un acte de définition, c’est-à-dire de maîtrise du sens (d’un sens).

La non-préexistance des concepts est clairement un postulat (tout comme l’est leur préexistance). Ce choix théorique est le fruit d’une réflexion menée autour d’un ensemble de questions :

– Si les concepts préexistent, quelle est leur nature ? On a pu parler d’une nature perceptive, qui permettait de justifier l’idée d’universaux communs à tous les hommes (tous les hommes ayant le même type de fonctionnement sensoriel) ; il me semble que c’est faire peu de cas de la dimension culturelle et expériencielle, certainement au moins aussi présente dans la langue que la dimension perceptive ; – Si les concepts préexistent, comment peut-on y accéder, comment vérifier leur

existence ? Les chercheurs en sciences cognitives en particulier pensent prouver l’existence de ces universaux en montrant que le même type de lexicalisation existent dans des langues différentes. Ce type de fonctionnement est certainement avéré pour certains éléments, par exemple, il est certainement question de temps et d’espace dans toutes les langues. Mais de telles preuves sont-elles généralisables à

23 Ainsi, contrairement à ce que pensent parfois les informaticiens qui construisent leur modèles à partir de corpus, il ne suffit pas de travailler à partir de textes pour avoir une approche linguistique ; il me semble qu’il n’y a linguistique de corpus que lorsque l’analyse de corpus se fait dans la perspective d’une insertion des questionnements dans l’histoire et les problématiques qui ont constitué la discipline linguistique. Cependant, la linguistique de corpus n’a pas encore défini un (des) modèle(s) et une théorie qui permettent de lui donner toute sa place dans la linguistique

l’ensemble des éléments linguistiques, pour toutes les langues et pour toutes les variations d’usages de ces langues ?

– Tout postulat s’accompagne d’une idéologie plus ou moins consciente. Il me semble que derrière le postulat des universaux (des concepts préexistants) se cache l’idée de la langue/moyen de communication idéal et moyen de reconnaissance entre êtres humains. C’est méconnaître :

- que la langue n’est pas le seul moyen de communication, la dimension interactionnelle intervient de bien d’autres manières,

- que les discours sont chargés d’histoire et de culture, collectives ou individuelles, qui interviennent dans la construction du sens,

- que la volonté de communication ne doit pas être toujours associée à l’idée d’une transparence totale entre les interlocuteurs.

Les réflexions que m’ont inspirées ces questions m’ont amenée au choix d’une approche qui étudie la terminologie à partir d’usages réels et qui élabore des concepts à partir de ces usages, par une interprétation qui tient compte à la fois des régularités spontanément à l’oeuvre dans ces usages et des besoins qui ont conduit à la mise en place de l’analyse (besoin d’utilisateurs ou hypothèses linguistiques).

2.2.2 Concept et formalisation de la connaissance

Ce même terme de concept est utilisé en intelligence artificielle pour tous les langages de représentation qui utilisent des réseaux sémantiques (graphes conceptuels, logiques de description…). Il est donc clairement associé à une mise en relation ; or, la représentation relationnelle vient se substituer, en terminologie, à la définition sous forme discursive. La parenté des deux approches est donc avérée. Cependant, le point de vue formel de l’IA amène un certain nombre de contraintes qui ont une grande influence sur la façon de concevoir le concept. Deux éléments caractérisent le concept en IA : le fait qu’il soit associé à la perception et le fait qu’il soit associé à des éléments logiques.

Concept et perception

La théorie des graphes conceptuels est fortement reliée, à l’origine, à la psychologie de la vision :

« Bien qu’ayant de nombreuses sources… l’origine des idées de Sowa peut être située dans la psychologie de la perception » (Sabah, 1988, 228).

N’oublions pas aussi que les réseaux sémantiques eux-mêmes ont été constitués par un psycholinguiste, Quillian, pour rendre compte de la mémoire sémantique.

Cette justification de la formalisation en réseaux par la psychologie n’est pas sans rappeler la vision des terminologues classiques, qui considèrent que les concepts préexistent, puisque la perception préexiste. Comme je l’ai déjà mentionné, c’est en partie sur cette base que s’est faite la rencontre originelle entre terminologie et IA.

Il faut noter que, depuis la création du concept de BCT (peut-être grâce à cette création), une évolution très nette, parallèle à celle de la terminologie, s’est faite en IA qui a conduit à ce que cette vision soit elle aussi remise en question et remplacée par une approche qui prend les corpus pour référence.

Concept et logique

Etant donné que l’objectif de l’IA est de faire raisonner à des machines, la présence d’une vision logique des concepts est omniprésente chez les informaticiens :

« Many researchers…have chosen to identify the notion of a concept with the notion of a predicate in first-order logic » (Woods, 1991, 48).

Or, ce nécessaire lien avec la logique, qui suppose que soient respectés des critères de complétude et de cohérence, amène à une normalisation supplémentaire. Prenons le cas de la constitution de taxinomies. Lorsque ces taxinomies sont construites à partir d’un corpus qui sert de référence, le linguiste s’en tient en principe aux éléments qui justifient qu’il identifie des relations d’hyperonymie (en fait, des marqueurs de ces relations). Or, cette approche ne garantit ni la cohérence (il se peut, surtout sur des corpus volumineux, que des points de vue différents fassent apparaître des hiérarchisations différentes et pas nécessairement compatibles) ni la complétude. Il est ainsi très fréquent que les hiérarchies construites ne s’organisent pas en une seule et unique taxinomie avec une racine (un « top »), élément constituant l’origine de la hiérarchie, parfaitement identifié (cf. par exemple (Bowker, 1997)). Si bien que les critères de constitution d’une taxinomie généralement préconisés (principe de communauté avec le père, principe de différence avec le père, principe de différence avec les frères, principe de communauté avec les frères (Bachimont, 1995, 78)) ne peuvent pas et ne doivent pas même être suivis, en tout cas dans un premier temps, par l’analyste de corpus. C’est seulement dans une étape de normalisation informatique que le respect de ces critères logiques peut être envisagé. Notons d’ailleurs que, comme le souligne Bachimont, bien que logiques, ces choix de formalisation entretiennent, eux aussi, une parenté forte avec l’objectif de la formalisation.

Ainsi, après la normaison et la normalisation linguistique, la normalisation informatique permettrait de passer d’un corpus à un système formel.

Finalement du corpus à une BCT formelle, deux types d’interprétation sont à l’œuvre, l’une qui permet de modéliser, c’est-à-dire de décontextualiser les fonctionnements linguistiques (ce qui constitue un premier type de normalisation), l’autre qui permet de formaliser, c’est-à-dire de donner un statut logique à cette représentation formelle (et qui constitue un second type de normalisation). Dans la plupart des cas, pour plus d’efficacité, lorsque les ontologies sont constituées par des informaticiens, les deux étapes sont confondues en une seule. Il revient aux chercheurs en linguistique de mener des études approfondies sur la première étape, à la fois parce qu’elle permet d’éclairer des fonctionnements sémantiques et parce qu’elle permet de justifier (ou non) des raccourcis effectués par les informaticiens.

Concept et terme

Parce qu’il est un signifié normé, le concept est d’abord un signifié, le terme étant, lui, un

signe normé. Par signe normé, on peut entendre un signe discursif auquel on a donné un statut

particulier. Cela signifie que n’importe quel signe discursif peut devenir un terme, dans la mesure où il peut avoir un sens dans une interprétation contextualisée²⁴.

Dans le modèle de BCT qui est décrit dans le chapitre III, la distinction terme/concept est mise en place d’une autre façon : comme dans la conception terminologique la plus courante, elle sert alors à rendre compte de phénomènes comme la polysémie ou la synonymie, ce qui ne va pas sans poser de questions.

C’est parce que l’on est dans un contexte d’interprétation particulier (qui concerne surtout la dénomination), qui s’effectue sur des corpus particuliers (des corpus spécialisés), que les termes les plus fréquemment repérés sont des noms ou des groupes nominaux. Mais on pourrait imaginer des situations d’interprétation de ce même type de corpus, pour lesquelles les termes seraient des éléments morphologiques (par exemple dans les cas de recherche d’information).

Dans le document Sémantique et corpus spécialisés : Constitution de Bases de Connaissances Terminologiques (Page 52-57)