Outillage et indices - Principes méthodologiques généraux pour l’analyse de l’évolution

Pour une approche diachronique en langue de spécialité : éléments théoriques et

Chapitre 3 Méthodologie pour une analyse de l’évolution en corpus

3.1 Principes méthodologiques généraux pour l’analyse de l’évolution

3.1.2.2 Outillage et indices

Pour reprendre les termes de Ho-Dac, citée plus haut, l’approche sur corpus repose sur l’idée d’explorer les textes pour mettre au jour des régularités linguistiques. En lien avec notre hypothèse, lorsque ces régularités sont associables à des évolutions de connaissances, elles sont appelées indices.

Pour découvrir ces régularités, deux questions se posent : quels types de régularités doit-on mettre au jour pour observer l’évolution? Avec quelle démarche?

Pour répondre à la première question, nous nous fondons sur deux observations. La première a été formulée par Lass (1980 : 95) qui remarque que « it is impossible to observe the exact moment of change, particularly in speech, but […] the inference of change is feasible ». La seconde, de Renouf (2002 : 29), liste différentes expressions du changement linguistique : « Change manifests itself in new coinage, in the spread of a feature, in patterns and degrees of productivity, in the gradual assimilation of a new feature into the conventional lexicon, or its eventual departure ». Ces deux remarques permettent de mettre en avant :

52 Marchello-Nizia (2004 : 58) remarque d’ailleurs que « peu de décennies après les débuts du traitement automatique des données linguistiques, et une quinzaine d’années après qu’il est devenu relativement facile d’accès aux linguistes, il n’est plus de linguistique historique qui se passe de ce type de pratique, soit à travers une manipulation directe des corpus, soit par le recours à des données quantifiées qui en sont issues. »

1. que l’on n’observe pas le changement en cours, mais que l’on peut observer des traces du changement, traces à interpréter ensuite pour reconstruire l’évolution ;

2. que les régularités doivent être définies en fonction d’hypothèses sur le fonctionnement linguistique, que seule une compétence de linguiste permet de mettre au jour.

Ces deux remarques permettent de rappeler l’importance de l’interprétation dans l’analyse et le fait que les régularités observables en corpus ne le sont que sous réserve de pouvoir

construire une interprétation à partir des données. Dans la mesure où notre approche est une

approche linguistique en langue de spécialité, l’interprétation doit revenir d’une part au linguiste/terminologue qui mène l’analyse, d’autre part à des experts du domaine qui acceptent de collaborer avec lui, ce que nous détaillons dans la suite de notre recherche. Mais, sur la base de ces observations, il faut mettre en avant le fait que les régularités que l’on cherche à observer dans notre approche s’établissent sur deux niveaux. Premièrement, ces régularités interviennent en diachronie. Dans un second temps, il s’agit de voir si elles peuvent être ou non associées régulièrement à des évolutions de connaissances dans le domaine. Dans le premier cas, c’est la compétence du linguiste/terminologue essentiellement qui permet de statuer sur la régularité des phénomènes linguistiques. Dans le second, c’est l’analyse conjointe du linguiste/terminologue et des experts qui permet de statuer sur la régularité du lien entre fonctionnement linguistique et évolution des connaissances, c'est-à-dire sur le statut d’indice des régularités de fonctionnement mises au jour.

La démarche que nous proposons pour repérer ces types de régularités se situe dans un aller-retour entre les corpus et des hypothèses sur le changement. Plus précisément, nous partons de notre connaissance des fonctionnements linguistiques pour formuler une hypothèse que nous observons en corpus. En fonction des résultats obtenus, et en accord avec le jugement des experts, cette hypothèse est ajustée et complétée jusqu’à la mise au jour de régularités satisfaisantes que l’on pourra alors qualifier d’indices linguistiques pour repérer l’évolution des

connaissances.

d’évolution : sur la base des travaux en néologie, et sur la base du fait que la fréquence est le « moyen d’entrée » dans les textes quasi-systématiquement mis en œuvre en corpus, nous posons l’hypothèse que des variations de fréquence des termes peuvent être associées à des évolutions de connaissances. Comme détaillé au Chapitre 4, une description de l’indice de fréquence a été mise en œuvre, description qui nous a permis de faire émerger d’autres indices, à leur tour observés en corpus. Cet aller-retour entre les données et les hypothèses nous a permis de mettre au jour quatre indices que nous détaillons dans la partie suivante :

1. les empreintes de fréquence, c'est-à-dire certaines variations de fréquence des termes dans le temps,

2. les contextes riches en connaissances évolutives, c'est-à-dire des portions de textes qui contiennent des informations pertinentes à extraire concernant l’évolution des connaissances,

3. les variantes terminologiques, c'est-à-dire la coexistence ou la succession de dénominations équivalentes pour un même concept,

4. les dépendances syntaxiques, c'est-à-dire des changements dans la cooccurrence syntaxique de certains termes dans le temps.

Du point de vue de l’outillage informatique pour mettre en œuvre ce type de démarche, il faut souligner qu’aujourd’hui, il n’existe pas, à notre connaissance, d’outils de traitement de corpus dédiés à la perspective diachronique53. Les progrès les plus notables en TAL à ce jour et qui se répercutent en diachronie résident essentiellement dans la constitution et la gestion de corpus de textes de plus en plus volumineux54. Les analyses diachroniques doivent donc reposer sur des outils classiques à disposition de la linguistique « synchronique outillée ». Les recherches diachroniques instrumentées procèdent ainsi en grande partie à la mise en place de chaînes de traitement pour l’analyse à l’aide d’outils et de logiciels « génériques » en linguistique de corpus tels que des concordanciers, bien que ceux-ci ne puissent pas toujours

53 À l’exception des systèmes de repérage des néologismes ou de « veille néologique ».

54 Ces progrès sont particulièrement importants pour les états anciens de langue tels que le Français Médiéval grâce aux nouvelles possibilités de numérisation et d’océrisation des textes anciens (Heiden & Lavrentiev, 2004 ; Marchello-Nizia, 2002 ; Prévost, 2005). L’étiquetage morpho-syntaxique est également de plus en plus performant pour annoter les états anciens de langue (Heiden & Prévost, 2002).

répondre aux contraintes et besoins comparatifs propres à une démarche comparative55. Mais comme le soulignent Habert et Fuchs (2004 : 1) :

« pour l’utilisateur (qu’il soit linguiste ou bien spécialiste d’une autre discipline le conduisant à travailler sur du texte, il est essentiel d’avoir conscience de l’hétérogénéité – ainsi que du caractère nécessairement partiel et perfectible des réalisations – afin de pouvoir s’orienter au mieux dans sa quête d’outils utiles et aussi fiables que possibles ».

La mise en place d’analyses outillées doit donc reposer sur un équilibre entre les objectifs de l’analyse, les outils existants et le coût de la mise en œuvre de ces outils. Cet équilibre suppose donc un choix d’outils « éclairé » sur la connaissance de leur mode de fonctionnement et de leurs limites potentielles par rapport aux objectifs de l’analyse. En d’autres termes, il faut, dans la mesure du possible, non pas choisir un outil simplement parce qu’on en dispose, mais parce que l’on juge que son fonctionnement permet de faire ressortir des phénomènes linguistiques pertinents pour une analyse donnée et d’offrir par là-même des possibilités de description inédites.

Pour notre part, comme nous le décrivons dans la suite de ce chapitre, les outils sélectionnés sont des outils classiques souvent utilisés en terminologie, tels qu’un extracteur de termes, un concordancier et un extracteur de relations conceptuelles. Ce choix nous permet à la fois de placer le terme au centre de notre analyse pour observer ensuite son fonctionnement linguistique et les variations qu’il peut subir dans le système de la langue (à la manière des approches en terminologie textuelle, cf. Condamines & Rebeyrolle, 1997b ; Slodzian, 2000 : 73 au Chapitre 2), mais également d’utiliser des outils et des chaînes de traitement connus et répandus en terminologie. Ceci permet, d’une part, de situer notre méthode dans la lignée des méthodes d’analyses terminologiques classiques à partir de textes et, d’autre part, de considérer notre démarche comme peu coûteuse en temps d’apprentissage pour les linguistes/terminologues qui travaillent déjà en synchronie.

Maintenant que nous avons décrit les principaux éléments méthodologiques en jeu dans l’approche que nous proposons, nous illustrons plus précisément les choix qui s’imposent à

l’analyste pour la constitution et le traitement des corpus, ainsi que le choix des outils pour aborder l’analyse de l’évolution. Pour ce faire, la section suivante détaille les deux corpus diachroniques sélectionnés pour notre étude et la manière dont ils ont été construits pour le domaine spatial

Dans le document Diachronie en langue de spécialité. Définition d'une méthode linguistique outillée pour repérer l'évolution des connaissances en corpus. Un exemple appliqué au domaine spatial. (Page 92-96)