• Aucun résultat trouvé

Chapitre 1 Lexique scientifique transdisciplinaire : intérêts, propriétés et approches

1.2 Lexique Scientifique Transdisciplinaire

1.2.2 Études des lexiques spécifiques de l’écrit scientifique

1.2.2.2 Approches et analyses des lexiques scientifiques

Les travaux sur les lexiques scientifiques sont généralement motivés par, ou étroitement liés à, un objectif déterminé tel que l’élaboration d’une ressource à perspectives didactiques (Coxhead, 2002; Pecman, 2004b; Paquot, 2010), ou l’aide à l’indexation terminologique (Da Sylva, 2009, 2010). D’autres études abordent le LST sous l’angle de la description linguistique (Phal & Beis, 1972; Drouin, 2007; Tutin, 2007c). L’ensemble de ces travaux ont en commun de se baser sur des corpus pour faire émerger un lexique particulier, dont la nature varie avec la composition desdits corpus. Les études se rejoignent également pour mettre en avant le rôle essentiel du LST dans la communication scientifique.

Nous montrons dans cette partie que trois types d’approches des lexiques scientifiques peuvent être distingués dans la littérature. Un premier groupe de travaux, présenté section 1.2.2.2.1, se concentrent sur les propriétés lexicales, dans le but d’élaborer une liste généralement à visée didactique pour l’apprentissage de vocabulaire. Les travaux réunis dans le deuxième groupe, section 1.2.2.2.2, s’intéressent aux lexiques scientifiques dans une perspective énonciative et discursive du genre de l’écrit scientifique. Le dernier type d’approche intègre un niveau sémantique dans l’analyse du lexique, en proposant une classification ou un étiquetage de ces éléments, comme nous le détaillons section 1.2.2.2.3.

1.2.2.2.1 Dimension lexicale

La majorité des études sur les lexiques similaires au LST est guidée par des objectifs didactiques. En effet, nous avons vu que la maîtrise de ce lexique est un enjeu pour tout scripteur, tant dans un contexte de Français Langue Étrangère que

de Français sur Objectif Universitaire10. Conséquemment, nombre de travaux visent à l’élaboration d’une liste de vocabulaire à destination des scripteurs de ce genre.

Ainsi, Phal & Beiss ont procédé, dans un but didactique, à l’étude du

Vocabulaire Général d’Orientation Scientifique (VGOS), lexique « commun à toutes les spécialités11 [servant] à exprimer les notions élémentaires dont elles ont toutes également besoin […] et les opérations intellectuelles que suppose toute démarche méthodique de la pensée » (1972, p. 9). Ils poursuivent en cela les études qui dressent l’inventaire d’un français fondamental (Gougenheim, Michéa, Rivenc & Sauvageot, 1964), à partir d’un corpus de manuels scolaires en français, dans une optique didactique en direction des non-natifs. Leur large description du lexique prend également en compte les lexies complexes et certaines structures lexico-syntaxiques. Ils proposent une ressource riche du VGOS, dont les informations sur les contextes d’apparition permettent une meilleure appropriation par les apprenants de ce lexique complexe.

Coxhead (2002), s’intéresse également à la perspective de l’enseignement de la langue scientifique, mais pour scripteurs anglophones natifs ou apprenants12. Elle recense les éléments lexicaux qu’il est nécessaire de maîtriser pour la rédaction scientifique en anglais à partir d’un corpus de manuels et d’articles.

L’Academic Word List (AWL), est composé des mots les plus fréquents dans un

corpus de textes académiques. Notant qu’il est plus facile d’apprendre les mots par famille morphologique (evidence, evidential, evidently), Coxhead procède au regroupement de ces dérivés afin de proposer une ressource la plus utile possible pour l’aide à la maîtrise de ce lexique particulier. Cependant, malgré ce type de traitement, cette ressource intègre peu d’informations linguistiques, mis à part la structuration du lexique en dix classes de fréquence (dont la première est constituée des éléments les plus fréquents et les plus répartis). Par exemple, l’AWL

ne permet pas la distinction entre les catégories nominale et verbale pour les mots

10 Le français sur objectif universitaire a pour but de préparer des étudiants allophones à suivre des études au sein d’universités francophones. Le français langue étrangère ou FLE ne définit pas de but précis dans l’apprentissage du français par les allophones.

11 Les spécialités ici sont représentées par un corpus de manuels en physique, chimie et sciences naturelles.

12 Son travail se situe dans la lignée de West, dont la General Service List est destinée aux natifs et non-natifs (« developped with the needs of ESL/EFL learners in mind » selon les mots de Coxhead (2000, p. 213)).

appartenant potentiellement aux deux catégories (survey, function, approach). Comme nous le verrons par la suite, la qualité de l’extraction et de la caractérisation du LST est soumise à la qualité des traitements d’enrichissement de corpus (simple segmentation, lemmatisation, annotation en parties du discours, en relations de dépendance). L’absence d’informations syntaxiques et sémantiques ne serait pas compatible avec les applications que nous avons détaillées précédemment.

Parallèlement à ces travaux d’inventaire du LST en vue d’objectifs didactiques, plusieurs études abordent ce lexique dans un but d’amélioration de l’indexation en termes (Drouin, 2007; Da Sylva, 2009, 2010). Da Sylva, dans son étude du Vocabulaire Savant de Base (VSB) constate ainsi que ce lexique permet une meilleure extraction terminologique et conclut que le VSB peut avoir une utilité dans la phase de description et d’indexation des documents.

Les travaux de Drouin (2007), dont la méthode est détaillée section 1.2.2.4, s’intéressent au LST dans une double perspective didactique et de description linguistique. Il procède ainsi à l’extraction automatique du LST, en anglais et en français, rendant ainsi possible une utilisation de ce lexique pour la traduction. Il propose également une première analyse des collocations dans ce lexique et note qu’une approche syntaxique plutôt que purement statistique de ces phénomènes est une perspective à explorer. Nous nous situons dans ce cadre d’analyse, mettant au centre des traitements les propriétés lexico-syntaxiques du LST (voir notamment section 1.3.5.2).

1.2.2.2.2 Dimension énonciative et discursive

Les lexiques scientifiques sont également étudiés dans leur dimension énonciative et discursive, avec pour objectif une caractérisation du genre de l’écrit scientifique. Ainsi, Rinck (2006, p. 242), dans ses travaux sur l’article de recherche, s’intéresse au lexique transdisciplinaire dont les aspects énonciatifs comportent « un intérêt […] pour l’étude de l’argumentation et de la construction des textes ». Rinck interroge dans son étude les pratiques discursives à l’œuvre dans deux disciplines des SHS (lettres et sciences du langage) et montre ainsi que l’article scientifique est un genre à la dimension rhétorique très présente.

Tran (2014) s’intéresse à la dimension discursive du LST, et prend pour point de départ les marqueurs discursifs dans l’écrit scientifique. Son travail aborde spécifiquement les marqueurs polylexicaux dont elle dégage les propriétés syntaxiques et sémantiques. Elle les intègre dans une typologie des marqueurs discursifs, composée de deux grands ensembles correspondant aux deux fonctions les plus convoquées dans ce genre : la fonction métadiscursive et la fonction argumentative. Elle propose ainsi une description riche de la phraséologie adverbiale du LST, avec l’objectif d’améliorer l’enseignement/apprentissage de ces marqueurs discursifs.

Les dimensions discursive et énonciative du genre de l’écrit scientifique sont également au centre des travaux de Fløttum, Dahl, & Kinn (2006) qui proposent une caractérisation du genre, et de certaines disciplines, au niveau de phénomènes tels que la présence de l’auteur, les variations disciplinaires ou l’expression de l’évidence. Les phénomènes rhétoriques sont par ailleurs au centre de nombreux travaux issus du projet Scientext13, dont certains sont présentés par Tutin & Grossmann (2014), et ont notamment pour objet : le lexique évaluatif, les verbes d’opinion et de constat, la rhétorique de la surprise, de la filiation ou l’auctorialité.

Nous notons ici que la ressource du LST que nous voulons élaborer, y compris la classification sémantique, pourrait avoir un apport certain en rendant automatiquement identifiables plusieurs de ces phénomènes linguistiques, énonciatif ou discursif, ainsi que le chapitre 5 en donne plusieurs exemples. Un des apports principaux de notre ressource du LST se situe alors au niveau de la description linguistique du genre de l’écrit scientifique aux niveaux énonciatif, discursif et rhétorique, à condition d’intégrer à notre ressource une description sémantique du LST.

13 Projet dans le cadre de l’ANR « Corpus et outils de la recherche en sciences humaines et sociales » (2007-2010). Site du projet : http://scientext.msh-alpes.fr

1.2.2.2.3 Dimension sémantique

L’intégration du niveau sémantique dans l’analyse des lexiques scientifiques intervient à différents degrés. Le fait d’identifier la ou les acceptions mobilisées par les mots de ces lexiques constitue alors une première étape. Certains travaux proposent également une classification de ce lexique et attribuent des étiquettes sémantiques aux éléments du lexique étudié.

Par exemple, Paquot (2010, p. 81), dans son étude de l’Academic Vocabulary, intègre plusieurs types d’analyses sémantiques. Outre le recours à un étiqueteur sémantique automatique (voir section 3.2.2.2), elle étudie les fonctions rhétoriques associées à l’emploi de ce lexique, telles l’expression de la cause, la reformulation, la comparaison ou la mise en contraste. Ce lexique constitue alors une entrée intéressante dans l’étude des routines sémantico-rhétoriques, comme nous le détaillerons dans la partie 5.4. Paquot ne propose cependant pas de classification du lexique scientifique à proprement parler et ne désambiguïse pas les éléments de son lexique, se limitant alors au niveau du mot, et non de l’acception.

En termes d’analyse lexicale, syntaxique et sémantique d’un lexique scientifique, les travaux de Pecman (2004b, 2007) sur la Langue Scientifique

Générale (LSG), nous paraissent les plus poussés. Pecman (2004b) adopte une

approche phraséologique de la LSG dans un but didactique, et d’analyse contrastive, sur un corpus multilingue d’articles de recherche en sciences exactes (anglais, français et serbe). Elle propose une classification notionnelle de la phraséologie de la LSG en 125 concepts reposant sur quatre grandes sphères conceptuelles (2004b, p. 293) :

La sphère de la « scientificité » intègre les concepts référant à un objet, une action, une qualité, de nature purement scientifique tels que {expérience}, {découverte}, {évaluation} ou {variation}.

La sphère de « l’universalité » renvoie à un univers conceptuel commun ({temporalité}, {quantité}), plus large que la LSG, et complexe à distinguer de la sphère précédente selon Pecman. Cette sphère peut pour ces raisons s’apparenter à ce que nous nommons le LAG.

La sphère de la « modalité » concerne les unités phraséologiques « dont le sémantisme met au premier plan l’auteur du discours » (Pecman, 2004b, p. 294), modalité épistémique, déontique, etc.

La sphère de la « discursivité » : renvoie à des impératifs discursifs tels que l’indication d’exemples, d’une citation, la présentation de l’objet d’étude. Les concepts sont eux-mêmes liés par des relations typées : genre-espèce, partie-tout, analogie, antonymie, etc. Elle associe ainsi unité phraséologique et étiquette notionnelle, par exemple le concept {hypothèse} est relié aux collocations suivantes : adopter une hypothèse, confirmer une hypothèse, émettre|formuler| avancer une hypothèse. Ces collocations sont ensuite regroupées dans des schémas collocationnels qui listent l’ensemble des unités phraséologiques correspondant à un même concept, à la manière des routines que nous proposons d’identifier dans la section 5.4. Pecman propose de cette manière un accès onomasiologique à la LSG en permettant de consulter pour une notion les différentes réalisations possibles. Par une approche empirique, sur corpus, elle identifie et caractérise au niveau sémantico-syntactique les unités phraséologiques de la LSG, « fond de formules préfabriquées permettant d’exprimer les notions fondamentales et les raisonnements communs aux différentes sciences exactes » (Pecman, 2004b, p. 128).

Le travail de Pecman se distingue ainsi par une analyse fine de la LSG (aux niveaux syntaxique, notionnel, fonctionnel) et par le type d’unités qu’elle choisit d’étudier, les unités phraséologiques, dont l’importance est également soulignée par Nation (2001), qui constate la difficulté à maîtriser les cooccurrences spécifiques à ce genre pour les scripteurs. Comme nous le verrons dans les chapitres suivants, nous n’aborderons l’aspect phraséologique du LST que pour en caractériser les mots simples. Nous ne négligeons cependant pas les expressions polylexicales (collocation, expression figée) dont l’analyse et le traitement ont été et/ou sont effectués par d’autres membres du laboratoire LIDILEM. Ainsi, en plus des locutions adverbiales déjà étudiées par Tran (2014), seront ajoutées dans la ressource du LST des expressions polylexicales (nominales, verbales, adjectivales, prépositionnelle14). De plus, la ressource du LST pourra également bénéficier des

14 Ces expressions, collocations et phrasèmes figés, ont été identifiées et validées par Agnès Tutin et Marie-Paule Jacques.

précédents travaux de Yan (2012), qui propose une description et une modélisation des constructions verbales typiques du genre en intégrant une composante sémantique dans cette description par l’identification des acceptions mobilisées et l’attribution de paradigmes sémantiques aux arguments verbaux.

Enfin, les travaux de Tutin sur le LST portent sur les différentes dimensions entrevues dans la présente partie. Elle s’intéresse notamment à la dimension phraséologique du LST (2007b, 2014), à sa dimension sémantique (2007c, 2008) ainsi qu’énonciative (2010, 2011). Les angles d’approches du LST sont ainsi multiples, de même que le niveau de caractérisation effectué sur le lexique. L’ensemble des travaux que nous venons d’évoquer a cependant pour point commun de faire appel aux données quantitatives pour l’identification du lexique, première étape des traitements.