• Aucun résultat trouvé

2 - Options méthodologiques

2.4 Ressources utilisées

Dans cette dernière section consacrée à la méthodologie, les ressources exploitées dans cette thèse sont présentées. Il s'agit à chaque fois de les décrire rapidement (en particulier, de pointer ce qui les caractérise les unes par rapport aux autres) et d'expliquer leur utilité dans la perspective de l'investigation empirique. On distinguera ici deux types de ressources : les dictionnaires et les bases de données.

2.4.1 L'usage des dictionnaires

Quoique l'analyse sémantique conduise parfois à remettre en cause certaines options

lexicographiques198, le recours aux dictionnaires demeure absolument crucial. Les dictionnaires sont

utiles à toutes les étapes du travail de recherche. Ils constituent en premier lieu une banque d'emplois, ils proposent en second lieu des choix réfléchis dans le découpage en acceptions. En outre, ils mettent en avant des emplois lexicalisés et privilégient les combinaisons les plus fréquentes (collocations, figements) ; ce qui constitue autant de pistes pour mettre au jour des contraintes d'emploi.

Les sous-sections suivantes donnent une présentation des cinq dictionnaires utilisés de manière systématique dans ce travail de recherche. Cependant, il faut signaler auparavant le recours plus

198 Pour autant, le but n'est jamais de « jeter le discrédit » sur les dictionnaires (Pauly, 2010 : 158). La sémantique et la lexicographie poursuivent simplement des objectifs sensiblement différents – selon Gaudin (2000 : 160), le dictionnaire vise un « objectif psycholinguistique […] : permettre au lecteur de se représenter le référent » – et rien n'empêche l'une de puiser aux sources de l'autre.

incident à d'autres ressources lexicographiques : le Petit Robert 2014 (désormais, PR), le

Dictionnaire historique de la langue française (avec l'abréviation DH déjà utilisée précédemment), le Dictionnaire électronique des synonymes (DES) du laboratoire Crisco (Caen)199 ainsi que l'Oxford American dictionary & thesaurus. Très ponctuellement, des dictionnaires de langue ancienne (ancien français, moyen français, français classique) ont été utilisés, ils sont mentionnés au fil du texte.

Enfin, signalons également le recours au Thésaurus (2014) de Daniel Péchoin (désormais, TS). Cet

ouvrage lexicographique, organisé en 900 thèmes et notions, est précieux pour le travail d'investigation. Il permet en effet d'étayer la simple intuition pour identifier des synonymes susceptibles de commuter avec une unité donnée et mettre en évidence d'éventuelles contraintes distributionnelles.

2.4.1.1 Le Grand Robert

Le Grand Robert (désormais, GR) fait partie des grands dictionnaires de langue. Il présente des définitions à la fois très détaillées et très organisées qui permettent d'avoir un panorama clair des différentes acceptions d'un mot.

Grâce à l'ENT de l'Université de Rouen qui en fournit l'accès à tous ses usagers, j'ai pu utiliser la

version numérique du GR (Version 4 / dernière mise à jour : novembre 2016)dont l'interface est très

simple d'utilisation.En particulier, la navigation d'une acception à l'autre est facilitée200.

Comparé à d'autres ouvrages plus compacts, le GR présente l'avantage de fournir de très nombreux

énoncés qui contextualisent à l'envi les emplois des mots étudiés. Cependant, ces exemples sont souvent tirés de la littérature et font parfois appel à un état de langue un peu daté pas toujours adapté à une analyse en synchronie. Ainsi, même si la plupart des emplois plus ou moins obsolètes

sont généralement étiquetés comme vieillis, vieux ou anciens, il faut faire preuve de discernement et

croiser les sources.

2.4.1.2 Le Trésor de la langue française informatisé

LeTrésor de la langue française est également un grand dictionnaire de langue dont les premières

versions datent des années 70. C'est le laboratoire Analyse et traitement informatique de la langue

française(ATILF – Université de Nancy 2) qui en a proposé la version numérique utilisée ici201 : le

Trésor de la langue française informatisé (désormais, TLF).

Ce deuxième dictionnaire présente des avantages proches du GR dans le sens où les descriptions

sont également très détaillées. Le TLF comporte une rubrique SYNT qui liste de façon systématique

les différentes combinaisons pertinentes pour le mot défini. Les emplois sont illustrés de nombreux

199 Accessible à l'adresse suivante : http://www.crisco.unicaen.fr/des/

200 C'est une des raisons pour lesquelles on a opté pour ce dictionnaire dans le recensement des noms de parties du corps humain polysémiques. 201 Accès libre à l'adresse : http://atilf.atilf.fr/.

énoncés puisés dans la base Frantext (cf. ci-dessous) également conçue par le laboratoire ATILF.

Cependant, là encore, les exemples sont parfois un peu datés car extraits de textes du XIXème et

XXème siècles qui constituent la période de référence du TLF.

2.4.1.3 Le Lexis

Les trois autres dictionnaires utilisés correspondent à des projets éditoriaux plus singuliers. Le Lexis

édité pour la première fois en 1975 (la version utilisée ici est celle de 2008) sous la direction de

Jean Dubois est également un dictionnaire de langue, mais beaucoup plus compact que le GR et le

TLF.

Par rapport aux deux dictionnaires précédents, il fait la part belle au vocabulaire des sciences et

techniques. C'est la raison pour laquelle il a été utilisé en complément du GR pour repérer les

différentes acceptions des noms de parties du corps humain (cf. supra).

Mais c'est surtout la manière dont sont organisées les descriptions qui attire l'attention. D'une part,

contrairement au GR et au TLF, les « locutions et syntagmes figés » et les emplois « classiques[s] et

littéraire[s] » (Lexis, préface : vii) sont présentés à part et non pas reliés explicitement à une acception (ou sous-acception). Il ne s'agit pas de trouver cette méthode plus ou moins efficace par rapport à celle des deux grands dictionnaires présentés précédemment mais simplement de profiter d'une description non conventionnelle pour porter un regard différent sur le mot étudié.

D'autre part, le Lexis opte pour un dégroupement homonymique:

Le but étant l'analyse du sens, on a souvent été conduit à considérer comme homonymes des termes qui, jusqu'ici, du fait de leur étymologie, étaient considérés comme une seule et même unité. De fait, ces termes constituent bien des unités de langue mais non des unités de discours : ils interviennent au cours du discours dans des situations différentes et, pour un locuteur ignorant l'histoire de la langue, ils constituent bien des unités différentes.

(préface : xi)

Ainsi, comme on l'a déjà évoqué (cf. supra, p. 30) le Lexis pose quatre homonymes cœur là où la

plupart des dictionnaires envisagent une unique unité polysémique. Comme on l'a également

évoqué, cette démarche est parfois clairement remise en cause (cf. supra, p. 36, la remarque de

Picoche) ou, en tout cas, appelle des commentaires (cf. notamment Zwanenburg, 1983). Dans la perspective adoptée dans cette thèse, ce traitement du sens pourra effectivement sembler un peu

étonnant (cf. cependantla note 42, supra).

D'un point de vue descriptif, cette manière d'envisager le sens est un argument supplémentaire pour

exploiter le Lexis qui, par son approche originale, laisse espérer un regard différent sur le sens du

2.4.1.4 Le Dictionnaire du français usuel

C'est encore plus vrai avec le Dictionnaire du français usuel (désormais, DFU) de Jacqueline

Picoche et Jean-Claude Rolland (2002). Parmi d'autres, ce dictionnaire présente deux particularités saillantes quant à son objet d'une part et à sa méthode d'autre part.

Du point de vue de l'objet, le DFU ne décrit qu'une partie du vocabulaire français (d'où l'expression

français usuel) aboutissant ainsi à un ouvrage découpé en seulement 442 articles – les mots servant

d'entrée sont des mots non grammaticaux « de très haute fréquence » appelés hyperfréquents

(Picoche, 2006 : 52) – décrivant en tout 15000 mots usuels202. Ce choix est motivé par des raisons

didactiques : les auteurs qualifient leur ouvrage de« dictionnaire d'apprentissage plutôt que […] de

consultation (DFU : 7). Picoche précise même :

Nous pensons qu’un francophone qui posséderait bien ce petit trésor de mots usuels, pourrait communiquer avec n’importe quel autre francophone à travers le monde, sur tout sujet non étroitement spécialisé et lire sans difficulté majeure la plus grande partie de la littérature en prose du XIXe

et du XXe

siècles. (2006 : 52)

Du point de vue de la méthode, partant du principe qu' « il ne faut pas traiter les mots à l'unité,

mais dans un ensemble de mots avec lesquels ils ont des relations sémantiques », les articles ne se

contentent pas de définir un mot mais « constituent des réseaux à base linguistique » (Picoche,

2006 : 51). L'idée de réseau (linguistique) ne correspond pas à celle de thème (encyclopédique) :

celui qui travaille par réseaux prend pour point de départ un hyperfréquent, grosse machine sémantique, fortement polysémique, c'est-à-dire produisant nombre d'effets de sens divers, et la question qu'il se pose est : De quoi puis-je parler avec cet outil que la langue met à ma disposition, et avec son escorte de dérivés, de synonymes et d'antonymes ?

(DFU : 12, je souligne)

Ainsi, ce qui est intéressant avec ce dictionnaire, c'est qu'il ne fait pas de la polysémie un obstacle à surmonter mais plutôt un moteur de la description permettant de construire de véritables réseaux de signification :

Le travail par réseaux aboutit à rendre compte de la polysémie du mot pris pour point de départ, qui n'est pas un fâcheux accident, mais un caractère fondamental du langage humain et de la cohérence sémantique interne du réseau qu'il commande. C'est le propre d'une conception linguistique de l'étude du lexique. (DFU : 12)

Au final, malgré son refus de toute exhaustivité, différentes raisons (la focalisation sur un vocabulaire courant, le rejet de tout encyclopédisme, la volonté de se focaliser sur les données

linguistiques) font du DFU un outil d'observation complémentaire des dictionnaires précédents.

2.4.1.5 Le Dictionnaire explicatif et combinatoire du français contemporain

Le Dictionnaire explicatif et combinatoire du français contemporain (désormais, DEC) édité sous la

direction d'Igor Mel'čuk est encore bien plus singulier que les deux dictionnaires précédents qui,

quoique originaux dans leur approche, restent destinés au grand public. Ce n'est plus tout à fait le

cas du DEC qui est plutôt la mise en application d'un programme de recherche lexicologique

adossée à une théorie linguistique, la théorie Sens-Texte (cf. Mel'čuk & al., 1995). Pour résumer

l'ambition de ce dictionnaire, on peut dire qu'il propose une «description formelle du lexique français, selon une approche sémantique »203 (je souligne).

Comme évoqué précédemment, avec la présentation du travail de Wierzbicka (cf. note 20 à la page

21), l'une de ses principales priorités est la « neutralisation des cercles vicieux » (DEC III : 101)

c'est-à-dire éviter toute description lexicographique circulaire.

Dans la pratique, chaque entrée du dictionnaire correspond à un vocable dont la description rend

compte de différentes lexèmes (correspondant à peu près à ce qui est appelé acceptions dans cette

thèse). La hiérarchisation dans la présentation de ces lexèmes obéit à des critères linguistiques qui ne doivent rien à l'étymologie et dont la formulation se veut rigoureuse. Un souci de formalisation

conduit à la rédaction d'articles structurés de façon identique204.

Un point retiendra ici l'attention : un vocable peut correspondre à un phrasème. Dans la théorie

Sens-Texte, un phrasème correspond (à peu près) à une locution figée (pour une définition plus

précise, cf. Mel'čuk, 2013). Or,

toute locution constitue une unité lexicale de la langue en question et doit donc avoir son entrée et son article de dictionnaire. C'est un article complet, parfaitement similaire aux articles de lexèmes en ce qui a trait à sa structure et à son contenu (Mel'čuk, 2013 : 136)

Ce choix conduit à une forme de « dégroupement » assez singulier. Ainsi, à côté du vocable cœur

(DEC I), on trouve les vocables au cœur (DEC I) et à cœur joie (DEC IV) et, à côté du vocable tête

(DEC I), on trouve, parmi d'autres, le vocable se mettre martel en tête (DEC III)205.

Étant donné ces exigences de description, le DEC est loin d'avoir traité l'ensemble du vocabulaire

français. Cependant, le projet a abouti à la publication de quatre volumes (1984, 1988, 1992, 1999) traitant 510 vocables (chaque « dictionnaire » est par ailleurs introduit par un chapitre théorique qui n'a pas grand chose à voir avec la préface d'un dictionnaire « classique ») parmi lesquels les noms de parties du corps humain sont assez nombreux.

Afin de profiter d'un regard lexicographique original sur certains de ces noms, on puisera donc dans

les différents volumes du DEC.

2.4.2 Bases de données

Comme indiqué précédemment, on évitera l'usage du terme corpus pour désigner les bases de

données. Rappelons que leur usage vise deux objectifs principaux :

Repérer des emplois et, secondairement, leur fréquence

203 Cf. la présentation générale du dictionnaire en ligne : http://olst.ling.umontreal.ca/?page_id=56&lang_pref=fr (consulté le 12 aout 2017). 204 Notons que le DFU revendique le contraire : « Ne vous attendez donc pas à ce que nos articles soient, artificiellement, tous construits sur le

même plan, ce qui aurait été contraire à la nature des choses » (DFU : 13). Ces choix opposés sont la conséquence de projets éditoriaux différents : quand le DFU se veut un dictionnaire d'apprentissage accessible, le DEC revendique des objectifs de description formelle.

205 Il y aurait encore à justifier ce parti pris iconoclaste. On se contente ici de quelques repères utiles pour la suite. Une autre innovation du DEC est le recours aux fonctions lexicales du type Magn (très, intense, intensément, à un degré élevé) qui permettent de mettre en évidence synonymies, réseaux sémantiques et collocations : Magn (bruit) = infernal, du tonnerre (DEC III : 128).

Comparer des fréquences d'attestation pour confirmer des contraintes distributionnelles Dans cette perspective, quatre bases de données très différentes ont été exploitées.

2.4.2.1 La base Frantext

Frantext est une base de données linguistiques très utilisée dans la communauté linguistique. Et pour cause, conçue par une équipe de linguistes (du laboratoire ATILF déjà mentionné pour son

travail sur le TLF), son interface présente des fonctionnalités adaptées à des investigations

syntaxiques et sémantiques (requêtes sur des mots, des séquences exactes, des lemmes, des

co-occurrences etc.). Comme le GR, cette ressource est disponible en ligne via l'ENT de l'Université de

Rouen, elle est donc facilement accessible.

Cette base est constituée de textes majoritairement littéraires (roman, poésie, mémoire, correspondance...) mais également d'essais et de divers textes non fictionnels. La base contient en

tout 5116 références (la dernière actualisation date de décembre 2016206) pour un total de 297 385

241 mots.

Conçue comme une base de données linguistiques sur le français, Frantext est loin de ne contenir

que des textes contemporains : si les textes les plus récents datent de 2013, certains écrits remontent

au Xème siècle ! Il a donc été indispensable de restreindre la base à une période récente.

C'est pourquoi un « corpus » de textes postérieurs à 1950 a été défini (la base permet en effet de

« définir un corpus de travail »). En revanche, je n'ai pas cherché à restreindre à un genre particulier gardant à l'esprit la volonté de travailler sur des données relativement hétérogènes. Dans la suite de

ce travail, cette base de données sera désignée par le sigle FX50. La base FX50 contient 1233 textes

pour un total de 84 015 496 mots (soit un tiers de Frantextintégral).

Un autre avantage de la base Frantext, c'est qu'elle permet d'effectuer des recherches catégorisées

c'est-à-dire sur des parties du discours (ex : VERBE + DET + main). Cette fonctionnalité n'est

possible néanmoins que sur une portion de l'ensemble de la base de données appelée Frantext

catégorisé. Cette autre base est parfois utilisée en la limitant également aux textes postérieurs à

1950 (noté FX50c). Le nombre de textes « tombe » alors à 490 et le nombre de mots à 31 640 950.

Tout énoncé attesté extrait de FX50 (ou FX50c) sera référencé sur le modèle suivant :

59. En plus elle s'est cogné la tête et tordu le pied. (Akerman, 2013 – FX50 / E332)

Dans la parenthèse se trouvent successivement le nom de l'auteur, l'année de parution de l'ouvrage,

la mention FX50 et la référence du texte dans la base (codage Frantext).

2.4.2.2 La base Le Migou

On peut considérer que la base Frantext est à dominante littéraire. Dans l'objectif affiché de

travailler sur des données hétérogènes reflétant au mieux la diversité des emplois, il a paru judicieux

de compléter cette première ressource par une autre ressource conçue par une équipe de linguistes :

Le Migou.

Ce concordancier Web est accessible librement sur le site de l'Observatoire de linguistique

Sens-Texte (OLST), laboratoire de linguistique de Montréal (Canada)207. Il propose en fait différentes

bases de données parmi lesquelles a été choisi le « corpus » regroupant un ensemble d'articles du

journal Le Monde publiés durant l'année 2002 (cette autre base de données sera désignée par le sigle

LM).

Aucune information concernant le nombre exact d'articles ou de mots n'est fournie. Mais, pour se

faire une idée de la taille de cette base, on peut comparer ses 3516 occurrences du nom cœur avec

les 24 445 occurrences de ce même mot dans FX50. Évidemment ce sondage n'est que faiblement indicatif puisque rien ne dit qu'une base de textes littéraires et une base de textes journalistiques

font des emplois comparables (sur le plan quantitatif) du nom cœur. C'est précisément pour cette

raison qu'il semble plus judicieux de recourir à plusieurs bases de données.

On verra d'ailleurs que, d'un point de vue plus « qualitatif », les différences dans les emplois sont

relativement significatives (cf. infra les chapitres 4 et 5 consacrés aux noms cœur, artère, épaule,

bouche et pied) et justifient pleinement un « croisement » des ressources.

Il reste à signaler que l'interface proposée par LM est assez rudimentaire et que les recherches qu'elle permet d'entreprendre restent relativement basiques. Cependant, le concordancier donne les résultats sous forme de phrases complètes (chacune pouvant être visualisée dans un co-texte élargi en cliquant sur le numéro de phrase). La base LM sera donc surtout utilisée pour des recherches assez simples.

Tout énoncé attesté extrait de la base LM sera référencé de la manière suivante :

60. Il s'évade alors et, après 425 kilomètres à pied, se retrouve en URSS. (LM – 1132)

Dans la parenthèse, la mention LM est simplement suivi du numéro de phrase attribué par la base. Pour des raisons de traitement de données, le texte fourni par le concordancier est présenté avec des

espaces entre les signes de ponctuation (ex : Il s' évade alors et , après). Par souci de lisibilité, on

présente les séquences en rétablissant une présentation conforme aux règles du traitement de textes.

2.4.2.3 La base Cocoon

Quoique les deux bases présentées plus haut fournissent des données linguistiques différentes

(littéraires vs journalistiques), elles ont en commun de regrouper des écrits très surveillés pas

toujours révélateurs de la langue la plus courante. C'est une des raisons pour lesquelles je recours régulièrement à des énoncés entendus pour illustrer un emploi. Un tel procédé présente néanmoins un caractère aléatoire.

L'idéal est de bénéficier d'une grande base de données orales transcrites.

Une telle base est en pleine construction sur la plateforme en ligne208COCOON (pour COllections

de COrpus Oraux Numériques, désormais CO) portée par les laboratoires LACITO et LLL. Cette plateforme compile un ensemble d'enregistrements oraux et leurs transcriptions. De nombreux chercheurs y ont déjà déposé leurs données (on y trouve par exemple le Corpus d'Orléans et le Corpus de français parlé parisien).

À ce jour, sur CO, on trouve 9417 enregistrements (aout 2017). Cependant, tous ces enregistrements ne sont pas en français. Par ailleurs, la base a beau être déjà très conséquente, elle reste très limitée par rapport aux bases précédentes. Pour illustration, on relève que CO contient 231 occurrences du

nom cœur (alors que LM en contient 3516 !). Malgré cette limite, on aura recours à cette base

ponctuellement (via la fonction rechercher un terme).

Tout énoncé attesté extrait de la base CO base sera référencé de la manière suivante :

61. oui mais comme j'avais plus de cheveux sur la tête (CO – 2010, ESLO2 1227)

Entre parenthèses, se trouvent le date de l'enregistrement et sa référence dans CO.

2.4.2.4 La base frWaC

En l'absence de bases de données orales réellement conséquentes, l'usage d'Internet apparait comme un recours possible. D'une part, il fournit un ensemble de données linguistiques extrêmement vaste. D'autre part, tout en demeurant une ressource de l'écrit, il permet l'accès à des énoncés de la langue

courante, peu surveillés (notamment via les blogs et les forums) et reflétant un usage récent. C'est

ainsi que Bouveret et Sweetser évoquent « a unique point of view into uncensored current usage »

(2009 : 3). Corollairement, selon Pauly, Internet a l'avantage de donner « accès à l'usage

linguistique le plus spontané (voir par exemple les blogs, les pages personnelles et les forums de discussion) » (2010 : 224). Diemer va jusqu'à parler du « semi-oral discourse » (2011 : 2) qu'on peut trouver dans les blogs.

On l'a évoqué plus haut, l'usage d'Internet comme une base de données linguistiques (voire comme un corpus) fait souvent débat. Par exemple, Rastier réprouve tout usage d'Internet à des fins de