• Aucun résultat trouvé

Encore la production de données…

Partie I Descriptions linguistiques…

Chapitre 2 - Ancrage théorique, données et méthodes

2.2 Questions de méthode

2.2.1 Encore la production de données…

Il ne s'agit plus ici de discuter d'un mode de production de données dans le cadre d'une distinction corpus / introspection mais bien, dans la perspective d'une approche sur corpus, de

problématiser la production de données issues d'un corpus en attirant l'attention sur ce qui me parait être de fausses évidences.

Une première question à traiter est celle du corpus lui-même et de sa constitution. Cette question a considérablement évolué en 20 ans, grâce en partie à l'irruption de l’informatique dans quantité de sphères, tant professionnelles que de loisirs, et donc à l'existence et à la disponibilité potentielle de nombreux écrits sous un format électronique. Même si certains types de textes ne sont toujours pas aisément « rassemblables » en corpus parce que produits quasi exclusivement hors support informatique – je pense notamment aux textes d'apprenants, que j'évoquerai dans le dernier chapitre de ce document d'habilitation – la constitution d'un corpus pose de moins en moins de difficultés techniques.

Il me faut ici rappeler un certain nombre de précisions quasi-terminologiques, qui devront beaucoup à un chapitre d'ouvrage rédigé en commun avec F. Grossmann et A. Tutin et portant sur les corpus écrits dans la linguistique française – exercice agréable et stimulant que cette mise en commun de nos conceptions et connaissances sur le sujet15. Il convient de distinguer plusieurs sortes de corpus, même en se restreignant aux corpus monolingues. Ce que l'on appelle les corpus de référence, dont les prototypes sont les corpus élaborés dans le monde anglo-saxon : le Survey of English Language de R. Quirk ou le Brown Corpus de Kucera et Francis (Léon, 2005), sont des corpus rassemblant une variété la plus diversifiée possible de productions écologiques (c'est-à-dire produites dans des situations authentiques d'utilisation de la langue et non provoquées par le chercheur pour la constitution du corpus) aux fins de fournir une information en profondeur sur une langue donnée. C'est sur de tels corpus étendus et ambitionnant de couvrir « la langue » que se basent des travaux des années 1990 qui ont contribué à mettre la linguistique de corpus sur le devant de la scène : ceux de D. Biber et ses collègues, par exemple, qui élaborent The Longman grammar of spoken and written English, ou ceux de J. Sinclair, qui théorise notamment l'exploitation des corpus pour la lexicographie et mène dans ce cadre le projet CoBuild, de construction de ressources dictionnairiques à partir de corpus. Le propos de ces travaux est d'offrir une description de la langue qui soit la plus proche possible de la réalité quotidienne de la langue et qui corrige les défauts maintes fois observés des ressources linguistiques disponibles : peu d'informations sur la combinatoire, exemples tous mis sur le même plan sans prise en compte des phénomènes de fréquence, caractère artificiel des énoncés proposés pour illustrer les points de langue discutés…

Mon propos n'est pas de discuter plus avant de ces corpus, je les mentionne en fait essentiellement pour m'en distinguer. En effet, ainsi que je le développerai dans les chapitres suivants, je ne me suis pas intéressée à « la langue » mais à certains de ses usages bien particuliers, ce qui m'a conduite vers un autre type de corpus, qu'A. Tutin, dans le chapitre commun que j'évoquais plus haut, a nommés corpus spécialisés. Ce sont des corpus élaborés par les chercheurs pour une question de recherche précise. Les études linguistiques ont vu depuis le début des années 2000 en éclore quantité. Par exemple, pour sa thèse sur la définition « naturelle », J. Rebeyrolle (2000) a compilé un corpus de textes encyclopédiques et de manuels ; pour son analyse de la métonymie, M. Lecolle (2003) a rassemblé un corpus de textes journalistiques ; pour sa thèse sur l'antonomase du nom propre, S. Leroy (2001) travaille elle aussi sur des articles de presse.

Ces quelques exemples ont en commun d'illustrer parfaitement la façon dont le linguiste de corpus mobilise déjà sa connaissance, sa représentation, son intuition de la langue avant même 15 Il est en cours de rédaction au moment où j’écris ces lignes mais nous l’espèrons en cours de publication en

d'avoir commencé à examiner des données. Rassembler un corpus en vue de l'étude d'un certain phénomène, c'est déjà faire l'hypothèse que les textes ou le matériau choisis présenteront des occurrences du phénomène en question, c'est donc déjà une représentation du fonctionnement de la langue. Cela peut paraitre une évidence, mais lorsque l'on décide d'utiliser des encyclopédies et des manuels pour « s’intéresser aux définitions telles qu’elles sont spontanément formulées par les locuteurs eux-mêmes pour expliciter le sens des mots qu’ils emploient » (Rebeyrolle, 2000 : 1), on suppose – avec raison ! – que manuels et textes encyclopédiques recèleront des définitions spontanées. De la même manière, le locuteur d'une langue sait ou croit savoir que les textes journalistiques font usage de certaines figures de rhétoriques, que les textes académiques ou scientifiques font usage de citations, etc. Dans cette perspective, l'idée d'une approche exclusivement corpus-driven dans laquelle le linguiste suspendrait sa connaissance de la langue pour faire émerger la théorie du corpus lui-même est un leurre et constitue précisément le défaut à partir duquel les contempteurs de l'approche sur corpus ont argumenté leur réfutation de cette approche (voir 2.1.1). Il faut au contraire être pleinement conscient des choix opérés et les justifier par des critères explicites, préférentiellement homogènes (Péry-Woodley, 2001).

Les exemples que j'ai donnés précédemment mettent en lumière une tendance actuelle de la linguistique de corpus : la prise en compte des genres textuels dans leur interaction avec le fonctionnement de la langue. Divers travaux, par exemple (Adam, 2004 ; Branca-Rosoff, 1999 ; Malrieu, 2004), s'attachent précisément à mettre en évidence l'importance du genre à l'égard du fonctionnement du discours et par là même une surdétermination du genre sur le fonctionnement linguistique. Il resterait toutefois, dans la lignée de (Malrieu & Rastier, 2001), à évaluer de façon fine cette interrelation entre genres et caractéristiques linguistiques des textes. C'est une question que j'ai abordée dans (Jacques & Aussenac-Gilles, 2006) [16] à l'occasion de travaux sur le repérage automatique de relations conceptuelles, je reviendrai sur ces travaux dans le chapitre 5 de ce mémoire d'habilitation.

J'espère à ce point avoir convenablement montré la prudence dont il convient de faire preuve au moment de la constitution d'un corpus : non seulement est-il nécessaire de définir très précisément ce pourquoi le corpus est rassemblé, mais encore faut-il peser avec soin chaque élément à y inclure ou à en exclure, expliciter les critères mobilisés et les justifier dans un système homogène.

Cependant, la constitution du corpus n'est que la première étape – et presque la moindre – vers l’établissement du matériau d'étude. L'étape cruciale est celle du recueil des données elles-mêmes. Pour l'illustrer, une petite expérience, clin d’œil à mon collègue (et présentement mentor) F. Grossmann.

Imaginons la question de recherche suivante : l'utilisation rhétorique de la forme voir dans l'article scientifique en sciences humaines. Le corpus est presque déjà prêt : Scientext16 est une base de textes scientifiques et académiques de diverses disciplines, à partir de laquelle il est aisé de sélectionner un corpus selon le genre (article de revue, texte de colloque, thèse ou HDR) et/ou la discipline. Restreignons-nous pour l'expérience aux articles de revues de quatre disciplines rangées dans la catégorie 'sciences humaines' : linguistique, psychologie, sciences de l'éducation, TAL, ce qui constitue un ensemble de 22 textes. Demandons à Scienquest, l'outil de recherche dans Scientext, d'afficher la concordance de la forme voir, on obtient 108 occurrences. La première question qui se pose est : toutes ces occurrences sont-elles « bonnes 16 http://scientext.msh-alpes.fr/scientext-site/spip.php?article1

à prendre » ? Si ma question de recherche concerne l'utilisation rhétorique de « voir » dans la construction du discours scientifique dans ces articles, alors le contexte (4) ne « m'intéresse » pas, dans la mesure où il décrit un logiciel mais ne s'insère pas dans le raisonnement scientifique :

(4) Ainsi, dans la continuité de sa lecture du texte, le lecteur se voit proposer, par une signalétique spécifique, des parcours spécifiques sans rupture de la cohésion textuelle puisqu'il peut voir à tout instant le texte complet, ce qui lui permet entre autres d'assurer la continuité référentielle17 [Scientext - TAL]

La question de recherche du chercheur le conduit assez inévitablement à « trier » les données et à écarter celles qui ne lui paraissent pas pertinentes pour son étude.

Est-ce un problème ? Quand la recherche (ici délibérément simplifiée) porte sur des formes et qu'il s'agit de faire un tri, chaque chercheur engagé dans cette démarche se croit de bonne foi bien-fondé à écarter les occurrences qui ne correspondent pas à son critère de sélection et que le logiciel – qui n'accède pas au sens – lui a présentées sur la simple base d'une unification formelle : je demande les occurrences de voir, je récupère tous les voir d'un texte, même ceux qui correspondent à une erreur orthographique et qui sont en fait voire18, j'élimine ces erreurs et les occurrences qui n'entrent pas dans mon champ de recherche (de la même manière que Plénat et al. (2002) écartaient « écologieste »).

Les problèmes potentiels de cette sélection viendraient de deux directions :

1. pour certaines formes, il se peut que la décision d'inclusion ou d'exclusion ne soit pas si nette que cela et qu'elle soit donc variable selon les individus ;

2. quand la recherche n'est pas sémasiologique mais onomasiologique, c'est-à-dire part des significations pour aller vers les formes, la mobilisation de l'interprétation – et donc de la subjectivité du chercheur – est encore plus manifeste et accroit donc la variabilité selon le chercheur.