• Aucun résultat trouvé

CHAPITRE II. CONSTITUTION ET EXPLORATION DES CORPUS

2.1. U NE APPROCHE INSCRITE DANS LA LINGUISTIQUE DE CORPUS

2.1.1. La linguistique de corpus : apports et limites ... 62 2.1.2. Une approche associant les analyses « corpus-based » et

« corpus-driven » ... 63 2.2.L’UTILISATION DE TROIS CORPUS DANS NOTRE ANALYSE LINGUISTIQUE AVEC UN OBJECTIF DIDACTIQUE PRECIS ... 64

2.2.1. Les usages de trois corpus dans notre e tude ... 64 2.2.2. L’inte re t des corpus dans l’enseignement et l’apprentissage des langues e trange res ... 66 2.3.LES CORPUS D’ANALYSE ... 68

2.3.1. Le corpus d’analyse : Scientext-SHS ... 68 2.3.2. Le corpus d’apprenants : corpus Sup-Chinois ... 70 2.3.3. Le corpus d’e tudiants natifs : corpus Sup-Natifs ... 76 2.3.4. Les choix des me thodes d’analyse pour le diagnostic des besoins langagiers ... 78 2.3.5. Le tableau re capitulatif de comparabilite ... 80 2.4.LES OUTILS D’EXPLOITATION ... 81

2.4.1. ScienQuest ... 82 2.4.2. Le Lexicoscope ... 86 2.4.3. TXM ... 89 2.5.BILAN ... 91

Dans ce chapitre, nous présentons les données de corpus utilisées dans notre analyse linguistique avec un objectif didactique précis – l’enseignement des constructions verbales du LST pour aider à la rédaction académique. L’analyse linguistique se compose de deux parties, la première relative à l’étude des patrons lexico-syntaxiques des verbes du LST dans l’écrit scientifique (cf. Chapitre IV), la seconde à l’analyse des besoins langagiers liée à l’utilisation des verbes du LST chez les apprenants chinois (cf. Chapitre V). Nous nous posons principalement les questions suivantes : quel corpus de référence permet l’étude des caractéristiques linguistiques de l’écrit scientifique ? Quelles données collecter pour identifier les difficultés spécifiques concernant l’emploi des verbes et des constructions verbales du LST pour les apprenants chinois et les scripteurs français novices dans l’écriture académique ?

Pour ce faire, nous avons utilisé trois corpus. D’abord, le corpus d’experts Scientext-SHS, utilisé en amont pour relever des constructions verbales

l’exploitation didactique. Ensuite, le corpus Sup-Chinois, que nous avons constitué pour relever les erreurs ainsi que les cas de sous-emploi et de suremploi liés à l’utilisation des verbes et des constructions verbales du LST chez les apprenants chinois. Enfin, le corpus Sup-Natifs a servi à mener une comparaison mettant en lumière les difficultés des apprenants chinois.

Nous commencerons par justifier le choix de l’approche sur corpus adoptée pour l’étude des patrons verbaux. Ensuite, après avoir présenté la constitution des trois corpus, nous nous interrogerons sur les questions de genre et de comparabilité liées aux corpus. Pour finir, nous abordons les outils d’exploitation qui nous sont utiles pour l’analyse sur corpus.

2.1. Une approche inscrite dans la linguistique de corpus

La linguistique de corpus issue de la tradition anglo-saxonne, a été initialement développée pour concevoir des dictionnaires d’apprentissage 1 destinés aux apprenants de l’anglais langue étrangère. De ce fait, comme le fait remarquer Williams (2005), dès ses débuts, la linguistique de corpus est étroitement liée à la lexicographie pédagogique et à l’enseignement des langues (étrangères). C’est en fait au croisement de ces trois disciplines que s’inscrit notre étude.

Considérée comme « à fois une discipline à part et une méthodologie sur corpus » (ibid., p. 13), la linguistique de corpus permet d’étudier « la langue en contexte sous la forme de grands ensembles de textes, les corpus » (ibid., p. 13). Ici, le corpus est défini comme un groupement de données structurées en respectant les objectifs théoriques et pratiques de recherche, allant du choix des discours et des genres aux applications (Rastier, 2002).

Un corpus est un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications. (Rastier, 2002, p. 2)

Aujourd’hui, on voit l’apparition de corpus et d’approches sur corpus diverses, en fonction de différents objectifs et pratiques de recherche. Dans notre étude, nous prenons pour corpus d’analyse différents ensembles de textes se rapportant aux genres de l’écrit scientifique et académique : corpus d’articles scientifiques, corpus d’écrits universitaires d’étudiants chinois (corpus Sup-Chinois) et corpus d’écrits universitaires d’étudiants français (corpus Sup-Natifs). Avant de présenter les différents objectifs de recherche liés à la constitution de ces corpus, il nous semble important d’expliquer notre position par rapport à l’utilisation de la linguistique de corpus pour la description de la langue et pour son enseignement à des publics allophones.

2.1.1. La linguistique de corpus : apports et limites

Aujourd’hui, la linguistique de corpus s’avère incontournable pour étudier la langue en contexte, notamment les phénomènes phraséologiques. À cet égard, nous pouvons retenir deux aspects. Au niveau des données, d'une part, il est possible d’accéder à une grande quantité de données réelles pour observer et décrire l’emploi des mots tel qu’il est pratiqué dans le genre du corpus. Sur le plan phraséologique, le corpus donne les moyens de mettre en évidence les fréquences et les régularités de la langue telles que les associations des mots, les collocations et les patrons en termes de fréquence. Au niveau des outils d’analyse, d’autre part, la linguistique de corpus reliée aux techniques du traitement automatique des langues (TAL) fournit des outils informatiques permettant de traiter de nombreuses données de manière rapide et plus objective. Ainsi, nous déduisons deux caractéristiques principales de la linguistique de corpus, à savoir « l’objectivité et la représentativité » (Cori & David, 2008, p. 115), ce qui la distingue des approches basées sur l’intuition des linguistes.

Néanmoins, il importe de souligner que les valeurs représentative et objective liées à la linguistique de corpus ne sont pas absolues du fait que les données du corpus résultent d’une sélection (Jacques, 2005, p. 26). Ici, nous rejoignons la réflexion présentée par plusieurs chercheurs (Sánchez Cárdenas, 2010 ; Cori & David, 2008) selon laquelle le corpus constitue simplement une aide au processus de recherche et la linguistique de corpus n’efface pas les difficultés rencontrées dans la recherche scientifique, puisque l’interprétation et la vérification des résultats sont indispensables. Nous pensons qu’un corpus, quelle que soit sa taille, ne peut jamais représenter tous les usages du mot. C’est le linguiste qui joue un rôle important pour « décider ce qui est significatif dans ce qu’il observe » (ibid., p. 120). Rappelons que les faits scientifiques s’analysent à partir de l’interprétation des données et non pas par la simple observation. Ainsi, dans notre étude, nous n’envisageons pas de relever tous les emplois des verbes du LST présents dans le corpus Scientext-SHS, mais nous nous focalisons sur les constructions verbales du LST les plus fréquentes et sur l’analyse de leurs propriétés sémantiques et syntaxiques dans le contexte scientifique.

les outils informatiques du TAL associés à la recherche sur corpus, le traitement automatique des données est seulement un support et il ne peut pas remplacer la réflexion du linguiste, notamment en matière d’interprétation sémantique. Par exemple, nous avons opté pour un repérage semi-automatique des patrons verbaux dans le chapitre III. Il s’agit d’un repérage associant l’extraction automatique des constructions verbales ainsi que la vérification et l’analyse manuelles des patrons verbaux. Le chercheur doit considérer ces deux étapes indispensables, car les techniques de TAL ne peuvent pas désambiguïser automatiquement les sens du verbe.

Arrêtons-nous maintenant sur l’approche sur corpus adoptée pour l’étude des patrons verbaux.

2.1.2. Une approche associant les analyses « corpus-based » et

« corpus-driven »

Dans le domaine de la linguistique de corpus, on peut distinguer deux types d’approches sur corpus, à savoir l’approche corpus-based (basée sur le corpus) et l’approche corpus-driven (guidée par le corpus) (Tognini-Bonelli, 2001). Dans la première approche – corpus-based –, les corpus sont utilisés pour « confirmer au moyen de données authentiques l’analyse menée par le linguiste » (Azzopardi, 2010, p. 13). Cette approche s’appuie sur des théories linguistiques préalables et le corpus aide à les confirmer ou non. La deuxième approche – corpus-driven – constitue « une démarche inductive partant du corpus pour aller vers une éventuelle modélisation des régularités émergeant des données authentiques traitées » (ibid., p. 13). Dans ce cas, l’unique hypothèse de départ est que le corpus doit révéler des éléments à analyser ensuite. Donc le linguiste n’exploite pas le corpus pour vérifier un fait, mais pour faire émerger des phénomènes non envisagés jusque-là.

Pour notre part, nous avons choisi de combiner ces deux approches qui nous semblent compatibles et complémentaires. D’une part, nous privilégions l’approche

corpus-based dans la mesure où les corpus sont d’abord utilisés pour valider nos

hypothèses et illustrer le modèle linguistique développé. Par exemple, l’analyse des deux corpus d’écrits d’étudiants permet de vérifier l’hypothèse selon laquelle

manipuler des constructions verbales dans des écrits académiques est plus difficile pour des apprenants chinois que pour des étudiants natifs du français. En outre, étant donné que nous adoptons la ressource lexicographique du LVF comme point de départ de notre analyse linguistique portant sur les verbes du LST dans le corpus Scientext-SHS, nous partons du point de vue selon lequel il y a adéquation entre les constructions syntaxiques et leur interprétation sémantique (Dubois & Dubois-Charlier, 1997) (cf. Chapitre I). Ce postulat théorique est important pour guider notre analyse linguistique, permettant de proposer une classification sémantique des verbes du LST (cf. Chapitre III)

D’autre part, nous nous situons dans la lignée d’une linguistique « corpus-driven » en ce que nous nous inspirons du modèle CPA pour analyser les propriétés sémantiques et syntaxiques des verbes du LST et proposer une modélisation des patrons verbaux. Rappelons que le CPA est une approche guidée par le corpus (cf. Chapitre I). Nous nous intéressons à la description des emplois du verbe et les phénomènes phraséologiques tels qu’ils sont pratiqués dans l’écrit scientifique parce que l’objectif principal de notre recherche est de proposer une ressource linguistique que sont les constructions verbales trouvées dans les écrits scientifiques des experts, donc utiles aux non-natifs dans la rédaction de leurs écrits académiques.

Dans la section suivante, nous aborderons les usages des trois corpus mentionnés ci-dessus dans notre analyse linguistique avec un objectif didactique précis – l’enseignement des constructions verbales du LST pour aider à la rédaction académique.

2.2. L’utilisation de trois corpus dans notre analyse

Documents relatifs