Principaux corpus oraux existants - Complexité, correction et fluidité

2. Modèles scientifiques de la production orale

2.2. Complexité, correction et fluidité

2.2.1. Fluidité

2.2.1.3. Principaux corpus oraux existants

Il semble qu’une vaste part des corpus oraux existants ne prend pas en considération un public francophone d’étudiants de l’enseignement supérieur ou n’ont pas les mêmes buts que ceux de cette recherche.

2.2.1.3.1. Nature et objectifs des corpus existants

Différentes études ont porté leur attention sur des corpus d’anglais oral par des apprenants de cette langue comme langue étrangère. Cependant, une partie des corpus n’est pas de même nature ou n’a pas les mêmes objectifs que ceux de mon travail.

Tout d’abord, j’ai choisi dans ma recherche d’étudier des productions orales « spontanées » des étudiants. Ce terme doit être compris comme « expression libre non

chercheur qui a sollicité les apprenants, et non ceux-ci qui ont parlé d’eux-mêmes devant un dictaphone en anglais. Cependant, cette parole reste « spontanée » dans la mesure où, si le thème reste imposé (se présenter), le locuteur demeure libre d’exprimer ce qu’il souhaite sans temps de préparation préalable. Ce type d’expression se distingue par là même de la lecture de textes (projets « Learner’s Corpus of Reading Texts » en 2010, « AirOx » en 2012) ou de l’étude de bulletins de radio (« Spoken English Corpus », 1984-1987), auxquels certaines analyses de corpus s’intéressent, et se rapproche à mon sens d’une prise de parole en condition réelle. C’est pourquoi je ne m’intéresserai qu’aux corpus incluant une tâche d’expression orale spontanée, avec laquelle les apprenants pourraient éprouver un certain degré de proximité (d’après Koch et Oesterreicher, 2012), et exclurai les autres corpus.

Ensuite, les objectifs de ces corpus ne sont pas les mêmes que les miens : quand je souhaite étudier une compétence orale réelle, la plupart des corpus disponibles dans le champ de la didactique cherchent à relever et classifier les erreurs courantes (« error pattern », en particulier de prononciation) pour améliorer les méthodes d’enseignement et diminuer le taux d’erreurs, comme le soulignent Kolesnikova et Gonzalez-Gonzales (2016) :

Spoken learner corpora which include speech generated by learners are important in many areas of research and practice, in particular, for identifying typical pronunciation errors of learners of English as a second language (ESL), English as a foreign language (EFL), or English as a lingua franca (ELF). The data on common errors is helpful in designing more effective methods of pronunciation teaching as an aspect of language training. Also, error patterns can be implemented in intelligent tutor systems for English learning in order to design explanations and exercises in the error-preventive way and to generate a relevant feedback to the learner. (Kolesnikova & Gonzalez-Gonzales, 2016 : 111)

Plusieurs thèses de doctorat ont par ailleurs basé leurs recherches sur l’analyse de corpus oraux, mais certaines s’intéressent à la linguistique (et en particulier aux structures de l’anglais conversationnel de locuteurs natifs, ce qui ne constitue pas le même public que les étudiants de BTS apprenant une L2) comme Debras (2013) ou Passot (2004) ; d’autres adoptent une démarche comparative. Seul le travail de Verplaetse Manoïlov (2017) me semble recouper en partie les objectifs de ma propre recherche, en ce qu’elle étudie le fonctionnement des interactions orales en « pair work » en anglais L2 avec un corpus filmé, mais elle s’attache à des jeunes de classes de troisième en collège et prend appui sur les théories de l’analyse conversationnelle, alors que je prends davantage en compte les compétences individuelles que les capacités interactionnelles.

2.2.1.3.2. Contenus des principaux corpus assimilables à ma recherche

PAROLE

Le corpus PAROLE (PARallèle Oral en Langue Étrangère), dirigé par Hilton et Osborne, enregistre des apprenants de L2 sur diverses tâches de description d’images vidéo (vidéo gag, caméra cachée, publicité) et sur un récit davantage libre et autobiographique nommé « l’accident » (tâche E du corpus) où il est demandé aux locuteurs de raconter un accident qu’ils ont vécu. C’est cette tâche qui est la plus proche en contenu de celle que j’ai proposée à mes étudiants. Dans ce corpus, 24 apprenants français qui apprennent l’anglais sont interrogés et enregistrés, et les données collectées sont mises en lien avec des données complémentaires sur les connaissances en L2 à l’aide de différents instruments :

 un questionnaire pour déterminer le profil linguistique général des participants et le contact avec l’anglais,

 un questionnaire de motivation, et

 six tests, dont 5 informatisés sur le site du consortium européen DIALANG (un test de compréhension de l’oral, un de connaissances grammaticales, deux de connaissances lexicales, un d’aptitude à l’analyse grammaticale) et un de répétition de pseudomots. Ce projet est intéressant pour ma recherche dans la mesure où les répondants sont aussi de jeunes adultes, que la tâche de « l’accident » est une tâche de production orale spontanée et que les données de l’expression orale sont associées à un « niveau réel » en langue vivante. Cependant, je n’ai pas utilisé les conventions du manuel CHAT pour les transcriptions car il me paraît très technique et peu adapté aux analyses que je souhaitais mener sur les productions orales des apprenants; j’ai préféré m’appuyer sur les règles de LINDSEI que j’explique dans le troisième paragraphe ci-dessous.

Hilton (2008) rappelle les objectifs du corpus:

En 2003, au sein d’une équipe pluridisciplinaire, nous avons décidé de mettre sur pied un projet qui pouvait fédérer des chercheurs s’intéressant à trois L2 différentes (l’anglais, le français et l’italien), et à différents domaines de la maîtrise linguistique : phonologie, lexique, morphosyntaxe. L’idée de base était de constituer un corpus oral de productions à différents niveaux de compétence, afin d’investiguer et de comparer les caractéristiques linguistiques de ces différents niveaux (intra et inter-langues).

Au contraire du projet PAROLE, mon travail ne cherche pas à « comparer [des] caractéristiques linguistiques » mais à expliquer les possibles liens entre niveau de compétence, représentations et exposition à la langue étrangère. Mais le projet pourrait constituer une piste d’élargissement à ma recherche pour l’avenir en fournissant à l’analyse de nouvelles productions orales d’un public similaire.

ANGLISH

La banque de données ANGLISH (Tortel, 2008) inclut des enregistrements de Français lisant des textes en anglais et des prises de parole en continu non préparées. Les participants sont 23 locuteurs natifs anglophones, 20 non-spécialistes francophones parlant anglais et 20 jeunes étudiant l’anglais en deuxième année à l’université. La répartition hommes-femmes est quasiment équitable en nombre.

LINDSEI

La plus grande banque de données orales d’apprenants français s’exprimant en anglais est probablement celle de l’université catholique de Louvain, en Belgique. Inaugurée en 1995, le projet « Louvain International Database of Spoken English Interlanguage » (LINDSEI) comprend au départ un total de 100 000 mots pour 50 interviews de francophones apprenant l’anglais, sur trois tâches différentes : sujet imposé, discussion libre et description d’image. Les interviews sont transcrites et annotées selon les mêmes conventions établies par l’université40, et mises en lien avec des renseignements sur l’apprenant, l’enquêteur et les conditions de recueil de données, afin de déduire une possible influence de ces facteurs sur la langue parlée. Le même corpus avec des locuteurs anglais natifs a été recueilli pour permettre les comparaisons. Par la suite, ce corpus a été enrichi par des locuteurs d’autres langues.

On voit bien, lorsque l’on veut répertorier les recherches existantes, qu’il n’y a pas actuellement beaucoup de données concernant de jeunes adultes francophones apprenant l’anglais. De plus, quand ces données existent, elles s’attachent plus à décrire les marqueurs de la fluidité, à classifier les erreurs ou la prosodie qu’à définir des profils d’apprenants en lien avec leurs compétences orales réelles et leurs représentations. C’est en cela que la présente recherche me semble explorer de nouvelles pistes.

Les règles de transcription sont consultables en ligne sur le site du projet : https://uclouvain.be/en/research-institutes/ilc/cecl/transcription-guidelines.html

Dans le document Analyse des représentations de la langue anglaise en lien avec les compétences en expression orale en L2 chez des apprenants de BTS (Page 104-108)