• Aucun résultat trouvé

Chapitre 3 : Approche par corpus

3.1. Exemples de corpus et de travaux à partir de corpus

L’une des premières enquêtes qui a permis la constitution d’un corpus de français oral est le projet Français fondamental, appelé initialement Français élémentaire (Gougenheim et al.,1956). Ce projet remonte aux années cinquante, comme l’explique Arbach (2015) dans sa thèse, et se base sur des témoignages et situations de la vie courante de locuteurs francophones

31 « le travail sur corpus a renforcé mes connaissances sur l’utilisation du « ne » de négation en français et sur la manière dont il est naturellement employé dans des situations formelles » [traduction personnelle].

60 de différentes régions de France. Comme l’indique Cortier (2006), cette enquête a permis l’élaboration d’une liste de mots et d’indications grammaticales, considérés comme faisant partie d’un français de base. Cortier (2006) ajoute que cette liste était destinée aux apprenants de français L2 et que le projet Français fondamental a permis d’ouvrir de nouvelles perspectives dans l’étude du français oral et pour la mise sur pied de contenus linguistiques pour l’enseignement du FLE.

Depuis l’existence du projet Français fondamental, de nombreux corpus oraux de français ont été mis sur pied (voir notamment la revue récente de Avanzi, Béguelin et Diémoz, 2016), mais seuls les corpus ayant proposé une exploitation des données à des fins didactiques seront présentés ici. Quelques corpus oraux de français L1 seront tout d’abord brièvement introduits et une description plus détaillée du projet PFC, qui est à l’origine du projet IPFC, sera présentée. Puis, une sélection de corpus oraux de français L2 se focalisant sur différents domaines de la linguistique (syntaxe, lexique, phonologie, etc.) sera passée en revue.

Un des célèbres corpus oraux en français L1 est celui d’ESLO (Enquête de SocioLinguistique à Orléans) de l’Université d’Orléans32, qui est une base de données de français oral de locuteurs natifs d’Orléans comprenant deux volets : le premier (1968-1974) commandité par des universitaires britanniques pour des professeurs de FLE du système d’éducation anglais, et le second, ESLO 2 (dès 2008), constitué de façon comparable au premier volet, quarante ans plus tard. Cette collection de données orales comprend des interviews, des conversations téléphoniques ou encore des réunions publiques et a pour objectif d’être utilisé comme ressources dans l’enseignement du FLE33. Ces deux volets, distants de quarante ans, permettent de plus d’étudier la variation diachronique du français hexagonal, et plus spécifiquement orléanais, comme indiqué dans la section « Recherche » du site internet34 du projet.

Un autre corpus de français oral L1 est celui de CLAPI35 (Corpus de LAngue Parlée en Interaction), qui comprend des enregistrements de situations d’interactions authentiques et dont l’équipe de recherche se focalise en particulier sur la parole en interaction. La plateforme CLAPI-FLE36 est le volet de CLAPI dédié à l’enseignement du FLE, qui propose des ressources pédagogiques à partir des interactions enregistrées dans le cadre du projet CLAPI. Ce volet

32 Voir Bergounioux (1996) et Serpollet et al. (2007).

33 Site internet du projet ESLO et ESLO 2 : http://eslo.huma-num.fr/index.php [consulté le 6 novembre 2019].

34 Ibid.

35 Site internet du projet CLAPI : http://clapi.icar.cnrs.fr/FLE/index.php [consulté le 6 novembre 2019].

36 Site internet du volet CLAPI-FLE : http://clapi.icar.cnrs.fr/FLE [consulté le 7 janvier 2020].

61 comprend une quarantaine d’extraits d’interactions sociales dans différents contextes (interactions professionnelles, commerciales, médicales, etc.).

Le corpus CIEL-F37 (Corpus International Écologique de la Langue Française) comprend des enregistrements en situations naturelles de quinze aires géographiques de la francophonie et a pour objectif d’offrir à la communauté scientifique une base de données pour la linguistique de contact, variationnelle ou interactionnelle. Le corpus CIEL-F, tout comme celui de CLAPI-FLE38, a également pour but d’être exploités en classe de FLE en tant que support authentique, pour illustrer, particulièrement dans le cas de CIEL-F, l’existence de différentes variétés de français.

Le projet FLEURON (André, 2016) est une plateforme en ligne qui permet aux futurs étudiants des universités françaises de préparer leur venue. Il propose des enregistrements vidéos et sonores authentiques de situations auxquelles les étudiants devront faire face, telles que l’utilisation de transports, les aspects administratifs divers, la vie universitaire ou les demandes d’aide au logement.

Le « projet mère » de celui d’IPFC est le corpus PFC (Durand, Laks et Lyche, 2002).

Le corpus PFC (Phonologie du Français Contemporain) est un projet initié au début du vingt-et-unième siècle et est de type socio-phonologique. Il comprend des enregistrements de la langue orale chez des natifs du français et qui a pour but d’ « envisager le français dans son unité et sa diversité et de permettre ainsi la conservation d’une partie importante du patrimoine linguistique des espaces francophones du monde » (Durand, Laks et Lyche, 2002 : 96). D’après ces auteurs (2002), le projet PFC vise une ample couverture géographique (avec à ce jour, quarante-neuf points d’enquête à travers le monde39, comprenant une part équilibrée de zones rurales et de zones urbaines) et un protocole de recueil de données identique pour tous les points d’enquête. Le protocole de recueil de données PFC comprend quatre registres différents à travers quatre tâches : la lecture d’une liste de mots, la lecture d’un texte, la participation à une conversation semi-formelle guidée par un enquêteur ainsi qu’à une conversation informelle. La liste de mots pour la tâche de lecture est conçue de façon à « établir un premier inventaire phonologique du témoin » (2002 : 99). Tous les mots font partie d’un lexique courant et comprennent des spécificités phonologiques du français, dans le but, entre autres, d’assurer une comparabilité entre les différentes variétés de français enregistrées et d’ « aborder la question du changement phonologique en temps réel » (2002 : 100). Le texte utilisé pour la lecture est

37 Site internet du projet CIEL-F : http://ciel-f.org [consulté le 6 novembre 2019].

38 Pour les corpus CLAPI et CIEL-F, voir Bert et al. (2010).

39 D’après le site internet de PFC : https://research.projet-pfc.net/index.php [consulté le 15 novembre 2019].

62 présenté sous forme d’article simple d’un journal et, selon Durand, Laks et Lyche (2002), il ne présente pas de traits spécifiques régionaux de façon à rester le plus neutre possible. Le texte regroupe différents phénomènes phonologiques typiques du français et permet ici encore de faire l’inventaire phonologique du participant. La conversation semi-formelle guidée par l’enquêteur dure vingt à trente minutes et a pour but de faire s’exprimer le participant sur les sujets qui l’intéressent. La conversation informelle dure quant à elle environ trente minutes et a lieu entre le participant et l’enquêteur s’ils possèdent des liens amicaux ou entre le participant et un autre témoin-ami. Le but de cette seconde conversation est d’ « essayer d’approcher le vernaculaire de nos témoins et de diminuer autant que faire se peut l’effet du “paradoxe de l’observateur”40 » (2002 : 102). Les études phonologiques menées sur la base du corpus PFC ont pour objectif d’examiner la langue telle qu’elle est employée par les locuteurs natifs du français et « de remettre en question le mythe de l’homogénéité de la prononciation du français » (2002 : 102).

En 2006, un projet adjacent au corpus PFC voit le jour, le programme PFC-EF (pour Enseignement du Français). Ce programme pédagogique vise à « exploiter la base de données PFC pour l’enseignement du français [en L1 comme en L2] et de la linguistique française » (Detey et Racine, 2012 : 86) et propose du matériel pédagogique sur la base, entre autres, d’extraits sonores de différentes variétés de français issus du corpus PFC. Detey et Racine (2012) suggèrent qu’au fur et à mesure de l’apprentissage du français en L2, l’enseignement pourrait se concentrer davantage sur « l’acceptabilité sociolinguistique renvoyant aux usages attestés » (2012 : 87), en introduisant, grâce au programme PFC-EF par exemple, différentes variétés de la langue qui comprendraient des phénomènes propres à la langue orale et spontanée.

Parmi les corpus en français L2, certains se concentrent sur des aspects particuliers de son acquisition. Certains corpus ont par exemple pour but d’examiner des aspects plutôt lexicaux ou morphosyntaxiques de l’acquisition ; on peut notamment citer le corpus ESF (European Science Fundation Second Language) (Perdue, 1993), LANCOM (LANgue et COMmunication) (Debrock et Boistrancourt, 1996), ou encore FLLOC (French Learner Language Oral Corpora) (Myles et Mitchell, 2007). Le premier est une base de données collectées par des groupes de recherche dans cinq pays européens : la France, l’Allemagne, la Grande-Bretagne, les Pays Bas et la Suède. D’après la description du projet (Préface, Perdue 1993), le but premier du corpus ESF est d’examiner l’acquisition spontanée d’une L2 chez des

40 Le paradoxe de l’observateur est un problème méthodologique de récolte de données mis en évidence par Labov (1972). Il repose sur le risque que le participant interrogé ne parle pas spontanément et de manière aussi naturelle que d’habitude, de par la présence d’un enquêteur et d’un microphone.

63 travailleurs immigrés en Europe de l’ouest, et en particulier, leur communication avec des locuteurs natifs du pays d’accueil. Le deuxième corpus, LANCOM, qui a été constitué à l’Université de Louvain en Belgique, porte sur les savoir-faire langagiers en interlangue (apprenants néerlandophones de Flandre) et en langue cible (francophones de France). Le corpus permet en particulier l’examen des aspects discursifs, conversationnels et interactionnels. Le troisième corpus, FLLOC, initié en 2001, est basé à l’Université de Southampton en Grande-Bretagne et, comme l’indique le descriptif du projet sur le site internet41, il a pour objectif sur le long terme de promouvoir la recherche dans le domaine de l’acquisition du français langue étrangère en offrant l’accès à des données d’apprenants de français oral.

Il existe des corpus élaborés particulièrement pour l’étude d’aspects phonologiques en français L2 et c’est dans ce domaine que s’inscrit le projet InterPhonologie du Français Contemporain (IPFC), qui fait office de cadre de l’étude empirique du présent travail et qui sera présenté à la section 3.2. Tout comme IPFC, le projet COREIL (Delais et Yoo, 2010) et le projet PhoDiFLE (Landron et al., 2011) sont des corpus dont les objectifs visent l’étude d’aspects phonético-phonologiques du français L2. Le corpus COREIL (CORpus pour l’Etude des InterLangues) est, comme l’indiquent Delais et Yoo (2011), un corpus électronique oral élaboré pour l’étude de l’acquisition de phénomènes prosodiques en français et en anglais L2.

Il se base sur des enregistrements d’apprenants adultes dans leur L2, c’est-à-dire le français ou l’anglais, de jeunes enfants dans leur L1 ainsi que des adultes s’exprimant dans leur L1. Delais et Yoo (2011) soulignent que les enregistrements de données en L1 permettent d’obtenir un point de comparaison lorsqu’il s’agit d’examiner certains phénomènes en acquisition. Elles indiquent de plus que les études sur la base de ce corpus portent entre autres sur les transferts de la L1 et l’acquisition du rythme et de l’intonation dans la L2. Le corpus PhoDiFLE (Phonétique Didactique du Français Langue Étrangère), quant à lui, a été créé « pour l’enseignement des sons du français » (Landron et al., 2011 : 73). Il a pour objectif d’examiner les réalisations phonétiques du français oral produites par des apprenants de FLE et les écarts phonétiques de ces réalisations. Les productions d’apprenants sont analysées acoustiquement et perceptivement et Landron et al. (2011) soulignent que la création de ce corpus s’inscrit dans une perspective didactique et qu’elle contribue à la recherche en didactique des langues.

Le projet InterPhonologie du Français Contemporain (IPFC) (Detey et Kawaguchi, 2008 ; Racine et al., 2012), extension du projet PFC, est mis sur pied en 2008. Il a pour objectif

41 Site internet du projet FLLOC : http://www.flloc.soton.ac.uk [consulté le 6 novembre 2019].

64 de créer un corpus de français à partir d’enregistrements d’apprenants ayant diverses L1. En 2019, le corpus comptait seize L1 et plus d’une trentaine de points d’enquête. Le projet IPFC est le cadre de l’étude menée pour le présent travail qui sera présentée dans le chapitre quatre.

La prochaine section a pour objectif de présenter le projet IPFC et la genèse du volet IPFC-Irlande.