• Aucun résultat trouvé

Nous avions soulevé dans la partie introductive de cette thèse, l‟absence de disponibilité de corpus d‟anglais L2 produit par des francophones. Or, pour mener à bien l‟élaboration de critères prosodiques, il est nécessaire d‟utiliser un corpus oral d‟anglais britannique suffisamment important, qui regroupe des enregistrements de productions en anglais L1 et L2. Dès lors, un des premiers objectifs de cette recherche consiste en la création d‟une base de données conséquente afin de mener à bien les analyses qui vont suivre (cf. chapitre 5), c‟est-à-dire chercher à déterminer où se situent les écarts prosodiques entre des productions de natifs anglais et d‟apprenants francophones dans le but d‟établir des paramètres destinés à une évaluation prosodique.

Malgré tout, le manque d‟un tel corpus semble tout à fait surprenant, tout particulièrement lorsque l‟on considère le statut de l‟anglais dans le monde et la place que cette langue occupe en France. En effet, l‟anglais est la langue officielle de plus de 50 pays et elle est parlée en tant que langue maternelle par plus de 330 millions de terriens (Weber, 1997). Estimée comme l‟actuelle « langue internationale », elle est assurément la seconde langue la plus apprise et étudiée au monde (Crystal, 2003) avec un nombre toujours accru d‟apprenants (estimé à 150 millions en 2008 par Weber d‟après une interview sur son ouvrage en 2008 : « The number of speakers of all the top ten languages have gone up in the last quarter century but relative to each other, the situation among the top ten remains unchanged »). Ces chiffres nous semblent un peu faibles, et effectivement lorsqu‟on se réfère à l‟étude de Graddol (2000 :10), ce dernier annonce 375 millions de locuteurs anglais L1 et 750 millions d‟apprenants. L‟anglais est en effet, la première langue étrangère étudiée à partir de l‟école primaire dans de nombreux pays (Allemagne, Espagne etc.), y compris la France, pour laquelle le site www.nationmaster.com annonce environ 16 millions d‟apprenants sur la population totale.

Conjointement, la littérature sur l‟acquisition des langues est de plus en plus abondante, et les travaux sur l‟acquisition de l‟anglais L2 se font grandissants. Lorsque l‟on se penche sur le domaine de l‟acquisition des langues secondes et notamment l‟acquisition de l‟anglais L2 par des francophones, la constitution et le travail sur des corpus oraux sont plus rares. Pourtant, les travaux menés dans le cadre de l‟apprentissage de l‟anglais L2 ne cessent d‟augmenter tant au niveau segmental qu‟au niveau

tel-00455248, version 1 - 9 Feb 2010

146 suprasegmental. Actuellement de nombreuses études sont menées, par exemple, sur

« l‟accent étranger » d‟un français parlant anglais (Horgues, 2005) ou de locuteurs d‟autres nationalités parlant anglais (Cheong, 2007 ; Jilka, 2000).

La recherche en linguistique, quel que soit son domaine, semble se tourner vers la constitution et l‟utilisation de production de parole naturelle. De ce point de vue là, le travail sur corpus représente la base fondamentale des travaux entrepris. Les études portant sur l‟oral et l‟acquisition des langues L2 ont alors grand intérêt à se fonder sur de grands corpus de parole, dont le style répond aux exigences et objectifs visés. L‟utilisation de corpus dans l‟apprentissage des langues n‟est d‟ailleurs pas récente, et c‟est dans les années 1990 que le travail sur de larges corpus est apparu notamment avec la „naissance‟

du TaLC (Teaching and Language Corpora). Cependant, comme le remarque Mauranen (2004) si la production et les échanges oraux en L2 font l‟objet de nombreux travaux et occupent une place largement notable, le travail sur corpus oraux reste particulièrement mis de côté, les corpus utilisés étant majoritairement des corpus écrits. Le corpus ICLE26 (International Corpus of Learner English) en est une parfaite illustration. En effet, l‟ICLE est un important projet qui est le résultat d‟une collaboration de plus de 10 ans d‟activités ; sa conception est très riche et originale, mais ce corpus ne comporte qu‟une base écrite reposant sur deux types d‟exercices : un commentaire composé argumentatif et une dissertation littéraire (environ 500 à 1000 mots pour chacun des exercices). Nous ne trouvons aucune équivalence du même type pour des corpus oraux. Boulton (2008) fait état des différents corpus existants en DDL ; sur 39 recensés, nous constatons que seulement 11 portent sur l‟oral des apprenants et semblent de surcroît être difficilement accessibles.

Malgré tout, actuellement, un seul projet en cours se distingue des remarques formulées ci-dessus. Il s‟agit du projet LONGDALE (Granger & al., 2009), qui a pour objectif de constituer un corpus d‟apprenants avec une partie consacrée aux apprenants francophones de l‟anglais L2.

Parallèlement à cela, nombreux sont les corpus d‟anglais L1, et dont les utilisations sont spécifiques à certains types de travaux ou répondent à des exigences en fonction des

26 http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Projects/Icle/icle.htm

tel-00455248, version 1 - 9 Feb 2010

147 diverses approches choisies. En effet, de nombreux travaux sur l‟anglais, quel que soit leur cadre théorique, semblent s‟appuyer sur la volonté d‟utiliser des stimuli naturels. Ainsi plusieurs grandes bases de données, orientées selon le type de travaux, sont exploitables et disponibles (études inter-dialectales avec IVIE27 (Kochanski & al., 2004), étude d‟un phénomène particulier sur de l‟anglais spontané avec la base de données Aix-Marsec (Auran & al, 2004), ou encore une base de données comparatives sur les langues européennes telle que EUROM1 (Chan & al. ,1995), etc.). On retrouve également plus d‟une vingtaine de corpus d‟anglais L1 sur le site de l‟UCREL28 (University Centre for Computer Corpus Research on Language) tels que le BNC (90% de données écrites), le Lancaster/IBM Spoken English Corpus devenu SEC puis Aix-Marsec ou encore ITU (International Telecommunication Union) pour exemples de corpus oraux. Egalement, des centres de ressources linguistiques tels que le LDC29 (Linguistic Data Consortium) ou encore l‟ ELRA30 (European Language Resources Association) mettent à la disposition de la communauté un grand nombre de corpus anglais L1, tel que AURORA (ELRA), base de données développée dans le but principal d‟étudier l‟influence sur la performance de la reconnaissance automatique de la parole pour des entrées de parole en mode mains-libres dans des environnements bruités.

De ce constat général s‟est imposée la nécessité de la constitution d‟une ressource telle que ANGLISH.

27 http://www.phon.ox.ac.uk/old_IViE

28 http://ucrel.lancs.ac.uk/corpora.html

29 http://www.ldc.upenn.edu/

30 http://catalog.elra.info/index.php

tel-00455248, version 1 - 9 Feb 2010

148