• Aucun résultat trouvé

Les corpus oraux disponibles pour l’anglais

5 Méthodologie : Le projet Phonologie de l’Anglais Contemporain (PAC)

5.1 Les corpus en linguistique

5.1.2 Les corpus oraux disponibles pour l’anglais

S’agissant de l’étude de l’anglais, de nombreux corpus sont disponibles, même s’il est rare que leur accès soit libre et gratuit. Nous ne nous intéresserons ici qu’aux corpus oraux, c’est-à-dire, ceux « qui regroupent des documents correspondant à des transcriptions, alignées ou non sur le signal, de productions orales (entretiens libres, entretiens guidés, exposés, etc.). Ces données peuvent servir pour mener des recherches sur l’oral (syntaxe de l’oral, prosodie, etc.) et ont souvent été collectées dans des situations diversifiées. » (Delais-Roussarie 2003 : 93-94). Bien sûr, de nombreux corpus oraux de langue anglaise existent déjà, dont la nature et la disponibilité sont très variables, puisque de telles bases de données sont généralement conçues pour l’étude d’un aspect particulier d’une langue. Les variétés américaines et britanniques de l’anglais sont très bien représentées, mais en dépit du très grand nombre de travaux dialectologiques, il est plus difficile de trouver des données qui documentent les variétés d’ céanie, d’Asie ou d’Afrique. Nous verrons que malgré l’abondance de ces corpus, un projet comme La Phonologie de l’Anglais Contemporain présente de nombreux avantages, notamment méthodologiques, et se base sur un protocole commun que nous décrirons de manière détaillée en montrant comment nous nous le sommes approprié pour notre propre recherche.

Remarques sur les corpus d’anglais oral existants

Le premier type de corpus que nous rencontrons est le corpus dit « national ». Les corpus nationaux sont conçus comme des bases de données de références censées fournir une image globale de la langue d’un pays. Ces corpus doivent idéalement rassembler à parts égales des données écrites et orales. Cependant, la collecte de données orales étant beaucoup plus coûteuse en temps et en argent, les corpus nationaux contiennent généralement peu de données orales. En Grande-Bretagne, le British National Corpus (connu sous l’acronyme BNC), qui contient environ 100 millions de mots, ne compte que 10% de transcriptions de données orales. Il s’agit de transcriptions de conversations enregistrées auprès d’un panel de locuteurs issus de diverses régions, générations et classes sociales, ou d’interactions langagières diverses comme des réunions d’affaires, des émissions de radio, etc. Les enregistrements sont disponibles sur demande, mais ne sont pas alignés sur les transcriptions. Le American National Corpus (ANC) est le résultat d’un projet en tout point similaire au

155 BNC, qui s’intéresse comme son nom l’indique aux variétés américaines de l’anglais. La seule différence avec le BNC est que les transcriptions de l’ANC contiennent des annotations (produites automatiquement) concernant divers phénomènes linguistiques (frontière de mots ou de phrase, décomposition analytique (parsing) superficiel. Une sous-partie de l’ANC est téléchargeable librement.

Parmi les corpus de référence pour l’anglais britannique, on trouve notamment le London-Lund Corpus of Spoken English (qui contient également des données de langue écrite). Enregistré entre 195 et 19 7, ce corpus d’environ 500,000 mots contient des transcriptions de conversations et de monologues (Lenk 1998 : 6-7) ainsi que des annotations prosodiques et paralinguistiques. Les enregistrements sont de divers types : conversations spontanées, conversations publiques (radio), conversations privées (réunions de comités, réunions académiques), commentaires spontanés (sports, société, science), discours oratoires (spontanés et préparés mais non-écrits). En dépit de la grande variété des registres représentés dans ce corpus, très peu d’informations concernant les locuteurs sont disponibles (on sait cependant qu’il s’agit essentiellement de locuteurs ayant un haut niveau d’études), ce qui le rend peu adapté à l’étude sociolinguistique. n peut également mentionner le Spoken Corpus of British English qui rassemble à la fois parole lue et parole spontanée. Les locuteurs sont sélectionnés dans quatre régions distinctes et représentatives de la Grande Bretagne : sud-est, Glasgow, Leeds et Birmingham. Les enregistrements de parole lue incluent des phrases « phonétiquement riches » (c’est-à-dire phonétiquement équilibrées), des phrases « phonétiquement compactes » (qui contiennent des oppositions habituellement observés en RP) et un texte lu (2 min). La parole spontanée consiste en une description, par le locuteur, d’une image qui lui est proposée (parole guidée). Pour chaque point d’enquête, 20 hommes et 20 femmes sont recrutés pour le groupe des « many talkers » (qui lisent en tout 20 phrases), puis 5 hommes et 5 femmes sont recrutés pour le groupe des « few talkers » qui enregistrent 200 phrases au total. Tous les enregistrements sont transcrits orthographiquement et une petite partie d’entre eux reçoit également une transcription phonétique. Là encore, même si le protocole peut se révéler adapté à une étude phonologique, on constate que le recrutement des locuteurs s’opère selon des critères très restrictifs : « Talkers will be selected to represent educated speech from four regional accent areas. An attempt will be made to obtain homogeneity within each accent group and it is likely that this will be achieved by using

156 young adults from a suitably homogeneous linguistic environment such as a school. » (manuel du corpus SCRIBE, en ligne). Aucune information supplémentaire concernant les locuteurs n’étant collectée, le corpus SCRIBE est lui aussi peu adapté à une étude sociolinguistique des variétés concernées. En recherchant des corpus qui se concentrent sur une variété régionale (non-standard) en particulier, on peut le Newcastle Electronic Corpus of Tyneside English (NECTE), qui rassemble des enregistrements réalisés lors de deux enquêtes sociolinguistiques menées en 1969 et 1994 auprès de locuteurs de la région de Newcastle-upon-Tyne. Les transcriptions orthographiques utilisent l’orthographe standard afin d’améliorer l’indexation des données, et sont alignées sur le signal audio (Beal et al. 2012). De plus, des transcriptions phonétiques détaillées, conjuguées à des informations sociologiques sur les locuteurs offrent la possibilité d’analyser de manière précise la variation socio-phonologique dans cette région. Le projet NECTE a d’ailleurs permis la publication de nombreux travaux sur la variation socio-phonologique, dont ceux de Beal (2004), Moisl et Maguire (2008) ou Moisl et al. (2006).

Parmi les corpus souvent exploités pour des travaux de phonologie anglaise, il faut encore retenir le Lancaster/IBM Spoken English Corpus (SEC), un corpus de 53,000 mots qui rassemble un grand nombre d’enregistrements radiophoniques (1984-1991). Ce corpus s’efforce d’établir un équilibre entre des enregistrements de parole très stylisée (poésie, émission religieuse, discours politique) et des dialogues, ainsi qu’un équilibre de genre entre hommes et femmes. Un des avantages du corpus SEC est qu’il est disponible sous diverses formes : transcription orthographique, annotation prosodique, étiquetage grammatical. Ce corpus a subi différentes évolutions depuis sa création. MARSEC (Machine Readable Spoken English Corpus) est une extension du SEC dans laquelle les enregistrements originaux ont été digitalisés et alignés avec la transcription au niveau lexical. Les marqueurs tonétiques y sont également convertis (ASCII) afin que le corpus en autorise l’exploration automatisée. La base de données Aix-MARSEC (Auran et Bouzon 2003, Auran et al. 2004) est un développement supplémentaire constitué d’une part, des enregistrements du SEC numérisés, et de l’autre, des fichiers d’annotations multi-niveaux (phonèmes, constituants syllabiques, syllabes, mots, pieds accentuels et unités intonatives). Les fichiers d’annotations ont notamment été convertis au format textgrid permettant leur exploitation sous PRAAT. Le corpus SEC et ses évolutions MARSEC et Aix-MARSEC présentent donc l’avantage d’avoir différents niveaux

157 d’annotation, et constituent ainsi un matériau privilégié pour l’étude de divers phénomènes linguistiques. En outre, Aix-MARSEC implémente divers outils de traitement automatique (pour la phonétisation, l’alignement automatique, etc.). n pourra tout de même s’interroger sur la prise de position préthéorique qu’implique un étiquetage des facteurs prosodiques, et questionner la pertinence d’une transcription phonémique automatique, sans analyse préalable du système phonémique du locuteur. Mentionnons pour finir la partie CANCODE (Cambridge and Nottingham Corpus of Discourse in English) du Cambridge Spoken English Corpus, qui rassemble des données de conversation spontanée (conversations informelles, demandes d’information, etc.) enregistrées dans de nombreuses localités des Iles Britanniques. Les enregistrements sont transcrits orthographiquement (voir Adolphs 2008 : Annexe 1 pour les conventions) et les relations entre les interlocuteurs sont codées, ce qui permet aux chercheurs d’observer la manière dont différents niveaux de familiarité affectent l’usage de la langue.

Des corpus oraux sont également consacrés à l’anglais américain. Le plus important d’entre eux est sans doute le Santa Barbara Corpus of Spoken American English (SBCSAE). Ce corpus est essentiellement composé d’enregistrements de conversations dyadiques, mais d’autres types d’interactions sont représentés (conversation téléphonique, jeu de carte, conversation professionnelle, narration etc.). Les locuteurs sont sélectionnés afin de représenter une grande variété d’origines régionales, d’âges, de professions, d’origines ethniques et de milieux sociaux. Une fiche d’information est créée pour chaque locuteur et contient : identifiant, pseudonyme (tel qu’utilisé dans la transcription), sexe, âge, variété parlée, lieu d’origine de la variété, lieu de résidence actuel, niveau d’études, durée des études, profession, origine ethnique. Les enregistrements sont transcrits orthographiquement et respectent un ensemble précis de conventions (Lenk 1998 : 7-12, Du Bois et al. 1992). De plus, chaque syntagme reçoit un marqueur de temps permettant d’être relié au fichier audio. Une partie du Cambridge Spoken English Corpus est également consacrée à l’anglais Américain : le Cambridge-Cornell Corpus of Spoken North American English. Il se compose d’enregistrements de conversations informelles réalisés à travers l’Amérique du Nord (voir Tao et Waugh 1998). Un des buts est d’obtenir une grande variété en termes de types de discours et de situation, afin que le corpus puisse être utilisé à des fins de recherche et d’enseignement, et qu’il permette notamment de comparer l’anglais américain et l’anglais

158 britannique. Les enregistrements sont systématiquement transcrits orthographiquement (conventions décrites par Tao et Waugh 1998 : section 2.3), et une base de données parallèle rassemble les informations concernant la situation et le contenu des conversations, ainsi que celles relatives aux locuteurs. On peut également mentionner le Longman Spoken American Corpus, corpus de 5 millions de mots, composé de conversations spontanées enregistrées dans 12 régions des Etats-Unis. Cependant, l’exploitation de ce corpus est réservée à l’éditeur Pearson Education, et n’est donc pas disponible pour la recherche (ou l’enseignement). Il faut au demeurant s’interroger sur la nature des documents qui composent le Longman Spoken American Corpus puisqu’il est construit par l’équipe de Jac Du Bois à l’université de Santa Barbara. Il paraît fort probable que les données de ce corpus soient les mêmes que celles du SBCSAE.

Au-delà des variétés britanniques et américaines, on trouve également des corpus consacrés à l’anglais parlé dans d’autres régions du monde. Le Limerick Corpus of Irish English (LCIE) est un corpus d’un million de mots, composé d’enregistrements de parole spontanée (conversations produites dans des contextes très divers) recueillis en République d’Irlande, auprès d’un panel varié (en termes de sexe et d’âges) de locuteurs. La représentativité géographique du corpus n’est pas complète, mais la classification sociolinguistique des enregistrements, en fonction du contexte et des relations entre les locuteurs (méthodologie du CANCODE), facilite la comparaison entre les divers sous-corpus qui constituent le LCIE. Pour l’étude de l’anglais néo-zélandais, on trouve le Wellington Corpus of Spoken New Zealand English (WSC), comprenant un million de mots sous forme d’extraits d’enregistrements d’environ 2,000 mots. Les registres représentés sont nombreux (monologues avec ou sans script, dialogues privés et publics), et la répartition en termes d’âges et de sexe est représentative de la société néo-zélandaise. Dans la mesure du possible (mais pas de manière systématique), les informations concernant les variables sociolinguistiques telles que l’origine régionale, la classe sociale, le niveau d’études et la profession ont été collectées. Enfin, il nous faut présenter le projet international International Corpus of English (ICE), qui réunit des corpus de nombreuses variétés d’anglais parlées à travers le monde (Royaume-Uni, Amérique du Nord, Irlande, céanie, Afrique de l’est, Afrique du Sud, Asie, Caraïbes, etc.). L’objectif est d’obtenir, pour chacune de ces variétés, un corpus d’un million de mots (dont environ 600,000 mots transcrits de données orales)

159 produits après 1989, et constitué selon un format commun. Idéalement, tous les corpus doivent être équilibrés en termes d’âge et de sexe. La partie orale de chaque corpus doit être constituée de 300 transcriptions de monologues (avec ou sans scripts) et de dialogues (privés ou publics) d’environ 2,000 mots. En plus d’une constitution rigoureuse en termes de types de textes, les transcriptions orthographiques suivent des conventions précises, et des annotations supplémentaires (étiquetage grammatical et structure syntaxique en arborescence) sont fournies. Ce type de projet doit permettre, à terme, d’obtenir une image globale de l’anglais tel qu’il est parlé dans le monde. Toutefois, les paramètres sociolinguistiques tels que les origines régionales ou ethniques, le niveau d’étude ou la catégorie socio-professionnelle n’étant pas systématiquement contrôlés, il nous paraît difficile de tirer un portrait fidèle de la variation sociolinguistique à partir de ces données.

Notre brève inspection des corpus oraux anglais est bien évidemment loin d’être exhaustive, mais elle montre que les données sont aujourd’hui très abondantes pour un chercheur qui souhaite par exemple comparer diverses variétés standards ou étudier la langue orale, d’un point de vue syntaxique ou phonologique. En effet, nous avons vu qu’en plus des corpus consacrés aux Iles Britanniques et à l’Amérique du Nord, il existe des corpus pour d’autres variétés d’anglais, comme le WSC pour l’anglais néo-zélandais ou le LCIE pour l’anglais irlandais, auxquels on peut ajouter le Hong Kong Corpus of Spoken English (HKCSE). Le projet ICE, qui implique 24 équipes de recherche à travers le monde, doit également, à terme, permettre de comparer un grand nombre de variétés standards de l’anglais. En tout état de cause, les variétés régionales restent sous-représentées, même si des corpus comme le NECTE, le SCRIBE ou l’IViE (Intonational Variation in English) fournissent des données de variétés non-standards, notamment celles de grands centres urbains comme Newcastle, Leeds, Liverpool ou Glasgow. Parmi les nombreux corpus existants, beaucoup comptent plusieurs centaines de milliers de mots transcrits, mais l’alignement des transcriptions sur le signal audio n’est pas systématique. L’absence d’alignement rend difficile la navigation au sein d’un corpus et donc son exploitation à des fins scientifiques. De fait, des corpus tels que le BNC ou le SEC (avant l’évolution en MARSEC) ont une grande valeur patrimoniale et pédagogique, mais il est difficile pour un linguiste de les explorer à la recherche des occurrences d’un item lexical pour en analyser la prononciation, puisqu’il lui faut constamment aller et venir entre la transcription et le fichier audio. Par ailleurs, les corpus que nous avons mentionnés font

160 souvent la part belle aux conversations spontanées, parfois enregistrées subrepticement dans des contextes très divers. Cette méthode, certes écologique d’un point de vue sociolinguistique, n’est pas sans poser des problèmes. En effet, elle a des limites éthiques et légales (Larmouth et al. 1991), même lorsqu’elle est employée à des fins scientifiques (en tout état de cause, cette technique de recueil de données est éthiquement condamnable). Ensuite, elle ne garantit pas une qualité constante des enregistrements, et peut les rendre inexploitables pour des analyses acoustiques (microphone placé trop loin du locuteur, bruit de fond, etc.) et parfois même, pour des analyses auditives précises. De plus, l’enquêteur qui produit ce type d’enregistrement ne peut pas avoir de contrôle sur les données. Il s’agit là d’un problème récurrent dans la collecte de données : le paradoxe entre contrôle et naturalité des données (the observer’s paradox, Labov 1972). La méthode subreptice permet d’obtenir de la parole très naturelle, mais ne garantit pas l’obtention du type précis de données que l’enquêteur recherche. Au contraire, en présence de l’enquêteur, ou ne serait-ce que d’un microphone, certains locuteurs auront tendance à produire un discours moins naturel, mais l’enquêteur aura plus de contrôle sur le type de données qu’il désire recueillir. Enfin, notons que la plupart des corpus dont nous venons de parler n’offre qu’un nombre limité de registres pour chaque locuteur (soit une conversation, soit un discours, soit une lecture, etc.). De fait il est impossible d’observer la variation stylistique intra-locuteur, et il s’avère parfois difficile d’analyser le système phonémique d’un locuteur dans sa globalité. Enfin, nous souhaitons remarquer que, dans les présentations de ces divers corpus, l’accent est souvent mis sur le nombre de mots dont ils sont composés, ainsi que sur les différents niveaux d’annotations (syntaxique ou phonétique) qu’ils proposent. Ces deux aspects sont bien sûr importants mais ne devraient jamais éclipser la méthode selon laquelle les données ont été collectées et les possibilités qu’elles offrent en termes d’analyses. Une base de données, aussi gigantesque soit elle, peut en effet rester muette pour certaines études si elle n’est pas constituée de manière systématique et paramétrée. A titre d’exemple, en l’absence d’un protocole précis de recueil des données (et des informations sociolinguistiques) auprès de chaque sujet, permettant la comparabilité des données, toute étude de la variation sociologique intra-locuteur, inter-locuteurs ou inter-variétés est inenvisageable. C’est dans ce souci d’exploitabilité à divers niveaux qu’a été pensée la méthodologie du projet PAC. Dans la section qui suit, nous allons présenter en détail ce projet PAC, sa méthodologie et ses outils, en soulignant les avantages

161 offerts par ses corpus, qui au-delà de simples collections de données, sont également de véritables enquêtes sociolinguistiques.