• Aucun résultat trouvé

Chapitre 2 La compréhension de l’oral en anglais L2

2.3. Les connaissances lexicales

2.3.3. Caractéristiques du lexique à acquérir

2.3.3.3. le rôle de la fréquence

Jusqu’à présent, nous avons examiné l’étendue du lexique minimal à acquérir (nombre de familles de mots nécessaires à la compréhension), sans nous poser la question du choix de ces mots. Si l’on considère que la langue anglaise possède environ 20 000 familles de mots (Brysbaert et al., 2016; Nusbaum et al., 1984), et que nos étudiants ont besoin de connaître entre 3 000 et 6 000 de ces familles (selon qu’on désire une couverture de 95 ou de 98% du discours courant), il reste à décider comment les choisir parmi les 20 000 familles existantes. La réponse qui s’impose, du fait de la structuration du lexique, est celle de la fréquence : les mots ne sont pas tous utilisés avec la même fréquence, et il paraît logique de penser qu’il est plus « rentable » pour les apprenants de connaître les mots plus fréquents, qu’ils ont par définition plus de probabilité de rencontrer que les mots moins fréquents. Cette caractéristique du lexique peut être saisie graphiquement par la courbe représentant le lien entre étendue du vocabulaire et couverture textuelle, comme on peut le constater sur la Figure 2.3 (tirée de Chujo & Utiyama, 2005) : plus la taille du vocabulaire augmente (et moins les mots deviennent fréquents), plus l’augmentation de la couverture textuelle ralentit. En passant de 0 à 2 000 lemmes (l’unité utilisée dans cette étude), on passe de 0 à près de 85% de couverture textuelle, mais avec les 2 000 lemmes suivants, on ne rajoute « que » un peu plus de 5% de couverture, pour passer à 90% (les 2 000 lemmes suivants en rajoutent moins de 3%). Il apparaît clairement que la fréquence lexicale joue un rôle essentiel dans le « retour sur investissement » (pour filer la métaphore économique) de l’apprentissage de nouveaux mots.

Figure 2.3: pourcentage de couverture textuelle en fonction de la taille du vocabulaire (Chujo et Utiyama 2005)

Dès le début du 20ème siècle, Edward Thorndike (1921, 1931) a produit les premières listes de fréquence de vocabulaire destinées aux enseignants de lecture en anglais L1 (The Teacher's

Word Book en 1921, et A Teacher's Word Book of the Twenty Thousand Words Found Most Frequently and Widely in General Reading for Children and Young People en 1931). Pour la

L2, Brezina et Gablasova (2015, p. 2) mentionnent l’existence d’une liste de mots de base dès 193616, à laquelle a également collaboré Thorndike : Interim Report on Vocabulary Selection

for the Teaching of English as a Foreign Language (Faucett et al., 1936). Michael West l’a

ensuite révisée pour produire l’une des listes de vocabulaire L2 les plus influentes : la General

Service List ou GSL (West, 1953), qui contient environ 2 000 familles de mots (3 600 lemmes

d’après Browne, 2013), complétée ensuite par l’Academic Word List, une liste de 560 familles qui rassemble des mots qui ne sont pas dans la GSL mais qui ajoutent une couverture importante aux textes universitaires (Coxhead, 2000). Cependant, la liste GSL, créée à partir d’un corpus du début du 20ème

siècle, contenait des mots obsolètes (shilling) mais pas d’autres mots à présent courants tels que television ou computer. Plusieurs révisions en ont donc été proposées, dont celle de Brezina et Gablasova (2015). Leur New-GSL contient 2 500 lemmes (et non familles), qui couvrent plus de 80% de leurs corpus, composé de textes essentiellement écrits et de variété britannique, à savoir le LOB (London-Oslo-Bergen

Corpus), le BNC (British National Corpus), et deux corpus plus récents, le BE06 Corpus of British English, et le EnTenTen (un très gros corpus de textes de la Toile). Cependant, quelles

16

En 1891, W. R. Baird estimait à 300 le nombre de mots nécessaires pour se débrouiller dans un pays étranger : « Total words needed in a foreign country to get along » (cité par Seashore & Eckerson, 1940, p. 26)

que soient les qualités de cette nouvelle liste, elle n’atteint pas le chiffre de 3 000, voire 6 000 familles identifié plus haut comme le minimum lexical en compréhension de l’oral. Il est donc nécessaire d’avoir recours à d’autres listes, associées à d’autres corpus, pour atteindre ces chiffres. Ces listes devront compter au moins 6 000 familles de mots, ou, si elles sont lemmatisées, probablement plus de 10 000 lemmes ou 20 000 mots. Il est difficile de donner une estimation plus précise dans la mesure où, même si l’on sait qu’une famille compte en moyenne 3 lemmes et qu’un lemme recouvre en moyenne un peu moins de 2 formes différentes, certains des lemmes appartenant à une famille fréquente peuvent être très rares et peu intéressants à connaître. Par exemple, dans la famille de la base worth, le nom pluriel

worthies est rare et n’a probablement pas vocation à être inclus dans une liste de mots

représentant le minimum lexical.

Quel corpus choisir ? Il existe actuellement beaucoup de corpus pour l’anglais consultables en ligne ou dont les informations sur la fréquence lexicale sont téléchargeables librement sous forme de feuille de calcul. Nous présentons dans le tableau ci-dessous (Tableau 2.5) une liste non exhaustive de ces corpus, en précisant lesquels sont accompagnés d’une liste de mots classables par fréquence descendante, ce qui correspond à notre besoin d’identifier les « x » mots les plus fréquents.

corpus variété oral (pourcentage) date liste

ordonnée

taille en mots

BNC anglais

britannique

oui (10%) années 1990 oui (6 200 lemmes) 100 millions COBUILD/ Celex plusieurs variétés

oui (25%) 1991 non 18 millions

MICASE anglais américain

oui (100%) 1997-2002 non 1,8 millions

COCA anglais américain oui (20%) 1990-2017 oui (5 000 lemmes) 560 millions COCA- Academic anglais américain non (0%) 1990-2015 oui (20 000 lemmes) 120 millions SUBTLEXUS anglais américain oui (100%) 1900-2007 oui (60 000 mots non lemmatisés) 51 millions Academic spoken corpus plusieurs variétés oui (100%) 1997-2015 oui (1 740 familles de mots) 13 millions BNC + COCA (P. Nation) plusieurs variétés

oui (non précisé) 1990-2017 oui (10 000 familles)

non précisée

Tableau 2.5 – liste partielle de corpus de l'anglais disponibles en ligne avec listes de mots associées

Etant donné le contexte dans lequel doivent fonctionner nos étudiants (anglais académique), il serait intéressant d’utiliser le corpus MICASE (Michigan Corpus of Academic Spoken

English), qui utilise des transcriptions d’anglais académique américain. Cependant, ce corpus

consultable en ligne s’utilise uniquement comme un concordancier qui, pour un mot (ou expression) donné, permet de voir et d’entendre des exemples de contexte dans lequel celui-ci est utilisé, accompagné d’informations précises sur la nature de ce contexte. Il ne fournit pas d’informations générales sur la fréquence de ce mot dans le corpus tout entier. Le corpus d’anglais oral académique (Academic spoken corpus) développé par Dang, Coxhead et Webb (2017) pour créer une nouvelle liste d’anglais académique (Academic Spoken Word List) est également intéressant mais accompagné d’une liste très courte (1 700 familles seulement). Il nous faut donc nous rabattre sur les corpus plus classiques de l’anglais britannique (British

National Corpus ou BNC) ou de l’anglais américain (Corpus of Contemporary American English ou COCA, M. Davies, 2009). Cependant, ces deux corpus sont eux aussi

accompagnés de listes de 5 ou 6 000 lemmes seulement, et ne suffisent donc pas à nos besoins. La partie académique du corpus COCA est accompagnée d’une liste lemmatisée de 20 000 mots, mais qui est basée sur un corpus exclusivement écrit (Gardner & Davies, 2014). C’est pourquoi nous nous sommes tournée vers la liste de familles de mots de Paul Nation (2017), compilée à partir d’un corpus hybride mêlant des textes du BNC et de COCA. Cette liste composée de 10 000 familles peut être consultée en ligne via l’outil VocabProfiler (Cobb, s. d.), qui permet d’entrer une liste de mots et de recevoir en sortie la bande de fréquence de chacun de ces mots. Cependant, comme la famille de mots n’est pas toujours l’unité la plus appropriée pour des apprenants qui n’ont pas nécessairement une connaissance étendue de la morphologie dérivationnelle de la L2 (McLean, 2018), nous ferons également usage de la liste accompagnant le corpus SUBTLEXUS, crée par Marc Brysbaert et Boris New (2009). Ce corpus, constitué à partir de sous-titres de films et de séries télévisées américaines, ne contient pas d’anglais académique, mais correspond probablement mieux à l’input authentique qu’ont pu recevoir nos apprenants avant l’entrée à l’université. Il est accompagné d’une liste de 60 000 mots non lemmatisés, et classés non pas par leur nombre d’apparitions dans le corpus (fréquence brute), mais par le nombre de textes dans lesquels ils sont présents (mesure de diversité contextuelle). Son principe d’organisation est donc totalement différent de celui des listes de Paul Nation, et nous permettra de faire des comparaisons intéressantes. Enfin, nous utiliserons aussi la base de données multilingue Celex (Baayen et al., 1995), qui utilise pour l’anglais le corpus COBUILD (Sinclair, 1987), et qui permet comme VocabProfiler une consultation facile en ligne, mais avec des résultats basés sur le lemme et non la famille de mots.

Notons pour terminer que la fréquence ne devrait pas être un critère exclusif du choix des mots à apprendre (Gougenheim et al., 1964). Ward et Chuenjundaeng (2009) remarquent par exemple que les listes de fréquence sont établies à partir de corpus généralistes qui correspondent peut-être à ce à quoi les natifs sont en général exposés au cours de leur vie, mais reflètent probablement assez peu l’input reçu par des apprenants L2 (ce qui peut conduire à des comportements assez différents en termes de sensibilité à la fréquence lexicale, cf. Diependaele et al., 2013). Cependant, on pourrait objecter que l’important n’est pas ce que nos apprenants ont entendu jusque-là, mais plutôt ce qu’ils sont censés comprendre à partir de maintenant. Dans cette perspective, un corpus généraliste peut tout à fait convenir. Une autre objection plus gênante est que, comme le rappelle Dee Gardner (2007), les mots les plus fréquents sont en général polysémiques, et il n’est pas clair que connaître un des sens du mot permette de le comprendre dans tous les contextes où il est utilisé. Par ailleurs, beaucoup de ces mots sont utilisés dans des collocations dont le sens n’est pas toujours transparent ni connu des apprenants (comme nous le verrons un peu plus loin). Tous ces facteurs font qu’un test de connaissance lexicale basé uniquement sur des mots isolés comme celui que nous allons construire surestime probablement les connaissances des apprenants. Afin de remédier à cette faiblesse, nous tenterons de le conjuguer à une évaluation des connaissances phraséologiques (collocationnelles) des étudiants. Cependant, la fréquence reste un critère important à prendre en compte, dans la mesure où les mots très fréquents se retrouvent dans tous les genres et à travers les époques (Brezina & Gablasova, 2015).