Concordanciers et autres outils de traitement de cor- cor-puscor-pus

des Langues Assisté par Ordinateur

3.1 Survol des différents domaines du TAL et de leur application à l’ALAO

3.1.7 Concordanciers et autres outils de traitement de cor- cor-puscor-pus

Dans cette section, nous commençons par déﬁnir la notion de corpus et de concordancier. Nous discutons ensuite de l’utilité des corpus pour l’apprentissage des langues, puis poursuivons par une description de logiciels.

Nous terminons par quelques remarques de conclusion.

Les corpus sont de gros recueils de données linguistiques (orales ou écrites) destinés à attester l’utilisation de certaines structures ou mots de la langue.

De nos jours, les corpus sont accessibles par ordinateur, ce qui facilite

l’uti-lisation et le traitement des données. Pour le traitement des langues, ils constituent le carburant brut à partir duquel on construit des applications ou la batterie de test à partir de laquelle on teste ces applications (McEnery, 2003).

Définissons maintenant les différentes sortes de corpus. Certains corpus récoltent des données orales ou écrites de locuteurs, natifs ou non. Les don-nées orales peuvent être sous forme d’une banque de sons ou d’une trans-cription écrite de l’oral¹⁹. D’autres corpus récoltent des textes d’un genre particulier (articles de journaux, textes littéraires, etc.) ou des mélanges de genres. Il existe des corpus multilingues, avec des textes dans différentes langues. Quant aux corpus parallèles, ils contiennent le même texte dans plu-sieurs langues, par exemple des dépêches d’agence de presse ou des textes de loi dans les pays plurilingues.

A côté du son et de l’écrit, on trouve également des transcription pho-nétiques et des textes annotés avec des informations linguistiques, telles que les parties du discours, voire même avec des informations sémantiques (McEnery et Wilson, 1993; Véronis, 2000; Habert, 2006). Ces annotations peuvent être faites manuellement ou par un étiqueteur (§3.1.2). Le format XML (§2.7.5) devrait s’imposer de plus en plus dans le monde des corpus grâce à son caractère standard, ouvert, ﬂexible et évolutif et grâce à l’exis-tence de nombreuses librairies de traitement standard dans les environne-ments de programmation. Les corpus arborés (treebanks) sont des corpus annotés avec des informations syntaxiques, qui sont utiles notamment pour les corpus d’entraînement des méthodes stochastiques d’analyse (§3.3.3.3) mais sont impossibles à annoter automatiquement (Véronis, 2000), notam-ment à cause de l’ambiguïté de certains attachenotam-ments de syntagmes ; une alternative peut être une annotation partielle par un analyseur superﬁciel (§3.3.4.3). L’annotation sémantique, quant à elle, cherche soit à distinguer le sens des mots, soit à marquer les phénomènes discursifs tels que la résolution des anaphores (Véronis, 2000).

La taille des corpus est extrêmement variable, mais on recherche avant tout la représentativité et la qualité de l’échantillonnage des données (McE-nery et Wilson, 2005). Un choix judicieux de textes est essentiel pour garantir la représentativité du vocabulaire et son adéquation avec le but pédagogique et le niveau des apprenants (Lamyet al., 2005). Un bon corpus de locuteurs représentera les deux sexes équitablement ainsi que les diﬀérentes couches

19. Dans ce cas, il faut noter les paramètres tels que les hésitations, les reprises, etc.

Par ailleurs, la tâche d’interprétation du transcripteur est considérable, car il se heurte aux mêmes difficultés évoquées à la section 3.1.3 pour les reconnaisseurs vocaux. Les reconnaisseurs vocaux sont d’ailleurs parfois utilisés pour transcrire des corpus oraux.

Pour plus de détails sur cette problématique, on se référera à Véronis (2000).

sociologiques, différents âges, différents dialectes, etc. Un corpus littéraire représentera différents genres, différentes époques, etc.

Déﬁnissons maintenant la notion de concordancier : il s’agit d’un moyen d’accès à un corpus de textes pour montrer l’usage d’un ou plusieurs mots en contexte ou d’une partie du discours, dans un but de recherche littéraire, stylistique ou même linguistique (Flowerdew, 1996; Lamy et al., 2005). Les concordanciers présentent généralement l’occurrence du terme de recherche (mot, partie du discours) soit entourée d’une fenêtre de quelques mots, soit dans son paragraphe ou soit dans la phrase qui la contient. Les concordances peuvent être aﬃnées par l’utilisation de dictionnaires de quasi-synonymes.

Un lemmatiseur (§3.1.1.4) permettra également de trouver par exemple les occurrences d’un verbe à tous les temps.

Pour terminer le survol des techniques, mentionnons les systèmes d’in-dexation de textes dans des bases de données ; même si ces bases ne sont pas des corpus à proprement parler, leur utilisation s’en approche. Ces systèmes d’indexation permettent de charger des textes dans une base de données et de les retrouver par mots-clés, à l’instar des moteurs de recherche par In-ternet. Chaque document est indexé en fonction des mots qu’il contient par un vecteur (ou plusieurs vecteurs lorsque l’unité textuelle est le paragraphe) dont chaque dimension représente un lemme ; chaque dimension représente la fréquence du mot dans le document et la répartition du mot dans la base de données textuelle (Fluhr, 2000, p. 242). Une base de données est indexée par une matrice de valeurs, où une dimension représente les lemmes et l’autre dimension les documents ou paragraphes. Les techniques de calcul vectoriel permettent par exemple de regrouper les documents les plus proches d’après leur sens. La proximité entre les documents est donnée par le cosinus des vecteurs qui le représentent.

Passons maintenant à l’utilisation des corpus en ALAO. Ils sont utiles à deux titres, comme le soulignent McEnery et Wilson (2005) :

"Corpora can provide the basis of accurate, empirically justiﬁed, linguistic observations on which to base CALL materials. Ad-ditionally, the corpora themselves, typically via concordancing, may become the raw material of CALL-based teaching itself."

Les corpus de textes d’apprenants peuvent servir de base à l’élabora-tion de logiciels d’ALAO (Granger et al., 2001) : ils servent à mieux cibler le contenu didactique et les exercices sur des problèmes fréquemment ren-contrés par les apprenants. D’autre part, ils servent à adapter les outils de

TAL pour traiter des erreurs spéciﬁques des apprenants. Les auteurs relèvent l’importance d’un codage spéciﬁque des erreurs : bien que le processus soit coûteux et fastidieux, les analyses sont plus précieuses qu’un simple texte brut ou annoté automatiquement.ExoGen (Blanchardet al., 2009, §B.2.21) utilise un corpus étiqueté pour générer des exercices à la volée.

Maintenant, abordons l’utilisation des concordanciers et des outils d’ali-gnement bilingue en ALAO. En utilisant des corpus, d’après McEnery et Wilson (1997), les apprenants parcourent les contenus à leur propre rythme et découvrent les caractéristiques de la langue par eux-mêmes. Ils peuvent confronter leurs expériences à celles de leurs pairs de manière à élargir et compléter leur compréhension de certains phénomènes. Les corpus sont un outil à travers lequel les apprenants peuvent apprendre, non pas directement à travers le contenu, mais en analysant les données. Un corpus annoté per-met d’obtenir de meilleurs exemples qui fournissent un apport décisif pour l’enseignement de la grammaire (Clear, 2000). En outre, dans les méthodes modernes d’apprentissage, le vocabulaire ne peut être dissocié des construc-tions syntaxiques et expressions idiomatiques (v. p. 66) associées aux mots (Defays et Deltour, 2003), dont l’acquisition est facilitée par l’utilisation de concordanciers pour voir des exemples d’utilisation en contexte.

Les concordanciers permettent de mettre sur pied des tâches authentiques avec la langue réellement parlée par les locuteurs natifs. Lamyet al. (2005) listent des activités possibles à l’aide d’un concordancier :

– devinette d’un mot-mystère, remplacé par un non-mot dans le texte ; – tâches stylistiques : repérer les diﬀérents contextes d’utilisation d’un

mot ;

– tâches syntaxiques : repérer les règles d’utilisation de certaines parties du discours comme les adverbes ;

– dérivation par induction de la construction d’un verbe (p. exs’agir est un verbe défectif qui ne peut avoir d’autre sujet qu’unil explétif) ; – faux amis entre deux langues ;

– informations culturelles (compter le nombre d’occurrences de mots, comme café et thé dans des textes français, et en déduire les habitudes culturelles) ;

– évolution de la langue : des mots quasi-synonymes à une époque comme anglais et britannique peuvent acquérir des sens diﬀérenciés par la suite, ou encore le motmail chez Balzac ou dans un quotidien actuel ; – auto-évaluation du style de l’apprenant, à l’aide de liste de mots à

repérer et de suggestions de variantes.

Nous ajoutons également que les concordanciers permettent aux ensei-gnants de présenter des textes authentiques et récents aux apprenants. Les étiqueteurs permettent de réduire considérablement la tâche d’annotation des corpus. Grâce à l’abondance de textes sur Internet, les enseignants peuvent oﬀrir et étudier des textes très récents et renouveler et varier leurs matériaux pédagogiques.

Passons maintenant à l’alignement de textes plurilingues. Cette technique facilite notamment le repérage d’expressions idiomatiques (v. p. 66) et de constructions diﬀérentes d’une langue à une autre (Nerbonne, 2003). D’après Lamyet al. (2005), les concordanciers bilingues ou parallèles permettent de distinguer les emplois de divers mots ou prépositions en retrouvant l’équi-valent dans la langue de l’apprenant. Ce processus peut être fait manuelle-ment par un expert ou automatiquemanuelle-ment (Lapalme et Macklovitch, 2006).

L’alignement de textes est utilisé également pour assister le processus de révision de textes, par exemple dans un texte technique ou législatif réguliè-rement traduit. Les changements dans le texte original sont repérés, puis le processus d’alignement met en évidence les parties à changer dans le texte cible.

Enﬁn mentionnons l’utilisation des outils secondaires des concordanciers.

Les lemmatiseurs associés aux concordanciers sont parfois utilisés directe-ment par les apprenants, par exemple pour corriger leurs erreurs en fonction du contexte d’utilisation d’un mot. Quant aux enseignants, ils les utilisent pour vériﬁer l’emploi d’un mot, par exemple dans un type de texte particu-lier, comme l’écriture scientiﬁque.

Nous passons maintenant à la description de quelques logiciels d’ALAO qui utilisent des corpus. Cobb (1999) décrit l’utilisation d’un concordancier pour l’apprentissage de vocabulaire anglais académique en contexte. Weber (2001) décrit l’utilisation d’un corpus de mémoires légaux rédigés par des étudiants anglophones de droit pour des apprenants d’anglais légal. Cham-bers et O’Sullivan (2004) présentent une étude sur l’utilisation d’un corpus du français dans un cours de premier cycle universitaire, avec des exercices de composition.

Les moteurs de recherche peuvent être considérés comme des concordan-ciers. Smrž (2004) décrit l’utilisation d’un système de recherche de docu-ment en langue naturelle pour la langue tchèque. Le systèmeExills (Segond et Parmentier, 2004, §B.2.8) aﬃne une recherche sur Internet en utilisant un modèle de l’apprenant (2.7.4.2). Hubbard (2004) ou Chinnery (2008) utilisent le moteur de recherche Google comme concordancier brut.

Passons maintenant aux concordanciers bilingues avec outils d’aligne-ment.Glosser-RuG(§B.2.11, Dokter et Nerbonne, 1998) permet aux appre-nants d’apprendre du vocabulaire en contexte en étudiant un texte. MARK-ALISTeR(MARKing, ALIgning and Searching TRanslation equivalents, Pas-kaleva et Mihov, 1998) est un autre concordancier du projet GLOSSER. On citera encore Sinorama (Liou, 2004) et TOTALrecall (Chan et Liou, 2005) pour anglais-chinois, NEDERLEX (Deville et Dumortier, 2004) pour le vo-cabulaire juridique néerlandais pour francophones.

Nous abordons maintenant les outils d’apprentissage de la grammaire et des collocations par extraction de patrons syntaxique.INTEX (Silberztein, 1994) traite des corpus afin d’extraire des patrons syntaxiques en construi-sant un graphe grammatical qui représente un transducteur (§3.3.4.1).Nooj (§B.2.23, Silberztein et Tutin, 2004) est un système de traitement de corpus dans un but pédagogique, basé sur INTEX. On citera encore les travaux de Qiao et Sussex (1996), McEnery et al. (1997), Whistle (1999), Saxena et Borin (2002) et Smrž (2004). Le Littératron (Ganascia, 2001; Audras et Ganascia, 2004, 2005, 2006) est un outil d’analyse stylistique qui permet aux apprenants de retrouver des structures syntaxiques dans un corpus de textes pour en analyser l’emploi en contexte. Enfin,Collocator (Wibleet al., 2006), intégré au navigateur de l’apprenant, identifie les collocations dans une pageInternet en temps réel.

Passons maintenant à la création d’exercices à partir de corpus. Wilson (1994, 1997) propose de générer automatiquement des exercices d’utilisation des mots et de sous-catégorisation basée sur des corpus annotés. Pour leur part, Coniam (1997) et Foucou et Kübler (1999, 2000) utilisent des textes étiquetés automatiquement, d’un concordancier pour repérer les collocations et d’un dictionnaire de fréquence des mots pour la génération de textes à trous. Enﬁn, AlexiA (§B.2.1, Selva et Chanier, 2000) utilise un corpus spécialisé de 400 textes étiquetés automatiquement et indexés par mots-clés. Le logiciel dispose d’un analyseur morphologique, d’un dictionnaire de 200 mots liés aux thèmes du corpus et d’un générateur d’exercices lexicaux.

Nous ﬁnissons ce tour d’horizon en mentionnantNative English Writing Assistant (§B.5.16, Huet al., 1998), un système d’apprentissage de l’anglais qui dispose d’un corpus de textes et fournit une assistance à l’écriture et à la lecture avec un détecteur de faux-amis grâce à une base d’erreurs.

Pour conclure, nous pouvons souligner une fois encore l’importance des outils de traitement de corpus pour l’apprentissage des langues. Les concor-danciers et les autres outils sont suﬃsamment ﬁables pour être utilisés en ALAO. Les techniques de TAL nécessaires pour annoter les corpus ou élargir

la recherche à tous les lemmes offrent des résultats satisfaisants, qui peuvent être facilement révisés par des experts. De nombreux outils de traitement de corpus existent dans le domaine de l’ALAO. Ils sont essentiellement dé-veloppés et utilisés dans un domaine universitaire, car ils bénéficient avant tout à des apprenants de niveau moyen à avancé. De nombreux systèmes seront encore développés dans l’avenir. Comme pistes de développement de ce secteur de l’ALAO, nous pouvons mentionner l’amélioration des outils d’extraction des collocations et l’amélioration de la fiablité des annotations syntaxiques et sémantiques.

Dans le document Traitement automatique des langues et apprentissage des langues assisté par ordinateur : bilan, résultats et perspectives (Page 87-93)