Aide à la description des langues - Outils numériques pour la documentation, la description et

1.2 Outils numériques pour la documentation, la description et l’analyse des langues 8

1.2.2 Aide à la description des langues

Par rapport à la linguistique documentaire, la linguistique descriptive s’occupe de l’anno-tation des données collectées sur le terrain (après qu’elles ont été transcrites et traduites) ainsi que de leur analyse. Le travail de description permet de dégager la structure de la langue selon diﬀérentes granularités d’analyse (phonologie, morphologie, lexique, syntaxe, …). Puisque la linguistique descriptive couvre plusieurs domaines, plusieurs outils existent, chacun dédié à un sous-domaine.

1.2.2.1 Transcription et annotation

Le premier travail du linguiste, une fois les entretiens effectués, consiste à mettre sous forme écrite le contenu de l’enregistrement audio. Cette étape est celle de la transcription. La transcription peut être définie comme la mise à l’écrit d’un flux. Pour le linguiste, la transcrip-tion permet d’écrire sous forme phonétique ou orthographique le contenu de ses entrevues de terrain. Pour ce travail,Barras_{et al.}(1998) ont développé, en 1998, Transcriber. Cet outil permet de structurer les transcriptions : l’utilisateur découpe le signal acoustique et trans-crit chaque segment. L’utilisateur peut aussi commenter l’enregistrement, en indiquant par exemple la présence de chevauchements dans les tours de parole, de silences ou bruits am-biants, de bruits de bouche et de respiration, etc. L’encodage unicode est supporté et les fi-chiers de transcriptions et d’annotations sont exportables au format XML. Le logiciel continue d’être maintenu et est disponible pour Windows, Linux et MacOS. Transcriber supporte les fichiers au format SGML (générés par _SCLITE, un outil d’évaluation des systèmes de RAP). Ce format facilite la manipulation des données par les linguistes informaticiens. L’interface de Transcriber permet de visualiser, graphiquement, les différences entre une transcription manuelle (faite par un humain) et une transcription automatique (fournie par un système de reconnaissance).

Plus utilisé aujourd’hui, parce que plus complet, ELAN (acronyme signifiant “EUDICO Lin-guistic ANnotator”) est un logiciel libre (licence GPL 2) pour l’annotation de corpus multimo-daux (Wittenburg_{et al.}2006). L’annotation d’une vidéo est un atout majeur du logiciel, car cela facilite l’analyse de la langue des signes par exemple. L’annotation peut être réalisée à différents niveaux linguistiques (mot, glose, phrase, etc.), mais peut aussi correspondre à un commentaire ou à une traduction du fichier audio ou vidéo. Chaque niveau est représenté par une_tier (qui correspond au champ dans lequel l’annotateur écrit). Cette structure permet d’aligner temporellement le son et les annotations. De plus, les _tiers sont hiérarchiquement dépendantes les unes des autres. Avec ELAN, il est possible d’extraire les annotations, comme les listes de gloses et de morphèmes. Comme Transcriber, l’encodage unicode est supporté et les fichiers d’annotation sont structurés au format XML. ELAN peut être lancé sur Windows, Linux et MacOS. Dans la même catégorie, nous pouvons aussi citer le logiciel d’annotation de dialogue multimodal Anvil (Kipp, 2001). À l’origine, ce logiciel a été pensé pour l’étude du comportement, il est aujourd’hui utilisé dans bien d’autres domaines. La visualisation de l’enveloppe acoustique du signal audio ou de la hauteur tonale sont des fonctionnalités

in-1.2. Outils numériques pour la documentation, la description et l’analyse des langues 16 téressantes pour le linguiste, tout comme la possibilité d’importer des ﬁchiers créés avec le logiciel Praat. À l’instar d’ELAN, Anvil est compatible avec les principaux systèmes d’exploi-tation informatiques. La version 6 du logiciel est disponible gratuitement21 depuis le mois d’août 2017.

Une version étendue de ELAN a été développée au laboratoire parisien LLACAN (acro-nyme de Langage, LAngues et Cultures d’Afrique Noire), appelée ELAN-CorpA22. Cette ex-tension a été développée à l’origine dans le cadre du projet ANR CorpAfroAs, qui visait à la création de ressources audio pour les langues de la famille Afro-Asiatique (Adamou, 2016). ELAN-CorpA inclut une fonctionnalité d’interlinéarisation qui génère une nouvelle _tier seg-mentée qui contient les gloses, à partir des _tiers déjà saisies. Auparavant, il fallait passer par FLEx (ou Toolbox) pour réaliser ce travail, alourdissant les processus d’analyses linguistiques. L’interlinéarisation est réalisée à partir d’un dictionnaire qui peut être importé depuis FLEx (ou Toolbox).

1.2.2.2 Analyse lexicographique

Pour l’étude lexicographique et le découpage morphosyntaxique, les logiciels les plus uti-lisés par la communauté linguistique à l’heure actuelle sont Toolbox et FLEx.

FLEx (acronyme provenant de Fieldworks Language Explorer)23et Toolbox sont des logi-ciels informatiques gratuits, développés par le SIL et destinés aux linguistes de terrain. Ils sont dédiés à l’édition de dictionnaires (Rogers, 2010). FLEx est le successeur direct de Toolbox24. Les fonctionnalités de ces deux logiciels sont similaires; nous n’allons développer ici que les fonctionnalités du logiciel le plus récent, FLEx. Néanmoins, nous précisons que, même si Tool-box n’est plus maintenu par le SIL, ce logiciel est encore couramment utilisé par les linguistes qui ont commencé à construire leurs lexiques avec celui-ci. Bien que FLEx propose l’importa-tion des ressources construites originellement avec Toolbox, des problèmes de compatibilité entre les deux logiciels ont été observés sur certaines fonctionnalités. Le manque d’interopé-rabilité entre les logiciels (et entre les systèmes d’exploitation) est d’ailleurs un gros problème et décourage les linguistes de terrain d’utiliser les outils numériques récents. FLEx rassemble plusieurs outils pour la création de lexiques monolingues. À partir de corpus textuels, il per-met de découper les phrases en mots. Pour chaque mot, le linguiste peut définir le sens, le genre, indiquer si nécessaire les variantes dialectales, choisir une phrase qui illustrera le mot en contexte (au moyen d’un concordancier), … finalement, tout ce qui entre en jeu dans la créa-tion d’un diccréa-tionnaire. FLEx intègre également un module d’étiquetage morphosyntaxique et d’interlinéarisation des gloses. Plus le linguiste apportera d’informations sur une entrée, plus l’analyseur sera performant. Le linguiste a également la possibilité de conceptualiser chaque entrée de son lexique selon une liste de domaine de connaissances (Univers, êtres humains, langage, comportements sociaux, etc.). Cette classification permet en fin de compte de créer

21. http://www.anvil-software.org

22. http://llacan.vjf.cnrs.fr/res_ELAN-CorpA.php

23. https://software.sil.org/fieldworks

1.2. Outils numériques pour la documentation, la description et l’analyse des langues 17 des ontologies de domaine. Bien qu’il soit possible de travailler à un niveau phrastique ou textuel, FLEx est plus orienté et adapté pour la lexicographie. Il ne propose pas, par exemple, d’étiquetage d’une phrase entière ou d’un ensemble de constituants, ni une recherche sur plu-sieurs étiquettes à la fois, dans un texte.

Ce logiciel délaisse les utilisateurs de Mac, car il ne fonctionne que sur les systèmes d’exploi-tation Windows et Linux. Il propose une interface en 13 langues (anglais, français, hindi, por-tugais, russe, espagnol, indonésien, malaisien, coréen, persan, chinois, turque, télougou). Pour le traitement automatique, Craig Farrow a développé une librairie appelée FlexApps25, qui permet de manipuler grâce au langage de programmation Python, la base de donnée FLEx. Ce module peut conjointement être utilisé avec la boîte à outils NLTK (acronyme de Natural Lan-guage Toolkit) dédiée au traitement automatique de données linguistiques avec Python (Bird, 2006). À noter que les données au format Toolbox sont également exploitables par NLTK, grâce au module du même nomtoolbox (voirBird, Klein et Loper (2009, section 11.5)).

1.2.2.3 Analyse phonétique et prosodique

Pour cette expertise, le logiciel largement utilisé par la communauté des linguistes et pho-néticiens est Praat (Boersma_{et al.}2002). Praat rassemble plusieurs outils dédiés à l’analyse fine de la parole, qui s’étend de l’annotation du signal acoustique (temporellement aligné) à l’ana-lyse de la prosodie. Les forces principales de ce logiciel sont la visualisation du spectrogramme, l’affichage et le calcul automatique de paramètres acoustiques tels que les formants ou le pitch. Les annotations se font dans des _tiers, rassemblées dans un fichier appelé _Textgrid. Praat est multiplateforme et est distribué sous la licence publique générale GNU, ce qui le rend évolu-tif; il bénéficie en conséquence d’une grande communauté de développement de scripts26et modules additionnels. Nous pouvons citer EasyAlign27 (Goldman, 2011) qui aligne de façon automatique un signal et sa transcription orthographique et génère automatiquement de nou-velles segmentations des transcriptions à différents niveaux linguistiques (phonèmes, syllabes, mots) ou des programmes d’étiquetage semi-automatique ou automatique de la prosodie d’un signal tels que Prosogram (Mertens, 2004), MOMEL-INTSINT (Hirst, 2007), SLAM (Obin_et

al.2014)).

Dans la même catégorie,Martin (2004) a développé WinPitch. Les fonctionnalités oﬀertes par ce logiciel sont similaires à celles de Praat. WinPitch propose, en plus, l’import de vidéos, la visualisation en temps réel des annotations prosodiques sur le signal et l’alignement à la volée des transcriptions provenant d’autres applications (comme Transcriber par exemple). De plus l’interface est plus agréable et ergonomique que celle de Praat. L’inconvénient majeur est qu’il ne fonctionne que sous Windows et n’est gratuit que pour un usage personnel. Enﬁn, une version nommée WinPitch LTL est dédiée à l’enseignement de la prononciation.

Toujours destiné à l’annotation, EMU-SDMS (“The EMU Speech Database Management System”) regroupe un ensemble d’outils permettant à la fois de créer, manipuler et analyser

25. https://github.com/cdfarrow/FLExTools/wiki

26. http://phonetics.linguistics.ucla.edu/facilities/acoustic/praat.html

1.2. Outils numériques pour la documentation, la description et l’analyse des langues 18 des bases de données vocales. Il peut être utilisé grâce à une interface en ligne appelée EMU-webApp28. L’utilisateur peut importer un fichier audio au format WAV seul ou accompagné de sa transcription au format annotJSON (généré avec EMU-SDMS) ou au format TextGrid (gé-néré avec Praat) dans EMU-webApp. Le fichier audio importé est ensuite représenté sous forme de signal acoustique et de spectrogramme, qui permettent à l’utilisateur d’annoter ses seg-ments. EMU-SDMS propose une classification hiérarchique des segments de parole, qui peut être visualisée sous forme d’arbre dans EMU-webApp. Chaque niveau de l’arbre correspond à une granularité linguistique (intonationnelle, lexicale, syllabique, phonémique, phonétique). Cette représentation offre la possibilité à l’utilisateur de rechercher des segments de parole en fonction de leur hiérarchie dans l’énoncé transcrit, via le moteur de recherche intégré dans EMU-SDMS.

Pour eﬀectuer des analyses phonétiques quantitatives, FAVE (Rosenfelder et al. 2011), ProsodyLab (Gorman, Howell et Wagner, 2011) et SPPAS (Bigi et Hirst, 2012) sont des outils qui proposent des alignements automatiques (dits forcés) de phonèmes et des analyses statistiques de ces alignements. Nous ne les développerons pas dans cette thèse, mais ils mé-ritent toutefois d’être cités.

Enﬁn, une liste non exhaustive, mais néanmoins étoﬀée, des logiciels à destination des linguistes peut être consultée sur le site Web de_{The Linguist List}29.

1.2.3 Résumé

Depuis quelques années maintenant, nous observons l’émergence d’applications, notam-ment mobiles, permettant d’obtenir des enregistrenotam-ments de locuteurs des langues menacées d’extinction. La collecte de ces données vocales permet d’archiver, de préserver voire de revita-liser ces langues. Ces applications tirent profit de la démocratisation des technologies mobiles sur tablettes et_smartphones. Les locuteurs peuvent désormais être acteurs dans la préservation de leur patrimoine culturel immatériel que sont leur(s) langue(s), leurs arts, leurs pratiques so-ciales, leurs rituels, leurs connaissances scientifiques et leurs savoir-faire traditionnels. L’émer-gence de ces applications rend maintenant les collectes et analyses linguistiques quantitatives en plus d’être qualitatives. Mais finalement, nous observons que les outils de collecte sont majoritairement destinés à la documentation des langues par les locuteurs et non par les lin-guistes. Il n’existe pas encore d’application (mobile) d’aide à la collecte de la parole destinée au linguiste et comportant une méthodologie de collecte réfléchie pour le travail de linguistique de terrain.

Après ce premier enjeu que représente la collecte des langues en danger, peu voire non connues, le second enjeu est de pouvoir les traiter _{a posteriori} aﬁn de les rendre exploitables dans le futur et ainsi préserver la langue en question. Cependant, le traitement des données ne peut être rendu possible qu’avec la coopération des linguistes, en rendant leurs corpus ac-cessibles. Cette accessibilité passe indéniablement par la documentation des données (le ren-seignement des métadonnées), leur partage et leur archivage. Tout ce travail participe à la

28. http://ips-lmu.github.io/EMU-webApp

1.2. Outils numériques pour la documentation, la description et l’analyse des langues 19 pérennisation des langues qui bientôt vont s’éteindre. Toutefois, force est de constater qu’il existe toujours, au sein de la communauté linguistique, un grand manque d’outils pour la des-cription et le partage des données collectées (Holton, Hooshiar et Thieberger, 2017) tout comme un manque de transparence dans les méthodologies adoptées (Gawneet al.2017).

Deux freins majeurs ralentissent le travail du linguiste de terrain : la non-standardisation des outils numériques et des méthodes d’annotation, ainsi que le temps de traitement et d’ana-lyse des données. En 2016 s’est tenue à Melbourne, en Australie, la conférence “Language Do-cumentation Tools Summit”30. Cette conférence, qui a rassemblé linguistes et informaticiens autour de thématiques centrales en documentation et description des langues, a montré le be-soin de réﬂexion autour du développement d’outils numériques pour la linguistique de terrain. Une nouvelle discipline à part entière a vu le jour depuis quelques années, grâce aux lin-guistes et informaticiens œuvrant ensemble. Elle est appelée « linguistique informatique » ou parfois « linguistique computationnelle ». Puisqu’un ordinateur est capable de traiter un très grand nombre de données en un temps extrêmement réduit, l’idée est d’automatiser certaines tâches voire même d’apprendre à la machine comment repérer certains motifs répétitifs ou points saillants dans une langue à des ﬁns de transcription, de traduction, mais aussi d’ana-lyse. Les outils comme Elan, FLEx ou Praat restent indispensables pour des descriptions et analyses détaillées et l’élaboration_{a posteriori}de lexiques et grammaires. Néanmoins de nou-velles techniques permettent aujourd’hui d’aider le linguiste dans son travail de transcription phonétique et orthographique, mais aussi de découverte morphologique et syntaxique de la langue (cette partie est détaillée auchapitre 4et auchapitre 5).

En plus des logiciels existants, les techniques en linguistique computationnelle permettent désormais d’aller encore plus loin dans la recherche en typologie des langues, de leur origine jusqu’aux variations intralinguistiques.

Dans le domaine de la dialectologie, les outils pour l’analyse dialectométrique informati-sée sont aussi en plein essor. Initiée par Séguy (1973), la dialectométrie — qui regroupe un ensemble de méthodes d’analyses statistiques et de classiﬁcations pour les données dialec-tales — a donné lieu à des avancées majeures en géolinguistique. Cependant ce n’est que de-puis quelques années que les techniques réapparaissent, grâce à l’automatisation des calculs et aux progrès en matière de capacité de stockage, en informatique. Nerbonneet al. (2011) ont développé _Gabmap, une application en ligne, libre d’accès et de droits, qui oﬀre des ou-tils pour aider le dialectologue néophyte en statistiques informatiques à analyser ses données et à en interpréter les résultats, notamment grâce à la construction de cartes et de graphes.

Aurrekoetxea_{et al.}(2013) proposent_DiaTech, également un outil en ligne qui permet l’ana-lyse et l’interprétation de données dialectales, mais qui intègre, en plus, une prise en charge des réponses multiples (fournies par les participants aux enquêtes linguistiques) dans les calculs statistiques ainsi que l’import de bases de données créées avec des outils externes.

1.3. La reconnaissance automatique de la parole (RAP) 20

Dans le document Collecter, Transcrire, Analyser : quand la machine assiste le linguiste dans son travail de terrain (Page 34-39)