HAL Id: hal-01973321
https://hal.archives-ouvertes.fr/hal-01973321
Submitted on 8 Jan 2019
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Valorisation de corpus audio, Bilan et réflexions
Elodie Oursel
To cite this version:
Elodie Oursel. Valorisation de corpus audio, Bilan et réflexions. Journée de présentation des corpus CORLI, Jan 2019, Paris, France. �hal-01973321�
Élodie OURSEL
Valorisation de corpus audio
Bilan et réflexions
Les
corpus
Institut de traducteurs et d’interprètes
Service des relations internationales
Préfecture de police
Office de l’immigration
École doctorale
Secrétariat de FLE
Écrivain public
Assistante sociale
Accompagnement vers l’emploi
Entretiens compréhension orale
Entretiens conversations
Cours alphabétisation
Ateliers sociolinguistiques
98h19m
de ce corpus de recherche
Les
enjeux de l’accessibilité
Raret
é des
inter
actio
ns ad
minis
trativ
es
Ét
ud
e d
e l
a c
om
mu
nic
ati
on
ex
oli
ng
ue
à
en
jeu
x
Rareté de
s interact
ions exoli
ngues na
turelles
Densité des difficultés de communication
Hauts enj
eux à réu
ssir à com
muniquer
Étude de l’intersubjectivité
Étude de
l’intercom
préhensio
n
Les
droits,
consentement accordé
autorisation de l'utilisation des données anonymisées à des fins…
de recherche scientifique
x
x
x
x
x
x
d'enseignement de la didactique du FLE,
des sciences du langage, du FLE
x
x
x
x
AVEC droit de véto
x
x
x
x
SANS autorisation de diffusion large
dans la communauté des chercheurs
x
x
SANS autorisation d'échange ou de prêt
de corpus entre chercheurs
x
(combinaisons possibles)
ARCHIVAGE PÉRENNE
partage anonym. diffusion
DIFFUSION
anonym. partage
facilité d’accès
Recruter pour valoriser
TÂCHES
vérification de transcriptions alignement de transcriptions
balisage des zones d’anonymisation formation à Praat
script d’anonymisation de D. Hirst (neutralise les formants, maintient la F0)
enregistrement des fichiers de transcription en formats multiples
QUALITÉS REQUISES
mémoire auditive ++ capacité de concentration ++
éthique professionnelle ++ aisance avec l’informatique
(outils de traitement du son, de traitement de texte, plateformes en ligne)
L’archivage peut être une étape préalable à la diffusion, qui
peut être une étape préalable à la valorisation.
VALORISATION
anonym. partage diffusion
transcription alignement variété de formats
Du côté de la technique...
1. évolution des solutions logicielles
disponibles entre la
constitution du corpus (2008-2010) et les financements (2014 &
2017) : ▪ mise à jour des connaissances logicielles ▪ mise à jour des
critères d’évaluation des solutions logicielles ▪ basculement des
transcriptions vers la solution choisie (ELAN) ▪ alignement
semi-automatique (SONAL) ▪ vérification et correction manuelle
2. questionnements éthiques dans l’anonymisation
sur des
corpus longs : ▪ le croisement d’information est plus facile sur
des entretiens et des conversations longues ▪ certaines
informations à anonymiser sont importantes pour la
compréhension de l’enregistrement ▪ si l’on empêche les
croisements, certains passages à anonymiser sont longs (plusieurs
minutes) ▪ perte d’intérêt de l’enregistrement s’il est rendu
inexploitable ▪ équilibre difficile à maintenir entre respect de
l’anonymat et choix des informations à neutraliser
3. difficultés techniques avec l’anonymisation par script
:
▪ repérage de bugs divers, remontés à Daniel Hirst et corrigés
▪ erreurs de manipulation remontées et modifiées ▪ avancée
des versions du logiciel
Logiciels
ELAN (Version 5.2) [Outil logiciel]. (2018). Max Planck Institute for Psycholinguistics, Nijmegen. https://tla.mpi.nl/tools/tla-tools/elan/
Sonal (Version 2.1.41) [Outil logiciel]. (2018). Alex ALBER, UMR 7324 (C.I.T.E.R.E.S.), Université François Rabelais & Centre d’Études de
l’Emploi. http://www.sonal-info.com/fr/.
Anonymisation de fichiers sonores (Version 6) [Outil logiciel]. (2010). Daniel Hirst, UMR 7309 (Laboratoire parole et langage), ORTOLANG (Open
Resources and TOols for LANGuage). www.ortolang.fr, https://hdl.handle.net/11403/sldr000526/v6.
Corpus
Institut de traducteurs et d’interprètes [Corpus]. (2014). Elodie Oursel, EA2290 (SYLED), UMR 7118 (ATILF) - ORTOLANG (Open Resources and
TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/sldr000884/v1.
Service des relations internationales [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000889/v1. Préfecture [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000887/v1.
Office de l’immigration - Accueil [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000885/v1. École doctorale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000880/v1.
Office de l’immigration - Audit [Corpus]. 2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000886/v1.
Secrétariat de FLE [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000888/v1.
Écrivain public [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000881/v1. Assistante sociale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000878/v1.
Accompagnement vers l’emploi [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000877/v1. Entretiens compréhension orale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000882/v1. Entretiens conversation [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000883/v1.
Corpus Cours alpha [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000876/v1.