• Aucun résultat trouvé

Valorisation de corpus audio, Bilan et réflexions

N/A
N/A
Protected

Academic year: 2021

Partager "Valorisation de corpus audio, Bilan et réflexions"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01973321

https://hal.archives-ouvertes.fr/hal-01973321

Submitted on 8 Jan 2019

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Valorisation de corpus audio, Bilan et réflexions

Elodie Oursel

To cite this version:

Elodie Oursel. Valorisation de corpus audio, Bilan et réflexions. Journée de présentation des corpus CORLI, Jan 2019, Paris, France. �hal-01973321�

(2)

Élodie OURSEL

Valorisation de corpus audio

Bilan et réflexions

Les

corpus

Institut de traducteurs et d’interprètes

Service des relations internationales

Préfecture de police

Office de l’immigration

École doctorale

Secrétariat de FLE

Écrivain public

Assistante sociale

Accompagnement vers l’emploi

Entretiens compréhension orale

Entretiens conversations

Cours alphabétisation

Ateliers sociolinguistiques

98h19m

de ce corpus de recherche

Les

enjeux de l’accessibilité

Raret

é des

inter

actio

ns ad

minis

trativ

es

Ét

ud

e d

e l

a c

om

mu

nic

ati

on

ex

oli

ng

ue

à

en

jeu

x

Rareté de

s interact

ions exoli

ngues na

turelles

Densité des difficultés de communication

Hauts enj

eux à réu

ssir à com

muniquer

Étude de l’intersubjectivité

Étude de

l’intercom

préhensio

n

Les

droits,

consentement accordé

autorisation de l'utilisation des données anonymisées à des fins…

de recherche scientifique

x

x

x

x

x

x

d'enseignement de la didactique du FLE,

des sciences du langage, du FLE

x

x

x

x

AVEC droit de véto

x

x

x

x

SANS autorisation de diffusion large

dans la communauté des chercheurs

x

x

SANS autorisation d'échange ou de prêt

de corpus entre chercheurs

x

(combinaisons possibles)

ARCHIVAGE PÉRENNE

partage anonym. diffusion

DIFFUSION

anonym. partage

facilité d’accès

Recruter pour valoriser

TÂCHES

vérification de transcriptions alignement de transcriptions

balisage des zones d’anonymisation formation à Praat

script d’anonymisation de D. Hirst (neutralise les formants, maintient la F0)

enregistrement des fichiers de transcription en formats multiples

QUALITÉS REQUISES

mémoire auditive ++ capacité de concentration ++

éthique professionnelle ++ aisance avec l’informatique

(outils de traitement du son, de traitement de texte, plateformes en ligne)

L’archivage peut être une étape préalable à la diffusion, qui

peut être une étape préalable à la valorisation.

VALORISATION

anonym. partage diffusion

transcription alignement variété de formats

Du côté de la technique...

1. évolution des solutions logicielles

disponibles entre la

constitution du corpus (2008-2010) et les financements (2014 &

2017) : ▪ mise à jour des connaissances logicielles ▪ mise à jour des

critères d’évaluation des solutions logicielles ▪ basculement des

transcriptions vers la solution choisie (ELAN) ▪ alignement

semi-automatique (SONAL) ▪ vérification et correction manuelle

2. questionnements éthiques dans l’anonymisation

sur des

corpus longs : ▪ le croisement d’information est plus facile sur

des entretiens et des conversations longues ▪ certaines

informations à anonymiser sont importantes pour la

compréhension de l’enregistrement ▪ si l’on empêche les

croisements, certains passages à anonymiser sont longs (plusieurs

minutes) ▪ perte d’intérêt de l’enregistrement s’il est rendu

inexploitable ▪ équilibre difficile à maintenir entre respect de

l’anonymat et choix des informations à neutraliser

3. difficultés techniques avec l’anonymisation par script

:

▪ repérage de bugs divers, remontés à Daniel Hirst et corrigés

▪ erreurs de manipulation remontées et modifiées ▪ avancée

des versions du logiciel

Logiciels

ELAN (Version 5.2) [Outil logiciel]. (2018). Max Planck Institute for Psycholinguistics, Nijmegen. https://tla.mpi.nl/tools/tla-tools/elan/

Sonal (Version 2.1.41) [Outil logiciel]. (2018). Alex ALBER, UMR 7324 (C.I.T.E.R.E.S.), Université François Rabelais & Centre d’Études de

l’Emploi. http://www.sonal-info.com/fr/.

Anonymisation de fichiers sonores (Version 6) [Outil logiciel]. (2010). Daniel Hirst, UMR 7309 (Laboratoire parole et langage), ORTOLANG (Open

Resources and TOols for LANGuage). www.ortolang.fr, https://hdl.handle.net/11403/sldr000526/v6.

Corpus

Institut de traducteurs et d’interprètes [Corpus]. (2014). Elodie Oursel, EA2290 (SYLED), UMR 7118 (ATILF) - ORTOLANG (Open Resources and

TOols for LANGuage) - www.ortolang.fr, https://hdl.handle.net/11403/sldr000884/v1.

Service des relations internationales [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000889/v1. Préfecture [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000887/v1.

Office de l’immigration - Accueil [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000885/v1. École doctorale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000880/v1.

Office de l’immigration - Audit [Corpus]. 2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000886/v1.

Secrétariat de FLE [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000888/v1.

Écrivain public [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000881/v1. Assistante sociale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000878/v1.

Accompagnement vers l’emploi [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000877/v1. Entretiens compréhension orale [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000882/v1. Entretiens conversation [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000883/v1.

Corpus Cours alpha [Corpus]. (2014). ————. www.ortolang.fr, https://hdl.handle.net/11403/sldr000876/v1.

Références

Documents relatifs

Tél.: +352 621192385 allemand anglais bulgare français italien.

Lorsque l’organisme de formation envisage une prise de sanction, il convoque le stagiaire par lettre recommandée avec accusé de réception ou remise à

Professeur Université de Brasília, emeritus [email protected] La transition du néolibéralisme vers une insertion globale se fait par changement du paradigme d'État, vers la

Fédération de recherche L’Europe en mutation Institut d’études politiques?. Université

espagnol français portugais - Tina PETERDAMM langue(s): allemand.

L’année 2017 a été marquée par le début de l’activité Café avec un policier, l’opération À Lévis, il y a des limites, la certification de la centrale 911 et le

espagnol français portugais - Tina PETERDAMM langue(s): allemand.

- Christian LEJOLY, 94, rue Michel Rodange, L-4306 ESCH/ALZETTE spécialité(s): Ingénieur Industriel, spécialisation en informatique - Serge LINDEN, 52, rue de Pontpierre,