Limites et perspectives - La transcription automatique : un rêve enfin accessible ?

Un domaine en constante évolution

Le marché de la transcription automatique est en perpétuelle évolution, et ses changements sont très rapides. Nos tests ont été effectués entre novembre 2019 et février 2020. Dès à présent, et encore plus dans quelques mois, les résultats ne seront sans doute plus les mêmes. Il est toutefois difficile de prédire comment la situation va évoluer. Certains outils seront sans doute amenés à disparaître, quand d’autres, notamment institutionnels, peuvent être amenés à se développer. L’Organisation Mondiale de la Propriété Intellectuelle en est un exemple, avec l’outil qu’elle a conçu pour traiter des corpus de réunions et conférences internationales. Le logiciel, « créé à l’origine pour aider à transcrire les réunions officielles de l’OMPI, peut être personnalisé pour d’autres organisations »33_.

Ce que l’on aurait aimé faire, mais qui n’a pas été possible

Un certain nombre de points ont régulièrement été soulevés au cours de ce travail, et mériteraient d’être étudiés par la suite.

Le premier de ces points concerne la variabilité des situations enregistrées, que notre corpus ne permet pas de couvrir. Deux points nous semblent particulièrement importants à évaluer dans le futur : (1) la variation des dispositifs d’enregistrement (téléphone, dictaphone, smartphone, régie, etc.) et la diversité des locuteurs (par ex. en termes de genre, âge, locuteurs natifs ou non natifs, locuteurs avec différents accents régionaux, locuteurs avec différentes difficultés phonatoires).

Le second de ces points concerne l’évaluation de la qualité de la détection des changements de locuteurs. Celle-ci nécessiterait la mise en place d’une méthodologie adéquate, qui n’a pas pu être réalisée dans l’intervalle de temps que nous nous étions fixé. Comme le mentionnent Bazillon et al. (2008) : « certains types de données (parole téléphonique ou locuteurs non natifs par exemple) sont un peu problématiques pour les systèmes ASR, alors qu’elles ne perturbent pas un annotateur humain. L’affectation des locuteurs peut sembler assez longue pour la parole spontanée, mais ces résultats doivent être limités : généralement, la transcription du texte, l’affectation des locuteurs et la correction de l’orthographe se font au fur et à mesure, au lieu d’être séparées. Dans le cas des orateurs, cela est important, car leur assignation après la transcription oblige le transcripteur à vérifier l’ensemble du fichier. Dans le cas d’un discours préparé, cela ne prend pas trop de temps, car les tours de parole sont généralement longs et bien définis ; à l’inverse, le discours spontané contient souvent des tours de parole courts avec de nombreux changements de locuteurs ».

Un troisième point concerne l’ajout de lexiques personnalisés en amont de la transcription. Ceux-ci permettent une amélioration notable de la qualité de la

Elise TANCOIGNE, Jean-Philippe CORBELLINI, Gaëlle DELETRAZ, Laure GAYRAUD, Sandrine OLLINGER, Daniel VALERO

71

transcription obtenue, mais cette option n’a pas été prise en compte dans les tests réalisés. Cette option est particulièrement utile dans le cas de traitement de corpus thématiques dont la liste de vocabulaire spécialisé est connue ou établie au fur et à mesure.

Enfin, un quatrième et dernier point concerne l’analyse du fichier le plus problématique, celui de la réunion associative (Harmonie). Caractériser les erreurs obtenues pour ce fichier s’est avéré une vraie gageure, qui demandait là encore plus de ressources que ce dont nous disposions. Cela nécessiterait la mise en place d’une méthodologie adaptée à la réception de textes très fragmentaires.

Des raisons de ne pas utiliser ce genre d’outils

Un dernier point que nous souhaitions mentionner concerne une réflexion plus globale, portant sur le recours à ce genre d’outils. Bien que leurs promesses de gain de temps et d’argent soient en partie réalisées, il existe des arguments à la fois déontologiques, épistémologiques et politiques qui vont à l’encontre de leur usage.

Les arguments déontologiques ont été développés dans la section sur la confidentialité des données, nous ne reviendrons donc pas dessus. Ils restent cependant fondamentaux à prendre en compte au moment de faire le choix des outils utilisés, et plaident notamment pour le développement d’outils académiques, libres et hébergés sur des serveurs nationaux.

Des arguments épistémologiques vont aussi à l’encontre de l’usage de ce type d’approche. Comme le résume très bien Mondada (2000), « La transcription n’est pas simplement une activité sélective, mais plus radicalement une entreprise interprétative […] les choix possibles en la matière ne sont pas équivalents entre eux et impliquent — de façon souvent implicite — des positionnements spécifiques, à rapporter aux fins pratiques et théoriques poursuivies par l’analyste qui les adopte ». Transcrire, c’est déjà analyser : déléguer ce travail peut être vu comme problématique dans un certain nombre de cas. Bien entendu, des pratiques de recherche bien établies font déjà appel à une forme de délégation, en employant par exemple des étudiants pour réaliser ce genre de travail. Une dimension formative est néanmoins à l’œuvre dans ce cas, qui sera transformée par ces outils. Les savoirs acquis et les réflexions menées sur le matériau ne seront pas les mêmes suivant que l’on effectue un travail de correction plutôt que de transcription intégrale.

L’automatisation d’un certain nombre de tâches ravive également le débat sur le lien entre automatisation et perte d’emplois. Il n’existe pas, à notre connaissance, d’enquête sociologique sur les travailleuses et travailleurs de la transcription. Il est donc difficile d’évaluer les conséquences que l’émergence de ce type de plateformes peut avoir sur cette profession (reconfiguration, disparition), et à quel prix. En outre, un certain nombre de plateformes, non évaluées ici, ont recours à des travailleurs humains pour compléter le travail algorithmique : les « travailleurs du clic » (Casilli, 2019). Or de plus en plus de travaux sur ces emplois documentent globalement des conditions de travail désastreuses : sur Amazon Mechanical Turk par exemple, 52 % des travailleurs

américains estiment recevoir moins de 5 $ par heure quand le salaire minimum est établi à 7,25 $ (Hitlin, 2016).

Pour finir, une dernière remarque porte sur le travail que nous offrons, nous-mêmes, à ces plateformes. De la même manière que nous travaillons pour le supermarché lorsque nous scannons nous-mêmes nos articles à une caisse automatique, les plateformes nous mettent à contribution sans le dire explicitement. En effet lorsque nous éditons notre texte en ligne, dans l’éditeur intégré à la plateforme, le couple audio/transcription obtenu sera utilisé par la plupart d’entre elles pour améliorer leurs algorithmes. Or ce travail est réalisé gratuitement, implicitement, et ce malgré le prix d’un abonnement qui peut parfois être élevé.

Elise TANCOIGNE, Jean-Philippe CORBELLINI, Gaëlle DELETRAZ, Laure GAYRAUD, Sandrine OLLINGER, Daniel VALERO

73

Dans le document La transcription automatique : un rêve enfin accessible ? (Page 77-80)