Évaluation de Microsoft Presentation Translator

(1)

Master

Reference

Évaluation de Microsoft Presentation Translator

CUENDET, Matthieu

Abstract

Ce travail consiste en une évaluation du logiciel Microsoft Presentation Translator. Dans la première partie qui se veut théorique, divers aspects techniques (reconnaissance automatique de la parole, sous-titrage automatique et transcription simultanée) sont discutés et des évaluations similaires réalisées dans le domaine sont présentées. La deuxième partie consiste en une évaluation du logiciel réalisée dans le cadre d'un cours universitaire, au moyen de quatre expériences. Suite à la présentation de la mise en place des expériences et de la méthodologie, les résultats sont discutés. Si l'utilité de sous-titrer des cours universitaires n'est pas démontrée, la qualité des sous-titres automatiques est en revanche attestée au moyen d'un score Word Error Rate inférieur à 30 % et d'un relevé manuel des erreurs types commises par le logiciel. Enfin l'utilisabilité des sous-titres pour extraire les points clés d'un cours est démontrée au moyen d'une expérience de gap filling.

CUENDET, Matthieu. Évaluation de Microsoft Presentation Translator. Master : Univ.

Genève, 2020

Available at:

http://archive-ouverte.unige.ch/unige:150846

Disclaimer: layout of this document may differ from the published version.

(2)

Matthieu Cuendet

Évaluation de Microsoft Presentation Translator

Directrice : Professeure Pierrette Bouillon Jurée : Marianne Starlander

Mémoire présenté à la Faculté de traduction et d’interprétation (Département de traduction, Unité de français) pour l’obtention de la Maîtrise universitaire en traduction et technologies, mention localisation et traduction automatique

Année académique 2020-2021 / Session d’automne

(3)

(4)

REMERCIEMENTS

Je tiens tout d’abord à remercier les personnes qui ont rendu ce travail possible.

Merci à Pierrette Bouillon, directrice de ce mémoire, pour son soutien sans faille, ses relectures attentives, ses conseils précieux, sa disponibilité et sa réactivité. Je tiens également à remercier Marianne Starlander qui a accepté d’être ma jurée, pour son aide et sa gentillesse.

Un grand merci à toutes les personnes qui ont pris part aux diverses expériences, aux étudiantes et étudiants qui ont remplis les questionnaires. Je tiens également à remercier Lucile Davier qui a gentiment accepté que ses cours soient enregistrés et qui a accepté de jouer les cobayes pour mes expériences, Macha Bellec qui a effectué les tests du questionnaire en ligne pour sa relecture très attentive, ses remarques pertinentes et son soutien dans l’élaboration de ce questionnaire.

Enfin, un grand merci à toutes les personnes qui m’ont soutenu, apporté leur aide de quelque façon que ce soit, tout au long de la rédaction de ce mémoire ou ponctuellement, notamment les personnes qui m’ont apporté leur soutien pendant le confinement, par des messages ou des téléphones encourageants. Même si la période n’a pas été simple à affronter, je n’aurais jamais pu y arriver sans leur soutien.

(5)

TABLE DES MATIÈRES

1 Introduction ... 1

2 La Reconnaissance automatique de la parole ... 3

2.1 Introduction ... 3

2.2 Types de logiciels de RAP ... 5

2.2.1 Défis techniques ... 7

2.2.2 Dialogue oral ... 9

2.3 Fonctionnement de la reconnaissance automatique de la parole basée sur les modèles de Markov ... 10

2.3.1 Extraction du signal ... 12

2.3.2 Modélisation acoustique ... 12

2.3.2.1 Modèles de Markov cachés ... 13

2.3.2.1.1 GMM-HMM ... 14

2.3.2.1.2 DNN-HMM ... 15

2.3.2.1.3 Modèles hybrides ... 16

2.3.3 Décodage ... 16

2.3.3.1 Modèles de langage ... 17

2.3.3.1.1 Modèles n-grammes ... 17

2.3.3.1.2 Modèles neuronaux ... 18

2.3.3.1.2.1 Word embeddings ... 19

2.3.3.2 Le lexique ... 20

2.4 Les modèles de bout en bout ... 21

2.5 Évaluation automatique de la reconnaissance automatique de la parole ... 22

2.6 Diverses applications ... 24

2.7 Conclusion ... 25

3 Le sous-titrage automatique ... 27

(6)

3.2 Sous-titrage automatique ... 27

3.3 Transcription simultanée... 29

3.3.1 Historique ... 29

3.3.2 Outils et méthodes ... 31

3.3.3 La transcription simultanée en Suisse ... 33

3.4 Microsoft Presentation Translator ... 33

3.5 Études sur l’évaluation du sous-titrage automatique ... 36

3.5.1 YouTube ... 36

3.5.2 Projet de transcription automatique de cours ... 38

3.5.3 Microsoft Presentation Translator ... 40

4 Méthodologie ... 42

4.2 Mise en place de l’évaluation ... 43

4.3 Analyse qualitative au moyen de questionnaires ... 46

4.4 Calcul du Score WER ... 47

4.5 Analyse des erreurs types ... 47

4.6 Expérience de gap filling ... 49

5 Résultats ... 53

5.2 Analyse qualitative au moyen des questionnaires... 53

5.3 Calcul du score WER ... 61

5.4 Analyse des erreurs types ... 62

5.5 Expérience de Gap filling ... 65

(7)

6 Conclusion ... 76

7 Bibliographie... 79

8 Liste des figures ... 85

9 Liste des tableaux ... 86

10 Listes des Annexes ... 87

(8)

1 INTRODUCTION

La reconnaissance vocale est utilisée dans de nombreux domaines au quotidien. Les recherches autour de cette technologie ont réellement explosé ces dernières années. La technologie évolue vite et se répand. Que ce soit dans les voitures, les téléphones portables ou les avions de combat, la reconnaissance vocale est présente partout, à de nombreuses fins.

Nous avons personnellement découvert la reconnaissance vocale en travaillant dans une entreprise qui se charge de sous-titrer toutes les chaînes de télévision nationale en Suisse.

Cette entreprise s’est mise également à proposer des services de transcription simultanée écrite pour les cours des hautes écoles, universités et EPF, à l’intention des étudiants sourds et malentendants. Malheureusement, ce service est très coûteux. Il exige des transcripteurs, une formation pointue et surtout des aptitudes très particulières. Le service étant financé en Suisse par l’Assurance Invalidité, nous avons été témoin à plusieurs reprises de refus de prise en charge. C’est alors que nous avons découvert un logiciel qui fonctionne pour PowerPoint de Microsoft et transcrit automatiquement la parole sous forme de sous-titres. Nous nous sommes alors demandé si c’était là LA solution pour rendre accessibles des cours universitaires à des étudiantes et des étudiants sourds ou malentendants trop souvent dirigés vers des formations manuelles qui n’exigent aucune interaction verbale, mais également pour des étudiantes et des étudiants étrangers qui ne maîtrise pas bien la langue.

Les quatre expériences menées dans le cadre de ce travail répondent chacune à une question de recherche. Nous avons cherché à déterminer si le logiciel de Microsoft Presentation Translator pouvait être utile pour suivre des cours universitaires. Nous avons cherché à le mesurer subjectivement – en demandant à des étudiants leur avis sur la qualité des sous-titres générés et sur leur utilité – et objectivement – en calculant le score WER des sous-titres générés et en procédant manuellement à un relevé des erreurs. Enfin, nous avons tenté de recréer les conditions d’un étudiant qui n’aurait accès qu’à des supports visuels pour déterminer si Microsoft Presentation Translator permettait de comprendre les points clés d’un cours. Nos quatre questions de recherches étaient donc les suivantes :

1. Les sous-titres générés par Microsoft Presentation Translator sont-ils utiles pour suivre un cours universitaire ?

(9)

2. Microsoft Presentation Translator est-il performant, c’est-à-dire : retranscrit-il correctement la parole ?

3. Quelles sont les erreurs types que Microsoft Presentation Translator commet en retranscrivant la parole ?

4. Les sous-titres générés permettent-ils, tout seuls, de comprendre et d’extraire les points clés d’un cours universitaire ?

Dans le présent travail, nous nous intéressons dans un premier temps à la reconnaissance automatique de la parole (RAP) et à son fonctionnement (chapitre 2). Nous faisons un bref historique de l’évolution de la RAP et expliquons les éléments nécessaires à son fonctionnement. Nous parlons également des dernières avancées dans le domaine et des espoirs placés dans les modèles de bout en bout notamment. Nous abordons l’évaluation automatique de la RAP et citons diverses applications utilisant cette technologie. Par la suite, nous nous penchons sur le sous-titrage automatique (chapitre 3), en faisant à nouveau un bref historique, avant d’aborder les outils et méthodes utilisés. Nous parlons de la transcription simultanée, notamment de sa situation en Suisse, et présentons le logiciel que nous évaluons, à savoir Microsoft Presentation Translator.

La deuxième partie de ce travail est consacrée aux différentes expériences que nous avons menées pour répondre aux questions de recherche. Le chapitre 4 présente la mise en place de nos expériences et la méthodologie utilisée. Le chapitre 5 présente les résultats obtenus lors de ces expériences. Tout en répondant à nos quatre questions de recherche, nous discutons plus largement de la RAP et de la transcription automatique de cours universitaires et de l’accessibilité des études aux personnes atteintes d’un handicap auditif.

(10)

2 LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

2.1 Introduction

Dans son ouvrage Reconnaissance automatique de la parole (Haton et al., 2006, page 1), Haton explique que

« [la] reconnaissance automatique de la parole a pour but de permettre à un utilisateur de s’adresser oralement à une machine pour des tâches diverses : transcription, commande, traduction, etc. »

La première machine capable de reconnaître des sons est sans doute un jouet du nom de

« Radio Rex », vendu dans les années 1920. Ce chien était capable de bouger sous l’impulsion d’un ressort libéré par une énergie acoustique de 500 Hz. Cette fréquence correspondant à la fréquence du son [e] de « Rex », le chien semblait bouger quand on l’appelait par son nom (Jurafsky, 2014).

En 1952, la reconnaissance se limitait à dix chiffres. Dès 1968, des systèmes arrivaient à reconnaître des mots isolés (jusqu’à 500 mots). En 1971, aux États-Unis, le système ARPA est lancé pour l’étude de systèmes de compréhension de la parole. Le premier appareil de reconnaissance de mots est commercialisé en 1972 pour la modique somme de 20 000 dollars. En 1976, le projet ARPA prend fin avec plusieurs systèmes opérationnels (HARPY, HEARSAY I et II, et HWIM). En 1983, pour la première fois, un système de commande vocale est installé à bord d’un avion de chasse en France. Les premiers systèmes de reconnaissance de plusieurs milliers de mots (Dragon, IBM) sont commercialisés en 1985. Et en 1988, apparaissent les premières machines à dicter par mots isolés d’abord, puis en parole continue dès 1996. La reconnaissance de la parole est introduite dans les centres d’appels pour la première fois en 2002 et les premiers téléphones portables avec commandes vocales apparaissent en 2008. Le logiciel Skype, logiciel de traduction parole-parole, est commercialisé par Microsoft en 2014 (Haton, 2016).

La reconnaissance automatique de la parole (RAP, Automatic Speech Recognition [ASR] en anglais) n’a donc cessé de progresser ces dernières années. Selon (Seligman & Waibel, 2019), elle a progressé par étape. À chacune d’entre elles, les efforts se sont concentrés sur un élément de la tâche. La restriction la plus simple est sans aucun doute la limitation de

(11)

l’étendue des phrases reconnues, c’est-à-dire une restriction de la syntaxe. Un système qui ne reconnaît par exemple qu’une liste d’expressions n’aura besoin de rien de plus qu’une table de correspondances. Cependant, comme le système ne reconnaît que des phrases spécifiques, le moindre changement dans une phrase admise empêchera le système de reconnaître cette dernière. Le système peut également limiter le domaine reconnu. L’utilisateur n’est alors en théorie pas limité dans ce qu’il dit, tant qu’il reste dans le domaine reconnu. Parmi de tels systèmes, on peut citer ceux pour la réservation de chambres d’hôtel, par exemple. Si on lève la restriction du domaine, les développeurs de tels systèmes se trouvent confrontés à un vocabulaire illimité, des structures de phrases totalement libres et une parole continue, c’est- à-dire que le système n’a plus d’indication où commence la phrase et où elle finit. Pour de tels systèmes, une des difficultés réside dans le style de discours, à savoir s’il s’agit d’un discours lu ou d’un discours libre. L’articulation, la prononciation, les hésitations, les interruptions sont autant d’obstacles à surmonter. La RAP est aujourd’hui utilisée quotidiennement, par exemple par les assistants vocaux tels que Google Assistant, Siri d’Apple ou Alexa d’Amazon. Pourtant, la technologie n’est toujours pas entièrement aboutie et des recherches sur la question sont encore nécessaires.

Dans ce chapitre, nous expliquerons les fondements théoriques du fonctionnement de la RAP afin de mieux comprendre ensuite comment fonctionne le logiciel que nous évaluerons. Nous distinguerons tout d’abord les différents types de logiciels de RAP (à la section 2.2) et aborderons les défis techniques de tels systèmes (à la section 2.2.1) et les caractéristiques propres à un système de dialogue oral (à la section 2.2.2). Nous aborderons ensuite le fonctionnement de la RAP basée sur les modèles de Markov (à la section 2.3). Dans cette section, nous énumérerons et décrirons les trois éléments fondamentaux sur lesquels sont construits la plupart des logiciels de RAP, à savoir l’extraction du signal (à la section 2.3.1), la modélisation acoustique (à la section 2.3.2) et le décodage (à la section 2.3.3). Nous aborderons également brièvement un champ de recherche actuelle en RAP, à savoir les systèmes de bout en bout (à la section 2.4). Nous finirons ce chapitre par l’évaluation automatique de la RAP (à la section 2.5) et une présentation de diverses applications faisant appel à cette technologie (à la section 2.6).

(12)

2.2 Types de logiciels de RAP

Selon (Haton et al., 2006, page 284),

« [l]es performances des systèmes actuels de reconnaissance automatique de la parole permettent le développement d’applications en vraie grandeur. Ces applications varient beaucoup en taille et en ambition, selon les contraintes imposées par la tâche à réaliser : taille du vocabulaire, type d’élocution, dialogue, etc. […] »

Les performances d’un système de reconnaissance automatique de la parole dépendent d’un ensemble de facteurs propres à l’application envisagée. Selon (Zewoudie, s. d.), on peut citer notamment :

- La dépendance au locuteur : un système dépendant du locuteur nécessite que l’utilisateur entraîne le système, ce qui n’est pas le cas des systèmes indépendants du locuteur. Ces derniers peuvent être utilisés par n’importe qui. Les systèmes dépendants du locuteur présentent généralement de meilleurs résultats. Cela est dû au fait que la variation entre les différents locuteurs est très difficile à modéliser.

- Le mode d’élocution : un système peut reconnaître uniquement des mots séparément – c’est-à-dire nécessiter que l’utilisateur fasse une pause entre chaque mot d’une phrase – ou il peut reconnaître la parole continue. Les premiers peuvent être développés sans modèles de langage. Les seconds permettent à l’utilisateur de parler de manière tout à fait normale. Ils doivent être capables de gérer le phénomène de coarticulation. Développer de tels systèmes est un réel défi. En effet, il est souvent très difficile d’apprendre au système à détecter les frontières de mots.

- La taille du vocabulaire : le nombre de mots dans le vocabulaire est une contrainte qui permet de classer les systèmes à petit, moyen ou large vocabulaire. Un système à petit vocabulaire contient généralement entre 1 et 99 mots, un système à moyen vocabulaire, entre 99 et 999 mots, et un système à large vocabulaire, plus de 1000 mots. Plus le vocabulaire est grand, plus difficile est la tâche de RAP et moins bons sont les systèmes, notamment en raison du risque de confusion entre des mots proches qui augmente avec la taille du vocabulaire. Pour les systèmes à petit vocabulaire, chaque mot peut être modélisé. Ce n’est en revanche pas possible pour des systèmes contenant des milliers, voire des dizaines de milliers de mots.

(13)

Le développement de systèmes à large vocabulaire nécessite l’utilisation de sous- unités. L’inconvénient de ces dernières est d’empêcher la reconnaissance des coarticulations.

- Le type de discours : un système peut être programmé pour reconnaître uniquement un discours lu ou pour reconnaître également du discours spontané.

Ce dernier est plus difficile à créer en raison des « faux départs » dans le discours spontané, tout comme des phrases incomplètes, un vocabulaire illimité et une prononciation de moins bonne qualité.

À la liste ci-dessus, (Haton et al., 2006, pages 285-286) ajoutent les facteurs suivants :

- Le mode d’acquisition de la parole : la reconnaissance peut être effectuée en local sur un poste de travail ou à distance via une ligne téléphonique (réseau classique commuté ou, de plus en plus souvent, réseau GSM de téléphonie cellulaire). Les modèles acoustiques doivent être adaptés à ces différentes conditions.

- La prise de son : le microphone peut être soit de proximité (avec port d’un casque), soit intégré dans un combiné téléphonique, soit encore posé sur un bureau. Dans certains environnements assez bruités (véhicule automobile, hall de gare, rue, etc.), une antenne de plusieurs microphones permet de mieux localiser le locuteur et de supprimer une partie du bruit ambiant. À nouveau, les modèles acoustiques varient selon les conditions.

- La complexité de la tâche : Les algorithmes de reconnaissance nécessitent une puissance de calcul assez importante. De ce fait, la mise en œuvre pratique d’un système est limitée par les ressources informatiques disponibles de façon à garantir un fonctionnement en temps réel. Ceci est particulièrement crucial pour une application embarquée, par exemple sur un assistant personnel, PDA.

La RAP a servi en premier lieu pour les commandes vocales. Le vocabulaire était alors limité à une centaine de mots au plus et le mode d’élocution se faisait par mots isolés ou enchaînés.

Ces systèmes de commandes vocales servaient notamment à commander des machines telles que des machines industrielles ou aéronautiques, mais aussi des jouets, des consoles de jeux, ou encore les commandes vocales dans une voiture, un système GPS, etc. La RAP a ensuite servi à la saisie des données, à la place de la saisie au clavier. La taille du vocabulaire pouvait alors varier de petite à grande en fonction de l’utilisation (Haton et al., 2006).

(14)

Des systèmes sont capables aujourd’hui de reconnaître des milliers de mots dans les langues courantes. On parle de très grand vocabulaire quand le système est capable de reconnaître 20 000 à 60 000 mots (Jurafsky, 2014). Pour ce faire, le principe dit de reconnaissance

« multipasses » est utilisé. Il permet un bon compromis entre complexité algorithmique et qualité de la reconnaissance. Dans son ouvrage La parole numérique, analyse, reconnaissance et synthèse du signal vocal, (Haton, 2016, chapitre 4.7, par. 2) en explique le principe général, à savoir

« de reconnaître une phrase en deux étapes successives de reconnaissance :

– Première étape rapide : construction d’un treillis de mots à l’aide de modèles assez simples. Le treillis résultant contient tous les mots candidats susceptibles de se trouver dans la phrase,

– Deuxième étape plus complexe : affinement du treillis de mots à l’aide de connaissances plus élaborées (HMM contextuels, modèles de langue 5- grammes ou plus, etc.) Le résultat en sortie est la phrase formée de la suite de mots les plus probables. »

La RAP a très vite été d’un grand intérêt pour la bureautique, pour la dictée automatique.

Parmi les systèmes les plus connus, on peut citer ViaVoice d’IBM, ou Dragon Naturally Speaking commercialisé par ScanSoft. Il est même possible d’acheter des dictionnaires spécialisés pour un domaine tel que le droit ou la médecine. Selon (Haton et al., 2006, pages 291-292),

« [l]es performances obtenues sont de l’ordre de quelques pourcents d’erreur à des cadences de plus de cent mots à la minute, selon le locuteur, en particulier si l’utilisateur effectue au préalable un apprentissage permettant l’adaptation des modèles acoustiques à sa propre voix. »

2.2.1 Défis techniques

La RAP reste un grand défi. Une personne prononce environ cent cinquante mots par minute lorsqu’elle parle, mais en écrit uniquement cinquante. Ce n’est toutefois pas le seul défi, notre communication ne se résume pas au nombre de mots prononcés par minute. Dans le discours, le contexte joue un rôle : où nous parlons, à qui nous nous adressons, quel est le but de notre prise de parole (SAmin, 2019) ?

(15)

Les paramètres qui varient sont nombreux. Tout d’abord, les paramètres acoustiques peuvent varier : le nombre de locuteurs joue par exemple un rôle. Pour un même locuteur, les variations sont également possibles, s’il est enrhumé par exemple, s’il se trouve dans un environnement avec une forte réverbération, ou dans un environnement bruyant. Entre les locuteurs, les différences sont également grandes, notamment au niveau de la phonétique.

Les phénomènes d’accent, de coarticulation, d’élisions, voire de confusion sur le sens de certains mots utilisés alors à mauvais escient représentent également un défi. Enfin, les phénomènes linguistiques jouent un rôle, notamment la polysémie, les variations d’usage du vocabulaire, comme la taille de ce dernier, les phénomènes d’ellipse, d’anaphore, etc.

(Lecorvé, s. d.).

Lorsque nous parlons, nous tentons d’exprimer avec des mots notre pensée. (SAmin, 2019) propose de décomposer le processus de la façon suivante : le locuteur formule ses idées en mots, il génère ensuite des sons en utilisant son appareil phonatoire, il transmet les sons dans l’air sous la forme d’une onde acoustique qui est ensuite perçue par l’oreille de l’interlocuteur.

Les sons sont convertis et transmis au cerveau par le nerf auditif. Le cerveau extrait le sens.

Le but principal d’un système de RAP est donc de reproduire ce fonctionnement. Mais pourquoi la RAP est-elle si difficile ? En réalité, la perception est déjà beaucoup plus compliquée qu’on pourrait naïvement le penser. Pour reproduire le fonctionnement humain, la machine devra être capable d’enregistrer une onde acoustique et de la convertir en une représentation numérique. Elle va devoir commencer par séparer les mots (le signal) du bruit ambiant qui peut être de toute sorte. Elle devra être capable de s’adapter à la vitesse d’élocution plus ou moins rapide du locuteur, savoir quand commence une phrase et quand elle finit. Elle devra être capable de s’adapter également aux variations entre les locuteurs, variations dues à l’âge, le genre, l’accent, le contexte, l’intention, etc. Elle devra gérer les homophones, ce qui signifie qu’il faudra connaître l’intention du locuteur. Elle devra également être capable de filtrer les nombreux sons parasites que le locuteur émet (euh, hum, etc.). Enfin, elle devra avoir des connaissances approfondies de la syntaxe, de la sémantique.

(16)

2.2.2 Dialogue oral

Selon (Haton, 2016, chapitre 4.6, par. 1),

« [l]es systèmes de reconnaissance automatique de la parole actuels ont de très bonnes performances lorsque les conditions de test (locuteurs, environnement, etc.) sont assez semblables aux conditions d’apprentissage du système. Toutefois, les performances d’un système se dégradent rapidement lorsque les conditions d’utilisation diffèrent nettement des conditions présentes lors de l’apprentissage de ce système. »

Parmi les facteurs influençant les conditions, l’auteur cite l’environnement du locuteur, notamment la présence ou l’absence de bruit (réverbération, bruit ambiant, etc.), le locuteur lui-même, son rythme d’élocution, son accent, par exemple, et les conditions de transmission et d’enregistrement, tel que le type de microphone notamment.

(Haton et al., 2006, page 293) expliquent que « des applications incluant un dialogue contraint, peu naturel et laissant peu ou pas de liberté à l’utilisateur, peuvent atteindre de très bonnes performances ». En effet, le domaine est en général connu pour ce genre d’applications. On connaît le type d’information que l’utilisateur va demander au système. Il existe deux catégories de systèmes oraux :

- Les services fournis via le téléphone.

- Les interfaces multimodales.

La différence entre ces deux catégories réside dans deux points :

- La saisie du signal de parole : dans le cas du téléphone la bande passante est limitée et les caractéristiques des microphones très variables. Pour une interface multimédia, on dispose d’un signal acoustique à large bande capté par un microphone parfaitement identifié et invariable. Mais ce microphone est le plus souvent fixe et situé assez loin de la bouche de l’utilisateur, ce qui introduit un ensemble de difficultés liées à la position et à la taille du locuteur, au bruit ambiant, etc.

- Le type d’interaction et de dialogue : le téléphone nécessite un dialogue plus élaboré du fait que la voix est le seul moyen de communication, tandis que

(17)

plusieurs modes d’interactions (visuels, sonores) peuvent être combinés dans le cas d’interfaces multimédias.

2.3 Fonctionnement de la reconnaissance automatique de la parole basée sur les modèles de Markov

L’architecture classique d’un système de RAP est illustrée dans la Figure 1. Le locuteur émet une séquence source de mots M. La séquence source passe à travers un canal de communication bruité, à savoir l’appareil phonatoire du locuteur, qui produit une onde sonore. L’onde sonore est captée par un microphone et convertie en une séquence de vecteurs acoustiques de taille fixe A = a1, a2, …, ai lors de l’extraction. Un décodeur cherche ensuite la séquence de mots M = m1,m2,…, mj qui a la plus grande probabilité d’avoir généré A (Gales & Young, 2007).

Figure 1 : Architecture d'un système de RAP (image adaptée de Huang & Deng (2010))

La tâche revient donc à transformer une onde acoustique en une séquence de mots. Selon (Haton, 2016), on peut se représenter le processus comme suit : à partir d’une séquence acoustique A = a1a2…ai, un système de RAP recherche la séquence de mots M = m1m2…mj qui maximise la probabilité a posteriori P(M|A). Il s’agit d’une approche probabiliste fondée sur la règle de décision bayésienne adaptée à la reconnaissance de phrases parlées.

En effet, selon la formule de Bayes :

𝑃(𝑀|𝐴) = 𝑃(𝑀) × 𝑃(𝐴|𝑀)

𝑃(𝐴) . (1)

P(A) est la probabilité de la suite de vecteurs de paramètres en entrée, pouvant être considérée comme indépendante de M. La suite d’unités M̂ est celle qui maximise le produit de l’équation ci-dessus, comme notée dans l’équation suivante :

M̂ = ArgMax

𝑀 𝑃(𝑀|𝐴) = ArgMax

𝑀

𝑃(𝑀)𝑃(𝐴|𝑀)

𝑃(𝐴) (2)

L’étape de reconnaissance revient à maximiser le produit des deux probabilités P(A|M) et P(M). P(A|M) est la probabilité qu’une séquence d’unités M génère la séquence A. Elle est

M A 𝑀̂

(18)

estimée par un modèle acoustique, le plus souvent un modèle de Markov caché. P(M) est la probabilité a posteriori de la séquence d’unités, elle est estimée par un modèle de langage.

L’unité est généralement le phone. En linguistique, le phone correspond à la réalisation acoustique du phonème. En effet, en raison du phénomène de coarticulation, un même phonème peut être prononcé différemment en fonction des phonèmes qui l’entourent.

Acoustiquement parlant, la réalisation d’un même phonème peut donc largement différer, notamment selon la vitesse d’élocution, le locuteur, le dialecte, etc. Les différences de prononciation doivent être prises en compte dans les systèmes de RAP. Il est possible de prendre en considération ce phénomène de plusieurs façons :

- les monophones ne prennent pas en compte le contexte et modélisent un seul phonème ;

- les diphones prennent en compte le phonème précédant ou suivant le phonème courant ;

- les triphones prennent en compte à la fois le phonème précédant et le phonème suivant le phonème courant.

- Les pentaphones précisent le contexte des triphones en prenant en compte les deux phonèmes précédant et les deux phonèmes suivant le phonème courant.

Très peu de systèmes vont au-delà du pentaphone car le phénomène s’atténue rapidement avec la distance. Si le taux de reconnaissance est amélioré grâce à ces modèles, ils rendent également la tâche d’apprentissage plus complexe.

Le message le plus probable est donc calculé en faisant le produit de deux probabilités et en choisissant le résultat le plus élevé. Si on décompose maintenant un système de RAP, on peut considérer les composants suivants :

- L’extraction du signal, c’est-à-dire la conversion du discours en une séquence de vecteurs de signaux acoustiques.

- Le modèle acoustique qui contient la représentation statistique de chaque son qui compose chaque mot du modèle de langage. Chaque son correspond à un phonème.

- Le modèle de langage qui contient une large liste de mots et leur probabilité d’apparaître dans une séquence donnée.

(19)

- Un décodeur, c’est-à-dire un programme qui compare les sons émis par un locuteur à ceux du modèle acoustique. Quand il trouve une correspondance, le décodeur détermine le phonème correspondant au son. Il garde en mémoire les phonèmes reconnus jusqu’à ce que le locuteur fasse une pause. Il cherche ensuite dans le modèle de langage une série équivalente de phonèmes. S’il trouve une correspondance, il transcrit le texte correspondant aux mots ou phrases reconnus (Zewoudie, s. d.).

Après avoir extrait le signal (voir la section 2.3.1), la RAP fait appel à un ensemble de modèles acoustiques représentant les unités phonétiques de la langue (voir la section 2.3.2), le plus souvent sous forme de modèles de Markov cachés ou de leurs variantes, puis procède au décodage (voir la section 2.3.3). La Figure 2 illustre ces étapes.

Figure 2 : Architecture d'un système de reconnaissance de la parole continue (tirée de La parole numérique, analyse, reconnaissance et synthèse du signal vocal (Haton, 2016))

2.3.1 Extraction du signal

L’extraction consiste à obtenir un spectrogramme. Les vecteurs sont généralement divisés par intervalle de 10 ms et se chevauchent dans une fenêtre d’analyse de 25 ms. Les coefficients les plus communément utilisés et les plus simples sont les mel-frequency cepstral coefficients (MFCCs) calculés par une transformée en cosinus discrète appliquée au spectre de puissance du signal (Gales & Young, 2007).

2.3.2 Modélisation acoustique Selon (Huang & Deng, 2010, page 341) :

“The accuracy of automatic speech recognition remains one of the most important research challenges after years of research and development. There are a number of

(20)

well-known factors that determine the accuracy of a speech-recognition system. The most noticeable ones are context variations, speaker variations, and environment variations. Acoustic modeling plays a critical role to improve the accuracy.”

Le rôle du modèle acoustique en RAP, comme déjà dit en introduction, est de trouver la valeur de P(A|M) dans l’équation 1.

« Les modèles acoustiques représentent les éléments à reconnaître : mots ou unités phonétiques » (Haton et al., 2006, page 11).

Les modèles acoustiques ont la tâche de produire une représentation statistique de la séquence de vecteurs émise par l’onde acoustique. Ils comprennent également un « modèle de prononciation » qui décrit comment une séquence d’unités acoustiques de base (telles que le phone ou la syllabe) sont combinées pour créer une séquence plus grande, tels qu’un mot ou une phrase (Huang & Deng, 2010). En d’autres termes, les modèles acoustiques transforment le spectrogramme en séquence de phonèmes. Il existe diverses façons de procéder pour la modélisation acoustique. Les modèles les plus utilisés jusqu’il y a peu étaient les modèles de Markov cachés (Hidden Markov Model, HMM) que nous allons présenter maintenant (à la section 2.3.2.1). Pour les larges vocabulaires, les deux approches principales pour calculer la probabilité P(A|M) et fondées sur des HMM, sont le Gaussian Mixture Model (GMM-HMM) que nous présentons à la section 2.3.2.1.1 et les Deep Neural Networks (DNN- HMM) que nous présentons à la section 2.3.2.1.2 (Zewoudie, s. d.). Enfin, une combinaison des deux approches a également été testée. Nous en parlons à la section 2.3.2.1.3.

2.3.2.1 Modèles de Markov cachés

La majorité des systèmes de RAP se basent sur des probabilités en faisant appel à des modèles stochastiques. À partir d’une séquence acoustique extraite du signal de parole, le système recherche la séquence de mots ayant la probabilité la plus élevée d’avoir été émise. En parole continue, les HMM modélisent des unités élémentaires de la parole, phones ou syllabes, par exemple. Chaque mot M est décomposé en une séquence Km de sons. On appelle cette séquence la prononciation. En raison des différentes prononciations, la probabilité P(A|M) peut être calculée pour plusieurs prononciations (Gales & Young, 2007).

(21)

La Figure 3 illustre un tel modèle.

Figure 3 : Modèle de phone (image tirée de Gales & Young (2007)

Ce modèle présente l’avantage de pouvoir automatiser l’apprentissage des différents paramètres et des distributions de probabilités à partir de données acoustiques représentatives de l’application considérée. Il nécessite en revanche un grand nombre de données acoustiques (Haton et al., 2006).

Un autre avantage d’un tel modèle est sa capacité à prendre en compte les aspects dynamiques du discours, à savoir notamment la vitesse d’élocution. Lorsqu’une personne parle plus ou moins vite, le modèle permet une reconnaissance correcte grâce aux boucles sur chaque état.

Dans le cas d’un discours continu, le problème du nombre de mots dans une phrase se pose, car on ne connaît pas ce nombre ni les frontières de chaque mot. La tâche est donc plus complexe que pour la reconnaissance de mots isolés (Fohr et al., 2017).

2.3.2.1.1 GMM-HMM

En reconnaissance automatique de la parole, un HMM à trois états est généralement utilisé (voir Figure 4). Ces états correspondent au début, au milieu et à la fin d’un phone. Afin d’enregistrer également les effets de coarticulation, les modèles à trois phones sont privilégiés par rapport aux modèles indépendants du contexte. Les probabilités d’observation étaient représentées jusqu’il y a peu par une fonction de Gauss à plusieurs variables (multivariate Gaussian distribution en anglais) que l’on peut écrire comme suit.

𝑏_𝑗(𝑥) = ∑ 𝐶_𝑗𝑚𝑁(𝑥; µ_𝑗𝑚, ∑_𝑗𝑚)

𝑀 𝑚=1

(3)

(22)

Ces modèles ont fait leurs preuves jusqu’en 2012 et l’arrivée des DNN-HMM (Fohr et al., 2017).

Une fonction gaussienne part de l’hypothèse que les vecteurs observés sont symétriques et unimodaux, ce qui est rarement le cas en pratique. Par exemple, le locuteur, son accent, s’il s’agit d’un homme ou d’une femme, ces différences rendent les données multimodales. Pour parer à ce problème, on utilise un mélange de modèles gaussiens capables de modéliser, par exemple, des données dont la distribution est asymétrique et multimodale (Gales & Young, 2007).

Figure 4 : Illustration des boucles utilisées en RAP (image tirée de Fohr et al. (2017))

2.3.2.1.2 DNN-HMM

Les Deep Neural Networks (DNN) ont été inspirés des réseaux de neurones du cerveau humain. Ils sont constitués de neurones interconnectés et généralement organisés en couches. La première couche est la couche d’entrée, la dernière, la couche de sortie. La Figure 5 illustre un neurone et ses connexions. La sortie y correspond à la somme linéaire non pondérée des entrées. L’entrée xi peut soit correspondre aux données d’entrée si le neurone est sur la première couche, soit à la sortie d’un neurone d’une autre couche.

Figure 5 : Exemple d'un neurone et de ses connexions (image tirée de Fohr & al. (2017))

(23)

Trois paramètres définissent un DNN :

- Le schéma d’interconnexion entre les différentes couches de neurones ;

- Le processus d’entraînement pour mettre à jour le poids wi des interconnexions ; - La fonction d’activation f qui convertit l’entrée pondérée d’un neurone en son

activation de sortie.

Le but de l’entraînement est de réduire les erreurs entre les sorties calculées sur les données d’entraînement et les valeurs cibles. Un entraînement consiste à calculer le poids wi de tous les neurones de toutes les couches. Aucun processus d’entraînement optimal n’a encore été trouvé.

Il existe diverses architectures de DNN. Elles dépendent du nombre de neurones, de leur nombre par couche, du nombre de couches, des connexions entre les neurones, etc.

Pour les modèles acoustiques basés sur des DNN, le principe est le même que pour les GMM, mais les gaussiennes sont remplacées par des DNN. Les modèles acoustiques basés sur des DNN calculent la probabilité d’observation de chaque phone étant donné le signal acoustique en utilisant les DNN. Pour entraîner un modèle acoustique basé sur les DNN, l’alignement des données d’entraînement est nécessaire. Cet alignement est fait en utilisant un modèle GMM- HMM classique (Fohr et al., 2017).

2.3.2.1.3 Modèles hybrides

L’association automatique de plusieurs modèles acoustiques est une technique communément utilisée pour améliorer la précision des systèmes de reconnaissance automatique de la parole. Malgré la complémentarité de certaines techniques de modélisation, il n’existe jamais de garantie théorique de l’efficacité de l’association de plusieurs modèles. Le seul moyen de savoir si l’efficacité est au rendez-vous est de tester.

(Swietojanski et al., 2013) ont par exemple essayé d’associer, comme d’autres avant eux, un système basé sur des DNN entraînés sur un GMM. Ils arrivent à la conclusion que l’association des deux systèmes GMM et DNN entraînés en utilisant les dernières avancées dans les deux domaines permet d’améliorer la précision finale.

2.3.3 Décodage

Le décodage se base sur deux éléments que nous présentons successivement : des modèles de langage (à la section 2.3.3.1) qui peuvent être basés soit sur des modèles n-grammes (à la

(24)

section 2.3.3.1.1), soit sur des modèles neuronaux (à la section 2.3.3.1.2) et le lexique (à la section 2.3.3.2).

2.3.3.1 Modèles de langage

« Les modèles de langage fournissent les informations syntaxiques et sémantiques nécessaires à la reconnaissance » (Haton et al., 2006, p. 12). Un modèle de langage est un système capable de prédire ce qu’est potentiellement un mot, quels mots sont susceptibles d’apparaître dans la même phrase et dans quel ordre (Huang & Deng, 2010).

Pour expliquer ce que fait un modèle de langage, prenons un exemple. Considérant le début de la phrase ci-dessous, quel est le mot suivant le déterminant « ta » ?

John, arrête immédiatement d’embêter ta …

La plupart d’entre vous auront deviné que le mot suivant est « sœur ». Dans tous les cas, personne n’aura supposé qu’il s’agit de « mange » ou de « avec », par exemple.

2.3.3.1.1 Modèles n-grammes

(Haton, 2016) explique que ces modèles évaluent la probabilité qu’une séquence de mots ait été prononcée en fonction des mots précédents. Pour faire un lien avec la modélisation acoustique déjà expliquée (à la section 2.3.2), l’idée est la même ici, mais en se basant sur les mots. Les modèles les plus utilisés sont les modèles di- et trigrammes. Des systèmes avancés utilisent des modèles penta-, voire hepta-grammes. Cependant, cela revient plus ou moins à mémoriser les probabilités de phrases entières.

Dans son ouvrage, Speech and Language Processing (Jurafsky, 2014), l’auteur explique qu’une séquence n-grammes est une séquence de n mots, ainsi un trigramme est une séquence de trois mots, un digramme, une séquence de deux mots. Un modèle n-grammes « devine » le dernier mot d’une séquence en fonction des mots précédents. Pour en revenir aux probabilités énoncées plus haut, nous avons évalué intuitivement la probabilité d’un mot M compte tenu de ce qui précède, que nous nommerons A, ou P(M|A). Supposons maintenant que A est le segment de phrase suivant :

La nuit était si claire que…

(25)

Nous souhaitons connaître la probabilité que le mot suivant soit le déterminant « la ». Le problème revient à estimer :

𝑃(𝑙𝑎|𝐿𝑎 𝑛𝑢𝑖𝑡 é𝑡𝑎𝑖𝑡 𝑠𝑖 𝑐𝑙𝑎𝑖𝑟𝑒 𝑞𝑢𝑒).

Comment calculer cette probabilité ? Une possibilité serait de l’estimer sur la base de la fréquence des mots dans un corpus. On prendrait alors un grand corpus, on compterait le nombre de fois qu’apparaît le segment de phrase « La nuit était si claire que » et on compterait le nombre de fois que ce segment est suivi du déterminant « la ». La réponse reviendrait à calculer le quotient suivant :

𝑃(𝑙𝑎|𝐿𝑎 𝑛𝑢𝑖𝑡 é𝑡𝑎𝑖𝑡 𝑠𝑖 𝑐𝑙𝑎𝑖𝑟𝑒 𝑞𝑢𝑒) = 𝐶(𝐿𝑎 𝑛𝑢𝑖𝑡 é𝑡𝑎𝑖𝑡 𝑠𝑖 𝑐𝑙𝑎𝑖𝑟𝑒 𝑞𝑢𝑒 𝑙𝑎)

𝐶(𝐿𝑎 𝑛𝑢𝑖𝑡 é𝑡𝑎𝑖𝑡 𝑠𝑖 𝑐𝑙𝑎𝑖𝑟𝑒 𝑞𝑢𝑒) (4.1) Chacun se rendra vite compte que plus le corpus est grand, plus la tâche est fastidieuse et qu’il devient vite impossible pour un être humain d’en arriver à bout. Il est donc nécessaire de trouver un moyen plus rapide et plus facile d’estimer cette probabilité.

Un modèle bigramme estime cette probabilité, non pas en tenant compte de l’entier de la séquence précédente, mais uniquement du mot précédent. Autrement dit, au lieu de calculer la probabilité

𝑃(𝑙𝑎|𝐿𝑎 𝑛𝑢𝑖𝑡 é𝑡𝑎𝑖𝑡 𝑠𝑖 𝑐𝑙𝑎𝑖𝑟𝑒 𝑞𝑢𝑒) (4.2) on estime la probabilité

𝑃(𝑙𝑎|𝑞𝑢𝑒) (4.3)

Si un modèle bigramme estime cette probabilité en tenant compte du mot précédent, un modèle trigramme fait de même avec les deux mots précédents, et ainsi de suite avec les modèles 4-gramme, 5-gramme, 6-gramme et 7-gramme. La supposition selon laquelle la probabilité d’un mot dépend uniquement du mot précédent est appelée supposition de Markov. Les modèles de Markov supposent que l’on peut prédire la probabilité d’une unité sans remonter trop loin dans ce qui précède. La probabilité d’un modèle n-gramme est tirée du corpus d’entraînement du système.

2.3.3.1.2 Modèles neuronaux

Comme l’explique (Jurafsky & Martin, 2019), un réseau neuronal est un réseau constitué de petites unités de calcul qui fonctionne comme illustré à la Figure 5 (page 15). Appliqué au

(26)

modèle de langage, le fonctionnement est le suivant : chaque unité, appelée neurone, prend en entrée un ensemble de valeurs réelles, effectue des calculs et produit une seule valeur à la sortie. L’utilisation de réseau de neurones est souvent appelée apprentissage profond (deep learning, en anglais) parce que ces réseaux sont souvent profonds ; ils ont plusieurs couches.

Un neurone effectue la somme des valeurs d’entrée en y ajoutant un terme de biais (bias term, en anglais) selon la formule ci-dessous.

𝑧 = 𝑏 + ∑ 𝑤_𝑖𝑥_𝑖

𝑖

(5.1)

Au lieu d’utiliser z, une fonction linéaire de x, en sortie, le neurone applique une fonction non linéaire f à z. On obtient ainsi la formule de la Figure 5 :

𝑦 = 𝑓(𝑧) = 𝑓 (∑ 𝑤_𝑖𝑥_𝑖+ 𝑏

𝑛

𝑖=1

) (5.2)

Les systèmes de RAP ont utilisé le concept d’état pour décomposer les mots en sous-unités depuis des décennies. Maintenant que le nombre d’états atteint le nombre de mots nécessaires pour entraîner un modèle, le concept devient dépassé. Il est donc nécessaire de trouver une autre façon de considérer le problème, et notamment de se détacher de l’idée que chaque mot est constitué d’états. Une solution a été trouvée grâce aux Word embeddings (expliqués à la section 2.3.3.1.2.1)

2.3.3.1.2.1 Word embeddings

Les systèmes de RAP modernes se fondent sur l’idée qu’une phrase à reconnaître est constituée de mots, eux-mêmes constitués d’unités phonétiques (généralement des triphones) et que chaque unité phonétique est une séquence d’états (généralement au nombre de trois). Pour chaque mot du dictionnaire d’entraînement, on obtient ainsi une ou plusieurs transcriptions phonétiques. On construit ensuite un graphique dont les points représentent les états des unités phonétiques, reliés pour former des mots. La Figure 6 illustre l’architecture générale d’un tel système.

(27)

Figure 6 : Architecture d'un système moderne de RAP (image tirée de (Bengio & Heigold, 2014))

Le nombre d’états possibles varie en fonction du système, mais est généralement très élevé.

De plus, le problème des modèles entraînés à partir de mots est qu’ils sont incapables de reconnaître des mots qui ne sont pas dans le corpus d’entraînement. Utiliser un modèle basé sur les états permet de « créer » des mots à partir des unités phonétiques. Une alternative à cette solution est le plongement lexical, ou plongement de mots (word embedding, en anglais) (Bengio & Heigold, 2014).

Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels. Cette nouvelle représentation a ceci de particulier que les mots apparaissant dans des contextes similaires possèdent des vecteurs correspondants qui sont relativement proches. Par exemple, on pourrait s'attendre à ce que les mots

« chien » et « chat » soient représentés par des vecteurs relativement peu distants dans l'espace vectoriel où sont définis ces vecteurs. Cette technique est basée sur l'hypothèse (dite « de Harris » ou distributional hypothesis) qui veut que les mots apparaissant dans des contextes similaires aient des significations apparentées.

La technique des word embeddings diminue la dimension de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d'apprentissage impliquant ces mots (« Word embedding », 2020).

2.3.3.2 Le lexique

Le lexique, que l’on appelle aussi parfois lexique acoustique, comprend l’ensemble des mots reconnus par le système et leurs possibles prononciations.

(28)

Le vocabulaire joue un rôle non négligeable dans la complexité de la tâche de RAP. (Jurafsky, 2014) énonce plusieurs paramètres déterminants. Premièrement, la taille du vocabulaire est décisive. La reconnaissance est en effet plus facile, plus le nombre de mots à reconnaître est faible. Deuxièmement, le type de discours a un impact. La reconnaissance de mots isolés, séparés par des pauses, est beaucoup plus facile que la reconnaissance d’un discours continu pour lequel les mots doivent être segmentés par le système. De plus, il existe plusieurs types de discours continus. Ainsi, la dictée à une machine est plus facile à reconnaître qu’un discours adressé à un être humain. La tâche de reconnaissance d’un discours lu ou d’un discours adressé à une machine est relativement facile. Au contraire, la reconnaissance d’un dialogue entre deux êtres humains s’avère beaucoup plus complexe. Troisièmement, le canal et le bruit ont un impact. Le microphone utilisé joue par exemple un rôle dans la reconnaissance. Un micro-casque de haute qualité permet par exemple de supprimer les distorsions qui se produisent avec un micro de table quand le locuteur se déplace. Les bruits de toutes sortes compliquent également la reconnaissance. Enfin, des caractéristiques telles que l’accent du locuteur, s’il est enrhumé, s’il utilise un dialecte, etc. peuvent augmenter le nombre d’erreurs de reconnaissance de manière non négligeable. Le lexique comprend une liste de plusieurs prononciations pour chaque mot qu’il contient. Chaque prononciation consiste en une série de phones.

2.4 Les modèles de bout en bout

L’entraînement des systèmes basés sur des modèles de Markov cachés est complexe et difficile à optimiser. Les données utilisées pour l’entraînement sont souvent différentes des données produites ensuite en pratique. Les systèmes comprennent souvent deux modèles entraînés indépendamment ce qui rend difficile l’optimisation des deux à la fois. Ces limites, couplées avec le développement du deep learning ont poussé les recherches vers les modèles de bout en bout (end-to-end ASR, en anglais).

Un modèle de bout en bout convertit directement la séquence audio en une séquence de mots ou de graphèmes. Contrairement aux modèles traditionnels qui comprennent plusieurs modules, les modèles de bout en bout remplacent les divers modules par un réseau neuronal capable de convertir directement un signal acoustique en une séquence de mots sans passer par des états intermédiaires. L’entraînement et le déploiement de tels systèmes sont ainsi facilités (Zewoudie, s. d.).

(29)

2.5 Évaluation automatique de la reconnaissance automatique de la parole

Le Word Error Rate (WER) est la métrique la plus communément utilisée pour évaluer la performance d’un programme de reconnaissance vocale (Álvarez et al., 2016). Pour ce faire, un texte transcrit qualifié d’« hypothèse » est comparé à une « référence » (une transcription exacte de ce qui a été dit). Les différences sont séparées en trois catégories d’erreurs : substitution (un mot dans l’« hypothèse » est substitué à un mot de la « référence »), suppression (un mot est omis dans l’« hypothèse »), insertion (un mot est ajouté dans l’« hypothèse »). La formule classique du WER est la suivante : WER = (Substitution + Suppression + Insertion) / N, où N correspond au nombre de mots dans la « référence ». Cette mesure, si elle est fiable et facile à appliquer, considère toutes les erreurs avec le même poids (Apone et al., 2010).

Ce dernier point nous semble crucial. Nous ferons d’ailleurs une analyse des sous-titres générés lors de nos propres expériences pour évaluer la part d’erreurs minimes (ponctuation, majuscules, etc.) par rapport aux erreurs graves . A priori, une solution qui prend en compte l’impact des erreurs sur la compréhension et met en place une pondération pour refléter cet impact nous semble nécessaire.

Dans leur article, Apone, Botkin, Brooks et Goldberg (Apone et al., 2010), proposent dix-sept sous-catégories d’erreurs, chacune se rapportant à l’une des trois catégories citées ci-dessus.

Ils proposent ainsi une pondération des erreurs en fonction de leur gravité, ce qui permettrait une mesure plus réaliste que le traditionnel WER. Les auteurs proposent un nouveau modèle, le Weighted Word Error Rate (WWER), qui multiplie le nombre d’erreurs par un coefficient de

« sévérité » selon la formule suivante :

WWER =(∑𝐸𝑟𝑟𝑜𝑟 𝑇𝑦𝑝𝑒𝑠severity_t

𝑡=1 ∗ 𝑒𝑟𝑟𝑜𝑟𝑠_𝑡)

𝑁 (6)

Le WWER reflèterait mieux la précision d’un texte transcrit et ainsi sa compréhensibilité, car nombre d’erreurs peuvent être considérées comme mineures et se verraient ainsi pondérées plus faiblement.

Le modèle proposé nous semble en effet très intéressant puisqu’il permettrait de mieux refléter la compréhensibilité réelle des sous-titres. Nous nous permettrons toutefois de faire les commentaires suivants. Premièrement, la pondération des erreurs nous semble tout à fait

(30)

subjective. En effet, la sensibilité aux erreurs n’est pas la même pour tous. Si certains lecteurs sont gênés par un pluriel manquant ou une majuscule absente, d’autres ne les remarquent même pas. La question se pose alors de la façon d’établir une pondération correcte qui traduit la compréhensibilité d’un texte pour une majorité. Deuxièmement, la mise en place d’une telle évaluation nous semble difficilement applicable en raison de son ampleur. Chaque erreur devrait en effet être reprise manuellement afin de lui ajouter un coefficient. Même à l’échelle d’une transcription de deux ou trois heures de cours, le temps à attribuer à la catégorisation des erreurs puis au calcul du score nous semble démesuré. Il serait toutefois intéressant d’effectuer ce calcul afin de voir également si la différence entre les deux scores, le WER et le WWER, est significative. La présentation de ces deux modèles nous amène à nous poser la question des critères d’un modèle d’évaluation de la qualité des sous-titres.

Dans son article, Romero-Fresco (Romero-Fresco, 2016) présente le modèle NER, introduit en 2011 (Romero-Fresco, 2011) et développé en 2015 (Romero-Fresco & Pérez, 2015). Ce modèle est avant tout destiné à l’évaluation du sous-titrage en direct, par des respeakers. La grande différence réside dans la possibilité d’éditer les sous-titres, donc de corriger les erreurs. Le modèle répond à six critères auxquels devrait répondre tout modèle voulant évaluer la qualité du sous-titrage en direct :

1) Être fonctionnel et facile à appliquer ;

2) Prendre en compte non seulement la précision, mais également être comparé au discours original ;

3) Prendre en compte les conventions propres à chaque pays en matière de sous-titrage ; 4) Prendre en compte également des éléments tels que le décalage, la vitesse, etc.

5) Considérer le fait que les erreurs n’ont pas toutes le même impact sur la compréhension ;

6) Évaluer la qualité des sous-titres tout en mettant en évidence les aspects à améliorer.

Ce modèle se fonde sur le WER en ajoutant des facteurs de gravité des erreurs et en soulignant la nécessité d’une intervention humaine dans l’évaluation de la qualité du sous-titrage. La formule proposée est la suivante :

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =N − E − R

N ∗ 100 (7)

(31)

Où N représente le nombre de mots dans les sous-titres, E les erreurs d’éditions de la part du sous-titreur généralement dues à une vitesse trop élevée du discours original, et R les erreurs de reconnaissance de la part du logiciel et pouvant être des insertions, suppressions ou substitutions. Les erreurs de reconnaissance sont calculées en comparant le texte transcrit et le texte original énoncé. Elles sont pondérées en fonction de leur gravité d’un facteur 1 pour les erreurs graves, 0,5 pour les erreurs standards et 0,25 pour les erreurs mineures. Les erreurs graves modifient le sens du discours original en créant un nouveau sens tout à fait acceptable dans le contexte. Un exemple d’une telle erreur serait la substitution de 15 % par 50 % dans la phrase : « Le gouvernement a réduit ses dépenses de 15 %. » Les erreurs standards ne créent pas de nouveau sens au discours. Elles résultent d’une omission d’information et interrompent le flux du discours original. Elles peuvent être facilement identifiées par le spectateur, mais ce dernier est dans l’incapacité de retrouver par lui-même le discours original manquant. Enfin, les erreurs mineures n’interrompent pas le flux du discours original. Le spectateur sera même parfois capable de retrouver par lui-même le discours original manquant. De telles erreurs sont typiquement l’absence de majuscule pour certains noms.

Selon son auteur, le modèle NER peut être utilisé pour l’évaluation des sous-titres générés par un logiciel de RAP. Il nous semble toutefois que le modèle en question n’est pas très différent du WWER. Si l’on enlève la variable « E » de l’équation, puisque l’édition n’entre pas en ligne de compte pour des sous-titres générés automatiquement, il nous semble revenir à un calcul similaire à celui du WWER. Ce modèle aborde toutefois la question de la pondération de manière facilitée. Il se restreint en effet à trois facteurs de pondération bien définis et faciles à appliquer. Il ne règle pas cependant le problème de l’intervention humaine nécessaire, laquelle peut être très chronophage. Au contraire, il la revendique.

2.6 Diverses applications

Le plus grand défi dans la création d’applications de RAP reste que la reconnaissance vocale est imparfaite. Il y a ainsi toujours des erreurs. Le but est toutefois de minimiser leur impact.

Il est donc d’autant plus important de comprendre et d’identifier les forces et faiblesses des technologies utilisées en RAP afin d’utiliser la reconnaissance vocale correctement (Huang &

Deng, 2010).

La RAP est aujourd’hui utilisée dans une multitude de domaines, pour diverses tâches, avec divers logiciels et divers résultats. L’utilisation la plus connue est probablement celle des

(32)

mains libres dans les véhicules. La simple pression d’un bouton, généralement sur le volant, permet alors à l’utilisateur de dicter des commandes au véhicule. Le système dispose d’une

« fenêtre de temps » pendant laquelle il « écoute » la commande. Les commandes permettent par exemple de démarrer un appel téléphonique, de changer de station de radio, ou de configurer un système de navigation. La capacité de reconnaissance dépend du système.

Les systèmes les plus récents reconnaissent de plus en plus le discours continu et les phrases complètes. Le secteur médical utilise également la reconnaissance vocale. L’utilisation peut aller de la dictée de rapports et autres documents au système de traduction automatique de la parole (voir par exemple (Boujon, 2017)), en passant par les assistants pour l’enregistrement des patients ou l’utilisation de matériel médical en salle d’opération par exemple. Comme déjà énoncé au début de ce chapitre, l’aviation utilise également la RAP. Elle sert alors à commander par exemple le pilotage automatique à bord d’avions de combat, à paramétrer le tir de roquettes, ou encore à contrôle les instruments de vol. Plus largement, la RAP est utilisée par les contrôleurs aériens, notamment pour les entraînements nécessitant un « pseudo-pilote » qui simule un dialogue avec le contrôleur. La RAP est maintenant de plus en plus utilisée par les smartphones. Elle permet de commander l’appareil pour lui demander de passer un appel téléphonique, mais aussi de dicter un message à envoyer, ou de commander l’appareil pour un large choix de fonctions. Une telle technologie peut être d’une extrême utilité pour les personnes souffrant d’un handicap. Ils ont désormais accès à des fonctions qui leur étaient jusque-là inaccessibles et gagnent ainsi en autonomie. La RAP est également utilisée au service des personnes souffrant de handicap, c’est le cas par exemple dans le sous-titrage pour sourds et malentendants, sujet que nous aborderons dans le chapitre 3 (« Speech Recognition », 2020).

2.7 Conclusion

Au terme de ce premier chapitre, nous avons fait un tour des aspects techniques du fonctionnement de la RAP. Nous avons vu les trois éléments fondamentaux des systèmes traditionnels de RAP, à savoir l’extraction du signal, la modélisation acoustique et le décodage.

Nous avons déjà ouvert les horizons sur une nouvelle architecture de systèmes de RAP, les modèles de bout en bout. Nous avons également introduit la notion de robustesse des systèmes à laquelle nous nous intéresserons dans nos tests. Nous avons présenté les métriques traditionnelles d’évaluation automatique de la RAP, telles que le Word Error Rate,

(33)

le Weighted Word Error Rate et le modèle NER. Nous avons ensuite cité diverses applications utilisant la RAP. Nous allons à présent nous intéresser au sous-titrage automatique, le sujet qui nous concerne directement et dont nous en testerons un logiciel. Nous parlerons d’accessibilité avec le sous-titrage automatique et la transcription simultanée, avant d’aborder des études d’évaluation menées sur le sujet.

(34)

3 LE SOUS-TITRAGE AUTOMATIQUE

3.1 Introduction

Dans ce chapitre, nous parlerons d’accessibilité sur deux plans : le sous-titrage automatique (à la section 3.2) et la transcription simultanée (à la section 3.3). Nous présenterons ensuite Microsoft Presentation Translator (à la section 3.4), que nous avons évalué dans ce travail.

Nous ferons d’abord un bref historique (à la section 3.3.1) de la discipline, avant d’aborder les outils et méthodes utilisés (à la section 3.3.2) et de regarder la situation de la transcription simultanée en Suisse (à la section 3.3.3). Enfin nous citerons des études d’évaluation du sous- titrage automatique (à la section 3.5) dont les démarches sont similaires à la nôtre. Nous discuterons notamment deux évaluations du sous-titrage automatique sur YouTube (à la section 3.5.1), présenterons un projet de transcription automatique de cours (à la section 3.5.2) et une évaluation superficielle de Microsoft Presentation Translator (à la section 3.5.3).

3.2 Sous-titrage automatique

Selon (Díaz Cintas, 2014), le plus grand catalyseur de changements en communication audiovisuelle et en traduction a été, et continue d’être, Internet. Lancé dans les années 1990, il n’a cessé depuis d’évoluer de manière exponentielle. Son impact sur la culture, le commerce, l’éducation est phénoménal. Le sous-titrage est devenu un allié de choix de la communication internationale. Il offre une solution bon marché, rapide et facile pour briser les barrières de la langue et rend le contenu audiovisuel accessible à tous, notamment aux personnes souffrant d’un handicap auditif. Même si le sous-titrage est apparu peu de temps après l’invention du cinéma il y a des décennies, son évolution a été plutôt lente, se concentrant principalement sur l’aspect technique de l’incrustation dans l’image. Dans les dernières décennies, les efforts se sont concentrés sur le développement de logiciels spécialement conçus pour le sous- titrage. Tout comme (Chan, 2013) le disait pour la traduction, on peut dire que l’histoire du sous-titrage est courte, mais que son développement est rapide. Les chercheurs, développeurs, sociétés de sous-titrage, et même des amateurs s’intéressent désormais de plus en plus au défi complexe du sous-titrage, parce qu’ils ont réalisé que ce dernier est bien plus qu’un simple ajout de deux lignes de texte en bas d’un film. L’une des avancées les plus symboliques dans la reconnaissance de l’importance du sous-titrage est l’apparition sur les

(35)

télécommandes d’un bouton dédié. La législation dans la plupart des pays a également un impact important sur le nombre d’heures de sous-titrage annuel à la télévision. La BBC a été la première à sous-titrer 100 % de ses diffusions à l’antenne. Tandis que les projets de sous- titrage ont pris de l’ampleur, les budgets qui y sont consacrés ont également massivement augmenté, rendant ce marché de plus en plus intéressant pour les entreprises, notamment celles actives dans les nouvelles technologies. Le rôle de ces nouvelles technologies dans l’amélioration de la productivité est d’ailleurs exploré par nombre de parties.

Dans le cas du sous-titrage en direct, la RAP a joué un grand rôle pour le « respeaking »,

“a technique in which a respeaker listens to the original sound of a live program or event and respeaks it, including punctuation marks and some specific feature for the deaf and hard of hearing audience, to a speech recognition software, which turns the recognized utterances into subtitles displayed on the screen with the shortest possible delay.”

(Romero-Fresco, 2011, p. 1) (Díaz Cintas, 2014) explique que malgré le fait que cette alternative soit moins coûteuse d’un point de vue financier par rapport aux méthodes qui utilisent uniquement un clavier vélotype ou une sténotype, des expériences explorent déjà les possibilités de la remplacer par la RAP pour sous-titrer directement la voix du présentateur, sans intermédiaire, c’est-à-dire en faisant disparaître le respeaker. Cependant, malgré l’existence de programmes qui permettent par exemple de segmenter un texte en divisant un script automatiquement en sous-titres sur la base de règles grammaticales spécifiques à la langue du script, le résultat est bien souvent décevant et la participation d’un traducteur est toujours cruciale.

Récemment seulement, le domaine du sous-titrage a réalisé l’utilité de la traduction automatique fondée sur des méthodes statistiques pour augmenter la productivité du traducteur. Les deux premiers projets qui ont exploré la possibilité d’utiliser la traduction automatique pour le sous-titrage sont MUSA¹ (MUltilingual Subtitling of multimediA content) et eTITLE². Malgré de grandes ambitions, telles que la création d’un système multimédia pour transcrire en texte une piste audio d’un programme audiovisuel à l’aide d’un logiciel de RAP

1 http://sifnos.ilsp.gr/musa/index.html (consulté le 2 août 2020)

2 https://www.upf.edu/en/web/glicom/e-title (consulté le 2 août 2020)