Le sous-titrage par respeaking chez SWISS TXT : comparaison des résultats entre respeakers avancés et débutants

(1)

Master

Reference

Le sous-titrage par respeaking chez SWISS TXT : comparaison des résultats entre respeakers avancés et débutants

BARTOLETTI, Mathilde

Abstract

Ce travail a été réalisé au sein de SWISS TXT, la société qui fournit les sous-titres pour les programmes de la Radio Télévision Suisse. SWISS TXT utilise la reconnaissance vocale pour sous-titrer certains programmes retransmis en direct. Cette méthode de sous-titrage appelée

"respeaking" est l'objet de notre étude. Dans un premier test, nous avons analysé les sous-titres par des respeakers avancés et par des respeakers débutants afin d'identifier les différences au niveau des erreurs et des techniques de respeaking utilisées. Dans un second test, nous avons mesuré l'impact du stress sur le résultat des sous-titres, toujours en comparant un respeaker débutant à un respeaker avancé.

BARTOLETTI, Mathilde. Le sous-titrage par respeaking chez SWISS TXT : comparaison des résultats entre respeakers avancés et débutants. Master : Univ. Genève, 2013

Available at:

http://archive-ouverte.unige.ch/unige:29311

Disclaimer: layout of this document may differ from the published version.

(2)

Mathilde Bartoletti

Le sous-titrage par respeaking chez SWISS TXT :

comparaison des résultats entre respeakers avancés et débutants

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise en traduction,

mention Technologies de la traduction

Directrice de mémoire : Prof. Pierrette Bouillon

Jurée :

Marianne Starlander

Université de Genève

Juin 2013

(3)

Table des matières

Table des matières ... 2

Table des figures... 4

1. Introduction ... 5

2. Le sous-titrage chez SWISS TXT ... 7

2.1. Présentation de SWISS TXT ... 7

2.2. Différentes manières de sous-titrer... 8

2.3. L’évolution du sous-titrage en Suisse... 11

2.4. Conclusion... 13

3. La reconnaissance vocale ... 14

3.1. Définition... 14

3.2. Historique ... 18

3.3. Modèles de langage linguistiques vs modèles statistiques ... 23

3.4. Dragon Naturally Speaking ... 26

4. Le respeaking... 30

4.1. Définition... 30

4.2. Le respeaking chez SWISS TXT... 30

4.2.1. Formation des respeakers ... 31

4.2.2. Conditions de travail... 33

4.2.2.1. Entraînement des respeakers ... 34

4.2.2.2. Préparation des retransmissions en direct... 35

4.3. Difficultés du respeaking... 36

5. Tests... 39

5.1. Test 1: comparaison entre respeakers avancés et débutants sur une vidéo du 19:30. ... 39

5.1.1. Description du test 1... 39

5.1.2. Objectif du test 1 ... 41

5.1.3. Respeaking du 19:30 : difficultés ... 41

5.1.4. Classification des techniques de respeaking et des erreurs ... 43

5.1.5. Observation des résultats ... 48

5.1.6. Quelle stratégie adopter ? ... 52

5.1.7. Comment progresser ? ... 53

5.1.8. Idées d’exercices... 59

(4)

5.2. Test 2 : comparaison de sous-titres réalisés en direct puis en entraînement ... 61

5.2.1. Description du test 2... 61

5.2.2. Résultats du respeaker débutant en direct... 64

5.2.3. Résultats du respeaker débutant en entraînement... 67

5.2.4. Conclusion du test sur le respeaker débutant... 69

5.2.5. Résultats du respeaker avancé en direct ... 70

5.2.6. Résultats du respeaker avancé en entraînement ... 72

5.2.7. Conclusion du test sur le respeaker avancé ... 74

5.3. Conclusion du test ... 75

6. Conclusion générale ... 78

7. Bibliographie ... 81

8. Remerciements ... 84

9. Annexes ... 85

9.1. Tableaux pour le premier test ... 85

9.2. Tableaux pour le second test ... 105

(5)

Table des figures

Figure 1: Texte du 19:30 avant et après sous-titrage ... 10

Figure 2: Evolution du sous-titrage en Suisse ... 12

Figure 3: Architecture d’un système de reconnaissance de la parole ... 15

Figure 4: Analyse sémantique de la phrase the cat chased the mouse... 24

Figure 5: Capture d’écran Fab Subtitler lors d’un respeaking ... 32

Figure 6: Exemple de formes écrites et leurs formes orales ... 34

Figure 7: Exemples de noms n'ayant pas besoin de forme phonétique ... 35

Figure 8: Exemple tiré des Annexes... 40

Figure 9: Résultats des quatre respeakers ... 49

Figure 10: Résultats des quatre respeakers sur une courbe... 52

Figure 11: Tableau récapitulatif des deux respeakers en direct puis en entraînement ... 64

Figure 12: Résultats du respeaker débutant en direct ... 65

Figure 13 : Résultats du respeaker débutant en entraînement ... 67

Figure 14: Résultats du respeaker débutant en direct et en entraînement ... 70

Figure 15 : Résultats du respeaker avancé en direct... 71

Figure 16: Résultats du respeaker avancé en entraînement... 73

Figure 17: Résultats du respeaker avancé en direct et en entraînement... 75

(6)

1. Introduction

Ce travail s’inscrit dans le cadre de l’entreprise SWISS TXT, la société qui fournit les sous-titres pour les programmes de la RTS. L’objectif de ce travail est d’analyser les résultats des sous-titres réalisés par des sous-titreurs vocaux, ou respeakers, débutants et expérimentés. Nous partons de l’hypothèse que des respeakers débutants n’obtiennent pas les mêmes résultats que des respeakers avancés et qu’ils ne font pas non plus le même type d’erreurs dans leurs sous-titres. Nous verrons dans la partie pratique de ce travail si cette hypothèse est validée ou non, à travers une série de tests.

Comme nous le verrons au début de ce travail, au chapitre 2 [Le sous-titrage chez SWISS TXT], certains programmes de la RTS sont sous-titrés à l’aide d’un système de reconnaissance vocale, une technologie qui permet de transformer des sons en texte à l’aide d’un programme informatique. Ces émissions sous-titrées avec la reconnaissance de la parole sont les retransmissions sportives, les débats d’actualité ou encore les divertissements. Cette technique de sous-titrage en direct par la reconnaissance vocale est appelée respeaking ou sous-titrage vocal et constitue l’objet de cette étude. Il s’agit d’une discipline nouvelle peu connue du public et notre objectif sera de faire découvrir cette méthode de sous-titrage tout au long de ce travail.

La reconnaissance vocale étant la technologie sur laquelle s’appuie le respeaking, nous en dresserons un historique et nous détaillerons le mode de fonctionnement des différents systèmes de reconnaissance de la parole actuellement disponibles sur le marché [chapitre 3, La reconnaissance vocale]. Nous nous attarderons surtout sur le système qui a été utilisé dans ce travail, Dragon Naturally Speaking.

Dans le chapitre 4 [Le respeaking], nous expliquerons en détail en quoi consiste le respeaking et les problématiques qui y sont liées. Nous verrons qu’il s’agit d’une activité complexe qui demande aux sous-titreurs d’avoir un large éventail de compétences. Les sous-titreurs vocaux ou respeakers doivent en effet avoir une maîtrise parfaite de la langue française, de bonnes connaissances en informatique, une culture générale permettant de pouvoir sous-titrer n’importe quel sujet, mais aussi bien d’autres compétences que le lecteur découvrira lors de ce chapitre. Ce chapitre permettra notamment de faire la transition avec la partie pratique de cette étude.

Dans le chapitre 5 [Tests], nous avons analysé le nombre et le type d’erreurs que l’on retrouve dans les sous-titres des respeakers débutants et avancés.

(7)

Dans un premier test, nous avons observé les résultats de sous-titres réalisés à partir d’une même vidéo par quatre respeakers : deux respeakers avancés ayant plusieurs années d’expérience en respeaking, et deux respeakers débutants. En analysant leurs sous-titres, nous avons pu établir une classification des erreurs les plus courantes, ainsi que les techniques de respeaking utilisées pour résumer le discours original. C’est sur cette classification que se base notre analyse des résultats. Ce premier test permettra d’observer les différences de résultats, s’il y en a, entre des respeakers avancés et des respeakers débutants.

Dans un second test, nous allons mesurer l’impact du stress lors d’un exercice de respeaking avec un respeaker avancé et un respeaker débutant. Nous avons relevé leurs résultats lors d’un respeaking effectué dans les vraies conditions du direct, puis nous avons proposé aux deux respeakers testés la même vidéo quelques semaines plus tard, mais en leur demandant de sous-titrer cette vidéo sans que les sous-titres soient réellement diffusés à la télévision. Ce test permettra de voir si un respeaker débutant fait davantage d’erreurs en direct qu’en entraînement, et si c’est le cas, de voir si la progression entre les résultats en direct puis en entraînement est importante ou non. En effectuant cette même analyse avec un respeaker avancé, nous pourrons observer si les conditions du direct ont le même impact sur ce dernier que sur un respeaker débutant.

L’objectif de ces tests est d’abord de pouvoir établir une classification des erreurs et des techniques de respeaking, puis d’aboutir à des recommandations qui pourraient aider les respeakers débutants à progresser rapidement et à minimiser l’impact du stress sur les résultats de leurs sous-titres.

(8)

2. Le sous-titrage chez SWISS TXT

Dans ce chapitre, nous donnons le contexte général dans lequel s’inscrit ce travail:

le sous-titrage chez SWISS TXT. Nous présenterons d’abord l’entreprise SWISS TXT [section 2.1], dans laquelle ce travail a été réalisé. Nous expliquerons comment sont élaborés les sous-titres pour les émissions et comment travaillent les sous-titreurs [section 2.2]. La méthode de sous-titrage en direct, le respeaking, étant notre objet d’étude, nous y consacrerons un chapitre [chapitre 4] mais nous donnerons tout de même une première définition de cette technique, toujours dans la section 2.2. La fin de ce chapitre sera dédiée à l’évolution du sous-titrage en Suisse.

Ce chapitre introductif va nous permettre de poser le cadre dans lequel cette étude a été réalisée. Le lecteur pourra ainsi se rendre compte des conditions dans lesquelles sont élaborés les sous-titres et comprendre les grandes évolutions qui ont été réalisées en Suisse dans le domaine du sous-titrage pour les sourds et les malentendants.

2.1. Présentation de SWISS TXT

SWISS TXT a été fondée en 1983, c’est une filiale de SSR (Société Suisse de Radiodiffusion ) qui propose des services semi-publics et dont le siège se trouve à Bienne.

SWISS TXT s’occupe entre autres de fournir le sous-titrage pour les émissions pour la télévision suisse sur tout le territoire et cela depuis 1987. Pour l’italien, les bureaux sont situés à Lugano, pour l’allemand, à Zurich et pour le français, à Genève, là où notre étude a été réalisée.

SWISS TXT compte environ quatre-vingt-dix sous-titreurs, dont la plupart travaillent à temps partiel, étant donné que les activités se concentrent sur les horaires du soir [http://www.sous-titrage.ch/MainNav/Chiffres, consulté le 3 juillet 2012]. Le sous- titrage est à l’intention des sourds, des malentendants, mais également des personnes qui apprennent le français et qui souhaitent se perfectionner.

(9)

2.2. Différentes manières de sous-titrer

Il existe deux catégories de sous-titres : les sous-titres faits à l’avance et les sous- titres faits en direct. Nous verrons que ces deux types de sous-titres peuvent être combinés dans certaines émissions.

Les sous-titres sont faits à l’avance pour les émissions enregistrées. Dans ce cas, les vidéos des émissions sont transmises à SWISS TXT et les sous-titres sont réalisés à l’aide du logiciel Fab Subtitler [voir p.26]. Ce logiciel permet d’écrire et de mettre en forme les sous-titres. Le sous-titreur ne doit pas se contenter de retranscrire tout ce qui est dit par le locuteur, car il faut bien sûr prendre en compte le temps de lecture lorsque le sous-titre s’affichera à l’écran. L’esprit de synthèse est donc essentiel pour le sous-titreur, car il doit rendre l’idée contenue dans le discours, en résumant le plus possible. Parfois, il doit aussi reformuler les propos de l’intervenant pour que le sous-titre soit intelligible pour les téléspectateurs qui activent la fonction de sous-titrage. Par exemple, les personnes interrogées pour une interview télévisée et qui ne sont pas forcément habituées à s’exprimer face à une caméra peuvent avoir un discours peu structuré. Dans ce cas, le sous- titreur doit faire appel à sa capacité de synthèse pour structurer le propos, mais sans le réduire, de la personne interviewée, pour produire des sous-titres qui seront clairs et structurés. Tout cela en conservant la véracité des propos tenus et la spontanéité des intervenants.

Une fois que l’émission a été sous-titrée dans son intégralité, il revient à une tierce personne de visionner l’émission avec les sous-titres, pour s’assurer qu’il n’y ait pas de fautes de frappe ou d’orthographe ni d’omissions. Les sous-titres faits à l’avance sont pour ainsi dire « collés » à la vidéo et ils seront diffusés automatiquement lors du passage de l’émission à l’antenne, si la fonction de sous-titrage est activée par le téléspectateur.

Depuis les premiers sous-titres, les avancées techniques ont participé à améliorer la vitesse de sous-titrage. Lorsque SWISS TXT a commencé ses activités de sous-titrage il y a plus de vingt ans, il fallait près de quarante minutes pour sous-titrer une minute d’émission. Maintenant, grâce aux progrès techniques et aux outils informatiques toujours plus perfectionnés, il faut une dizaine de minutes pour sous-titrer une minute d’émission [Emission « Signes » du 26 mars 2011, http://www.rts.ch/video/emissions/signes/3041859- evolution-du-teletexte.html, consulté le 1^er juillet 2012]. Le temps de sous-titrage a donc été grandement réduit, mais cela reste une activité qui demande du temps et qui est donc exigeante en termes de ressources humaines.

(10)

Nous arrivons maintenant à la deuxième catégorie de sous-titres : ceux faits en direct. Ils concernent essentiellement les retransmissions sportives, les débats d’actualité et les interviews lors des journaux du soir.

Auparavant, le sous-titrage en direct se faisait en dactylographie rapide. Mais la technique de sous-titrage par reconnaissance vocale étant plus rapide, elle a supplanté la dactylographie : un bon dactylographe pourra produire 70 mots à la minute, contre 160 à 190 mots avec un logiciel de reconnaissance de la parole [Romero-Fresco, 2011, pp.13- 15]. La reconnaissance vocale offre un grain de temps considérable et permet ainsi de pouvoir transmettre plus d’informations au téléspectateur, avec un décalage réduit si l’on compare avec la méthode par dactylographie.

SWISS TXT a commencé à utiliser la reconnaissance vocale à partir de 2004, avec l’outil ViaVoice d’IBM. Les résultats étant peu probants, la reconnaissance vocale a été interrompue jusqu’en 2008, lorsqu’une nouvelle version de ViaVoice a été utilisée. C’est depuis 2009, avec l’arrivée du logiciel Dragon, que la technique de sous-titrage par reconnaissance vocale s’est vraiment développée dans les bureaux de SWISS TXT.

Le sous-titrage en direct ou « respeaking » se fait donc actuellement à l’aide de l’outil de reconnaissance de la parole Dragon Naturally Speaking et les sous-titreurs qui réalisent cette tâche sont appelés des « respeakers » ou encore des « sous-titreurs vocaux ».

Avant chaque émission en direct, le respeaker a une heure de préparation pendant laquelle il prend connaissance du sujet dont il sera question dans l’émission. Ainsi, il va pouvoir effectuer des tests avec le logiciel Dragon pour s’assurer que les expressions, termes spécifiques et noms propres liés au sujet de l’émission soient bien reconnus. Cette heure de préparation est essentielle pour optimiser la reconnaissance vocale pendant l’émission en direct. Elle permet au respeaker de se documenter sur le thème qui sera abordé pendant l’émission. Nous verrons d’ailleurs par la suite qu’une meilleure connaissance du sujet facilite le sous-titrage en direct. Cette méthode de sous-titrage en direct étant l’objet de notre travail, le chapitre 4 y sera entièrement dédié.

Certaines émissions mêlent sous-titres faits à l’avance et respeaking. Parmi elles, l’émission d’informations régionales Couleurs Locales et le journal de 19:30. L’émission Couleurs Locales est diffusée du lundi au vendredi, et le 19:30 est lui diffusé tous les soirs de la semaine. Du lundi au vendredi, une équipe de six sous-titreurs travaille sur ces deux émissions dès 17h00. L’effectif est réduit le week-end, l’émission Couleurs Locales n’étant pas diffusée, et ce sont alors quatre sous-titreurs qui travaillent pour sous-titrer le journal de 19:30.

(11)

Dans l’équipe qui sous-titre les journaux du soir, les tâches sont bien réparties. Une personne est chargée de la coordination. Le coordinateur ouvre un programme qui permet d’avoir tout le déroulement détaillé du journal télévisé du jour. Les reportages qui y seront diffusés arrivent petit à petit, et c’est le coordinateur qui est chargé de les distribuer aux sous-titreurs présents dans l’équipe ce soir-là. Ces reportages arrivent soit sous forme de texte rédigé par le journaliste ayant réalisé le sujet, soit directement monté sous forme de vidéo. Une fois qu’un reportage a été sous-titré, il est relu par une autre personne de l’équipe avant d’être validé pour la diffusion.

Une autre personne est chargée de sous-titrer tous les lancements des reportages ou tout autre texte dit par le présentateur entre les reportages. C’est cette même personne qui est ensuite chargée de diffuser à l’antenne tous les sous-titres du journal télévisé. La diffusion des sous-titres se fait manuellement, la personne chargée de la diffusion doit donc se concentrer sur les reportages et sur les lancements du présentateur pour que le sous-titre qu’il envoie à l’écran corresponde à ce qui est dit et à ce que l’on voit. La personne qui diffuse doit aussi rester attentive car il arrive que des reportages ne soient pas diffusés à la dernière minute ou que l’ordre des reportages change. Dans ce cas-là, il faut savoir réagir rapidement pour diffuser les bons sous-titres à l’écran. La Figure 1 est un exemple de lancement de sujet, c’est-à-dire la petite introduction que fait le journaliste avant de le lancer un reportage, avant et après sous-titrage. Le lecteur pourra ainsi mieux se rendre compte de ce que garde un sous-titreur du texte original du journaliste.

AVANT APRES

Kudelski se lance dans la cyber sécurité. Kudelski se lance dans le business de la cybersécurité.

Le marché est en plein essor alors qu’un rapport de la Confédération pointe du doigt les nombreuses failles numériques au sein des PME en suisses.

Un rapport de la Confédération pointe les nombreuses failles numériques au sein des PME suisses.

Voici une visite exclusive dans ces laboratoires de la lutte anti pirates.

Visite au sein des laboratoires chargés de la traque aux pirates.

Nouvo et Antoine Silacci. XXX

Figure 1: Texte du 19:30 avant et après sous-titrage

(12)

Dans la colonne de gauche, nous pouvons voir le texte tel qu’il a été rédigé par le journaliste. Puisque c’est un texte destiné à être lu au prompteur et non pas à être diffusé, il arrive qu’il y ait des erreurs de ponctuation ou des fautes d’orthographe. C’est donc au sous-titreur de vérifier les noms propres pour être sûrs qu’ils soient correctement orthographiés et de faire des phrases correctes d’un point de vue orthographique et grammatical. Dans la colonne droite se trouvent les sous-titres tels qu’ils ont été diffusés.

Si nous prenons la première phrase, nous pouvons tout de suite nous rendre compte du travail de synthèse qui a été fait. Le sous-titreur a ajouté le business qui reprend l’idée da la deuxième phrase du journaliste Le marché est en plein essor…, ce qui lui a permis de raccourcir son deuxième sous-titre. Nous pouvons aussi noter que la dernière phrase du journaliste n’a pas été gardée par le sous-titreur car il s’agit des noms des journalistes ayant réalisé le reportage et non pas d’informations essentielles concernant le sujet dont il est question. Ce petit exemple pourra donner une idée au lecteur du travail de synthèse et de reformulation qui est effectué pour chaque texte et reportage.

Toujours dans l’équipe chargée de sous-titrer les journaux du soir, vient ensuite la personne chargée de sous-titrer les reportages. Et enfin, le respeaker est là pour aider à sous-titrer les différents reportages et pour sous-titrer les interviews en direct ou les reportages n’ayant pas pu être sous-titrés à temps. Il faut encore préciser que les sous- titreurs sont formés à toutes ces tâches et non pas à une tâche en particulier.

Cette description détaillée des différentes fonctions remplies par les sous-titreurs montre que le travail en équipe est essentiel lors de la réalisation des sous-titres chez SWISS TXT. De plus, les sous-titres des journaux du soir étant préparés peu de temps avant le passage de l’émission à l’antenne, les sous-titreurs doivent faire preuve d’une grande efficacité pour que tous les sous-titres soient prêts à temps, tout en étant d’une bonne qualité tant du point de vue de l’information contenue dans les sous-titres que du point de vue linguistique.

2.3. L’évolution du sous-titrage en Suisse

C’est la visite du pape en Suisse en 1984 qui lance le début du sous-titrage sur les ondes de la Radio Télévision Suisse (RTS). Le sous-titrage avait alors été fait uniquement en langue allemande. Le sous-titrage en français et en italien a vu le jour dans les années qui ont suivi [http://www.sous-titrage.ch/MainNav/Chiffres, consulté le 3 juillet 2012].

(13)

A l’époque, très peu d’émissions étaient sous-titrées. Sur toute l’année 1984, seulement une trentaine d’heures ont été sous-titrées, ce qui représente 0,4 % [http://www.sous-titrage.ch/MainNav/Chiffres, consulté le 3 juillet 2012] sur la totalité des émissions diffusées cette année-là. Depuis ses débuts, le nombre d’heures de programmes diffusés n’a cessé d’augmenter, cela notamment grâce au perfectionnement des outils. Les années 1990 voient une nette évolution avec le sous-titrage quotidien du journal télévisé.

En 2007, le sous-titrage atteint deux heures par jour et sur chaque chaîne. Toujours en 2007, tout s’accélère avec la loi fédérale sur la télévision selon laquelle 33 % des programmes diffusés doivent être sous-titrés afin que les personnes ayant un handicap sensoriel puissent avoir un meilleur accès à la télévision. La priorité a été donnée, en accord avec les associations de sourds et malentendants, aux émissions du soir, dans la tranche horaire 19h-22h. En 2010, plus de vingt mille heures d’émissions ont été sous- titrées, ce qui représente 35,1 % du temps d’antenne sur toutes les chaînes de la SSR [document de la RTS, février 2011]. La Suisse romande arrive en tête avec 37,7 % de programmes sous-titrés, puis viennent la Suisse alémanique et la Suisse italienne, avec respectivement 34,6 % et 33,5 % de programmes sous-titrés. Voici un graphique qui illustre l’évolution du sous-titrage en Suisse sur les chaînes de la SSR depuis ses débuts :

Figure 2: Evolution du sous-titrage en Suisse [http://www.sous-titrage.ch/MainNav/Chiffres, consulté le 3 juillet 2012]

(14)

2.4. Conclusion

Dans ce chapitre, nous avons présenté SWISS TXT, l’entreprise dans laquelle a été réalisée cette étude. La présentation de la méthode de travail et des différentes façons de sous-titrer nous a permis de décrire le cadre dans lequel s’effectue la technique de sous- titrage en direct par reconnaissance vocale, le respeaking, qui sera l’objet principal de notre travail. Enfin, au vu de l’augmentation constante du sous-titrage en Suisse depuis ses débuts dans les années 1980, il paraît clair que l’utilisation de la reconnaissance vocale [voir chapitre 3] pour la production de sous-titres peut offrir un gain de temps considérable et qu’il s’agit d’un outil essentiel pour les émissions retransmises en direct.

(15)

3. La reconnaissance vocale

Dans ce chapitre, nous allons définir ce qu’est la reconnaissance vocale, cette technologie étant utilisée pour le respeaking [section 3.1]. Nous dresserons ensuite un historique des recherches et des avancées menées depuis les années 1940 [section 3.2] et nous verrons qu’il existe différents types d’outils de reconnaissance de la parole [section 3.3]. Enfin, nous détaillerons l’outil utilisé dans ce travail, Dragon Naturally Speaking [section 3.4]. Ce chapitre permettra au lecteur de se faire une idée du fonctionnement d’un système de reconnaissance vocale et de comprendre quels sont les enjeux et les défis liés à cette technologie.

3.1. Définition

Selon la définition de Mariani, « la reconnaissance de la parole concerne principalement la transcription d’un signal sonore en une suite de mots » [Mariani, 2002, p.47]. C’est-à-dire que l’utilisateur va parler dans un microphone et que ce qu’il a dicté s’affichera à l’écran sous forme de texte.

Les outils de reconnaissance vocale sont composés de trois éléments. Tout d’abord, le modèle acoustique, qui va transformer une suite de sons (le signal sonore) en une représentation phonétique (les phonèmes). Le deuxième élément est le dictionnaire acoustique. Il va mettre en relation les phonèmes reconnus par le modèle acoustique avec les mos contenus dans ce dictionnaire. C’est lors de cette étape que les phonèmes sont transformés en mots. Le dictionnaire acoustique peut contenir plusieurs milliers de mots avec différentes prononciations pour chaque mot, car il faut prévoir que tous les utilisateurs ne prononceront pas les mots de la même manière. Il faut notamment prendre en compte les accents qui peuvent exister dans une même langue. Par exemple, pour la langue française, la prononciation d’un habitant du Sud de la France ne ressemblera pas à celle d’un Québecquois. Le dernier élément qui constitue un système de reconnaissance de la parole est le modèle du langage, qui vient terminer l’opération en définissant la combinaison des mots, c’est-à-dire qu’il détermine quels mots peuvent aller les uns à la suite des autres [Bouillon, cours d’ingénierie linguistique à la FTI, 2011]. Il s’agit là de la dernière étape : la transformation des suites de mots possibles en phrase. Le modèle de langage analyse les mots reconnus par le modèle acoustique et calcule la probabilité que

(16)

ces mots ont d’apparaître après et avant les autres mots reconnus dans la phrase dictée par l’utilisateur [Romero-Fresco, 2011, p.58].

Dans les modèles de langage, on trouve d’une part les modèles statistiques. Ces modèles reposent sur des corpus plus ou moins grands. Lorsque l’utilisateur va dicter une phrase, un calcul de probabilités complexe se met en place pour déterminer quelle combinaison de mots a le plus de probabilité d’apparaître, en fonction de la fréquence d’apparition de cette même combinaison de mots dans le corpus. Par exemple, pour la phrase Je n’ai pas faim, le système trouvera plus de fois l’occurrence Je n’ai plutôt que l’occurrence Je nez. Le système va choisir la solution qui apparaît le plus souvent dans son corpus. Pour le début de la phrase Je n’ai pas faim, il y a des chances que le système retranscrive la phrase correctement. Le même calcul va s’opérer pour chaque mot et séquence de mots de la phrase. Dans la phrase citée en exemple, le système devra aussi chercher le nombre d’occurrence de pas faim et pas fin pour sortir la bonne combinaison et ainsi de suite [voir section 3.3].

Ces modèles statistiques ne possèdent pas de connaissances linguistiques ni de règles de grammaire. En cas de mauvaise reconnaissance, la phrase reconnue puis retranscrite par la machine pourra être agrammaticale ou asémantique.

L’autre type de modèle est le modèle linguistique, qui lui se base sur des règles de grammaire et un lexique qui décrivent l’enchaînement correct des mots dans une phrase.

Ce modèle ne pourra pas générer de phrases agrammaticales ou asémantiques comme peuvent le faire les modèles statistiques, c’est l’avantage de ces modèles. Le désavantage étant que le développement d’une grammaire prend du temps et que ces modèles ne pourront être utilisés que pour des domaines restreints.

Ce schéma synthétise le processus de reconnaissance de la parole:

Figure 3: Architecture d’un système de reconnaissance de la parole [Haton, 2006, p.4]

(17)

Avant de revenir sur l’évolution de la reconnaissance de la parole depuis le milieu du 20^ème siècle à nos jours, nous allons maintenant parler des caractéristiques des outils existants sur le marché. Il existe par exemple des outils qui fonctionnent par reconnaissance de mots isolés et d’autres en reconnaissance continue. Certains sont utilisables par un nombre indéterminé de locuteurs sans entraînement préalable, d’autres seront mono-locuteur. Et nous verrons aussi que la taille du vocabulaire varie d’un système à l’autre.

Les premiers outils de reconnaissance de la parole fonctionnaient en reconnaissance de mots isolés. L’utilisateur devait marquer une pause nette entre les mots pour que l’outil identifie le mot comme une unité [Rodman, 1999, p.111]. Avec ces systèmes de reconnaissance de mots isolés, il était plus probable que l’utilisation de la reconnaissance vocale pour dicter des textes fasse perdre du temps à l’utilisateur plutôt que de lui en faire gagner. Rodman nous donne ces chiffres qui le prouvent. En parlant à un rythme normal, nous produisons environ 150 mots par minute. Mais en prenant en compte la pause nécessaire entre les mots pour qu’ils soient reconnus, ce chiffre chute à 82 mots par minute en reconnaissance de mots isolés [Rodman, 1999, p.112], ce qui équivaut à la vitesse de frappe d’un dactylographe expérimenté. Il faut ajouter à cela la façon artificielle et saccadée de s’exprimer de l’utilisateur pour obtenir un bon taux de reconnaissance. Les avancées technologiques et notamment l’application de calculs statistiques aux outils de reconnaissance de la parole ont participé à l’apparition de la reconnaissance continue.

L’utilisateur peut parler plus naturellement sans marquer de pause entre les mots, et il peut alors vraiment gagner du temps en se servant de la reconnaissance vocale plutôt que de la dactylographie.

Nous allons maintenant parler de la caractéristique de ces systèmes qui concerne le nombre de locuteurs pouvant utiliser l’outil. Les premiers outils étaient mono-locuteurs.

Cela veut dire que l’utilisateur devait avoir entraîné le système à reconnaître sa voix pour que la reconnaissance des mots dictés soit possible. Or, la plupart des applications qui utilisent la reconnaissance de la parole ont besoin d’être utilisés par n’importe qui sans apprentissage préalable [Rodman, 1999, p.113]. Prenons par exemple les automates sur les messageries des téléphones, il serait impossible de demander à l’utilisateur de lui faire lire un texte pour que sa voix puisse être reconnue par le service en question. Pour ce type de services, on utilise des outils de reconnaissance de la parole multi-locuteurs avec un modèle linguistique. Ce sont des outils qui possèdent en général un vocabulaire limité

(18)

(réservation de billets d’avion ou de train, messageries vocales) et pour lesquels l’utilisateur doit répondre en prononçant généralement un seul mot, pour éviter les phrases complexes que le système ne pourrait simplement pas reconnaître ou pour lesquelles il n’aurait pas assez de vocabulaire. A l’inverse, les systèmes mono-locuteurs peuvent avoir un très large vocabulaire puisque c’est l’utilisateur qui va participer à l’amélioration de la reconnaissance, simplement en se servant de l’outil. A chaque utilisation, le système enregistre l’empreinte vocale du locuteur, sa prononciation et son rythme pour gagner en taux de reconnaissance [Romero-Fresco, 2011, p.57].

Passons maintenant à la taille du vocabulaire. Nous venons de le comprendre avec le paragraphe précédent, la taille du vocabulaire dépend directement du nombre de locuteurs pouvant utiliser l’outil. Un système pouvant être utilisé par n’importe qui sans aucun apprentissage aura forcément un vocabulaire restreint. Alors qu’un outil mono- locuteur pourra avoir un dictionnaire pouvant contenir des milliers de mots. Les systèmes à larges vocabulaires reposent sur des corpus de textes, plus ou moins spécialisé en fonction du domaine d’utilisation.

L’architecture d’un outil de reconnaissance de la parole se fait donc selon la fonction à laquelle il est destiné. Il faut donc faire un choix : soit avoir un outil utilisable par un nombre indéterminé de locuteurs, mais dont le vocabulaire sera restreint ; soit choisir un outil qui ne reconnaît qu’un locuteur mais dont le vocabulaire pourra contenir des milliers de mots.

Le développement des télécommunications et de l’informatique a favorisé l’essor de la reconnaissance vocale. Aujourd’hui, elle connaît un vaste champ d’application, notamment pour tout ce qui concerne les accès à distance. Cela comprend par exemple, les messageries vocales où le locuteur utilise des commandes vocales pour effectuer certaines opérations ou encore les réservations pour les billets de train, chambres d’hôtel etc. Pour les personnes âgées ou handicapées, la reconnaissance vocale peut permettre d’effectuer certaines tâches à distance grâce à des commandes simples. En France, le système Nemo développé par Vecsys permet aux personnes tétraplégiques de commander les objets à distance, comme par exemple régler le chauffage ou fermer les volets [Mariani, 2002, p.195]. Selon Mariani, la reconnaissance vocale peut aussi jouer un rôle primordial dans la prévision des fraudes pour les secteurs nécessitant un accès sécurisé. Pour les transactions à distance, il précise que la reconnaissance du locuteur commence à intégrer le domaine bancaire afin d’authentifier la personne pour augmenter la sécurité des transactions.

Toujours selon Mariani, le contrôle d’accès physique, les jeux et les jouets, ainsi que le

(19)

domaine criminalistique sont des secteurs où le potentiel de développement de la reconnaissance vocale est considérable [Mariani, 2002, pp.113-117].

L’automobile offre aussi un champ de développement important pour la reconnaissance de la parole. Avec la multiplication des voitures et le trafic toujours plus dense, le conducteur a besoin de pouvoir se concentrer uniquement sur la route. Or, changer de station de radio, monter ou baisser le chauffage sont autant d’opérations qui peuvent mettre en péril la sécurité du conducteur. Commander par la voix le système de navigation, la radio, la climatisation ou encore son téléphone portable permettrait au conducteur d’être moins distrait et de garder les yeux sur la route [Drygajlo dans Speech and language engineering, 2007, p.452]. Toujours dans ce chapitre, Drygajlo évoque l’utilisation de la reconnaissance de la parole pour dialoguer et commander les robots [Drygajlo dans Speech and language engineering, 2007, p.453]. Au Japon par exemple, des robots sont déjà en place dans certains hôpitaux pour aller distribuer les médicaments dans les chambres des patients. La reconnaissance vocale permettrait aux patients et au personnel soignant de pouvoir interagir avec eux de façon naturelle et spontanée.

Maintenant que nous avons donné les grandes lignes concernant le fonctionnement, les caractéristiques et les champs d’application de la reconnaissance de la parole, nous allons passer en revue les évolutions qui ont lieu dans ce domaine depuis ses premiers balbutiements.

3.2. Historique

Les premiers travaux déterminants dans le domaine de la reconnaissance vocale ont été ceux de Potter, Kopp et Green. Entre 1930 et 1940, ces chercheurs travaillent sur la représentation du son. En 1947, la conclusion de leurs travaux aboutit à une représentation spectrographique du son. Sur un graphique avec un axe vertical « temps » et un axe horizontal « fréquence », on peut voir l’amplitude du son en fonction du noircissement du papier lorsqu’une phrase est prononcée [Cinare, Ferreti, 1983, p.27]. Cette représentation du son était importante car elle permettait d’avoir une représentation physique des phonèmes d’une langue et de pouvoir les analyser.

Le premier vrai système de reconnaissance vocale a été développé en 1952 par Bell Telephones Laboratories avec les chercheurs Balashek, Biddulph et Davis. Ce système permettait de reconnaître les mots de « zero » à « nine » par un seul locuteur grâce à un dispositif électronique câblé. Dans 97 % des cas, le système reconnaissait correctement

(20)

quel chiffre était dicté. En 1958, Balashek et Dudley apportent une avancée avec le développement de leur système Audrey. La segmentation des mots en unités phonétiques, chacune identifiée selon un modèle acoustique, était un aspect fondamental de cet outil. La reconnaissance était quasi-parfaite lorsque les paramètres étaient réglés pour un locuteur, mais le taux de réussite chutait brutalement avec de nouveaux locuteurs [Lea, 1980, p.61]

[voir section 3.1].

A partir des années 1960, les chercheurs veulent passer de la reconnaissance de mots isolés à la reconnaissance de la parole continue. Pour reconnaître les mots isolés, le locuteur devait adopter une élocution saccadée, en faisant des pauses entre les mots alors que le but de la reconnaissance de la parole continue était d’obtenir une bonne reconnaissance avec une élocution la plus naturelle possible.

Avec l’avènement de l’ordinateur et des méthodes numériques, de nouveaux systèmes font leur apparition et vont permettre petit à petit d’arriver à la reconnaissance de la parole continue. Entre 1965 et 1970, deux voies parallèles se développent : d’une part, la reconnaissance de mots isolés se poursuit dans le but de pouvoir utiliser la reconnaissance vocale pour des commandes vocales [Cinare, Ferretti, 1983, p.28] ; d’autre part, les chercheurs commencent à intégrer la linguistique dans les outils qu’ils développent, c’est- à-dire qu’ils vont ajouter un lexique et une syntaxe pour intégrer un niveau de compréhension supplémentaire de la part de la machine, en plus du signal sonore. Les systèmes qui apparaissent dans ces années-là contiennent de 20 jusqu’à 500 mots [Haton, 2006, pp.4-5]. L’outil Vicens, développé à la fin des années 1960, obtenait un bon taux de réussite avec un lexique contenant 500 mots. On remarque également dans ces années-là la tentative des chercheurs d’élargir le nombre de locuteurs. Toujours à la fin des années 1960, Gold avait obtenu un taux de réussite de 86 %, avec un lexique contenant 54 mots et avec dix locuteurs différents [Lea, 1980, p.63].

En 1971, le projet Advanced Research Projects Agency (ARPA) lancé aux Etats- Unis par le département de la Défense consistait en un investissement jamais égalé dans le domaine de la reconnaissance de la parole : quinze millions de dollars pour un projet étalé sur cinq ans. Le but de ce projet était de développer des machines capables de comprendre la parole continue par différents locuteurs, le tout avec un lexique comprenant mille mots et des règles de grammaire. Cinq ans plus tard, le projet prenait fin avec la présentation de systèmes opérationnels : Harpy, Hearsay I et II, HWIM [Cinare, Ferretti, 1983, p.28].

L’outil Harpy développé par l’université Carnegie-Mellon avait même dépassé les

(21)

objectifs du projet car il obtenait un taux de réussite de 95 %, avec cinq locuteurs différents et avec un lexique de 1011 mots [Romero-Fresco, 2011, p.62].

Un an après le lancement du projet ARPA était commercialisé le premier outil de reconnaissance de mots isolés, VIP 100, par Threshold. C’était un système mono-locuteur qui pouvait reconnaître une trentaine de mots. Son prix de vente était de 20 000 dollars, pour un encombrement d’un mètre cube [Mariani, 2002, 181].

Quelques années plus tard, en 1978, des progrès considérables ont été réalisés au niveau de l’encombrement et du prix des outils commercialisés : VRM d’Interstate est un système de reconnaissance à microprocesseur sur une carte de circuits imprimés qui ne coûtait plus que 1 000 dollars, pour une centaine de mots reconnus et dont l’encombrement était réduit à quelques centimètres.

Au milieu des années 1970, l’apparition de la modélisation acoustique par modèles de Markov cachés (Hidden Markov Models-HMM) permet à la reconnaissance de la parole de faire de nouvelles avancées. On parle aussi de modèles en n-grammes. Il existe des modèles en bigrammes, trigrammes ou encore quadrigrammes. Lorsqu’un mot est prononcé, le système fait une analyse des deux, trois ou quatre mots qui précèdent et qui suivent le mot prononcé. Sur la base de ce calcul statistique, le programme fait une sorte d’analyse contextuelle pour extraire du corpus la combinaison de mots qui a la plus forte probabilité d’avoir été celle dictée par l’utilisateur [Romero-Fresco, 2011, p.59]. L’entrée des mathématiques dans le domaine de la reconnaissance de la parole a contribué à accélérer son développement. A la fin des années 1970, les travaux menés par IBM et par Bell Laboratories apportent une importante contribution dans la communication entre l’homme et la machine. Bien qu’ayant des approches différentes, ces travaux avaient pour point commun la rigueur mathématique et le formalisme, notamment grâce aux modèles de Markov cachés qui se développent de plus en plus grâce à leurs bons résultats.

Ce tournant mathématique se poursuit dans les années 1980. Les modèles de Markov cachés avaient certes vu le jour dans les années 1970 à Princeton, mais leur méthodologie n’a été terminée et publiée qu’au milieu des années 1980. Depuis, les modèles de Markov cachés restent toujours la base de tous les systèmes de reconnaissance de la parole, même s’ils existent sous diverses variantes.

Les années 1980 voient également un regain d’intérêt pour les systèmes basés sur les réseaux neuronaux. Cette approche avait été utilisée dans les années 1950 mais avait été abandonnée suite à des résultats peu probants. Toujours dans les années 1980, les chercheurs se penchent sur la question d’outils de reconnaissance de la parole spécialisés

(22)

dans certains domaines, notamment le domaine médical et plus particulièrement en radiologie, où les rapports suivent une structure toujours identique et dont la terminologie est bien déterminée [Mariani, 2002, p.195]. Mariani souligne que « la perplexité des langages professionnels […] est généralement inférieure à soixante mots, alors que les langages utilisés dans des ouvrages littéraires peuvent atteindre des perplexités de plusieurs centaines de mots » [Mariani, 2002 p.196]. Par perplexité, on entend complexité du langage. C’est donc en partant de ce constat que des premiers outils spécialisés ont vu le jour : VoiceRad par Kurzweil AI en 1986 était spécialisé dans le domaine de la radiologie et permettait aux médecins de rédiger leurs rapports sans altérer leurs habitudes puisque le microphone était placé dans un dictaphone. En 1988, Voice Scribe de Dragon Systems était un outil spécialisé dans l’aéronautique. C’est aussi dans les années 1980 que deux leaders du marché de la reconnaissance vocale se développent : Dragon Systems et SpeechWorks [Mariani, 2002, p.197].

Dans les années 1990, la reconnaissance de la parole fait de grandes avancées grâce aux progrès informatiques et au développement de la microélectronique. En 1992, IBM commercialise l’outil Speech Server Series qui contient 24 000 mots. En 1993, Philips présente un prototype d’outil reconnaissant la parole continue, en allemand. En 1993, les fondateurs de Dragon Systems, Jim et Janet Baker, reçoivent des fonds de la part des Etats-Unis pour poursuivre leurs recherches. En 1997, Dragon Systems commercialise son outil Dragon Naturally Speaking, qui correspond à l’aboutissement de leurs travaux.

L’outil contenait alors un vocabulaire de 23 000 mots et marchait en parole continue [Romero-Fresco, 2011, p.63]. Un mois après la sortie de Dragon, IBM met sur le marché ViaVoice, ces deux outils deviennent alors des concurrents directs. La multiplication des outils de reconnaissance de la parole entraîne une baisse considérable de leur prix. Pour donner une idée, le logiciel d’IBM IBM Voice Type lancé en 1995 coûtait environ 1 200 euros. Dès 1997, de nouvelles versions du logiciel devenaient bien plus abordables, entre 10 et 200 euros.

Depuis le début des années 2000, de nouvelles versions apparaissent avec toujours plus de fonctionnalités et un taux de reconnaissance amélioré. Dorénavant, l’apprentissage est réduit à une dizaine minutes et certains systèmes peuvent même être utilisés sans aucune phase d’apprentissage. La taille du vocabulaire n’a plus aucune limite et l’utilisateur peut y avoir accès pour rajouter les mots qui n’y figureraient pas. L’utilisation est souvent intuitive et s’adresse ainsi à tout type d’utilisateurs. De plus, la plupart des ces logiciels sont maintenant disponibles dans de nombreuses langues. Par exemple, Dragon

(23)

propose une version allemande, italienne, anglaise, américaine, française, espagnole, suédoise et arabe. Il en va de même pour le système d’IBM qui propose une version japonaise, chinoise et coréenne. [Mariani, 2002, 197].

Ce bref historique des travaux menés dans le domaine de la reconnaissance de la parole nous a permis de nous rendre compte des avancées spectaculaires qui ont eu lieu depuis 1947. D’une dizaine de mots isolés reconnus par les premiers outils, nous sommes maintenant passés à des systèmes basés sur des algorithmes complexes qui permettent de reconnaître plusieurs milliers de mots par différents locuteurs, et cela après un court apprentissage. L’évolution de la reconnaissance vocale a été parallèle à celle des progrès informatiques, elle en a d’ailleurs été largement tributaire. Les progrès de la microélectronique ayant favorisé la puissance de calcul des machines et permis la miniaturisation des systèmes, tous ces outils peuvent maintenant être utilisés dans n’importe quel domaine. Malgré ces avancées, Haton souligne que ces systèmes sont loin d’être parfaits et que l’utilisation de modèles statistiques, aussi complexes soient-ils, ne permet pas de résoudre tous les problèmes. Selon lui, il est nécessaire de développer des systèmes capables d’expliciter les connaissances disponibles sur le processus de la communication parlée, c’est-à-dire d’utiliser les progrès réalisés sur le processus de formation des mots et des concepts dans le cerveau à partir d’un signal sonore pour s’en servir comme source d’exploitation pour le développement de nouveaux systèmes [Haton, 2006, p.315]. Romero-Fresco insiste lui aussi sur le développement des modèles de langage, qui selon lui sont primordiaux pour pouvoir atteindre un jour un taux de reconnaissance de 100 %.

Selon Romero-Fresco, le défi commun aux systèmes mono-locuteurs et pluri- locuteurs est l’amélioration de la ponctuation automatique, qui reste pour l’instant très imparfaite [Romero-Fresco, 2011, p. 71]. Il insiste sur la ponctuation et les difficultés qu’elle peut causer au respeaker. Il faut bien expliquer que, contrairement à l’interprète qui travaille à l’oral et qui n’a donc pas besoin de se soucier de la ponctuation, le respeaker lui doit ajouter la ponctuation soit manuellement à l’aide du clavier, soit en la dictant. Par exemple, pour la phrase Demain, est-ce que tu voudras aller courir ?, voici ce que va devoir dicter le respeaker : Demain virgule est-ce que tu voudras aller courir point d’interrogation. Cet exemple suffit à comprendre la place que prend la ponctuation dans l’exercice de respeaking. Selon Romero-Fresco, 15 à 18% des mots dictés seraient de la ponctuation [Romero-Fresco, 2011, p. 102]. Or, lorsque la ponctuation est mal reconnue par le logiciel de reconnaissance vocale, cela devient problématique. Par exemple, le point

(24)

à dicter en fin de phrase peut facilement se confondre avec d’autres mots, comme pas ou encore pour, si le respeaker n’articule pas clairement. Certains signes de ponctuation sont également longs à dicter, comme le point d’interrogation, point d’exclamation ou encore trois petits points, ce qui fait perdre du temps au respeaker.

Pour minimiser ces difficultés supplémentaires liées à la ponctuation, certains systèmes ont tenté de mettre en place une ponctuation automatique. Par exemple, le point qui s’ajoute automatiquement dès que le respeaker marque un temps d’arrêt. Mais dès que le respeaker va hésiter ou laisser un blanc, le point pourra s’ajouter alors que le respeaker ne le souhaitait pas [Romero-Fresco, 2011, p. 102]. Selon Romero-Fresco, beaucoup d’experts s’accordent pour dire que ces tentatives de ponctuation automatique restent très imparfaites. Pour que cela fonctionne correctement, il faudrait que les systèmes de reconnaissance vocale soient dotés de réseaux neuronaux et qu’ils puissent détecter les différentes intonations de la voix, ainsi que la prosodie. Selon les chercheurs, cette optique pourra être atteinte d’ici cinq à dix ans [Romero-Fresco, 2011, p. 102].

3.3. Modèles de langage linguistiques vs modèles statistiques

Nous avons expliqué plus haut qu’il existait différents types d’outils de reconnaissance de la parole, certains se basent sur des règles de grammaire qui décrivent l’enchaînement correct des mots dans une phrase et d’autres se basent sur de larges corpus de textes dont sont extraites grâce à de complexes calculs statistiques les combinaisons de mots correspondant au signal sonore reconnu.

Les reconnaisseurs utilisant un modèle de langage linguistique se basent sur des Context Free Grammars, ou grammaires CFG, qui permettent d’encoder des contraintes grammaticales sur l’ensemble d’une phrase [Jurafsky et Martin, 2000]. Les règles de grammaire vont permettre de déterminer si une phrase est correcte ou pas et de lui attribuer une structure. Si la phrase ne remplit pas les critères décrits dans les règles de grammaire, le système ne pourra pas la générer et elle sera considérée comme incorrecte.

Une grammaire CFG comprend trois parties : le lexique, la grammaire et les déclarations. Lorsque le locuteur va parler dans le microphone, une analyse se met en route pour identifier si la phrase est correcte ou non. Voici un schéma qui illustre l’analyse d’une phrase avec un modèle de langage linguistique :

(25)

Figure 4: Analyse sémantique de la phrase the cat chased the mouse [BESANCON, Romaric, BOURLARD, Hervé et al., 2007, p.19]

L’avantage des systèmes linguistiques est qu’ils sont très précis puisqu’ils analysent la structure complète de la phrase et que la grammaire permet d’appliquer des contraintes linguistiques même sur des phrases longues [Rayner et al, 2006, p.12]. Ces systèmes ne pourront donc jamais faire de fautes du type je court car cette phrase ne pourra pas être produite par la grammaire et sera considérée comme incorrecte. Toutefois, il est bien sûr impossible de couvrir toute la complexité du langage humain avec des grammaires de ce type [Rayner et al, 2006, p.12]. Ces systèmes linguistiques s’adressent donc à des domaines où le vocabulaire est peu varié et où le locuteur doit s’exprimer avec des phrases assez stéréotypées pour qu’elles correspondent aux règles de grammaire. De plus, l’encodage des règles de grammaire est une opération fastidieuse qui demande de l’investissement en termes de temps et de ressources humaines, si l’on compare aux systèmes statistiques dont nous allons maintenant parler.

Les reconnaisseurs statistiques sont moins exigeants en ce qui concerne leur implémentation. En effet, puisqu’ils se basent sur de larges corpus de textes, l’utilisateur peut lui-même rajouter des corpus spécialisés dans un certain domaine car cela ne nécessite pas de connaissances informatiques avancées. Ces systèmes se basent sur de complexes calculs statistiques, les modèles de Markov cachés [voir section 3.2]. Développés à partir des années 1970, les modèles de Markov cachés s’appuient sur un double processus stochastique [Haton, 2006, p.85] qui permet d’extraire du corpus la phrase ayant la plus forte probabilité d’avoir été celle dictée. Lorsque le locuteur va dicter une phrase, les modèles de Markov vont déterminer les combinaisons de mots ayant la plus forte probabilité d’apparaître ensemble en fonction des phonèmes acoustiques émis.

(26)

Généralement, ces modèles se basent sur des bigrammes ou trigrammes, c’est-à-dire qu’ils calculent les probabilités combinatoires des mots sur les deux ou trois mots précédant et suivant le mot qui aura été dicté.

Les systèmes statistiques sont donc les plus répandus car ils sont plus faciles à développer étant donné qu’ils se basent sur des corpus de textes et non pas sur une grammaire. La plupart des corpus utilisés par les modèles statistiques sont issus de journaux ou de transcription de textes oraux [Haton, 2011, p.164].

Les systèmes statistiques sont certes faciles à développer, mais ils ne possèdent ni représentation syntaxique ni représentation sémantique des phrases, c’est-à-dire qu’ils retranscrivent ce qu’ils considèrent être le meilleur résultat en fonction des phonèmes reconnus et du nombre d’occurrences trouvées dans leur corpus, mais ils ne peuvent pas vérifier si la phrase générée est bien correcte d’un point du vue grammatical ou sémantique.

Les conséquences sur la reconnaissance vocale sont donc les suivantes : le risque de retranscrire des phrases sans construction grammaticale, sans aucun sens et/ou avec des fautes de grammaires. Dans son article Rest in peas : the unrecognized death of speech recognition, Portner se montre très critique vis-à-vis des outils de reconnaissance de la parole et plus particulièrement des systèmes statistiques, qui selon lui ne font qu’estimer la meilleure séquence de mots par rapport au signal sonore reconnu. Pour lui, les avancées dans le domaine de la reconnaissance de la parole sont simplement dues à la puissance des ordinateurs qui va en grandissant, mais il affirme que les recherches ont stagné depuis le début des années 2000, allant jusqu’à dire que la plupart des chercheurs se sont désintéressés de ce domaine d’étude. Il insiste sur les problèmes d’ambiguïté que ces systèmes sont incapables de résoudre. Il donne l’exemple de recognize speech qui peut très bien être reconnu par wreck a nice beach, wreck an eyes peach ou encore redondite speech. Il est vrai que les outils statistiques sont incapables de désambigüiser puisqu’ils n’ont pas de règles de grammaire, c’est là leur principale faiblesse. Voici quelques exemples réels tirés de reconnaissance avec Dragon lors d’une dictée : La sangsue de sciences et génie alors que la phrase dictée était L’association suisse des assurances est gênée. Ou encore Berne ne semait palabrer reconnue pour la phrase Berne ne se met pas à l’abri.

Ces exemples font sourire, mais cela montre qu’il reste des progrès à faire notamment au niveau de la compréhension de la phrase. Haton souligne lui aussi que les modèles de langage statistiques actuels sont limités et qu’ils sont loin de pouvoir couvrir la

(27)

quasi-globalité de la langue. Selon lui, le principal défi des années à venir sera l’affinement de la modélisation des paramètres linguistiques [Haton, 2006, 191]. Mais contrairement à Portner, il cite plusieurs chercheurs qui travaillent actuellement à l’amélioration des modèles de langage statistiques [Haton, 2006, 191].

Les outils statistiques ont certes leurs faiblesses, mais ils ont également leurs points forts. Tout d’abord, même s’il s’agit de systèmes mono-locuteurs, ils s’adressent tout de même à un grand nombre d’utilisateurs car ces systèmes peuvent servir d’outils de dictée vocale après seulement un court apprentissage, n’importe qui peut donc s’en servir pour dicter différents types de textes. Ces systèmes sont faciles d’utilisation, l’utilisateur a par exemple la possibilité de modifier ou de développer le corpus de texte de base sans avoir de pré-requis linguistiques, contrairement aux systèmes linguistiques qui nécessitent une bonne connaissance de la langue mais aussi de l’environnement informatique. Les outils statistiques peuvent être utilisés pour la langue générale, mais puisque l’utilisateur peut modifier le corpus, il pourra créer des domaines spécialisés en ajoutant des textes ou des listes de mots spécialisés sur le domaine de son choix. Les reconnaisseurs statistiques sont robustes, c’est-à-dire qu’ils peuvent mal reconnaître le début d’une phrase mais qu’ils peuvent se rattraper par la suite, puisque pour la plupart leurs calculs se basent au maximum sur les trois mots qui précèdent et qui suivent. L’absence de compréhension sémantique de la phrase au niveau global peut donc parfois être un avantage : si une partie de la phrase est mal reconnue, l’utilisateur pourra la corriger manuellement, alors qu’avec un système linguistique, il devra redicter la phrase en entier.

Nous avons vu quels étaient les principaux avantages et inconvénients des systèmes basés sur des règles de grammaire et des systèmes basés sur des corpus. Nous allons maintenant parler de l’outil utilisé dans notre travail, Dragon Naturally Speaking.

3.4. Dragon Naturally Speaking

Dans notre étude, nous avons utilisé l’outil Dragon Naturally Speaking développé par Nuance dans sa version 10.1. Ce produit a vu le jour aux Etats-Unis dans les années 1980 dans les laboratoires de Dragon Systems et n’a cessé de se perfectionner pour devenir un des leaders du marché de la reconnaissance de la parole. Après des rachats successifs, Dragon Systems a changé de nom pour devenir Nuance, qui propose aujourd’hui une large gamme de produits adaptés aux besoins de chaque utilisateur. Il existe des versions de Dragon spécialisées dans le secteur juridique, médical, financier ou encore éducatif. Par

(28)

exemple, Dragon Medical est spécialisé dans la saisie et dans la création de comptes- rendus médicaux. Nuance propose des produits adaptés aux professionnels selon leur champ d’activités, mais il existe également des versions pour les particuliers qui se servent de la reconnaissance vocale pour dicter des courriels, des rapports ou des mémos [site Internet de Nuance, http://www.nuance.fr/for-individuals/by-product/dragon-for- pc/index.htm, consulté le 10 juillet 2012].

Dans notre travail, nous avons utilisé Dragon Naturally Speaking Professional 10.1. Nous allons maintenant détailler les différentes fonctionnalités de cette version.

L’utilisateur doit d’abord créer un profil, cela prend quelques minutes. Ce profil va contenir toutes les informations acoustiques de l’utilisateur, mais aussi ses préférences pour le formatage des heures, des chiffres, des dates etc, ainsi que les modifications apportées au vocabulaire de base. A chaque utilisation, le profil enregistre toutes les données relatives à la voix de l’utilisateur, ce qui contribue à améliorer la reconnaissance pour de prochaines utilisations. Une fois le profil créé, l’utilisateur a trois options : faire un apprentissage rapide, long ou aucun apprentissage et commencer tout de suite à dicter. La phase d’apprentissage consiste à lire un texte, il s’agit généralement d’un extrait de roman ou d’un texte sur la reconnaissance vocale, pour que le système fasse une empreinte de la voix de l’utilisateur. Grâce à cette empreinte, Dragon va pouvoir s’adapter à l’utilisateur, c’est-à-dire aux mots fréquemment employés lors des dictées, aux habitudes ainsi qu’au son et à la tonalité de sa voix. A chaque utilisation, le profil de l’utilisateur s’enrichit et doit normalement conduire à une meilleure reconnaissance. Quelle que soit la phase d’apprentissage choisie par l’utilisateur, il devra dans tous les cas effectuer la configuration audio, qui consiste en la lecture d’un court texte au cours de laquelle le système teste l’entrée audio et règle le volume du microphone [voir section 3.2].

Dragon est un système statistique, il repose sur des millions de données écrites et audio qui proviennent de 15'000 utilisateurs. Toutes ces données correspondent à un total de dix millions de mots [Romero-Fresco, 2011, p.57]. L’utilisateur peut enrichir ce corpus de base en ajoutant des middle slot. Le middle slot est un ensemble de nouveaux textes que l’utilisateur peut ajouter pour enrichir le base slot, qui correspond au corpus de référence de Dragon. Il existe un troisième slot : le user slot, qui donne la possibilité à l’utilisateur d’entrer des listes personnelles de mots dans son profil. Les user slot s’ajoutent les uns aux autres tandis qu’on ne peut charger qu’un seul middle slot, cela veut dire que le chargement d’un nouveau middle slot écrasera le middle slot précédemment ajouté. Cela permet d’optimiser la reconnaissance pour des domaines spécialisés en entrant massivement des

(29)

textes qui contiennent des tournures de phrases et les expressions fréquemment utilisées dans un domaine spécialisé. La modification et l’enrichissement de ces slot permettent à l’utilisateur de modifier le modèle de langage, qui est, avec le modèle acoustique et le dictionnaire acoustique, une des composantes des systèmes de reconnaissance de la parole, comme nous l’avons vu dans la section 3.1 [Définition]. Toutefois, l’utilisateur n’a pas directement accès au modèle de langage et aux statistiques attribuées à chaque mot et séquence dans ce modèle de langage. Il peut simplement le modifier et l’influencer en procédant à des changements et/ou ajouts dans le dictionnaire linguistique, qui lui est visible et accessible par l’utilisateur.

Nous venons de rappeler qu’un système de reconnaissance vocale comportait également un modèle acoustique, qui transforme une suite de sons en phonèmes. Le modèle acoustique contient les représentations phonétiques des sons reconnus, avec différentes prononciations possibles. L’utilisateur n’a pas non plus accès à ce modèle acoustique et ne peut pas modifier la phonétique attribuée aux phonèmes. En revanche, l’utilisateur peut intervenir en adaptant les mots, soit ceux déjà présents dans le dictionnaire linguistique, soit ceux qu’il aura ajoutés. Lorsqu’un mot est mal reconnu, l’utilisateur pourra rentrer une forme orale. En général, cela participe à l’amélioration de la reconnaissance [Huser, mémoire de maîtrise, 2010, pp. 108-111]. Par exemple, la ville Porrentruy est mal reconnue par Dragon avec certains utilisateurs. Pour remédier à cela, l’utilisateur pourra entrer une forme orale porc en truie. Ainsi, quand Dragon reconnaîtra cette séquence acoustique, il retranscrira la forme écrite Porrentruy. Pour rester sur cet exemple, il est d’ailleurs préférable d’entrer des formes orales dont Dragon connaît la prononciation. Dans le cas de la forme orale porc en truie, Dragon possède ces trois mots dans son dictionnaire et sait donc comment ils se prononcent. Il vaudra mieux préférer ce genre de forme plutôt que des formes orales avec des mots inventés comme par exemple por en trui dont Dragon devra deviner la prononciation. Comme nous venons de le voir, Dragon est un outil vendu avec les composantes de base qui sont pour la plupart modifiables ou du moins adaptables par l’utilisateur.

Une fois le système installé, l’utilisateur peut contrôler son bureau et ouvrir des dossiers et des applications à l’aide de commandes vocales, qui sont elles aussi personnalisables. Pour la dictée de textes, l’utilisateur peut tout faire à la voix grâce à des commandes comme à la ligne, nouveau paragraphe, ceci en majuscules, corriger ça et bien d’autres encore.

(30)

3.5. Conclusion

Dans ce chapitre, nous avons d’abord défini la reconnaissance vocale avant d’en faire un bref historique, ce qui nous a permis d’abord de comprendre le fonctionnement d’un système de reconnaissance de la parole puis de voir l’évolution des travaux qui ont été menés depuis le milieu du 20^ème siècle. La comparaison entres les systèmes linguistiques et les systèmes statiques a ensuite mis en évidence les avantages et les inconvénients de chacun de ces systèmes, ainsi que les progrès à venir. Nous avons terminé ce chapitre avec la présentation de l’outil utilisé dans notre étude, Dragon Naturally Speaking 10.1.

Nous allons maintenant aborder le sujet central de notre étude : le respeaking.