3. Reconnaissance vocale
4.4 Travail du respeaker
Le travail du respeaker ne se limite pas uniquement au moment où ce dernier sous-‐titre une émission en direct. Une grande partie du travail du respeaker est consacrée à l’entraînement et à la préparation.
Le respeaker doit entraîner régulièrement le système de reconnaissance vocale pour que ce dernier s’habitue à sa voix. Cela veut dire que le respeaker doit dicter le plus de textes possible et corriger simultanément les erreurs de reconnaissance.
Pour assurer de bons résultats de la part du système de reconnaissance vocale, il est aussi primordial de bien se préparer avec chaque direct, à l’image de ce que font les interprètes de conférence. Sans préparation préalable, les sous-‐titres produits ne peuvent pas être d’excellente qualité.
Durant cette phase de préparation, le respeaker doit avant tout s’informer sur le sujet qu’il va traiter lors de son direct. La connaissance du sujet est très importante.
Plus l’on est à l’aise avec le sujet que l’on doit respeaker, plus le travail en sera facilité. Par exemple, si un match de football est respeaké, un respeaker qui connaît bien ce sport, les règles et les joueurs aura beaucoup plus de facilité pour retranscrire les commentaires qu’un respeaker qui n’a jamais vu de match de football ou qui connaît très peu ce sport.
Le fait de bien connaître le sujet permet d’anticiper les propos du commentateur ou du présentateur. Il devient également plus facile de résumer les propos si le sujet nous est familier.
Durant cette phase de préparation, le respeaker doit s’assurer qu’il connaît bien le vocabulaire spécifique qui va être utilisé. Il doit se renseigner sur les mots qui sont susceptibles d’être prononcés durant le direct, en particulier les noms de personnes ou de lieux, qui ne sont pas forcément présents dans le vocabulaire de
4 Ce chapitre explique le travail des respeakers chez SWISS TXT.
base du système de reconnaissance vocale. Le respeaker doit alors créer des listes de mots et les ajouter au profil correspondant dans le système de reconnaissance vocale [LAMBOURNE, 2006].
Par exemple, si le respeaker doit sous-‐titrer un match de football, il doit s’assurer que tous les noms des joueurs, des entraîneurs, du stade etc. soient présents dans une liste dans le profil correspondant.
Voici un exemple de liste comportant les noms des skieurs pour le profil sports d’hiver, ainsi qu’une indication quant à la prononciation de ces mots :
Figure 8 : liste ski alpin
Un autre moyen d’améliorer la reconnaissance de notre voix est de dicter avant chaque direct les mots qui sont susceptibles d’être prononcés, même si ces mots ont déjà été entraînés auparavant. Il est important de les tester à nouveau avec la voix du jour. En effet, il suffit que le respeaker soit enroué, ou qu’il ait le nez bouché pour que sa prononciation soit différente que d’habitude. Si ce travail n’est pas effectué, la reconnaissance vocale risque d’être de moins bonne qualité, et donc plus d’erreurs seront commises lors du respeaking.
Lors des entraînements et de la phase de préparation, le respeaker doit également corriger les erreurs que le système de reconnaissance vocale fait. Le respeaker doit forcer le système à prendre la bonne solution, jusqu’à ce que ce dernier reconnaisse correctement le mot. Le système apprend donc de ses propres erreurs.
L’illustration qui suit montre un exemple de correction dans Dragon.
Figure 9 : éditeur Dragon
Si certains mots posent problème et ne sont pas reconnus immédiatement par le logiciel, il est possible d’ajouter à côté du mot une indication quant à sa prononciation [ARUMI RIBAS, 2012], comme nous le voyons sur la figure 8.
L’ajout d’une forme orale, associée à la forme écrite, est très utile, en particulier pour les mots d’origine étrangère, les noms propres et les noms de lieux, qui ne sont pas forcément présents dans le dictionnaire acoustique de base du logiciel.
Par exemple, pour que le système reconnaisse correctement le nom « Roger Federer », on peut lui associer la forme orale « Rodjeur fédérèrent », ou pour Eveline Widmer-‐Schlumpf la forme orale « éveline vie de mère chloumpfe » et pour la localité Oberhallau la forme orale « au beurre à l’eau ». Les formes orales ne
seront pas toujours les mêmes pour tous les respeakers, car ces derniers ne prononcent pas forcément les mots de la même manière. Chaque respeaker doit donc adapter les formes orales à sa propre prononciation.
Voici un exemple tiré du vocabulaire de Dragon où l’on voit une forme orale associée à une forme écrite:
Figure 10 : Éditeur de vocabulaire Dragon
Les mots qui sont précédés d’un symbole rouge sont les mots qui ont été ajoutés au vocabulaire de base d’après des listes.
En plus des listes de mots, le respeaker doit également se renseigner sur les personnes qui vont présenter ou commenter le programme, car ce sont des informations qu’il va aussi devoir mettre dans les sous-‐titres. Soit il crée des shortforms (raccourcis avec le clavier), soit des commandes vocales.
Prenons l’exemple du commentateur sportif Fabrice Jaton. Si le respeaker veut une commande vocale pour afficher le nom, il devra ajouter au vocabulaire le mot
« F.Jaton : », avec une forme orale spécifique, par exemple « Jaton dit ». Lorsque le respeaker prononcera « Jaton dit », la forme écrite « F.Jaton : » sera affichée à
l’écran. Au contraire, si le respeaker veut un raccourci clavier, le système de sous-‐
titrage permet au respeaker de choisir deux ou trois lettres, par exemple « jj » pour que s’affiche à l’écran « F.Jaton : ».
Pendant le direct, le respeaker doit multiplier les tâches simultanément : il doit écouter les propos, les reformuler, insérer la ponctuation et corriger les erreurs, tout en évitant de prendre trop de retard. Nous reparlerons de cet aspect dans la section suivante, 4.5 Compétences du respeaker.
Une chose à laquelle le respeaker doit faire attention pendant le direct, c’est de ne pas faire directement référence à l’image dans les sous-‐titres. En effet, comme les images peuvent changer très rapidement et que les sous-‐titres mettent un certain temps à apparaître à l’écran, cela pourrait troubler les téléspectateurs, car il n’y aurait plus de lien entre l’image et le sous-‐titre.
Une fois le direct terminé, le respeaker peut enregistrer ses sous-‐titres et repérer les éventuelles erreurs qui sont passées à l’écran. Si des erreurs sont récurrentes, le respeaker peut entraîner le système, jusqu’à ce qu’il ne commette plus ces fautes. La phase d’entraînement recommence donc.