Pour le grand public
La reconnaissance de la parole a été commercialisée pour la première fois en 1987
sous la forme d’une poupée appelée Julie (fabriquée par la compagnie Worlds of
Won-der)[Markowitz 2013]. Son système de traitement du signal numérique, développé par
Texas Instruments, lui permettait de reconnaître huit phrases (Julie, yes, no, ok, pretend,
hungry, melody, be quiet) et de générer des réponses. Les enfants pouvaient ainsi lui
ap-prendre à reconnaître leur voix : “enfin, la poupée qui vous comprend”. Depuis, il y a
eu d’autres poupées de type humanoïde (par exemple,Brian the Brain
1- un compagnon
numérique conçu pour divertir et éduquer les enfants), ainsi que des jouets qui ne
res-semblent pas à l’homme. Dès nos jours, la compagnie ToyTalk
2crée des applications
pour smartphones qui permettent aux enfants d’interagir avec des personnages animés
(dragons, unicornes et fées).
1. http://www.hammacher.com/publish/74335.asp?promo=new_items 2. http://www.wired.com/2014/09/toytalk/
INTRODUCTION
En 1990 l’entreprise Dragon a lancé le premier outil intégrant une solution de
recon-naissance vocale, Dragon Dictate
3, qui pouvait reconnaître la parole dictée de manière
discrète (i.e. avec une pause après chaque mot). Son successeur,Dragon Naturally
Spea-king, sorti en 1997 pouvait reconnaître de la parole continue, mais nécessitait un
appren-tissage de 45 minutes.
L’entreprise BellSouth a lancé en 1996 son systèmeVAL
4- un service téléphonique
interactif de reconnaissance vocale qui était censé donner des informations en fonction
des demandes des utilisateurs. Son exemple a été suivi par beaucoup d’autres services
téléphoniques partout dans le monde.
De nos jours, la reconnaissance vocale se trouve dans les voitures
5- pour exécuter des
commandes simples comme lancer un appel téléphonique, envoyer un message,
sélection-ner les stations de radio, jouer de la musique à partir d’un smartphone ou commander et
contrôler un GPS (Tom-Tom
6, Magellan
7) ; dans la médecine
8- pour simplifier la
géné-ration des rapports ; dans l’armée
9- pour sélectionner les fréquences radio, contrôler le
système de pilote automatique et l’affichage de vol ; avec les smartphones - comme un
as-sistant personnel (Siri
10, Google Now
11, Cortana
12) qui exploite les informations sur les
utilisateurs pour personnaliser au mieux ses réponses et ses actions ; dans l’éducation
13- pour soutenir l’apprentissage des personnes en difficulté ou pour apprendre une langue
étrangère, etc.
Pour les personnes handicapées
En ce qui concerne l’aide aux personnes handicapées, l’utilisation des technologies
de traitement de la parole est étudiée depuis de nombreuses années [Noyes et
Fran-kish 1992 ; Tang et al. 1994 ; Schönbächler 2003]. Les personnes sans mobilité
peuvent contrôler leur fauteuil roulant électrique à travers des commandes vocales
[Simp-son 2002]. Les personnes aveugles utilisent la synthèse de la parole (conversion
texte-parole) pour entendre la vocalisation de chaque mot qu’elles tapent au clavier [Klatt
1987] et la reconnaissance de la parole pour contrôler l’ordinateur à travers de
com-mandes vocales. Le contrôle d’un ordinateur par le biais de comcom-mandes vocales est aussi
utile pour les utilisateurs qui ont des difficultés à bouger les bras ou les doigts.
Les aspects ergonomiques et les conditions d’utilisation de la reconnaissance vocale
pour aider les personnes sourdes ont été analysés dans [Woodcock 1997]. Les
diffé-rentes aides apportées aux sourds comprennent des travaux sur la reconnaissance de traits
3. http://en.wikipedia.org/wiki/DragonDictate 4. http://realpages.com/sites/infobyvoice/page2.html 5. https://technology.ihs.com/427146/ 6. http://www.tomtom.com/news/category.php?ID=4&NID=368&Lid=1 7. http://www.magellangps.com/Store/All-Maestro/Magellan-Maestro-4700 8. http://www.medscape.com/viewarticle/487524 9. http://www.stephanepigeon.com/Docs/TR-IST-037-ALL.pdf 10. https://www.apple.com/ios/siri/ 11. http://www.gthisgthat.com/100-tips-and-tricks-for-google-now/ 12. http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana 13. http://www.brainline.org/content/2010/12/speech-recognition-for-learning_ pageall.html
12
Applications
phonétiques pour aider la lecture labiale[Sokol 1996], l’affichage de signes en langage
des signes grâce à un avatar[Cox et al. 2002]et l’affichage des sous-titres générés d’une
manière semi-automatique ou entièrement automatique.
IBM a testé le sous-titrage en phonétique du discours d’un orateur dans une école pour
enfants sourds avec le système monolocuteur appelé LIPCOM [Coursant-Moreau et
Destombes 1999]. L’application était basée sur un décodage phonétique (sans aucun
vocabulaire préalablement défini) et le résultat était affiché en phonèmes codés sur une ou
deux lettres.
Un système de traduction automatique parole-langage de signes et langage de signes
- parole en Espagnol est décrit dans[López-Ludeña et al. 2014]. Leur système a été
conçu pour un scénario précis : l’accueil des personnes sourdes dans un hôtel. Il utilise
deux ordinateurs portables pour faire la traduction dans les deux sens. Un temps
d’adap-tation est nécessaire pour que les personnes sourdes acceptent et comprennent comment
utiliser le système proposé.
Le système SiSi
14(say it, sign it) crée par IBM génère la traduction automatique son
- texte - animations 3D du langage de signes britannique et peut être utilisé sur n’importe
quel écran (ordinateur portable, ordinateur fixe, téléviseur, l’écran d’une salle de réunion
ou d’un auditorium, etc).
Les personnes sourdes ont appris avec le temps à utiliser tous les moyens de
commu-nication à leur disposition (en fonction des situations), mais la diversité de ces moyens
leur rend la tache encore plus difficile. Certains sourds utilisent les assistants personnels
de leurs smartphones (incluant une reconnaissance vocale en-ligne) pour transcrire la
pa-role de leur entourage, mais ça ne répond pas à tous leurs besoins. Ils sont donc toujours
à l’attente d’une solution plus personnalisée.
Chapitre 2
Système de reconnaissance
Ce chapitre présente les composantes principales d’un système automatique de
recon-naissance de la parole : la paramétrisation du signal et les modèles mises en œuvre dans
les systèmes de reconnaissance.
Signal audio Paramétrage du signal
Décodage parole - text
O
Modèle de langage Modèle des
prononciations Modèle acoustique
P(W) P(O|W) Séquence d'observations acoustiques Séquence de mots la plus vraisemblable