• Aucun résultat trouvé

Pour le grand public

La reconnaissance de la parole a été commercialisée pour la première fois en 1987

sous la forme d’une poupée appelée Julie (fabriquée par la compagnie Worlds of

Won-der)[Markowitz 2013]. Son système de traitement du signal numérique, développé par

Texas Instruments, lui permettait de reconnaître huit phrases (Julie, yes, no, ok, pretend,

hungry, melody, be quiet) et de générer des réponses. Les enfants pouvaient ainsi lui

ap-prendre à reconnaître leur voix : “enfin, la poupée qui vous comprend”. Depuis, il y a

eu d’autres poupées de type humanoïde (par exemple,Brian the Brain

1

- un compagnon

numérique conçu pour divertir et éduquer les enfants), ainsi que des jouets qui ne

res-semblent pas à l’homme. Dès nos jours, la compagnie ToyTalk

2

crée des applications

pour smartphones qui permettent aux enfants d’interagir avec des personnages animés

(dragons, unicornes et fées).

1. http://www.hammacher.com/publish/74335.asp?promo=new_items 2. http://www.wired.com/2014/09/toytalk/

INTRODUCTION

En 1990 l’entreprise Dragon a lancé le premier outil intégrant une solution de

recon-naissance vocale, Dragon Dictate

3

, qui pouvait reconnaître la parole dictée de manière

discrète (i.e. avec une pause après chaque mot). Son successeur,Dragon Naturally

Spea-king, sorti en 1997 pouvait reconnaître de la parole continue, mais nécessitait un

appren-tissage de 45 minutes.

L’entreprise BellSouth a lancé en 1996 son systèmeVAL

4

- un service téléphonique

interactif de reconnaissance vocale qui était censé donner des informations en fonction

des demandes des utilisateurs. Son exemple a été suivi par beaucoup d’autres services

téléphoniques partout dans le monde.

De nos jours, la reconnaissance vocale se trouve dans les voitures

5

- pour exécuter des

commandes simples comme lancer un appel téléphonique, envoyer un message,

sélection-ner les stations de radio, jouer de la musique à partir d’un smartphone ou commander et

contrôler un GPS (Tom-Tom

6

, Magellan

7

) ; dans la médecine

8

- pour simplifier la

géné-ration des rapports ; dans l’armée

9

- pour sélectionner les fréquences radio, contrôler le

système de pilote automatique et l’affichage de vol ; avec les smartphones - comme un

as-sistant personnel (Siri

10

, Google Now

11

, Cortana

12

) qui exploite les informations sur les

utilisateurs pour personnaliser au mieux ses réponses et ses actions ; dans l’éducation

13

- pour soutenir l’apprentissage des personnes en difficulté ou pour apprendre une langue

étrangère, etc.

Pour les personnes handicapées

En ce qui concerne l’aide aux personnes handicapées, l’utilisation des technologies

de traitement de la parole est étudiée depuis de nombreuses années [Noyes et

Fran-kish 1992 ; Tang et al. 1994 ; Schönbächler 2003]. Les personnes sans mobilité

peuvent contrôler leur fauteuil roulant électrique à travers des commandes vocales

[Simp-son 2002]. Les personnes aveugles utilisent la synthèse de la parole (conversion

texte-parole) pour entendre la vocalisation de chaque mot qu’elles tapent au clavier [Klatt

1987] et la reconnaissance de la parole pour contrôler l’ordinateur à travers de

com-mandes vocales. Le contrôle d’un ordinateur par le biais de comcom-mandes vocales est aussi

utile pour les utilisateurs qui ont des difficultés à bouger les bras ou les doigts.

Les aspects ergonomiques et les conditions d’utilisation de la reconnaissance vocale

pour aider les personnes sourdes ont été analysés dans [Woodcock 1997]. Les

diffé-rentes aides apportées aux sourds comprennent des travaux sur la reconnaissance de traits

3. http://en.wikipedia.org/wiki/DragonDictate 4. http://realpages.com/sites/infobyvoice/page2.html 5. https://technology.ihs.com/427146/ 6. http://www.tomtom.com/news/category.php?ID=4&NID=368&Lid=1 7. http://www.magellangps.com/Store/All-Maestro/Magellan-Maestro-4700 8. http://www.medscape.com/viewarticle/487524 9. http://www.stephanepigeon.com/Docs/TR-IST-037-ALL.pdf 10. https://www.apple.com/ios/siri/ 11. http://www.gthisgthat.com/100-tips-and-tricks-for-google-now/ 12. http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana 13. http://www.brainline.org/content/2010/12/speech-recognition-for-learning_ pageall.html

12

Applications

phonétiques pour aider la lecture labiale[Sokol 1996], l’affichage de signes en langage

des signes grâce à un avatar[Cox et al. 2002]et l’affichage des sous-titres générés d’une

manière semi-automatique ou entièrement automatique.

IBM a testé le sous-titrage en phonétique du discours d’un orateur dans une école pour

enfants sourds avec le système monolocuteur appelé LIPCOM [Coursant-Moreau et

Destombes 1999]. L’application était basée sur un décodage phonétique (sans aucun

vocabulaire préalablement défini) et le résultat était affiché en phonèmes codés sur une ou

deux lettres.

Un système de traduction automatique parole-langage de signes et langage de signes

- parole en Espagnol est décrit dans[López-Ludeña et al. 2014]. Leur système a été

conçu pour un scénario précis : l’accueil des personnes sourdes dans un hôtel. Il utilise

deux ordinateurs portables pour faire la traduction dans les deux sens. Un temps

d’adap-tation est nécessaire pour que les personnes sourdes acceptent et comprennent comment

utiliser le système proposé.

Le système SiSi

14

(say it, sign it) crée par IBM génère la traduction automatique son

- texte - animations 3D du langage de signes britannique et peut être utilisé sur n’importe

quel écran (ordinateur portable, ordinateur fixe, téléviseur, l’écran d’une salle de réunion

ou d’un auditorium, etc).

Les personnes sourdes ont appris avec le temps à utiliser tous les moyens de

commu-nication à leur disposition (en fonction des situations), mais la diversité de ces moyens

leur rend la tache encore plus difficile. Certains sourds utilisent les assistants personnels

de leurs smartphones (incluant une reconnaissance vocale en-ligne) pour transcrire la

pa-role de leur entourage, mais ça ne répond pas à tous leurs besoins. Ils sont donc toujours

à l’attente d’une solution plus personnalisée.

Chapitre 2

Système de reconnaissance

Ce chapitre présente les composantes principales d’un système automatique de

recon-naissance de la parole : la paramétrisation du signal et les modèles mises en œuvre dans

les systèmes de reconnaissance.

Signal audio Paramétrage du signal

Décodage parole - text

O

Modèle de langage Modèle des

prononciations Modèle acoustique

P(W) P(O|W) Séquence d'observations acoustiques Séquence de mots la plus vraisemblable

F

IGURE

2.1 – Architecture d’un système automatique de reconnaissance vocale

Sommaire

2.1 Analyse du signal audio . . . . 15