• Aucun résultat trouvé

2. LA RECONNAISSANCE (AUTOMATIQUE) DE LA PAROLE

2.2 Histoire de la reconnaissance vocale

2.2.4 Des années 80 à aujourd'hui : l'essor de la reconnaissance vocale

La RV fait un nouveau bond dans les années 80 et 90.

Apparu en 1982 et toujours disponible en ligne à l'heure actuelle47, SAM (Software Automated Mouth) a été l'un des premier logiciel commercial de synthèse de la parole à

43 Selon : https://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html , consulté le 27/01/2017.

44 Image tirée de : http://www-03.ibm.com/ibm/history/exhibits/specialprod1/specialprod1_7.html consulté le 8/04/2017.

45 Vidéo de présentation disponible sur YouTube : https://www.youtube.com/watch?

v=N3i6NoUZsSw&feature=youtu.be consultée le 26/01/2017.

46 Selon : http://speechstones.com/milestones.html#historypost consulté le 28/01/2017.

47 Selon : http://simulationcorner.net/index.php?page=sam , consulté le 28/01/2017.

s'appuyer sur du texte (Text-to-Speech, TTC)48.

En 1984, IBM présente le premier système de reconnaissance vocale affichant une précision de 95% et capable de reconnaître 5 000 mots dictés un par un par un utilisateur avec lequel la machine était « entraînée »49. Encore une fois, la reconnaissance n'était possible que si l'utilisateur faisait des pauses entre chaque mot qu'il dictait.

Deux ans plus tard, en 1986, la reconnaissance vocale statistique devient la technologie numéro un dans le domaine de la recherche et du développement de la RV50.

En 1992, IBM présente son premier système de dictée : l'IBM Speech Server Serie (ISSS)51. L'année suivante, la compagnie sort le premier système de dictée sur PC, l'IBM Personal Dictation System (1993) qui sera rebaptisé IBM VoiceType Dictation par la suite52. Ce système était capable de reconnaître 32 000 mots dictés à une vitesse d'environ 70 à 100 mots par minute et affichait un taux de réussite de 97%53.

Ces deux inventions ont été principalement utilisées dans les domaines médicaux, légaux, commerciaux et par le gouvernement des États-Unis54.

L'année 1992 est également celle du lancement d'un système de reconnaissance vocale par Apple, l'ancêtre de Siri, capable de reconnaître 20 000 mots55.

En 1996, IBM lance le premier logiciel de RV pour particuliers, VoiceType Simply Speaking, compatible avec les applications Microsoft® Windows®56. VoiceType Simply Speaking fonctionnait avec une dictée en anglais américain et en espagnol, et disposait d'un vocabulaire

48 Selon : http://speechstones.com/milestones.html#historypost consulté le 28/01/2017.

49 Selon : https://www.research.ibm.com/hlt/html/history.html , consulté le 27/01/2017.

50 Selon : https://www.research.ibm.com/hlt/html/history.html , consulté le 27/01/2017.

51 Selon : https://www.research.ibm.com/hlt/html/history.html , consulté le 27/01/2017.

52 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

53 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

54 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ , consulté le 27/01/2017.

55 Selon : http://speechstones.com/milestones.html#historypost , consulté le 28/01/2017.

56 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

qui variait entre 22 000 et 42 000 mots, suivant la langue utilisée57. Ce système disposait également d'un dictionnaire de 100 000 mots58.

L'entreprise américaine sort la même année MedSpeak Radiology, un logiciel permettant aux radiologistes de dicter les résultats d'une radiographie afin d'établir un rapport écrit59.

De son côté, l'entreprise de télécommunication américaine Bell South crée VAL (Voice Activated Link), le premier système au monde à avoir posé les bases nécessaires à la création de tous les services client téléphoniques et automatisés60.

Grâce à l'évolution des processeurs d'ordinateurs, la reconnaissance fait d'énormes progrès et sa rapidité augmente.

En 1997, IBM commercialise l'IBM ViaVoice, le premier système de dictée continue disponible en plusieurs langues dont l'anglais, l'allemand, le français, l'espagnol, l'italien, mais également le mandarin et le japonais61.

De son côté, la société Nuance lance Dragon NaturallySpeaking, après avoir précédemment sorti Dragon Dictate en 1990, un logiciel destiné aux particuliers pour un prix de 9 000$62. Bien qu'il était nécessaire d'entraîner le programme pendant 45 minutes et que son prix était toujours assez élevé (695$), Dragon NaturallySpeaking avait l'avantage de supporter un flux de parole continu et naturel (environ 100 mots par minute) dès sa sortie63.

Après des années d'effervescence technologique, les années 2000 marquent le début d'une période de stagnation dans le domaine de la reconnaissance vocale64.

Pourtant, en 2008, tout bascule à nouveau vers la fièvre de la RV quand Google lance

57 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

58 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

59 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ consulté le 27/01/2017.

60 Selon : http://speechstones.com/milestones.html#historypost , consulté le 28/01/2017.

61 Selon : http://www-03.ibm.com/ibm/history/ibm100/us/en/icons/speechreco/breakthroughs/ , consulté le 27/01/2017.

62 Selon : http://www.bbc.com/future/story/20170214-the-machines-that-learned-to-listen consulté le 20/02/2017.

63 Selon : http://www.itbusiness.ca/news/history-of-voice-recognition-from-audrey-to-siri/15008 , consulté le 29/01/2017.

64 Selon : http://speechstones.com/milestones.html#historypost , consulté le 28/01/2017.

l'application « voice search » sur iPhone65. L'astuce de Google résidait dans l'usage du cloud computing pour le traitement des données reçues par son application66.

En 2011, Apple commercialise à son tour Siri, basé sur le même fonctionnement que voice search et capable d'adapter ses réponses à son utilisateur67. Aux réponses générées par le système s'ajoute une touche d'humour, rendant encore plus « humaine » la technologie de la RV.

Le Tableau en Annexe 1 récapitule les principales inventions ayant attrait à la reconnaissance vocale que nous avons évoquées dans ce chapitre.

La Figure 568, ci-dessous présente un résumé de l'évolution des modes de communications homme-machine jusqu'à aujourd'hui.

65 Selon : http://speechstones.com/milestones.html#historypost , consulté le 28/01/2017.

66 Selon : http://www.bbc.com/future/story/20170214-the-machines-that-learned-to-listen , consulté le 20/02/2017.

67 Selon : http://www.itbusiness.ca/news/history-of-voice-recognition-from-audrey-to-siri/15008 , consulté le 29/01/2017.

68 Image tirée de Meeker M. (2016), annual Internet Trends report, disponible à :

http://dq756f9pzlyr3.cloudfront.net/file/2016_internet_trends_report_final.pdf consulté le 04/04/2017.

Figure 5. Évolution des modes de communications homme-machine depuis 1832.

Comme nous pouvons l'observer, l'humanité a employé de nombreuses techniques afin de rendre possible la communication hommes-machines, jusqu'à l'apparition de la reconnaissance vocale. Depuis les cartes perforées, en passant par différents claviers, joystick etc., les efforts des inventeurs se sont ainsi fait toujours plus nombreux en direction d'une communication plus fluide et naturelle avec les machines.

L'utilisation de la voix s'est de ce fait imposée puisque ce mode de communication est l'un des principaux moyens directs dont nous disposons pour nous comprendre également entre êtres humains.