• Aucun résultat trouvé

voice chatbot / virtual assistant

emotion analysis

La complexité de la reconnaissance de la parole provient des variantes dans l’expression qui dépendent du contexte et aussi des ambiguités du langage.Les progrès récents sont dûs à l’adoption du deep learning qui s’est avéré bien plus efficace que les anciennes méthodes359. Les systèmes de reconnaissance

de la parole utilisent souvent des réseaux convolutionnels pour reconnaître les phonèmes à partie du signal audio qui est analy- sé sous la forme d’un spectre de fréquences dans le temps360.

Ils les assemblent ensuite avec des algorithmes qui permettent d’identifier la morphologie des mots, par assemblage de pho- nèmes.

S’en suit, en général avec des réseaux récurrents, l’assemblage de mots dans des phrases ou locu- tions. Une fois transformés en mots, ceux-ci sont transformés en vecteurs avec autant de bits que de mots dans le dictionnaire, et un seul bit à 1 pour l’indice du mot dans le dictionnaire. Y sont ajoutés ensuite les poids des mots avoisinants dans des phrases connues avec une valeur correspondant à leur probabilité d’apparition autour d’un mot (le mot de référence a donc une probabilité de 1 et les autres, une probabilité inférieure à 1).

Ces vecteurs sont ensuite compressés, (Dense Vector) comme comme via la tech- nique dite Word2Vec, créée par Google en 2013. Cela sert à gagner de la place en ne conservant que les indices et poids des mots pertinents. Ces vecteurs sont utilisés de diverses manières. On peut même réali- ser des opérations de logique avec les mots ainsi modélisés (ci-contre). Paris moins la France plus l’Italie devient ainsi Rome ! Le reste est une tambouille mathématique de vecteurs qui dépend des nombreuses méthodes utilisées ! Les IA de reconnais- sance de la parole manipulent des sym- boles mathématiques et n’ont qu’une vi- sion purement statistique du langage. Elle n’est pas du tout symbolique. La machine ne comprend pas ce qu’elle interprète. Les progrès de la reconnaissance de la parole se sont accélérés depuis l’utilisation inten- sive du deep learning avec de nombreuses couches de neurones, jusqu’à 1000 !

Le taux d’erreurs est maintenant inférieur à celui de la compréhension humaine, quc ce soit chez Microsoft et IBM. Mais il ne s’agit que de taux de reconnaissance de mots il me semble car on peut bien observer au quotidien que les assistants vocaux comprennent à peine deux tiers de nos paroles, comme une grand-mère malentendante.

359 Les premiers progrès en deep learning sont arrivés avec Context-Dependent Pre-trained Deep Neural Networks for Large Vocabu-

lary Speech Recognition, de George Dahl, Dong Yu, Li Deng et Alex Acero, 2010 (13 pages), quis’appuyait encore sur des modèles de Markov. Ces chercheurs de Microsoft Research ont utilisé cette méthode pour faire descendre le taux d’erreurs de la reconnais- sance de la parole de 23% à 13% en 2012.

360 A partir de 2011, on a pu commencer à se passer des transformées de Fourier pour convertir le signal audio en spectre de fré- quences, en analysant l’onde audio directement dans des réseaux de neurones. Voir Deep Learning for Speech/Language Processing - machine learning & signal processing perspectives de Li Deng, 2015, slide 123 (200 slides).

Les solutions de reconnaissance vocale à base de deep learning n’ont plus besoin, en théorie, d’être entraînées avec la voix de l’utilisateur. Les modèles de ces réseaux sont créés avec des bases de tests comme pour TIMIT pour l’Américain (qui comprend les mots de 630 locuteurs). Des tech- niques d’apprentissage par renforcement existent cependant qui affiner la qualité des modèles utili- sés.

La reconnaissance de la parole peut être réalisée localement ou sur des serveurs. Avec l’augmentation de la puissance des processeurs embarqués dans les mobiles et même dans certains objets connectés, il est de moins en moins nécessaire de faire un aller et retour avec des serveurs dans le cloud.

Lorsqu’un aller et retour est nécessaire, on voit tout l’intérêt de la 4G et de son débit comme de son faible temps de latence pour les allers et retours avec les serveurs. Et cela sera encore mieux avec la 5G.

On est encore loin de la solution parfaite361, notamment parce que les logiciels manquent

d’informations sur le contexte des conversations362. Le taux de fiabilité n’est jamais de 100%. Il ne

l’est d’ailleurs jamais pour l’Homme également !

Le taux d’erreur de la reconnaissance est toujours plus élevé dans d’autres langues comme le chi- nois sans compter les langues rares pour lesquelles les bases d’entraînement sont moins grandes que pour les grandes langues parlées dans le monde. D’où l’intérêt de la publication en open source de la solution Deep Speech 2 de Baidu qui fonctionne en anglais et en chinois363.

Le taux d’erreur est particulièrement élevé dans un environnement bruyant, comme dans la rue, dans un endroit où il y a du monde et même dans sa voiture. Des techniques de captation du son et d’élimination du bruit ambiant permettent de traiter en partie ce problème.

Certaines portent sur l’analyse spectrale et le filtrage de fréquences. D’autres utilisent la captation stéréophonique pour séparer le bruit proche (différentié) du bruit lointain (qui l’est moins). J’avais même vu la start-up israélienne VocalZoom (2010, Israël, $12,7M) au CES 2015 qui utilisait un laser pour capter les vibrations des lèvres. Il faut juste trouver où placer le laser, ce qui est plus fa- cile sur des installations fixes que mobiles.

361 Voir Will computers ever truly understand what we're saying?, janvier 2016.

362 Voir aussi Why our crazy smart AI still sucks in transcribing speech paru dans Wired en avril 2016.

363 Voir Deep Speech 2: End-to-End Speech Recognition in English and Mandarin, décembre 2015. Ce système fonctionne avec un réseau de neurones de 11 couches : 3 couches de convolution pour la reconnaissance des phonèmes, sept couches de réseaux de neurones récurrents pour la détection des mots, puis une couche de connexion (« fully connected layer »). En mandarin, il obtient un taux de reconnaissance supérieur à l’homme pour des phrases courtes. Il a été entraîné avec 12 000 heures de conversations. Les versions les plus récentes ont été entraînées avec plus de 100 000 heures de conversations en environnement bruyant.

Une autre manière d’améliorer la reconnaissance de la parole est de faire du « multimodal », à sa- voir capter plusieurs signaux en même temps comme la voix et une vidéo du locuteur.

C’est ce qu’ont réalisé des chercheurs de Google dans Looking to Listen at the Cocktail Party Speaker-Independent Audio-Visual Model for Speech Separation 2018 (11 pages)364. La vidéo asso-

ciée est très … parlante ! On y voit deux anglophones parler en même temps dans un environne- ment bruyant. Le système est alors capable d’isoler une à une les deux voix en éliminant l’autre personne et le bruit ambiant. C’est ce que fait notre cerveau lorsque l’on suit plusieurs personnes à la fois dans un diner bruyant !

Le traitement de la parole contient un sous-domaine relativement récent : la détection des émotions dans la parole. C’est l’offre de diverses startups comme BatVoice (2015, France) qui se propose ainsi de capter les émotions des clients appelant un call center et d’évaluer l’efficacité des agents qui y répondent et savent traiter le stress des clients.

C’est aussi l’offre d’une autre startup, BeyondVerbal (2012, Israël, $10M) qui commercialise de la propriété intellectuelle issue de longues années de recherche dans le domaine. Ils cherchent à détec- ter des pathologies neurodégénératives avec l’analyse de la parole. Des chercheurs du MIT s’en servent pour détecter des dépressions lors d’entretiens avec des patients365. Mais cela reste encore

très expérimental.

Il faut se garder de prendre ces solutions à la lettre. Elles sont très approximatives car elles man- quent souvent d’éléments de contexte pour bien interpréter les émotions des locuteurs. Les signes extérieurs de ces émotions ne sont pas suffisants pour comprendre les émotions réelles des gens. Dans le même ordre d’idée, Cogito (2007, USA, $65M) analyse les appels dans les centres d’appels pour fournir un feedback temps réel aux conseillers en ligne. C’est une spin-off du MIT Media Lab qui exploite les sciences comportementales. Ils comparent les caractéristiques des conversations à un historique en analysant la tonalité, le volume, les pauses et la vitesse des discussions. Le système est censé améliorer de 20% la satisfaction des clients.

Dans la même veine, les startups françaises Natural Talk (2016, France) et Cognitive Matchbox (2016, France) proposent chacune une solution de routage d’appels optimisée aux centres d’appels qui analysent la personnalité et les émotions des clients pour les orienter vers le meilleur agent.

364 Et des explications en langage plus naturel dans Voir Looking to Listen: Audio-Visual Speech Separation, avril 2018.

365 Voir MIT Develops AI That Can Detect Depression From Your Conversations, février 2018. D’autres utilisent les mouvements du visage pour ce genre de détection, comme le projet de recherche Sensei / Multisence de l’USC (University of Southern California). Voir leur vidéo et leur brochure.

Elles exploitent les APIs d’IBM Watson dédiées au traitement du langage naturel comme Personali- ty Insights, Natural Language Understanding, Tone Analyzer, Document conversion, Twitter Insight et Natural Language Classifier.

AlloMedia (2011, France, 10,8M€) utilise la reconnaissance de la parole pour extraire des informa- tions structurées et semi-structurées des dialogues avec les clients dans les centres d’appels, pour alimenter leurs bases de CRM et améliorer la transformation des leads. C’est ce que propose égale- ment MonkeyLearn (2014, USA, $1,2M) ainsi que Dialpad (2011, USA, $120M).

La reconnaissance de la parole ne permet bien entendu pas de créer une solution complète. Il faut lui ajouter un système qui comprend le sens des questions et qui y répond ! Il doit exploiter une base de connaissance, des arbres de décision et un convertisseur de texte en langage parlé (text to speech). C’est ce que l’on trouve dans les assistants personnels ou chatbots vocaux selon les appel- lations, que nous verrons plus loin.

Synthèse vocale

A l’autre bout des assistants personnels se trouvent des systèmes de génération de parole synthé- tique. L’objectif est de rendre les voix artificielles les plus réalistes possibles, ce qui est très difficile à réaliser. On continue à reconnaître les voix synthétiques, même avec les meilleurs outils de syn- thèse vocale.

Le text-to-speech est une technique complexe, peut-être pas autant que le speech-to-text, mais elle repose aussi sur l’exploitation de réseaux de neurones récurrents, histoire de savoir comment juxta- poser les phonèmes les un aux autres en fonction du contenu à lire.

Google a une excellente solution dans le domaine tout comme Amazon avec Polly. Ces solutions sont paramétrables pour spécifier le rythme de la génération, l’intonation, et le style de voix.

Microsoft mettait à jour sa technique de text-to-speech à base de deep learning avec Neural TTS en septembre 2018366. La qualité des voix générées est de très bon niveau, quasiment impossible à dis-

tinguer de voix naturelles.

Des startups abordent aussi sur ce marché comme la canadienne Lyrebird (2017, Canada, $120K) qui propose sa solution aux développeurs sous forme d’API en cloud, exploitant des serveurs à base de GPU Nvidia.

Elle permet de copier la voix d’une personne à partir d’un court échantillon censé être d’une minute et de contrôler l’émotion dans l’intonation367. Acapela Group (1997, Belgique) propose aussi ses

briques logicielles de text to speech qui sont notamment dédiés aux solutions d’accessibilité. Dans le même ordre d’idée, l’expérience

JFK Unsilenced de 2018 faisait lire le discours que JFK devait donner après en début d’après-midi je jour de son assassi- nat à 12h30, au Dallas Trade Mart368.

L’audio généré est saisissant de réalisme. La prouesse est cependant techniquement inférieure à celle de Lyrebird avec Barack Obama car elle ne comprend pas la vidéo. Elle est par contre symboliquement beau- coup plus impactante.

Enfin, une équipe de chercheurs de Baidu a créé en 2018 une solution de synthèse vocale utilisant la voix d’une personne avec un échantillon très réduit par rapport à l’habitude369.

Mais pas de démo du résultat en ligne ! L’entreprise de logiciels spécialisée dans le traitement du langage iFlyTek (1999, Chine) arrivait de son côté à faire parler Donal Trump en mandarin fin en 2017 (vidéo). C’est un concurrent de l’Américain Nuance qui a aussi une offre dans le domaine de l’assistance des juges dans les tribunaux.

Chatbots vocaux

La reconnaisance de la parole est maintenant intégrée dans un nombre croissant de solutions grand public. Le marché est dominé par de grands acteurs américains (Google Assistant, Amazon Alexa, Apple Siri, Microsoft Cortana, Samsung Bixby qui est probablement originaire de Viv Labs370

sans compter les équivalents chinois comme Baidu avec son DuerOS371.

Leur solutions sont disponibles à la fois dans leurs propres services comme Amazon Echo ou l’iPhone pour Siri mais également disponibles sous forme d’API en cloud exploitables par les déve- loppeurs d’applications et de solutions métiers.

Enfin, ils sont intégrés dans des enceintes à commande vocale comme chez Google, Apple avec son HomePod372, Amazon Echo et plein d’autres copycats originaires d’Asie.

Ces solutions vont d’ailleurs réduire l’intérêt pour certains usages de faire appel à des télécom- mandes traditionnelles voire même des boutons. Ce sont des plateformes qui proposent un SDK et l’accueil d’applications spécifiques.

367 Voir leurs démonstrations avec les voix de Donald Trump et Barack Obama : https://lyrebird.ai/vocal-avatar. Une vidéo synthé- tique de Barack Obama a été produite plus tard par l’Université de Washington et le résultat est encore meilleur : Fake Obama created using AI video tool - BBC News. Pendant ce temps là, on n’a pas d’équivalents avec Donald Trump. La résistance au POTUS actuel prend des formes inattendues !

368 Voir https://rothco.ie/work/jfk-unsilenced/. La performance a reçu le Grand Prix for Creative Data du Cannes Lions International en juin 2018. Voir AI-Driven JFK Unsilenced Triumphs in Creative Data at Cannes de Alexandre Jardine, juin 2018.

369 Dans Neural Voice Cloning with a Few Samples, 2018 (17 pages) et les explications dans Neural Voice Cloning with a Few

Samples, février 2018

370 Viv, des créateurs de Siri, est un agent conversationnel capable de répondre à des questions complexes, bien au-delà de ce que peuvent faire Apple Siri et Google. La solution exploite la notion de génération dynamique de programme. Après analyse de la ques- tion, un programme complexe est généré en moins d’une seconde qui va la traiter. Viv a été présenté lors de TechCrunch Disrupt à New York (vidéo). Viv Labs (2012, $30M) a été acquis par Samsung pour $215M en 2016.

371 Voir Baidu Enters the AI Assistant Fray With DuerOS, août 2017.

372 Voir I tried out Apple’s new HomePod features. Here’s what I learned, mai 2018 qui décrit les fonctionnalités limitées de Siri. L’Apple HomePod est disponible en France et en français depuis juin 2018.