Reconnaissance de la parole - Notes et commentaires au sujet des conférences de S. Mallat du Co

2.2.1 Approche classique

C’est un domaine qui date des débuts des années 60, et où les techniques employées ont assez peu évolué jusque dans les années 2010. Typiquement, on commençait par prendre le spectrogramme du signal temporel comme sur la figure 16. Dans le spectrogramme du haut, on remarque les phonèmes (du mot encyclopaedias prononcé en anglais) avec des structures " fondamentales + harmoniques", et d’autres qui ne sont pas “voisés” comme le “cy”. Donc, localement en temps, on tente la reconnaissance d’un phonème (ou son élémentaire) que l’on représente par un état d’une chaine de Markov (blobs bleus ci-dessus dans la figure 16). Pour apprendre ces états on fait un apprentissage par Mélange de Gaussiennes (Gaussian Mixture). Puis, on optimise cette chaine de Markov en prenant en compte la temporalité de l’apparition des phonèmes: cf. il y a des successions de phonèmes plus probables que d’autres selon le corpus lexical de la langue du locuteur.

Donc,on optimise les probabilités de transition (flèches courbes) entre un son à t =i et un autre son au temps suivant t =i+ 1.

La technique employée est un algorithme de programmation dynamique (Viterbi). En bref, cet algorithme date de 1967 et permet de corriger les erreurs dans un canal bruité. Si n est la taille du message bruité et a le nombre de possibilités par lettre alors l’arbre des

possibilités croit en aⁿ. A. Viterbi a trouvé une astuce pour simplifier l’arbre au fur et à mesure de sa construction. Cette méthode est le cadre dans lequel les gens ont travaillé durant une cinquantaine d’années et le domaine était devenu un problème industriel et plus tellement celui de la recherche académique.

Notons au passage que les deux spectrogrammes de la figure 16 sont en fait le même mot (encyclopeadias) prononcé par un locuteur féminin (haut) et un locuteur masculin (bas). Donc, on voit bien la difficulté de la reconnaissance vocale car la diversité des voix est très grande et donne des spectrogrammes très différents.

2.2.2 La révolution (très récentes) des RNp

Vers 2013-14, la méthodologie change. On se rend compte que les premières étapes (Mixture gaussienne, chaine de Markov) peuvent être remplacées par des RN et petit-à-petit toutes les étapes ont été introduites dans des architectures de RNp. Les applications mobiles sont pourvues de ces types de RNp embarqués dans les chips. La structure est la même que celle pour l’analyse d’images, c’est-à-dire des cascades de convolutions, sous-échantillonnages. La différence est que les filtres travaillent non plus dans l’espace d’une image, mais dans celui de séries temporelles où la notion decausalité est aussi un ingrédient important.

L’évolution a été brutale, et cela continue. Un des problèmes classiques par exemple est la séparation de sources. Ces développements sont importants, en particulier si l’on considère les appareils auditifs pour mal-entendants. En effet, si l’appareil se contente d’augmenter la puissance sonore, non seulement il augmente le bruit global mais surtout ne permet pas de mieux cerner ce que l’interlocuteur vous dit.

Un humain “normalement constitué” avec ses deux oreilles et fixant son attention sur l’interlocuteur fait naturellement de la séparation de composantes et de l’amplification sélective. Pour le cas de la figure17, le problème est au départ un peu plus complexe car il n’y qu’un seul micro et il y a un mélange des deux locuteurs. En fait, les méthodes mises au point avant 2018 marchaient plus ou moins avec des techniques pourtant très sophistiquées de parcimonies et de séparation comme la Non-negative matrix factorisation . . . Le problème est que le spectrogramme de son recueilli est un mélange comme on peut s’en rendre compte par exemple avec 2 locuteurs (rouge & bleu) de la figure 17. Idéalement

Figure 17 – Illustration de la façon dont on peut procéder pour séparer le mélange du son de deux locuteurs.

chaque point dans le plantemps-fréquence (ici codée sur 256 canaux) est associé soit au locuteur “bleu” soit au locuteur “rouge”, comme dans un problème declassification. Mais on ne connait ni le nombre de locuteurs ni les spectrogrammes typiques de chacun(e)s. Si par contre on s’est faire cette séparation entre locuteurs et avec un peu d’information sur la phase alors on peut reconstruire les voix de chacun comme sur la figure 17.

Cependant, l’article de Yi Luo et Nima Mesgarani de Sept 2018 (arXiv:1809.07454v2) décrit l’architecture d’un réseau CNN (figure 18). Les auteurs ont pu montrer que le réseau convolutif est bien supérieur aux méthodes de séparation de mélanges de spec-trogrammes de chaque locuteur dans l’espace Temps-Fréquence¹¹. Dans ce réseau, en fait les "masques" des locuteurs sont appris en même temps que les sons qu’ils prononcent.

On est dans le même schéma de ce que font les réseaux de neurones profonds: à savoir apprendre la représentation en même temps que la classification. Notons que S. Mallat ne pensait pas qu’on arriverait à ce niveau de qualité d’écoute.

Bon, on comprend l’algorithmique certes, mais savoir quelles sont les structures qui ont été capturées, ce n’est pas encore compris. On a des idées basées sur les méthodes antérieures qui essayaient de prendre en compte le timbre, les rigidités fréquentielles inhé-rentes à un locuteur particulier, mais en utilisant ces spécificités personnes n’a été capable et de très loin, d’arriver au niveau des RNp.

11. Un réseau LSTM avait été mis au point par les auteurs mais celui de la figure18est encore meilleur

Figure 18 – Architecture CNN de arXiv:1809.07454v2 pour résoudre le problème de la séparation des voix de plusieurs locuteurs parlant en même temps. Voici la légende du papier: (A): the block diagram of the TasNet system. An encoder maps a segment of the mixture waveform to a high-dimensional representation and a separation module calculates a multiplicative function (i.e., a mask) for each of the target sources. A decoder reconstructs the source waveforms from the masked features. (B): A flowchart of the proposed system. A 1-D convolutional autoencoder models the waveforms and a dilated convolutional separation module estimates the masks based on the nonnegative encoder output. (C): An example of causal dilated convolution with three kernels of size 2

Notons que les auteurs ont également essayé de se passer totalement de spectro-grammes, c’est-à-dire ils ont employés les enregistrement bruts. Ils ont constaté que les premières couches du réseau reproduisaient l’équivalent d’un spectrogramme. Mais au delà de ces premières couches, on a beaucoup de mal à ce représenter ce que fait ou ce qu’apprend le RNp.

Dans le document Notes et commentaires au sujet des conférences de S. Mallat du Collège de France (2019) (Page 32-36)