Réseaux à délais - 7 Méthodes connexionnistespour la reconnaissance de

7 Méthodes connexionnistespour la reconnaissance de

7.2 Réseaux à délais

Cependant, un tel apprentissage coopératif peut être réalisé simplement au moyen de l’algorithme de rétro-propagation du gradient. Celui ci réalise en fait l’apprentissage simultané des couches successives d’un perceptron multi-couches. C’est l’idée fondamentale des réseaux à délais.

7.2.1 Structure et apprentissage des réseaux à délais.

Les réseaux à délais (Time Delay Neural Networks, TDNN) ont été largement utilisés pour la reconnaissance de phonèmes pour plusieurs langues, dont le˚japonais [1], l’anglais, [2], et le français [3]. Ils ont également été utilisés dans le cadre de la reconnaissance de mots isolés [4]. Un réseau à délais est en fait un cas particulier de perceptron multi-couches à connexions contraintes.

On essaie, dans un réseau à délais, de reconstituer l’ensemble de nos deux étages de traitement à l’intérieur d’un perceptron multi-couches.

• L’étape de transformation est alors effectuée par un ensemble de couches contraintes, c’est à dire reliées par des connexions à poids partagées, (cf.˚§2.2.3.iv˚).

On regroupe les unités des couches contraintes en extracteur de traits. Chacun est constitué d’unités effectuant une même transformation du signal à des instants différents. Ces unités

1 Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K.: P h o n e m e recognition: neural networks vs. Hidden Markov Models. Proceedings ICASSP 88, S-Vol.1, 107-110, (1988).

2 Lang K., Hinton G.: the development of the Time Delay Neural Network Architecture for Speech Recognition, Carnegie Mellon University TR CMU-CS-88-152, (1988)

3 Devillers L.: Reconnaissance monolocuteur des phonèmes français au moyen de réseaux à masques temporels - Procs. des XVIIIèmes Journées d’Etudes sur la Parole - Montreal (1990) 4 Bottou L.: Reconnaissance de la parole par réseaux multi-couches - Rapport de stage, DEA

d’Informatique du LRI, Univ. Paris XI, Orsay (1988)

partagent les même poids, mais sont reliées à des fenêtres successives de la couche précédente (Fig 7.4).

• Dans le cas de la reconnaissance de mots isolés, l’étape d’extraction est un simple classificateur linéaire, constitué d’une couche de sortie contenant une unité par classe, totalement connectée à la couche précédente. La classe reconnue correspond alors à l’unité dont la sortie est la plus forte.

Le cas de la reconnaissance de séquences est plus difficile. Une solution simple, l’intégration temporelle, est souvent adoptée dans le cas de la reconnaissance de phonèmes. La dernière couche contrainte est alors constituée d’un extracteur de trait par phonème. Le phonème reconnu est alors identifié par l’extracteur de trait dont la somme des sorties est la plus grande.

L’apprentissage d’un tel réseau est effectué à l’aide de la procédure de rétro-propagation du gradient, modifiée pour tenir compte de la présence de poids partagés (cf.˚§2.3.4.2.ii˚).

signal prétraité

temps classes

Fig 7.4 - Un réseau à délais. Chaque colonne de cellules dans une couche cachée constitue un extracteur de traits. Chaque couche cachée effectue une transformation du signal invariante dans

le temps. Ici, l’extraction est assurée par une couche totalement connectée.

7.2.2 Réseaux récurrents et réseaux à délais.

Une autre classe de perceptrons multi-couches, les réseaux récurrents, permet également de réaliser des systèmes dynamiques pour la reconnaissance de la parole [1], [2], [3].

1 Watrous R.L.: Learned Phonetic Discrimination Using Connectionists Networks, in European Conference on Speech Technology, pp 377-380, Edinburgh (sept 1987)

2 Kuhn G., Watrous R.L., Ladendorf B.: Connected recognition with a recurrent network- Procs of NeuroSpeech 89, Edinburgh, Scotland (1989)

3 Gori M., Bengio Y., De Mori R.: BPS, A learning algorithm for capturing the dynamic nature of speech, Proc of Intl. Joint Conf. on Neural Networks, Washington DC, Vol II, pp 417-423, (1989)

Dans un réseau récurrent, les connexions sont autorisées à former des boucles. On adopte souvent un séquencement synchrone: Toutes les cellules sont mises à jour simultanément, leurs états à l’instant

t

sont utilisés pour calculer leurs états à l’instant

t+1

Un tel réseau est évidement invariant dans le temps, car le même réseau est utilisé à chaque instant.

Les boucles lui permettent seulement d’utiliser des informations provenant du passé.

L’apprentissage per se d’un tel réseau requiert encore des aménagements de la règle de rétro-propagation. Pineda [1] a étudié un algorithme qui permet de stocker des états stables, c’est à dire des associations entrées-sorties laissées invariantes par le réseau.

Dans le cas de la parole, les entrées, c’est à dire le signal, ne sont jamais invariantes. Les sorties, c’est à dire les séquences d’unités phonétiques, évoluent également dans le temps, selon la nature du signal.

L’algorithme d’apprentissage doit permettre au réseau d’apprendre non des états stables, mais une trajectoire contrôlée par les entrées. Cette formulation conduit à l’algorithme présenté dans [2].

Ce dernier algorithme n’est en fait qu’une adaptation de la rétro-propagation avec poids partagés. En effet, un réseau récurrent peut toujours être déplié (Fig 7.5).

t t+1

t-1 t-2

réseau récurrent réseau déplié

Fig 7.5 - Le dépliage temporel d’un réseau récurrent.

Il suffit de juxtaposer plusieurs copies de notre réseau, à des instants successifs. Aux boucles, correspondent alors des connexions liant les unités de deux réseaux adjacents. On obtient alors un gros réseau, dont toutes les connexions sont contraintes à rester invariantes dans le temps. Il suffit alors, comme pour un réseau à délais, d’appliquer l’algorithme de rétro-propagation avec poids partagés.

Un point délicat consiste à déterminer la longueur du dépliage temporel. En effet, les premières unités de notre gros réseau ne peuvent recevoir d’information des instants précédents. En pratique, les

1 Pineda F.J.: Generalization of Back-Propagation to Recurrent Neural Networks, Physical Review Letters, Vol 59,n°19, pp 2229-2232, (1987)

2 Pearlmutter B.: Learning State Space trajectories in Recurrent Neural Networks - CMU Tech. Report CMU-CS-88-191, (1988)

problèmes abordés recèlent toujours un horizon: En parole, par exemple, il est impossible de prononcer une phrase infinie sans y insérer de silences. On se limite alors à des portions de phrases comprises entre deux silences.

7.2.3 Exemples de réseaux à délais.

Ces exemples, issus de [1] et [2], sont destinés à montrer concrètement comment on peut mettre en œuvre un réseau à délais pour une tâche de reconnaissance de la parole et quels sont les problèmes rencontrés.

7.2.3.1 Données et prétraitements.

Deux ensembles de données ont été utilisés.

• L’un d’eux (B1) a été élaboré au LIMSI. La partie que nous avons utilisée est constituée des 10 chiffres (zéro à neuf) français, prononcés par 26 locuteurs, hommes et femmes.

Chaque chiffre a été prononcé une fois par chaque locuteur, dans un environnement silencieux.

Ces données ont été segmentées manuellement, avec précision.

• Une base de données en plusieurs langues (anglais, allemand, français, italien et espagnol) a été constituée dans le cadre du projet Esprit “Pygmalion”. Seule la partie française (B2) était alors disponible. Elle est composée de trente mots, dont les dix chiffres et vingt mots de commande (ouvre, efface, arrête…), prononcés 10 fois par 10 locuteurs dont cinq sont des femmes.

Le niveau de bruit est assez élevé, comparable à celui qui règne dans un bureau. De plus, les mots ont été segmentés automatiquement, à l’aide d’un programme de mesure du niveau d’énergie. Le résultat est très pauvre; des erreurs de 100 ms ne sont pas rares, alors que certains mots ne durent pas plus de 300 ms!

Dans les deux cas, le signal a été prétraité de façon très classique [3]. Après avoir franchi un filtre anti-repliement à 5 kHz le signal est échantillonné à 10 KHz. Après avoir amplifié numériquement les

1 Bottou L., Fogelman Soulié F., Blanchet P., Liénard J.S.: Speaker independent isolated digit recognition: Multilayer perceptron vs Dynamic Time Warping, Neural Networks, vol3, pp 453-465, (1990)

2 Driancourt X.D., Bottou L.: TDNN-Extracted Features, Procs. of Neuro-Nîmes 90, EC2, (1990)

3 Gauvain J.L.: A syllable based isolated word recognition experiment - Procs. IEEE Conf.

on ASSP 1986 (1986)

hautes fréquences, on simule un banc de seize filtres répartis selon l’échelle de Bark, de la façon suivante.

Une transformée de Fourier rapide est appliquée sur une fenêtre de 25.6 ms du signal, décalée de 12.8 ms chaque fois (10 ms dans le cas de la seconde base de données). On obtient alors un spectre de 128 énergies, dans la bande 0-5 kHz. Ces énergies sont sommées sur 16 fenêtres fréquentielles triangulaires représentant chaque élément de notre banc de filtres. Les résultats sont alors codés logarithmiquement sur 8 bits.

On obtient alors des séquences d’un vecteur à 16 composantes toutes les 12.8 ms (ou 10 ms dans le cas de la seconde base de données).

7.2.3.2 Reconnaissance de chiffres indépendamment du locuteur.

Dans le document Applications à la reconnaissance de la Parole. (Page 170-174)