• Aucun résultat trouvé

i i Apprentissage avec quatre ensembles de 10 locuteurs

Dans le but d’améliorer les intervalles de confiance, quatre ensembles d’apprentissages de 10 locuteurs ont été définis. Les quatres réseaux ainsi obtenus ont été testés sur les 16 locuteurs restants. La demi largeur d’un intervalle de confiance à 90% autour de la moyenne de ces quatres résultats est alors de 5%

environ.

Le taux d’erreur pour l’alignement temporel est alors de 1,9%. Le taux d’erreur pour le TDNN est de 4,8% sur les données de test non décalées, et de 5,5% sur les données de test aléatoirement décalées de 0 à 8 trames.

Sous réserve, encore, de la validité statistique de ces résultats, la réduction de l’ensemble d’apprentissage a peu affecté le programme d’alignement temporel, et a beaucoup plus affecté le TDNN. En revanche, ses propriétés de résistance à une mauvaise segmentation restent intéressantes.

7.2.3.3 Reconnaissance multi-locuteurs de mots isolés.

Les données B2, plus nombreuses, autorisent de meilleures mesures de la performance de nos systèmes. Elle ne possède malheureusement que 10 locuteurs, ce qui restreint trop l’intérêt d’un test indépendant du locuteur.

Banc de 16 filtres

temps

8

25

9

95 47

classification

30 30

10 chiffres + 20 mots

Fig 7.7 Un réseau pour la reconnaissance de 30 mots isolés. Ici, l’étape de classification est assurée par un perceptron multi-couches, avec 30 unités cachées, totalement connectées.

Nous avons donc décidé, pour chaque locuteur et chaque mot, d’utiliser cinq répétitions pour notre ensemble d’apprentissage, et cinq pour un ensemble de test. On dispose donc d’un échantillon de 1500 formes pour mesurer le taux d’erreur; la demi-largeur d’un intervalle de confiance à 90% est alors de 3% environ.

Il semblait difficile d’utiliser exactement l’architecture de réseau précédente. Plusieurs réseaux ont donc été essayés. Le meilleur est représenté dans la figure ci-après (Fig 7.7). Ce réseau possède 2181 unités, 39298 connections, seulement 10095 paramètres. Une couche cachée supplémentaire a été insérée entre la dernière couche contrainte et la sortie du réseau. En effet, un système linéaire de classification s’est avéré moins performant pour déterminer les frontières de nos 30 classes.

Le taux d’erreur mesuré sur les exemples d’apprentissage est de 0.5%. Le risque moyen, estimé sur les exemples de test est de 3,5%±3%. Le risque moyen associé à un réseau légèrement différent, sans couche cachée supplémentaire dans l’étage de classification, est de 5,5%±3%.

7.2.3.4 Utilisation des codages exhibés par un réseau.

On l’a vu, le système final de classification possède un impact non négligeable sur la qualité du système obtenu. On souhaite donc, comme le suggère la section 7.1, utiliser un classifieur bien adapté aux données de parole, comme l’alignement temporel.

Cela présente de multiples avantages:

• Comparé à un réseau à délai seul, ce système hybride permet d’aborder des problèmes de parole continue.

• Comparé à un alignement temporel seul, la compression des données effectuée par le réseau se traduit par une réduction quadratique du temps de calcul pendant la reconnaissance, et donc d’opérer en temps réel.

Le problème réside alors dans l’apprentissage coopératif des deux modules composant ce système. Il est cependant possible de contourner ce problème, en entraînant séparément nos deux modules. On perd alors toute garantie d’optimalité, mais on espère atteindre un niveau de performances supérieur.

Banc de 16 filtres

temps

8

25

9

95 47

30 parole codée

Alignement temporel par programmation

dynamique

Fig 7.8 - Un système hybride: Le TDNN est entraîné au travers d’une couche de classification linéaire. On utilise, en phase de reconnaissance, un programme d’alignement temporel opérant

sur les codages intermédiaires générés par les couches internes du réseau.

On procède alors de la façon suivante (fig 7.8):

• On entraîne un réseau à délais, au travers d’un classificateur linéaire, c’est à dire une couche de sortie totalement connectée.

Le risque moyen, évalué sur l’ensemble de test, est, on l’a vu, de 5,5%±3%. Pour atteindre ce résultats, l’étage de classification se fonde uniquement sur les états de la dernière couche contrainte. Ces états constituent donc un codage du signal, sous la forme d’une séquence de 9 vecteurs à 25 composantes, assez significatif pour autoriser ce niveau de performances.

• Pendant la phase de reconnaissance, on utilise un programme d’alignement temporel pour comparer ces codages à ceux correspondant aux exemples d’apprentissage, préalablement stockées.

Nous disposions d’un programme d’alignement dynamique sans raffinement, qui commet plus de 10%

d’erreurs sur l’ensemble de test lorsque l’on travaille sur les données spectrales. En utilisant ce programme comme étage de classification dans notre réseau à délai, le risque moyen, mesuré sur l’ensemble de test, chute à 1,5%±3%.

Sur cet exemple au moins, la combinaison d’un réseau à délais et d’un système d’alignement temporel améliore les résultats par rapport à chaque système. Il semble raisonnable d’espérer des résultats meilleurs encore, en procédant à un vrai apprentissage coopératif de nos deux modules…

7.3 Conclusion.

Le problème de reconnaissance de la parole illustre bien les trois points capitaux qui doivent être considérés, avant d’envisager tout système d’apprentissage:

Atteindre un niveau raisonnable de validité statistique requiert de collecter un échantillon important de données, non seulement pour l’apprentissage, mais aussi pour évaluer et comparer la qualité des systèmes obtenus.

Or la collecte d’un tel ensemble de données est une opération aussi coûteuse qu’ennuyeuse.

Souvent, on utilise des données déjà collectées, qui réduisent cruellement, à la fois la variété des apprentissages réalisables et la signification des résultats.

La connaissance a priori du problème suggère d’utiliser des systèmes contraints. Un tel système, c’est le cas des réseaux à délais, permet d’atteindre un même coût empirique avec une capacité moindre, et souvent, pour un même échantillon d’apprentissage, un risque moyen inférieur.

Mais tisser ces contraintes à l’intérieur d’un perceptron multi-couches n’est pas la panacée:

L’adoption, comme étage de classification, d’un programme assez grossier d’alignement temporel permet à la fois de réduire significativement le risque moyen, et d’aborder des problèmes de reconnaissance de parole continue.

Il faut donc concevoir des systèmes hybrides, combinant à la fois des systèmes connexionnistes et des systèmes classiques éprouvés (comme l’alignement temporel). Il faut alors entraîner coopérativement les divers composants du système complet.

En fait, cette notion de coopération de systèmes d’apprentissage fournit un langage pratique pour décrire et concevoir un algorithme complexe. Le chapitre suivant est consacré à son étude.

8 Algorithmes modulaires