• Aucun résultat trouvé

C HAPITRE 4 : D ÉVELOPPEMENT AVEC LES PERCEPTRONS MULTICOUCHES

4.2/ Description du système

4.4.1/ Architecture utilisée

4.4.1.1/ Architecture connexionniste

L’architecture utilisée lors de la phase de reconnaissance des voyelles est, elle aussi, fondée sur l’usage de perceptrons multicouches. Deux architectures connexionnistes ont été utilisées : la première utilise les STNN, Selectively Trained Neural Network alors que la seconde ne constitue qu’une extension de notre précédente méthode de segmentation puisque la seule différence réside dans la définition sémantique des sorties, qui ne correspondent plus à de grandes classes phonétiques mais à des phonèmes. La méthode des STNN a été choisie car des travaux effectués au sein du laboratoire [anglade92a], [anglade93] ont montré la capacité de ces réseaux à résoudre des tâches de reconnaissance de lettres prononcées de manière isolée en milieu bruité, en particulier pour de la parole Lombard où les phonèmes sont déformés par l’effort vocal du locuteur essayant de porter sa voix à un niveau énergétique équivalent à celui du bruit ambiant [lombard11].

Les STNN, plus encore que les perceptrons multicouches, sont des architectures nous permettant de mettre en œuvre le paradigme des méthodes analytiques, en opposition au paradigme des méthodes globales, dont nous avons déjà parlé au paragraphe 4.1.3.2. La figure 4.10 permet de comprendre la différence entre ces deux grands concepts en présentant, à gauche, une application des modèles de Markov à une tâche de reconnaissance d’un mot dans son ensemble, en accord avec le paradigme des méthodes globales, tandis que la figure de droite présente la mise en œuvre d’un STNN à une tâche de reconnaissance d’un mot, l’information utilisée étant plus limitée et correspondant donc au paradigme des méthodes analytiques. Le schéma d’utilisation pourrait d’ailleurs être tout aussi bien utilisé pour une tâche de classification de mots que pour une tâche d’identification de voyelles, avec des résultats cependant variables.

Rapport signal sur bruit utilisé en apprentissage et en test correct (%) insertion (%) fusion (%) division (%) élision (%)

Table 4.6 : Détection des noyaux vocaliques obtenus avec le corpus BDSON (bruit utilisé pour l’apprentissage et le test : F16).

+66 10 28 0 2 18 dB 66 10 28 0 2 12 dB 64 9 30 0 2 6 dB 63 8 32 0 2 0 dB 59 15 38 0 2 -6 dB 61 42 30 0 7

4.4/ Reconnaissance des voyelles

Figure 4.10 :Opposition entre méthode globale et méthode analytique.

Présentation du principe de fonctionnement des STNN.

Le réseau utilisé pour la classification des voyelles peut également être un perceptron, c’est à dire un réseau équivalent à celui utilisé pour la segmentation que nous avons présenté au paragraphe 4.3. Ce réseau de reconnaissance des voyelles se voit fournir les mêmes données que celles qui sont fournies au réseau de segmentation c’est à dire 5 trames de coefficients de cepstres Mel statiques, les trames étant espacées par un intervalle constant et non nul. La différence entre ce réseau et un réseau de segmentation réside dans la définition des sorties. Ces sorties ne sont plus les grandes classes que nous avons vu au paragraphe 4.3 mais correspondent à toutes les voyelles du vocabulaire. Une sortie supplémentaire est mise en place pour traiter les insertions et permet de classer les phonèmes “non voyelle” présents dans la liste des segments et ne correspondant pas à l’une des voyelles du corpus.

Ce détournement du réseau de segmentation est en fait une des réponses possibles au problème de concaténation des segments de voisement qui peut être posé lorsque la dichotomie des phonèmes en grandes classes sépare des phénomènes acoustiquement proches.

Lorsque l’étape d’identification des voyelles repose sur l’utilisation des STNN, l’architecture est celle présentée à la figure 4.11. Les données de base de cette méthode sont les segments isolés dans le signal lors de la phase de segmentation. L’espace des paramètres contenu dans ces différents segments est réduit par l’emploi de la méthode de prétraitement des cepstres Mel. Cette réduction permet d’obtenir deux paires de trames de coefficients qui sont fournis en entrée du réseau STNN et permettent d’effectuer la reconnaissance de la voyelle à partir du début et du milieu du segment. Ces deux paires de trames sont chacune constituées de douze coefficients statiques et de douze coefficients dynamiques. La différence entre ces deux types de coefficients sera expliquée dans le paragraphe 4.4.1.2 présentant de manière approfondie la méthode de prétraitement. Le nombre des sorties du réseau est déterminé par le nombre de voyelles présentes dans le vocabulaire étudié.

Méthode globale Méthode analytique

utilisation de la partie discriminante analyse du mot entier

Chapitre 4 : Développement avec les perceptrons multicouches

Figure 4.11 :Schéma synoptique de l’étape d’identification des voyelles.

Le positionnement des trames en milieu de segment (cf. figure 4.11) ne pose pas de problème puisque l’indice temporel est tout naturellement déterminé à partir des bornes de début et de fin du segment. Par contre, le positionnement en début de segment ne peut pas se faire à partir des indices temporels. Ceux-ci sont en effet trop variables et dépendent des caractéristiques du locuteur. La meilleure méthode consiste à traiter le signal relativement à l’énergie et non plus par rapport au temps. La méthode employée dans cette thèse est présentée à la figure 4.12.

Figure 4.12 :Positionnement en fonction de l’énergie du signal des trames de

coefficients d’un STNN.

Deux indices d’énergie sont calculés par rapport au segment à analyser : une première valeur d’énergie minimale permet de connaître le niveau de l’énergie du bruit présent dans l’environnement sonore alors qu’une deuxième valeur d’énergie maximale permet de connaître la valeur maximale

/AH/ /UW/ /IH/ /AO/ /AY/ /EH/ /EY/ /OW/

début milieu coefficients statiques coefficients dynamiques noyaux vocaliques identifiés /AY/ /EY/ signal de parole min+((max-min)/k) max min énergie spectrogramme

4.4/ Reconnaissance des voyelles

atteinte pendant la prononciation du phonème considéré. Ces deux valeurs permettent de calculer une différence entre l’énergie minimale et l’énergie maximale qui peut servir de mesure de la puissance vocale développée pour la prononciation du phonème. Cette différence permet de calculer, grâce à un coefficient noték dans la figure 4.12, une valeur relative d’énergie dans la voyelle. Cette valeur relative permet de déterminer un indice temporel dans la première partie du segment, entre la borne de début et l’indice temporel du maximum. Cet indice temporel calculé marque une position d’énergie relative qui est une position indépendante du rythme d’élocution et de l’énergie absolue. De plus, le coefficientk peut être modifié d’un réseau à l’autre en fonction de la tâche à résoudre et des connaissances phonétiques détenues a priori.