Fixation de l’architecture bout-en-bout finale

Partie II : Expérimentations 57

6.5 Fixation de l’architecture bout-en-bout finale

Table 6.7 – Scores pour un module convolutif à 4 couches avec variation des uni-tés des couches LSTM du module récurrent.

Nombre d’unités 256 512 1024 1280

WA (%) 65, 7 64, 3 63, 3 58, 4

UA (%) 60 60, 2 60, 4 59, 9

6.5 Fixation de l’architecture bout-en-bout finale

Après avoir examiné différents scénarios pour la profondeur des couches, c’est l’architecture à 4 couches convolutionnelles et 1 couche BLSTM qui donne le meilleur score sur la base de données IEMOCAP.

6.5.1 Techniques jouant sur les données

On veut observer de plus près l’influence de l’augmentation et du sur-échantillonnage des données d’entraînement sur cette architecture ainsi fixée. Sans augmentation et sur-échantillonnage, on a des scores WA et UA respectivement de 66, 4% et 57, 7% (cf Tableau 6.8). Lorsqu’on sur-échantillonne par un facteur 2 la joie et la colère, on a une diminution de 3, 2% pour la WA et une augmentation de 0, 9% pour l’UA. Si en plus du sur-échantillonnage, on applique une augmentation des données d’entraînement, on observe une augmentation des scores WA et UA de respectivement 1, 7% et 0, 9% (cf Tableau 6.8).

Table 6.8 – Scores sur IEMOCAP de la validation croisée selon différents para-mètres. Les résultats sont obtenus avec des spectrogrammes générés par une taille de fenêtre de N = 64ms et un décalage de S = 32ms. La gamme de fréquences considérée pour le spectrogramme est de 4 kHz.

Référence initiale Expérience n°1 Expérience n°2 Augmentation pendant l’entraînement - - + Sur-échantillonnage (x2) de joie et colère - + + WA (%) 66, 4 63, 2 64, 9 UA (%) 57, 7 58, 6 59, 5

6.5.2 Ajustement du pas d’apprentissage

Pour cette partie, on applique le sur-échantillonnage pour joie et colère d’un coefficient 2.

Nous effectuons des expérimentations où on ajuste le pas d’apprentissage de manière différenciée entre les deux modules de notre CNN.

Lorsqu’on n’applique pas d’augmentation mais qu’on ajuste le pas d’apprentis-sage de manière à être deux fois plus grand pour le module convolutif que pour le module récurrent, on observe une augmentation du score UA de 0, 3% par rapport au score avec uniquement augmentation (cf Tableau 6.9). Notre modèle fait ainsi un meilleur score si on met un pas d’apprentissage deux fois plus grand pour les couches du module convolutif que pour les couches du module récurrent. Si on cu-mule avec l’augmentation pendant l’entraînement, on observe une augmentation de score UA de 1, 1% (cf Tableau 6.9).

Table 6.9 – Scores sur IEMOCAP de la validation croisée selon différents para-mètres. Les résultats sont obtenus avec des spectrogrammes générés par une taille de fenêtre de N = 64ms et un décalage de S = 32ms. Un sur-échantillonnage d’un facteur 2 est effectué pour les émotions joie et colère. La gamme de fréquences considérée pour le spectro-gramme est de 4 kHz. Expérience n°2 (nouvelle référence) Expérience n°3 Expérience n°4 Augmentation pendant l’entrainement + - + Ajustement du pas d’apprentissage - + + WA (%) 64, 9 63, 5 64, 2 UA (%) 59, 5 59, 8 60, 9

Si on visualise les gradients de la fonction de coût pour chaque couche, les gradients du module convolutif sont beaucoup plus grands que ceux du module récurrent. D’autant plus visible sur la Figure 6.5.1 qu’on visualise à l’aide d’une échelle logarithmique.

Si le gradient du module convolutif apparait aussi grand, ça pourrait vouloir dire que la surface de la fonction de perte parcourue est tout à coup plus profonde et abrupte (cf Figure 6.5.1). On pourrait étudier ce phénomène en allant plus loin. Par exemple on pourrait regarder ce que donne l’implémentation d’un taux d’apprentissage spécifique à chaque couche du réseau.

6.5 Fixation de l’architecture bout-en-bout finale

Figure 6.5.1 – Évolution du gradient pour chaque couche en fonction des itéra-tions (epochs).

6.5.3 Influence de la gamme de fréquences

Ainsi, lorsqu’on sur-échantillonne d’un facteur 2 les fichiers annotés joie et colère, qu’on active l’augmentation pendant l’apprentissage, et enfin qu’on applique un pas d’apprentissage deux fois plus grand pour le module convolutif que pour le module récurrent, on obtient un score WA de 64, 2% et un score UA de 60, 9% avec des spectrogrammes de 4 kHz (cf Tableau 6.10). À présent, si on multiplie par 2 la borne haute des fréquences et qu’on prend une gamme de fréquences de 8 kHz, on obtient une augmentation des scores WA et UA respectivement de 0, 3% et de 0, 8% (cf Tableau 6.10).

Table 6.10 – Les scores sur IEMOCAP de la validation croisée sont obtenus avec des spectrogrammes générés par une taille de fenêtre de N = 64ms et un décalage de S = 32ms selon une gamme de fréquences de 4 kHz ou de 8 kHz. Un sur-échantillonnage d’un facteur 2 est effectué pour les émotions joie et colère.

Expérience n°4 (nouvelle référence) Meilleur modèle Gamme de fréquences (kHz) 4 8 WA (%) 64, 2 64, 5 UA (%) 60, 9 61, 7

Les scores de notre meilleur modèle sont ainsi de 60, 9% pour la WA et de 61, 7% pour la UA.

6.5.4 Ce qu’il faut retenir du meilleur modèle

Nous considérons des architectures de 2 à 8 couches convolutives, d’une couche récurrente de type BLSTM et pour finir une couche dense avec une non-linéarité de type softmax. L’optimisation se fait avec une descente du gradient par lots (mini-batch) de type Nesterov momentum. Pour prévenir le sur-apprentissage, nous utilisons un régularisation de type L2 pour les poids. Dans notre cas de spectro-grammes, on met ainsi en avant certains pixels de l’image par rapport à d’autres à chaque itération lors de l’entraînement.

Table 6.11 – Performance du meilleur modèle sur IEMOCAP. Le sexe du locuteur utilisé pour le jeu de test par partition (fold) est précisé.

Partition Session Sexe WA (%) UA (%)

1 1 F 64, 1 66, 4 2 1 M 68, 8 67, 7 3 2 F 70, 3 71, 3 4 2 M 62 67, 6 5 3 F 64, 8 52, 1 6 3 M 66, 4 56 7 4 F 68, 5 59, 7 8 4 M 64, 3 67, 3 9 5 F 64, 8 64, 2 10 5 M 51 44, 2

Total pour les Femmes 66, 5 62, 7

Total pour les Hommes 62, 5 60, 6

Total 64, 5 61, 7

Si on regarde les partitions où les locuteurs sont des femmes, on remarque que les scores WA et UA sont plus hauts que pour les partitions où les locuteurs sont des hommes avec des écarts respectifs de 4% et 2, 1% (cf Tableau 6.11). Nous avons pu faire la même observation dans le tableau 6.1 où les écarts sont de manière surprenante quasi les mêmes (4.1% pour WA et 1.9% pour UA).

Finalement, on peut se souvenir que l’architecture qui nous donne la plus haute performance UA sur IEMOCAP est une architecture de 4 couches convolutives avec régularisation L2 à λ = 0, 02 et à 1 couche BLSTM avec régularisation L2 à λ = 0, 01 prenant en entrée des log-spectrogrammes issues d’une transformation avec Transformée de Fourier à Court-Terme (TFCT) dans une gamme de fréquence de 8 kHz auxquels on applique une augmentation des données à l’aide de la technique de la Variation de la Longueur du Tractus Vocal (VTLP) (cf Figure 6.11). Le pas d’apprentissage est ajusté de manière à être deux fois plus grand pour le module

Dans le document Apprentissage profond appliqué à la reconnaissance des émotions dans la voix (Page 112-116)