• Aucun résultat trouvé

CHAPITRE 8 STRUCTURATION EN TOURS DE PAROLE

8.1 Structuration en tours de parole

8.2.4 Regroupement via le Décalage de la moyenne

8.3.2.1 Optimisation des hyper-paramètres à partir des données de

Dans le but d’établir nos systèmes de référence, nous commençons la présente étude par la confirmation du choix de retenir 50 % de la variabilité totale des segments d’une

Figure 8.4 Résultats (DER/nombre des locuteurs estimés) de la stratégie sélective de regroupement (SSR) obtenus à partir de l'ensemble de développement en utilisant la normalisation des i-vecteurs via la PCA. Le minimum de DER, sa bande passante fixe correspondante (h) ainsi que son nombre de locuteurs estimés correspondant (#Loc.) sont

conversation donnée. Pour ce faire, nous avons exécuté maintes fois les deux stratégies de regroupement, totale (STC) et sélective (SSC), de l’algorithme de Décalage de la moyenne à base de la distance de cosinus (voir Figures 8.3 et 8.4), et ce, en faisant varier la bande passante (sur une importante plage de points entre 0 et 2) et en changeant le facteur ηde la variabilité retenue par la PCA (η = 80, 60, 50 et 30).

En observant les Figures 8.3 et 8.4, nous constatons que les résultats pour les deux stratégies obtenus avec le facteur η = 30 % sont légèrement meilleurs que ceux obtenus avec η = 50 %. Or, les graphes sont irréguliers dans le premier cas (c.-à-d. η = 30 %), ce qui nous incite à favoriser η = 50 % tout comme dans l’article (Shum, et al., 2011). De plus, il faut noter que pour toutes les configurations, le minimum du taux d’erreur DER est atteint avec une surestimation du nombre de locuteurs (la ligne verticale continue représente le vrai nombre de locuteurs et la ligne discontinue représente celui atteint avec le minimum de DER). Heureusement, la surestimation est souvent préférable à la sous-estimation, car la deuxième peut être remédiée par un élagage de classes éparses (voir Section 8.2.4.2).

− Impact de la normalisation à 1 de la norme euclidienne :

Après avoir établi le système de référence, nous commençons par la vérification de l'effet de la normalisation à 1 de la norme euclidienne des i-vecteurs avant l’estimation et la projection dans l’espace réduit de la PCA. D’une façon étonnante, cette simple opération a amélioré la DER de 2 % en valeur absolue (voir la troisième ligne -Norme. Euc.- du Tableau 8.1), la DER a diminué de 11,9 % (voir Figure 8.3) à 10 % pour la stratégie totale et de 12,2 % (voir. Figure 8.4) à 10,2 % pour la stratégie sélective. En outre, dans le cas de la stratégie sélective, le nombre des locuteurs détectés (NDS) diminue de 323 à 281, se rapprochant ainsi de la valeur réelle qui est de 103 locuteurs. Toutefois, dans le cas de la stratégie totale le NDS augmente de 177 à 316 locuteurs. Dès lors, ce système sera considéré comme notre nouveau système de référence.

− Impact de la normalisation WCCN

Dans cette expérience, nous normalisons d’abord les i-vecteurs de chaque conversation en utilisant la décomposition de l'inverse de la matrice de covariance intraclasse (voir Section 8.2.3.2). Ensuite, ces i-vecteurs subissent les mêmes transformations que celles de

l’expérience précédente, à savoir, la normalisation à 1 des normes euclidiennes suivie par la projection dans l’espace de la PCA représentant 50 % de la variabilité totale.

En observant la quatrième ligne du Tableau 8.1, il s’avère que la WCCN entraîne une dégradation des performances par rapport à l’expérience précédente (le DER est passé de 10 % à 11,7 % dans le cas de la stratégie totale et de 10,2 % à 11,7 % dans le cas de la

stratégie sélective). Or, ces résultats ne s’accordent pas avec nos espérances du fait que la

WCCN était très efficace dans le cas de la reconnaissance du locuteur. Ce comportement est probablement dû à une interaction entre la PCA et la WCCN.

− Impact de la normalisation BCCN :

Mis à part l’utilisation de la matrice de covariance interclasse au lieu de l’inverse de la matrice de covariance intraclasse, la procédure de la BCCN est exactement la même que celle de la WCCN.

Tableau 8.1 Résultats (DER, NDS) obtenus à partir des données de développement illustrant l'effet de diverses méthodes de normalisation. h est la bande passante correspondante au

minimum de DER et p est le facteur d’élagage. Le nombre réel de locuteurs est de 103. Stratégie totale de MS Stratégie sélective de MS

DER (%) NDS h p DER (%) NDS h p Norme. Euc. 10.0 316 0.34 0 10.2 281 0.34 0 WCCN 11.7 320 0.30 11.7 343 0.28 BCCN 7.6 285 0.26 7.7 189 0.28 Var. h 7.5 300 0.22 7.6 203 0.24 Élagage 8.3 109 0.32 1 7.5 111 0.24 3

Dans la cinquième ligne (BCCN) du Tableau 8.1, nous constatons deux améliorations remarquables par rapport aux résultats de notre système de référence (voir la troisième ligne - Norme. Euc- du Tableau 8.1). D'une part, nous avons obtenu une bonne réduction de DER qui passe de 10 % à 7,6 % dans le cas de la stratégie totale et de 10,2 % à 7,7 % dans le cas de la stratégie sélective. D'autre part, nous constatons également que le nombre des locuteurs détectés (NDS) est devenu plus proche de la valeur réelle (103 locuteurs), et ce, notamment

pour la stratégie sélective (NDS = 189 locuteurs). Des illustrations graphiques montrant les effets positifs de l’application successive des méthodes de la normalisation des i-vecteur dans le contexte de l’algorithme de MS sont fournies à l’Annexe II.

− Bande passante dépendante de conversation :

Dans cette expérience, nous avons repris la même configuration que l’expérience précédente (c.-à-d. la BCCN suivie par la normalisation à 1 de la norme euclidienne et par la projection de la PCA) à l’exception de l’adoption de la forme variable de la bande passante (voir équation 8.2).

Une amélioration négligeable du DER (voir la sixième ligne -Var. h- du Tableau 8.1) est notée par rapport aux résultats de l’expérience précédente.

− Élagage des classes éparses :

Bien que nous ayons réussi à réduire le DER d’environ 12 % à environ 7 % pour les deux stratégies du regroupement, l'estimation du nombre de locuteurs (NDS) correspondant au minimum de DER reste encore supérieure à la valeur réelle (103 locuteurs). Tel qu’expliqué dans la section 8.2.4.2, notre stratégie d’élagage consiste à sélectionner les groupes épars (c.- à-d. les classes dont le nombre des échantillons est inférieur ou égal à une constante p) afin de les fusionner avec leurs groupes voisins les plus proches.

Les résultats correspondants apparaissent dans la dernière ligne du Tableau 8.1 (Élagage). Nous observons que pour la stratégie totale, la fusion des groupes ayant une seule observation (p = 1) réduit le NDS de 300 à 109, tandis que le DER augmente légèrement de 7,5 % à 8,3 %. Pour la stratégie sélective, nous avons obtenu une amélioration remarquable du NDS (111 locuteurs au lieu de 203) avec un facteur p = 3, le DER demeure quasiment inchangé passant de 7,6 % à 7,5 %.