• Aucun résultat trouvé

6.2 R´ esultats

6.2.1 Classification des hommes avec le t´ el´ ephone

Nous avons commenc´e par classer les hommes MP par rapport aux hommes sains avec les donn´ees t´el´ephoniques. De la mˆeme mani`ere qu’avec les GMM, 30 hommes MP et 30 hommes sains ont ´et´e utilis´es `a chaque run pour l’entraˆınement (et la constitution des x-vecteurs de r´ef´erence MP et sain) et 33 hommes MP et 6 hommes sains pour le test. Toutes les sessions analysables de ces sujets ont ´et´e utilis´ees. Pour le monologue cela fait un total moyen de 5h de donn´ees voix pour le groupe d’entraˆınement `a chaque run, et un total de 5min par sujet test. Les mˆemes quantit´es de voix sont utilis´ees pour les tˆaches DDK. Pour les r´ep´etitions de phrases, cela revient `a environ 1h30 pour le groupe d’entraˆınement et 1min30 par sujet test. Le DNN pr´e-entrain´e utilis´e est le mod`ele SRE16 d´ecrit dans la partie m´ethode pr´ec´edente.

6.2.1.1 Influence de la dur´ee des segments tests

Nous avons dans un premier temps class´e nos sujets en utilisant un fichier audio par sujet pour le test. Ce qui signifiait, comme expliqu´e dans la m´ethode, des x-vecteurs extraits sur des segments de 15 `a 100s pour le test. Sachant que la longueur des segments utilis´es pour l’entraˆınement de la LDA et PLDA et la constitution des x-vecteurs de r´ef´erences MP et sain ´

etait de 1 `a 5s, et celle pour l’entraˆınement du DNN de 2 `a 4s. Les r´esultats obtenus avec la classification par distance cosinus, sans et avec LDA, et par PLDA sont pr´esent´es Tableau 6.2. Afin d’´evaluer l’effet du non appariement de la longueur des segments entre entraˆınement et test, nous avons refait l’exp´erience en segmentant les fichiers tests de la mˆeme mani`ere que pour l’entraˆınement (`a savoir en segments de 1 `a 5s). Les r´esultats obtenus sont d´etaill´es Tableau 6.3. Pour ces deux premi`eres exp´eriences, nous n’avons pas effectu´e d’augmentation de donn´ees pour l’entraˆınement de la LDA et PLDA. Les donn´ees ayant servi `a l’entraˆınement du DNN SRE16 avait par contre elles ´et´e augment´ees.

Tˆache dist cos LDA + dist cos PLDA

repet 41 % 36 % 36 %

monologue 36 % 37 % 35 %

Table 6.2 – EER issus de la classification des hommes MP vs sain, `a partir des tˆaches de r´ep´etitions de phrases et du monologue des enregistrements t´el´ephoniques. Les x-vecteurs ont ´

et´e extraits `a partir de segments d’une dur´ee de [1-5s] pour l’entraˆınement et [15-100s] pour le test.

Tˆache dist cos LDA + dist cos PLDA

repet 39 % 32 % 33 %

monologue 33 % 35 % 36 %

Table 6.3 – EER issus de la classification MP hommes vs sains hommes, `a partir des tˆaches de r´ep´etitions de phrases et du monologue des enregistrements t´el´ephoniques. Les x-vecteurs ont ´

et´e extraits `a partir de segments d’une dur´ee de [1-5s] pour l’entraˆınement et le test.

Nous pouvons constater une am´elioration globale de l’ordre de 2 `a 3% lorsque les segments de test font la mˆeme longueur que les segments d’entraˆınement.

6.2.1.2 Influence de l’augmentation de donn´ees

Nous avons ensuite voulu tester l’effet de l’augmentation de donn´ees pour l’entraˆınement de la LDA et PLDA. Les r´esultats sont pr´esent´es dans le Tableau 6.4.

Tˆache LDA + dist cos PLDA

repet 33 % 31 %

monologue 33 % 33 %

Table 6.4 – EER issus de la classification MP hommes vs sains hommes, `a partir des tˆaches de r´ep´etitions de phrases et du monologue des enregistrements t´el´ephoniques. Une augmentation de donn´ees a eu lieu pour l’entraˆınement de la LDA et la PLDA.

Nous pouvons constater une am´elioration des performances pour la tˆache de monologue mais pas pour la tˆache de r´ep´etition. Ceci pouvant s’expliquer par le fait que l’augmentation de donn´ees introduit de la variabilit´e phon´etique pouvant ainsi nuire aux tˆaches d´ependantes du texte qui ont l’avantage de pr´esenter un contenu phon´etique similaire d’un sujet `a l’autre.

6.2.1.3 Comparaison du mod`ele agr´eg´e vs mod`ele simple

De la mˆeme mani`ere que pour l’analyse GMM, nous avons souhait´e comparer les perfor- mances de notre mod`ele de classification agr´eg´e avec celles qu’on aurait avec le mod`ele simple. Pour estimer les performances du mod`ele simple nous avons moyenn´e les courbes DET issues de chaque run, et calcul´e l’EER correspondant `a la courbe DET moyenne. Les performances obte- nues sont d´etaill´ees Tableau 6.5. Nous pouvons constater une am´elioration d’environ 2% pour le mod`ele agr´eg´e, compar´e au mod`ele simple. Cette am´elioration due `a la m´ethode ensembliste est du mˆeme ordre que celle constat´ee avec les analyses GMM (cf. partie 5.2.1.6).

Tˆache LDA + dist cos PLDA

mod`ele simple repet 35 % 35 %

monologue 35 % 35 %

mod`ele agr´eg´e repet 32 % 33 %

monologue 33 % 33 %

Table 6.5 – Comparaison des EER du mod`ele simple et du mod`ele agr´eg´e. Classification MP hommes vs sains hommes `a partir des tˆaches de r´ep´etitions de phrases et du monologue des enregistrements t´el´ephoniques. Une augmentation de donn´ees a eu lieu pour l’entraˆınement de la LDA et la PLDA du monologue.

6.2.1.4 Cas de la tˆache DDK

Apr`es avoir analys´e les tˆaches de monologue et r´ep´etition de phrases avec les x-vecteurs, nous avons r´ealis´e la classification `a partir des tˆaches DDK, sans puis avec augmentation de donn´ees pour la LDA et PLDA. Comme pour la tˆache de r´ep´etition de phrases, nous constatons que l’augmentation de donn´ees n’am´eliore pas les performances, ce qui est coh´erent avec le fait que les tˆaches DDK sont ´egalement texte-d´ependant.

Nous observons une d´egradation des performances par rapport aux r´esultats obtenus avec l’analyse MFCC-GMM (EER=25%). Cette d´et´erioration peut ˆetre expliqu´ee par le fait que le DNN a ´et´e entrain´e avec de la parole issue principalement de conversations, incluant une large vari´et´e de phon`emes. Les tˆaches DDK ne font intervenir qu’un nombre restreint de phon`emes et articul´es dans un certain ordre. La sp´ecificit´e de ces tˆaches n’est pas exploit´ee par la calibration du DNN, r´esultant en une perte du pouvoir discriminant par rapport aux GMM.

Tˆache distance cos LDA + dist cos PLDA

DDK non augment´e 35 % 29 % 30 %

DDK augment´e - 30 % 30 %

Table 6.6 – EER issus de la classification MP hommes vs sains hommes, `a partir des tˆaches de diadococin´esie des enregistrements t´el´ephoniques. Comparaison avec et sans augmentation de donn´ees pour LDA et PLDA.

6.2.1.5 Entraˆınement DNN avec notre base de donn´ees

Afin de rendre le DNN plus adapt´e pour le type particulier des tˆaches DDK, nous avons fait un essai en entrainant le DNN nous-mˆemes avec nos donn´ees. Nous avons utilis´e pour chaque run les donn´ees du groupe d’entraˆınement pour entraˆıner le DNN, avec une augmentation de donn´ees. Les r´esultats obtenus sont pr´esent´es Tableau 6.7. Nous constatons une d´egradation des performances quand on effectue l’augmentation de donn´ees pour l’entraˆınement de la LDA et

PLDA. Les r´esultats issus de la classification par distance cosinus avec LDA et PLDA sans aug- mentation de donn´ees, sont similaires `a ceux obtenus avec le DNN pr´e-entrain´e. L’entraˆınement de notre DNN est certes plus sp´ecifique mais souffre peut-ˆetre du manque de donn´ees, ce qui pourrait expliquer pourquoi il ne conduit pas `a de meilleures performances.

Tˆache distance cos LDA + dist cos PLDA

DDK non augment´e 47 % 29 % 30 %

DDK augment´e - 39 % 38 %

Table 6.7 – EER issus de la classification MP hommes vs sains hommes, `a partir des tˆaches de diadococin´esie des enregistrements t´el´ephoniques. X-vecteurs extraits `a partir d’un DNN entrain´e avec notre base de donn´ees. Comparaison avec et sans augmentation de donn´ees pour LDA et PLDA.

6.2.1.6 Synth`ese

Nous avons synth´etis´e les r´esultats obtenus lors de classification homme MP vs homme sain dans le Tableau 6.8 en comparant les performances des trois m´ethodes que nous avons utilis´ees pour la classification `a partir des x-vecteurs (distance cosinus sans et avec LDA, et PLDA) avec les r´esultats obtenus lors de la classification MFCC-GMM pour les tˆaches monologue, r´ep´etition de phrase et DDK.

Nous constatons globalement que l’ajout de la LDA avant de calculer la distance cosinus am´eliore significativement les r´esultats, et sont au mˆeme niveau que la PLDA. Nous observons que l’augmentation de donn´ees am´eliore bien les r´esultats de la tˆache texte-ind´ependant mais pas des tˆaches texte-d´ependant. Ainsi le classifieur le plus appropri´e pour la d´etection de MP `a partir des x-vecteurs semble ˆetre la distance cosinus pr´ec´ed´e de la LDA (il n’y a pas d’utilit´e de garder la PLDA, plus complexe, si elle n’am´eliore pas la r´esultats), entrain´ee avec augmentation de donn´ees seulement pour le monologue. Le Tableau r´esum´e 6.9 permet de comparer ais´ement les r´esultats issus de l’analyse MFCC-GMM avec la classification LDA + distance cosinus `a partir des x-vecteurs. Nous observons que cette derni`ere est plus performante de 3% que la premi`ere pour les tˆaches de paroles “classiques” que sont le monologue et la r´ep´etition de phrases, mais moins performante de 5% pour les tˆaches DDK plus sp´ecifiques.

Tˆache MFCC-GMM dist cos LDA + dist cos PLDA LDA aug + dist cos PLDA aug

repet 35 % 39 % 32 % 33 % 33 % 31 %

monol 36 % 33 % 35 % 36 % 33 % 33 %

DDK 25 % 35 % 29 % 30 % 30 % 30 %

Table 6.8 – EER issus de la classification MP hommes vs sains hommes, `a partir des tˆaches de r´ep´etitions de phrase, monologue et diadococin´esie des enregistrements t´el´ephoniques. Compa- raison types de classifications et effet augmentation de donn´ees.