• Aucun résultat trouvé

Nous avons adapt´e la derni`ere m´ethode en date utilis´ee en reconnaissance du locuteur, en encore jamais utilis´ee dans le cadre de la d´etection de MP. Cette m´ethode se base sur l’extraction d’embeddings, appel´es x-vecteurs, extraits `a partir d’un DNN prenant en entr´ee des vecteurs MFCC. Nous avons fait varier diff´erentes conditions, tout en comparant, pour chaque condition, 3 m´ethodes de classification (distance cosinus, LDA + distance cosinus et PLDA). Comme l’en- traˆınement du DNN n´ecessite g´en´eralement beaucoup de donn´ees, nous avons utilis´e un DNN pr´e-entrain´e pour la reconnaissance du locuteur.

Les analyses sur notre base t´el´ephonique concernant la classification des hommes MP vs sains MP, nous ont permis de constater que les performances ´etaient meilleures quand les segments audio test´es avaient la mˆeme dur´ee ( 3s) que les segments ayant servi pour l’entraˆınement (du DNN, de la LDA et de la PLDA) et pour la constitution des x-vecteurs moyens MP et sain. Mˆeme si isolement, les segments de courtes dur´ees sont en g´en´eral moins bien class´es que ceux de longue dur´ee [Snyder et al., 2017, Snyder et al., 2018a], le score moyen se fait `a partir de plus

Figure 6.2 – Courbes DET issues de la classification des femmes MP vs sain `a partir du monologue enregistr´e avec le microphone professionnel. Comparaison entre 4 m´ethodes de clas- sification : MFCC + GMM, x vecteurs + distance cosinus, x-vecteurs + LDA et distance cosinus, et PLDA.

de tests quand les segments sont plus courts, permettant ainsi d’am´eliorer les r´esultats pour des segments tests d’une dur´ee de quelques secondes, comparable `a celle des segments d’en- traˆınement.

Concernant la comparaison des diff´erents types de classifications, les observations sur l’en- semble des conditions d’enregistrements (t´el´ephone ou microphone professionnel) et pour les deux sexes (hommes et femmes) montrent dans l’ensemble une nette am´elioration des perfor- mances quand on ajoute une LDA avant le calcul de distance cosinus. On constate ´egalement une performance ´equivalente entre LDA + cos distance et la PLDA.

L’ajout de l’augmentation de donn´ees am´eliore les performances du monologue pour toutes conditions d’enregistrements et les groupes. Les performances des tˆaches texte d´ependantes telles que les r´ep´etitions de phrases et lecture ne sont dans l’ensemble pas am´elior´ees avec l’augmen- tation de donn´ees, ce qui est coh´erent avec le fait que l’augmentation de donn´ees en rajoutant du bruit de diff´erentes sortes, nuit `a la sp´ecificit´e du contenu phon´etique.

Nous avons effectu´e nos analyses sur 3 types de tˆaches : le monologue, la r´ep´etition de phrase (et lecture), et les tˆaches DDK et avons compar´e les r´esultats avec les performances obtenues avec l’analyse MFCC-GMM effectu´ee pr´ec´edemment. Nous avons constat´e, pour toutes les conditions d’enregistrements et tous les groupes, une am´elioration des performances de classification pour la tˆache de monologue (texte-ind´ependant), cf. Tableau 6.16. Ce qui est coh´erent avec le fait que les x-vecteurs ont ´et´e `a l’origine ´elabor´es pour la reconnaissance du locuteur ind´ependante du texte. L’am´elioration sur les tˆaches d´ependantes du texte (r´ep´etition de phrase et lecture) apparaˆıt ´egalement mais de mani`ere moins prononc´ee dans nos analyses, cf. Tableau 6.17. En- fin les tˆaches tr`es sp´ecifiques, comme les DDK, pr´esentent de meilleures performances avec les GMM qu’avec les x-vecteurs. Ceci pouvant ˆetre la cons´equence du DNN pr´e-entrain´e pour la reconnaissance du locuteur `a partir de donn´ees paroles beaucoup plus vari´ees que les phon`emes prononc´es lors les tˆaches DDK.

classes MFCC-GMM x-vecteur (LDA + dist cos) t´el´ephone MPh vs sainh 36 ± 8% 33 ± 8%

MPf vs sainf 40 ± 10% 33 ± 9%

micro pro MPh vs sainh 26 ± 6% 25 ± 6%

MPf vs sainf 45 ± 8% 30 ± 7%

Table 6.16 – Comparaison des EER (moyenne ± ´ecart type) obtenus avec la m´ethode MFCC- GMM et avec la m´ethode x-vecteurs class´es avec LDA + distance cosinus, pour la d´etection de MP chez les hommes (MPh vs sainh) et chez les femmes (MPf vs sainf). La tˆache utilis´ee est le monologue. Une augmentation de donn´ees est effectu´ee pour la m´ethode x-vecteurs.

classes MFCC-GMM x-vecteur (LDA + dist cos) t´el´ephone MPh vs sainh 35 ± 8% 32 ± 8%

MPf vs sainf 42 ± 10% 34 ± 9%

micro pro MPh vs sainh 22 ± 6% 22 ± 6%

MPf vs sainf 42 ± 8% 39 ± 7%

Table 6.17 – Comparaison des EER (moyenne ± ´ecart type) obtenus avec la m´ethode MFCC- GMM et avec la m´ethode x-vecteurs class´es avec LDA + distance cosinus, pour la d´etection de MP chez les hommes (MPh vs sainh) et chez les femmes (MPf vs sainf). La tˆache utilis´ee est la r´ep´etition de phrases (avec lecture) pour les enregistrements du microphone professionnel.

lyse en l’entrainant avec notre base de donn´ees (en utilisant les tˆaches DDK). Les performances obtenues n’ont pas montr´e d’am´elioration par rapport au DNN pr´e-entrain´e pour la reconnais- sance du locuteur. Ceci pouvant ˆetre dˆu `a la quantit´e r´eduite de nos donn´ees disponibles pour l’entraˆınement du DNN (n´ecessitant habituellement beaucoup de donn´ees).

Enfin le dernier point `a souligner est la nette am´elioration des performances, par rapport `a la m´ethode MFCC-GMM, avec la m´ethode x-vecteurs + LDA, pour la d´etection de MP chez les femmes `a partir du monologue (cf. Tableau 6.16). On trouve une am´elioration de l’EER de l’ordre de 10% (7% pour les enregistrements t´el´ephoniques et 15% pour le microphone profes- sionnel). Cette am´elioration pourrait provenir de la LDA qui diminue la variabilit´e intraclasse, connue pour ˆetre importante avec les param`etres types MFCC chez les femmes [Fraile et al., 2009b].

Ces deux types de classification inspir´ee de la reconnaissance du locuteur (MFCC-GMM et x-vecteur) permettent une d´etection de la maladie de Parkinson au stade d´ebutant en exploitant quasiment uniquement les troubles articulatoires. Or les alt´erations vocales rencontr´ees dans la maladie de Parkinson ne concernent pas seulement l’articulation, mais aussi la prosodie, la pho- nation, le d´ebit de parole et les habilit´es rythmiques. Nous avons donc voulu analyser ´egalement ces autres domaines afin d’enrichir les informations vocales dont nous pouvons disposer pour d´etecter MP pr´ecocement.

Classification MP vs sain `a partir de

param`etres globaux

Dans ce chapitre nous pr´esenterons dans un premier temps les param`etres globaux que nous avons extraits et les m´ethodes d’extraction utilis´ees. Ensuite nous ´etudierons si ces param`etres diff`erent de mani`ere significative entre les groupes MP et sain, en effectuant des analyses de variance. Enfin nous d´etaillerons la m´ethode de classification utilis´ee `a partir de ces param`etres et les performances obtenues.