• Aucun résultat trouvé

Classification avec GMM sur les transitions “non vois´ e ` a vois´ e”

R´ecemment des ´etudes ont montr´e de bonnes performances de classification en s’int´eressant aux transitions des sons vois´es `a non vois´es et inversement [Orozco-Arroyave et al., 2015b, V´asquez-Correa et al., 2017a]. Les transitions “non vois´e `a vois´e” correspondent `a des attaques de sons et semblent ˆetre particuli`erement discriminantes dans MP. Nous avons voulu tester si ces transitions pouvaient ˆetre utilis´ees seules pour construire un mod`ele GMM MP et un mod`ele sain `

a partir des MFCC, afin d’effectuer la classification. Pour cela nous avons utilis´e une m´ethode d’autocorr´elation `a l’aide du logiciel Praat pour extraire la fr´equence fondamentale, `a raison d’environ une information sur la fr´equence fondamentale toutes les 10ms. Cette information in- dique s’il existe une fr´equence fondamentale pour la trame en question (donc si elle correspond `a un son vois´e) et si oui donne la valeur de cette fr´equence. Ensuite nous avons extrait les temps de transitions s´eparant des s´equences d’au moins 4 trames non vois´ees suivies d’au moins 4 trames vois´ees. A partir de ces temps de transitions nous avons pu isoler les morceaux des monologues correspondant `a ces transitions. Nous avons choisi d’utiliser des morceaux d’une dur´ee de 60ms, centr´es autour des temps de transitions (soit 30ms de sons non vois´es suivis de 30ms de sons vois´es, faisant un total de 6 vecteurs MFCC). Nous avons utilis´e la mˆeme m´ethode que partie 5.1 pour extraire les MFCC et effectuer la classification. Nous avons entrain´e les GMM `a partir des transitions extraites des monologues de 36 MP hommes et 36 sains hommes, et test´e les sujets restants. Ceci repr´esentait environ 3min de donn´ees paroles par GMM et 6s par sujet test. Nous avons utilis´e 20 gaussiennes pour les GMM et `a la diff´erence de partie 5.1 nous avons choisi de calculer les deltas des MFCC sur 2 trames cons´ecutives au lieu de 3, vu la courte dur´ee des extraits audio correspondant aux transitions. Nous avons obtenu un EER de 40%, ce qui signifie que la m´ethode MFCC-GMM n’est pas la meilleure m´ethode pour d´etecter MP `a partir des transitions non vois´e `a vois´e issues du monologue.

Dans le but d’am´eliorer la classification `a partir des transitions non vois´e `a vois´e, nous avons choisi de garder seulement les transitions correspondant au phon`eme /p/. En effet comme nous l’avions expliqu´e section 2.3.2, l’articulation des consonnes occlusives est un des ´el´ements les plus touch´es dans la dysarthrie parkinsonienne. Donc on peut supposer que les transitions non vois´e `a vois´e correspondant `a des attaques de consonnes occlusives contiennent plus d’infor- mations discriminantes que les autres. Nous avons alors choisi d’extraire les transitions non vois´e `a vois´e `a partir de la tˆache de r´ep´etitions lentes de syllabes /pa/. Nous avons utilis´e la mˆeme m´ethode que pr´ec´edemment pour isoler les transitions, extraire les MFCC et effectuer la classification. Ce qui repr´esentait en moyenne 1min de donn´ees paroles pour chacun des GMM MP et sain, et 2s par sujet test. Nous avons obtenu un EER de 27% ± 6%, cf. Tableau 5.11, ce qui est un bon r´esultat vu la faible quantit´e de donn´ees utilis´ees pour l’entraˆınement et le test. Pour la comparaison nous avons ´egalement entrain´e les GMM et effectu´e une classification

`

a partir de la totalit´e de la tˆache de r´ep´etition lente /pa/, et plus seulement `a partir des transi- tions non vois´e `a vois´e, ce qui a conduit `a un EER de 29%. Donc le fait d’isoler les attaques des phon`emes /p/, am´eliore de 2% les performances par rapport aux syllabes /pa/ enti`eres.

Nous avons aussi effectu´e une classification `a partir des transitions non vois´e `a vois´e ex- traites de la tˆache de r´ep´etitions rapides de syllabe /pa/ et obtenu cette fois un EER de 41%. Cette d´et´erioration importante des performances peut s’expliquer par le fait que la d´etection des transitions non vois´e `a vois´e est plus difficile lors des r´ep´etitions rapides : on constate que pour certains sujets presque toutes les trames sont consid´er´ees comme vois´ees. Pour faciliter la d´etection des phon`emes non vois´es on a essay´e par la suite d’abaisser le seuil de voisement, mais cela a entrain´e la perte des vrais sons vois´es chez d’autres sujets.

tˆaches dur´ee GMM dur´ee test EER

monologue 3min 6s 40%

/pa/ lent 1min 2s 27%

/pa/ rapide 30s 1s 41%

Table 5.11 – R´esultats de la classification MP hommes vs sains hommes `a partir des transi- tions non vois´e `a vois´e issues des enregistrements faits avec le microphone professionnel. Pour le monologue les transitions correspondent `a l’attaque des sons vois´es et pour les tˆaches de r´ep´etition des syllabes /pa/ rapides (DDK) et lentes, les transitions correspondent `a la pronon- ciation du phon`eme /p/. Les dur´ees GMM correspondent `a la dur´ee des donn´ees voix utilis´ees pour l’entraˆınement du GMM MP et du GMM sain, compos´e de 36 sujets chacun. Les dur´ees test correspondent `a la dur´ee des donn´ees voix utilis´ees pour le test de chaque sujet.

La classification des femmes par rapport au phon`eme /p/ a quant `a elle conduit `a un EER de 49% soit aucune diff´erence avec le hasard. Concernant la classification des iRBD par rapport aux sujets sains, nous avons obtenu un EER de 43%. Ces diminutions de performance concernant les femmes et les iRBD sont du mˆeme ordre que partie 5.1 en prenant les tˆaches enti`eres.

Pour finir, afin d’´evaluer l’impact des conditions d’enregistrement sur la classification MFCC- GMM `a partir des phon`emes /p/ issus de tˆaches de r´ep´etions lentes de la syllabe /pa/, nous avons effectu´e ´egalement une classification MP hommes vs sains hommes `a partir des enre- gistrements du microphone interne de l’ordinateur (avec l’option de d´ebruitage actif) et des enregistrements t´el´ephoniques (toutes sessions confondues). Nous avons obtenu un EER de 42% pour ces deux bases de donn´ees. Ces d´et´eriorations de performances sont coh´erentes avec les r´esultats pr´ec´edents. Les enregistrements issus du microphone interne de l’ordinateur conduisent `

a de moins bonnes performances pour les tˆaches DDK et les phon`emes /p/, semblant ainsi mas- quer une partie des diff´erences MP vs sains que l’on peut observer dans la prononciation des consonnes occlusives. Ceci pouvant ˆetre dˆu `a la distance accrue entre le sujet et le microphone, `a la fonction de r´eduction de bruit active ou `a la moins bonne qualit´e du microphone. Quant aux enregistrements t´el´ephoniques, le fait de cumuler toutes les sessions, procurant 6s de donn´ees parole par sujet en moyenne, n’entraine pas une augmentation suffisamment importante de la taille de la base de donn´ees pour pallier la qualit´e r´eduite des enregistrements.

Pour conclure, en extrayant seulement les phon`emes /p/ de la tˆache de r´ep´etition lente de syllabes /pa/ enregistr´ee avec le microphone professionnel, soit environ 2s de donn´ees parole par sujet, nous avons pu classer les MP hommes par rapport aux sains hommes avec un EER de 27%. Mˆeme si ce r´esultat n’est atteint que pour les hommes et avec le microphone de bonne qualit´e, il va dans le sens d’un pouvoir discriminant important du phon`eme /p/ dans la d´etection de MP.