• Aucun résultat trouvé

Conclusion sur corr´ elations voix avec neuroimagerie et param` etres cliniques

En conclusion `a partir de 7 param`etres vocaux extraits sur une sous partie de notre base de donn´ees, lors de la lecture, du monologue et des voyelles soutenues enregistr´es avec le microphone professionnel, caract´erisant la prosodie, la r´epartition des pauses et la phonation, nous avons pu expliquer, grˆace `a un mod`ele de r´egression lin´eaire multiple, 42% de la variance des donn´ees du DatScan, 19% de celle des donn´ees d’IRM sensible `a la neurom´elanine et 21% de celle des scores UPDRS III. C’est `a dire que ces 7 param`etres, ainsi que l’information du genre, sont capables de pr´edire lin´eairement ces donn´ees de mani`ere significative.

La pr´ecision concernant la pr´ediction des donn´ees du DatScan est int´eressante car ces donn´ees caract´erisent particuli`erement bien l’´evolution de MP, notamment au stade d´ebutant. Les seuls inconv´enients de cet examen est son coˆut ´elev´e et son accessibilit´e r´eduite. L’int´erˆet de pour- suivre l’analyse de corr´elations avec la voix serait de pouvoir trouver un ensemble optimal de

param`etres vocaux qui permettrait de pr´edire la quasi-totalit´e de la quantit´e de transporteurs dopaminergiques, et donc d’avoir un examen moins coˆuteux et plus accessible pouvant fournir des informations ´equivalentes, et aider au diagnostic et au suivi de l’´evolution de la maladie. Plu- sieurs am´eliorations peuvent ˆetre apport´ees `a l’ensemble de param`etres vocaux qu’on a utilis´e, comme la suppression d’un des deux param`etres li´es aux pauses (pour enlever une redondance), et l’ajout d’autres param`etres li´es par exemple `a l’articulation ou `a la capacit´e de suivre un rythme constant.

Dans cette analyse nous nous sommes int´eress´es, en ce qui concerne le DatScan, seulement aux corr´elations avec la r´egion du cerveau la plus discriminante dans la MP, `a savoir la partie bilat´erale sensorimotrice du putamen. Les sous parties limbiques et associatives du putamen ont aussi ´et´e analys´ees, ainsi que d’autres parties du striatum, comme le noyau caud´e et le noyau accumbens, segment´es ´egalement en sous r´egions. Il serait int´eressant de tester le pou- voir pr´edictif de nos param`etres vocaux sur l’ensemble de ces r´egions, et d’´etudier quel type de param`etre corr`ele avec quelle r´egion. Comme les param`etres vocaux refl`etent chacun certains troubles sp´ecifiques li´es `a la maladie de Parkinson, cela pourrait nous permettre de mieux com- prendre les diff´erentes alt´erations des circuits neuronaux dans les premiers stades de la maladie de Parkinson. ´Egalement, faire l’analyse sur plus de sujets nous permettra de s´eparer les hommes des femmes, dans les mod`eles de r´egression lin´eaire, et de comprendre ces alt´erations genre par genre, afin de mieux comprendre les ´eventuelles diff´erences de m´ecanisme d’alt´eration de ces r´eseaux entre les hommes et les femmes, cf. [Haaxma et al., 2007].

Enfin les corr´elations des param`etres vocaux avec d’autres variables comme des scores cog- nitifs ou des scores g´en´etiques pourraient ´egalement s’av´erer utiles, afin de pouvoir pr´evoir, par exemple, certains d´eclins cognitifs associ´es `a la maladie de Parkinson.

Conclusion g´en´erale

Pour r´esumer nous nous sommes int´eress´es `a la d´etection automatique de MP au stade d´ebutant `a partir de l’analyse de la voix. Pour cela nous avons commenc´e par constituer des bases de donn´ees voix de plus de 200 sujets, comprenant des sujets MP d´ebutants (dont le diag- nostic remontait `a moins de 4 ans), des sujets sains et des sujets iRBD, consid´er´es au stade prodromique de la maladie de Parkinson. Ces sujets ont ´et´e enregistr´es pendant une quinzaine de minutes avec un microphone professionnel, et en simultan´e avec le microphone interne d’un ordinateur. Ils ont ´egalement effectu´e une fois par mois des enregistrements vocaux, en appelant un serveur vocal interactif, `a partir de leur propre t´el´ephone. Au cours de ces enregistrements, les sujets ont effectu´e diff´erentes tˆaches vocales, comme des voyelles soutenues, des r´ep´etitions de phrases, de la lecture, des r´ep´etitions rapides de syllabes (DDK), des r´ep´etitions lentes de syllabes `a un rythme impos´e, et un monologue au cours duquel ils ont racont´e leur journ´ee.

Nous avons analys´e ces enregistrements par le biais de 3 m´ethodes d’analyses diff´erentes, faisant intervenir diff´erentes ´echelles de temps, diff´erents param`etres vocaux (li´es `a diff´erents domaines phon´etiques), et diff´erents classifieurs. Les deux premi`eres m´ethodes (cf. chapitres 5 et 6) sont inspir´ees des m´ethodes utilis´ees en reconnaissance du locuteur. Elles utilisent toutes les deux des param`etres cepstraux, les MFCC, caract´erisant l’enveloppe spectrale, donc plutˆot li´es `a l’articulation. Pour la m´ethode MFCC-GMM, la classification s’op`ere `a l’´echelle de la trame (fenˆetre de 20ms), alors que pour la m´ethode des x-vecteurs, la classification se fait au niveau du segment (3s). La troisi`eme m´ethode, utilis´ee dans le chapitre 7, utilise des param`etres dits globaux, calcul´es `a l’´echelle des tˆaches, et refl´etant d’autres domaines de la voix, comme la prosodie, la phonation, la fluence verbale, et la capacit´e `a suivre un rythme impos´e. Enfin une fusion de ces trois m´ethodes a ´et´e effectu´ee. Nous avons fait toutes les analyses en traitant s´epar´ement les hommes des femmes, afin de ne pas rajouter la variabilit´e due au genre, et afin d’´evaluer d’´eventuelles diff´erences, selon le genre, dans les changements vocaux dus `a MP.

La premi`ere ´etape de toutes ses analyses a consist´e en divers pr´etraitements (comme la soustraction spectrale), afin entre autres de supprimer l’effet du non appariement complet de l’environnement acoustique entre les groupes, dˆu aux diff´erents lieux d’enregistrement.

Analyse MFCC-GMM

La premi`ere m´ethode de classification que nous avons choisi d’utiliser est celle des MFCC- GMM, car elle avait l’avantage de n´ecessiter peu de donn´ees et d’avoir un faible coˆut computa- tionnel. Nous avons entrain´e des mod`eles GMM pour d´ecrire la distribution des MFCC de sujets MP et de sujets sains d’entraˆınement, et utilis´e la log-vraissemblance (LLH) pour tester les vec- teurs MFCC de sujets tests, par rapport au mod`ele MP et au mod`ele sain. Nous avons ensuite calcul´e un score compris entre 0 et 1 `a partir des ratios des LLH, moyenn´ees sur l’ensemble des

trames test´ees.

Les meilleures performances ont ´et´e obtenues `a partir des tˆaches de lecture et r´ep´etitions de phrases ainsi qu’`a partir des tˆaches DDK (la tˆache /pataka/ ´etant la plus performante). La tˆache de type monologue s’est r´ev´el´ee un peu moins efficace, ce qui peut s’expliquer par la variabilit´e de son contenu phon´etique d’un sujet `a l’autre, inh´erente aux tˆaches texte-ind´ependant, pouvant masquer une partie de la variabilit´e due `a MP. Enfin les r´ep´etitions lentes et surtout les voyelles soutenues se sont r´ev´el´ees peu appropri´ees pour ce type d’analyse.

Nous avons ´egalement ´evalu´e l’influence du contenu des donn´ees utilis´ees pour l’entraˆınement au regard des tˆaches utilis´ees pour le test. Nous avons constat´e que le choix optimal des donn´ees utilis´ees pour l’entraˆınement des GMM r´esulte d’un compromis entre quantit´e et sp´ecificit´e.

La fusion des deux meilleures tˆaches, `a savoir la lecture + r´ep´etition de phrase test´ees par rapport `a des GMM sp´ecifiques, et la tˆache /pataka/ test´ee par rapport `a des GMM globaux, a conduit `a un EER de 17% (Acc=83%) chez les hommes, `a partir de 1min30 de paroles par sujet test, enregistr´ees avec le microphone professionnel.

Avec le microphone de l’ordinateur, nous avons observ´e une d´egradation moyenne de 8%, lors de la classification des hommes MP vs sain. Cette d´egradation ´etant l´eg`erement moins impor- tante pour la lecture mais plus importante pour les tˆaches DDK. Les causes de cette d´egradation sont li´ees `a la distance accrue entre la bouche et le microphone et `a la fonction de d´ebruitage actif de l’ordinateur. La qualit´e r´eduite du microphone de l’ordinateur pouvant ´egalement contribuer l´eg`erement `a cette d´egradation.

Concernant les enregistrements t´el´ephoniques, nous avons constat´e une d´egradation suppl´e- mentaire des performances, pour la classification des hommes MP vs sain, quand on utilisait une session t´el´ephonique par sujet test. Une simulation simple du t´el´ephone, `a partir de nos enregistrements issus du microphone professionnel, nous a permis de comprendre que cette d´egradation r´esultait pour moiti´e de l’´echantillonnage plus faible et de la bande de fr´equence ´

etroite. L’autre moiti´e serait la cons´equence des autres caract´eristiques du t´el´ephone, comme le bruit, la distorsion due aux codecs.. ainsi que l’ex´ecution non supervis´ee des tˆaches.

Nous avons ´egalement constat´e une am´elioration des performances de 10% en prenant plus de donn´ees parole par sujet test (consid´erant toutes les sessions t´el´ephoniques pour le test). Ceci aboutit `a un EER de 25% (Acc=75%) pour la d´etection des hommes MP vs sain, avec une moyenne de 5min de parole DDK par sujet test.

Nous avons effectu´e une analyse compl´ementaire en ciblant la classification MFCC-GMM `

a l’attaque des sons vois´es. Nous avons constat´e que les attaques des occlusives /p/ ´etaient sp´ecialement discriminantes dans la maladie de Parkinson, car une classification `a partir uni- quement de ces sons a conduit `a un EER de 27% (avec seulement l’´equivalent de 2s de donn´ees par sujet test´e).

Pour conclure sur cette analyse, la m´ethode de classification MFCC-GMM s’est av´er´ee per- tinente pour la d´etection des hommes MP d´ebutants, avec un EER de 17% pour les enregis- trements du microphone professionnel, et 25% pour les enregistrements t´el´ephoniques. Pour la d´etection de MP d´ebutant chez les femmes, cette m´ethode ne s’est pas r´ev´el´ee efficace (avec des EER autour de 40%), ce qui peut ˆetre dˆu, entre autres, `a la plus grande variabilit´e des MFCC chez les femmes.

Analyse `a partir des x-vecteurs

Dans le chapitre 6, nous avons adapt´e la derni`ere m´ethode en date utilis´ee en reconnaissance du locuteur, dont les performances d´epassent celles des GMM dans ce domaine, mais n´ecessitant

beaucoup de donn´ees et ´etant plus coˆuteuse computationnellement. C’est la premi`ere fois que cette m´ethode est utilis´ee dans le cadre de la d´etection de MP.

Cette m´ethode se base sur l’extraction d’embeddings, appel´es x-vecteurs, extraits `a partir d’un DNN prenant en entr´ee des vecteurs MFCC. Nous avons fait varier diff´erentes conditions, tout en comparant, pour chaque condition, 3 m´ethodes de classification (distance cosinus, LDA + distance cosinus et PLDA). Comme l’entraˆınement du DNN n´ecessite g´en´eralement beaucoup de donn´ees, nous avons utilis´e un DNN pr´e-entraˆın´e pour la reconnaissance du locuteur.

Les analyses sur notre base t´el´ephonique concernant la classification des hommes MP vs sains, nous ont permis de constater que les performances ´etaient meilleures quand les segments audio test´es avaient la mˆeme dur´ee ( 3s) que les segments ayant servi pour l’entraˆınement (du DNN, de la LDA et de la PLDA) et pour la constitution des x-vecteurs moyens MP et sain.

Concernant la comparaison des 3 types de classifications, on constate dans l’ensemble une nette am´elioration des performances quand on ajoute une LDA avant le calcul de distance co- sinus. On constate ´egalement une performance ´equivalente entre LDA + distance cosinus et la PLDA.

Nous avons ´egalement constat´e qu’effectuer une augmentation de donn´ees (en dupliquant nos donn´ees avec rajout de divers bruits) am´eliore les performances du monologue. Cela n’am´eliore, par contre, pas les performances des tˆaches plus texte-d´ependant, ce qui est coh´erent avec le fait que l’augmentation de donn´ees, en rajoutant du bruit de diff´erentes sortes, nuit `a la sp´ecificit´e du contenu phon´etique.

Si on compare les performances avec celles de notre classifieur MFCC-GMM, nous pouvons constater une am´elioration des performances de classification pour la tˆache de monologue. Ce qui est coh´erent avec le fait que les x-vecteurs ont ´et´e `a l’origine ´elabor´es pour la reconnaissance du locuteur ind´ependante du texte.

Les tˆaches tr`es sp´ecifiques, comme les DDK, pr´esentent quant `a elles, de meilleurs perfor- mances avec les GMM qu’avec les x-vecteurs. Ceci pouvant ˆetre la cons´equence du DNN pr´e- entraˆın´e pour la reconnaissance du locuteur `a partir de donn´ees paroles beaucoup plus vari´ees que les phon`emes prononc´es lors les tˆaches DDK.

Dans le but de rendre le DNN plus sp´ecifique aux tˆaches DDK, nous avons effectu´e une analyse compl´ementaire en l’entrainant cette fois avec notre base de donn´ees (`a partir des tˆaches DDK). Les performances obtenues n’ont pas montr´e d’am´elioration par rapport au DNN pr´e- entraˆın´e pour la reconnaissance du locuteur. Ceci pouvant ˆetre dˆu `a la quantit´e r´eduite de nos donn´ees disponibles pour l’entraˆınement du DNN (n´ecessitant habituellement beaucoup de donn´ees).

Enfin le dernier r´esultat `a souligner est la nette am´elioration des performances, par rapport `

a la m´ethode MFCC-GMM, pour la d´etection de MP chez les femmes. L’EER est r´eduit d’en- viron 10% pour le monologue (7% `a partir des enregistrements t´el´ephoniques et 15% `a partir du microphone professionnel). Cette am´elioration pourrait provenir de l’apport de la LDA, dont le principe est de diminuer la variabilit´e intraclasse, en augmentant la variabilit´e interclasses. Ainsi avec la classification x-vecteur combin´ee `a une LDA et une distance cosinus, nous arrivons `

a d´etecter les femmes MP d´ebutants avec un EER de 30% `a partir du microphone profes- sionnel (avec environ 1 min de parole par sujet test) et de 33% `a partir des enregistrements t´el´ephoniques (avec environ 5 min de parole par sujet test).

Ces deux types de classification (MFCC-GMM et x-vecteur) permettent une d´etection de la maladie de Parkinson au stade d´ebutant avec une pr´ecision (Acc) de 83% pour les hommes et

70% pour les femmes (avec le microphone professionnel) aux seuils EER, en exploitant quasiment uniquement les troubles articulatoires. Or les alt´erations vocales rencontr´ees dans la maladie de Parkinson ne concernent pas seulement l’articulation, mais aussi la prosodie, la phonation, le d´ebit de parole et les habilit´es rythmiques. Nous avons donc voulu analyser ´egalement ces autres domaines afin d’enrichir les informations vocales dont nous pouvons disposer pour d´etecter MP pr´ecocement.

Analyse des param`etres globaux

Nous avons ainsi extrait des param`etres attraits `a la prosodie, `a la phonation, `a l’utilisation des pauses, et `a la capacit´e `a suivre un rythme. Ces param`etres sont dits globaux, car ils sont calcul´es `a l’´echelle de la tˆache vocale.

Nous avons effectu´e des analyses de variance afin de savoir quels param`etres diff´eraient de mani`ere significative entre les groupes MP et sains, et quelles tˆaches vocales mettaient le mieux en valeur ces diff´erences. Les param`etres qui se sont r´ev´el´es les plus discriminants sont :

- SD log Fo, dont la diminution chez les MP traduit la monotonie de l’intonation. La dimi- nution de la prosodie concerne les r´ep´etitions de phrases, le monologue, et particuli`erement la lecture du dialogue `a contenance ´emotionnelle.

- Le nombre de pauses ∈ [200ms, 500ms] (r´eduit chez les MP) et la m´ediane des pauses > 200ms (allong´ee chez les MP) extraits du monologue. Les alt´erations de ces param`etres traduisent un d´ebit de parole saccad´e chez les MP.

- La variation relative du rythme (RSD ) lors de la r´ep´etition lente de syllabes et l’Ecart moyen avec le rythme impos´e. Ces param`etres sont augment´es chez les MP, traduisant une dif- ficult´e `a garder un rythme constant et suivre un rythme impos´e. Ces variations rythmiques sont major´ees lors de la r´ep´etition altern´ee des syllabes /pa/ et /kou/, par rapport aux r´ep´etitions non altern´ees.

Pour tous ces param`etres on constate des diff´erences entre les groupes MP et sain, que ce soit chez les hommes ou chez les femmes. N´eanmoins les diff´erences sont plus marqu´ees chez les hommes.

Les variations de l’intensit´e et les param`etres relatifs `a la phonation, se sont r´ev´el´es peu dis- criminants. Ceci peut s’expliquer par le fait que les alt´erations de ces deux types de param`etres sont connues pour ˆetre att´enu´ees par les traitements dopaminergiques [Rusz et al., 2013b], or quasiment tous nos patients sont trait´es et ont ´et´e enregistr´es en ON.

A partir de ces analyses nous avons choisi un ensemble r´eduit de 6 param`etres pour effectuer une classification, MP vs sain, de type SVM, avec une fonction noyau lin´eaire. L’ensemble de param`etres comprend : SD log Fo extrait dans deux conditions diff´erentes, les deux param`etres li´es aux pauses cit´es pr´ec´edemment, et les deux param`etres rythmiques extraits lors des tˆaches /pa kou/. Nous avons obtenu comme r´esultat, que ce soit avec le microphone professionnel ou avec le microphone de l’ordinateur, un EER de 22% pour les hommes, et d’environ 31% pour les femmes, le tout `a partir de 3 min de parole par sujet.

Concernant les enregistrements t´el´ephoniques, les meilleurs r´esultats ont ´et´e obtenus, en consid´erant seulement le param`etre prosodique SD log Fo. Les EER correspondants sont de 27% pour les hommes et 33% pour les femmes, avec environ 6 min de donn´ees parole par sujet. Ces performances de classification sont l´eg`erement inf´erieures aux performances obtenues avec les deux analyses pr´ec´edentes utilisant les MFCC. N´eanmoins cette analyse reste int´eressante car elle exploite des caract´eristiques diff´erentes de la voix, et est donc porteuse d’informations

compl´ementaires concernant les alt´erations vocales dans la maladie de Parkinson. Fusion

Afin de prendre en compte les diff´erentes informations, quant au caract`ere parkinsonien d’une voix, issues de ces m´ethodes d’analyses, nous avons effectu´e une fusion de ces trois m´ethodes. Nous avons opt´e pour une m´ethode simple de fusion `a vote majoritaire. Nous avons constat´e une am´elioration de 6% par rapport au meilleur classifieur, pour la d´etection des hommes MP enregistr´es avec le microphone professionnel. La performance de classification s’´elevant alors `a Acc=89% (avec Sp=92% et Se=87%).

Concernant les enregistrements t´el´ephoniques, la fusion n’a pas am´elior´e les r´esultats. Ce qui est probablement dˆu aux moins bonnes performances des trois classifieurs, en effet plus les performances sont ´elev´ees plus la fusion a de chances d’am´eliorer les r´esultats.

Enfin pour les femmes, ce type de fusion n’a pas non plus am´elior´e les performances de classification. Ceci r´esulterait de la mauvaise performance de la m´ethode MFCC-GMM pour les femmes, qui aurait un impact n´egatif sur la d´ecision par vote majoritaire.

Effet du genre

A partir de ces trois m´ethodes de classification, nous avons constat´e un gros effet de genre, avec de moins bonnes performances de classification pour les femmes. Plusieurs raisons sont `

a l’origine de ces diff´erences. Tout d’abord, la plus grande variabilit´e des MFCC chez les femmes [Fraile et al., 2009b] semble nuire consid´erablement `a la d´etection de MP par la m´ethode