• Aucun résultat trouvé

4.4 Constitution de bases de donn´ ees suppl´ ementaires non analys´ ees dans ma th` ese

5.1.1 Analyse Pr´ eliminaire

Nous avons effectu´e une analyse pr´eliminaire, pr´esent´ee `a la conf´erence ATSIP [Jeancolas et al., 2017], `a partir des participants que nous avions pu enregistrer avec le microphone pro- fessionnel `a ce moment-l`a (constituant un sous-groupe de la base de donn´ees actuelle). Nous avons utilis´e une m´ethode de classification simple, inspir´ee de ce qui se fait en reconnaissance du locuteur, `a l’aide de la toolbox Voicebox de Matlab. Nous avons consid´er´e les hommes et les femmes s´epar´ement car les diff´erences au niveau des MFCC dues au genre diminuent les performances de classification en reconnaissance du locuteur. Cela a ´egalement ´et´e montr´e dans la d´etection de pathologies vocales [Fraile et al., 2009b].

La m´ethode consista `a extraire 12 MFCC calcul´es sur des fenˆetres temporelles de Hamming de 20ms, toutes les 10ms. 34 filtres MEL triangulaires ont ´et´e utilis´es, allant de 0 `a 48kHz. Nous avons ensuite cr´e´e 2 mod`eles GMM de dimension 12 pour mod´eliser les distributions de MFCC obtenus dans le groupe MP et dans le groupe sain, et ce avec seulement des sujets hommes d’un cˆot´e et femmes de l’autre. Des matrices diagonales de covariance ont ´et´e utilis´ees dans l’algo- rithme EM. Enfin un calcul de vraisemblance ´etait effectu´e sur les MFCC des sujets tests par rapport aux deux mod`eles correspondant `a leur genre, la vraisemblance la plus grande donnant le r´esultat de classification. Une validation crois´ee de type Leave One Subject Out (LOSO) a ´et´e effectu´ee afin d’obtenir un r´esultat pr´ecis de la performance de classification.

Les r´esultats obtenus pour les diff´erentes tˆaches vocales sont pr´esent´es dans [Jeancolas et al., 2017]. Il faut les consid´erer avec pr´ecaution car nous nous sommes rendu compte par des ana- lyses ult´erieures qu’ils ´etaient biais´es (les performances ´etaient surestim´ees), ceci ´etant dˆu `a des conditions d’enregistrement (le lieu) pas toujours appari´ees entre les groupes MP et sains. En effet tous les MP ont ´et´e enregistr´es dans des salles de consultations `a l’hˆopital de la Piti´e Salpˆetri`ere ainsi que quelques sujets sains. Les autres sujets sains (recrut´es en plus du protocole ICEBERG afin d’avoir assez de sujets sains pour faire des analyses de classification) avaient ´et´e enregistr´es directement chez eux ou `a leur lieu de travail, avec le mˆeme mat´eriel d’acquisition.

Figure 5.1 – Phase d’entraˆınement : Construction d’un mod`ele GMM par groupe (hommes MP, femmes MP, hommes contrˆoles, femmes contrˆoles) `a partir des MFCC des sujets utilis´es pour l’entraˆınement. EM algo : algorithme Esp´erance-Maximisation.

Figure 5.2 – Phase test : les MFCCs des sujets tests sont test´es par rapport au mod`ele MP et control correspondant au genre. PD : Parkinson’s Disease, HC : Healthy control

Figure 5.3 – Projections des GMM multidimensionnels sur les 12 MFCC. Les GMM sont entrain´es sur le groupe hommes MP `a gauche et hommes sains `a droite

En effectuant des analyses compl´ementaires `a l’´etude pr´eliminaire, nous nous sommes rendus compte que notre algorithme classait mieux les sujets sains enregistr´es en dehors de l’hˆopital que les sujets sains enregistr´es `a l’hˆopital. Nous avons suspect´e un biais provenant de la nature du bruit de fond, ce que nous avons confirm´e en parvenant `a classer correctement les sujets `a partir de la tˆache de silence. Ce qui signifiait que le lieu d’enregistrement avait un impact sur la d´ecision de classification MP vs sain.

En examinant les spectrogrammes obtenus pendant les tˆaches de silence, on peut constater que ceux enregistr´es `a l’hˆopital contenaient plus de bruit et avec souvent une ou plusieurs bandes (entre 50 et 800Hz) particuli`erement marqu´ees, d´ependant du box utilis´e pour les enregistre- ments.

Afin de supprimer ce bruit (de type a priori additif stationnaire), nous avons appliqu´e la m´ethode de soustraction spectrale [Boll, 1979] d´etaill´ee en partie 3.3.1.2, impl´ement´ee dans le logiciel Praat et calcul´ee `a partir de la tˆache de silence de 5s.

et apr`es d´ebruitage d’un sujet enregistr´e `a l’hˆopital et d’un autre enregistr´e `a son domicile. On constate que le bruit de fond est plus prononc´e `a l’hˆopital avec la pr´esence ici de bandes plus marqu´ees autour de 50Hz et 300Hz. Apr`es d´ebruitage on constate que le bruit de fond a disparu pour les deux types d’environnements.

(a) Enregistrement `a l’hˆopital sans d´ebruitage

(b) Enregistrement hors hˆopital sans d´ebruitage

(c) Enregistrement `a l’hˆopital apr`es d´ebruitage

(d) Enregistrement hors hˆopital apr`es d´ebruitage

Figure 5.4 – Spectrogrammes de deux enregistrements effectu´es `a l’hˆopital (a) et hors hˆopital, ici au domicile du sujet (b), la tache enregistr´ee est la lecture d’une phrase. On constate que le signal de l’hˆopital est plus bruit´e que le signal hors hˆopital avec notamment une bande `a 300Hz et une bande `a 50Hz. Les spectrogrammes (c) et (d) sont calcul´es apr`es d´ebruitage par soustraction cepstral.

Apr`es ce d´ebruitage par cette soustraction spectrale, nous avons ensuite am´elior´e notre m´ethode d’analyse sur temps courts `a partir des MFCC, en am´eliorant l’´etape d’extraction des MFCC et celle de la construction des GMM. Concernant les MFCC, nous avons augment´e leur nombre, ajout´e les d´eriv´ees premi`eres et secondes, ajout´e une ´etape de pr´etraitement (dithering et pr´eaccentuation), ajout´e une ´etape de d´etection de l’activit´e vocale et une ´etape de norma- lisation par soustraction de cepstre moyen sur fenˆetre glissante. Concernant les mod`eles, nous avons d’abord construit des GMM en utilisant des matrices diagonales de covariance puis nous les avons adapt´es en utilisant des matrices pleines de covariances. Nous avons ´egalement chang´e de logiciel d’analyse en choisissant kaldi [Povey et al., 2011] qui est un logiciel sp´ecialement con¸cu pour la gestion de grandes bases de donn´ees parole, c’est le plus utilis´e en ce moment dans la reconnaissance de la parole et du locuteur.

Nous avons effectu´e nos analyses `a partir des bases de donn´ees compl`etes pr´esent´ees partie 4, acquises avec le microphone professionnel, avec le microphone de l’ordinateur et avec le t´el´ephone. Les m´ethodes que nous avons utilis´ees et les r´esultats obtenus ont ´et´e pr´esent´es `a la conf´erence Interspeech [Jeancolas et al., 2019a] et sont d´etaill´es ci-dessous.