• Aucun résultat trouvé

De mani`ere `a ´etudier le lien entre les param`etres vocaux et les donn´ees cliniques et d’imagerie, nous avons construit un mod`ele de r´egression lin´eaire multiple, cf. ´equation 9.1, auquel nous avons appliqu´e comme variables pr´edictives (Xi), suppos´ees ind´ependantes, notre ensemble de

param`etres vocaux s´electionn´e pr´ec´edemment et le genre. Les variables r´eponses que l’on cherche `

a expliquer (Yi) sont successivement : le score d’UPDRS III OFF, la quantit´e de transporteurs

dopaminergiques (DatScan) et le volume de la substance noire (IRM sensible `a la NM). Les indices i correspondent aux diff´erents sujets, n ´etant le nombre de sujets. i est l’erreur du

mod`ele qui r´esume l’information manquante dans l’explication lin´eaire des valeurs de Yi `a partir

des Xi1, ..., Xip. On suppose la distribution de igaussienne et de moyenne nulle. Les coefficients

a0, a1, ..., ap sont les param`etres `a estimer, p ´etant le nombre de variables pr´edictives (soit p = 8

dans notre cas).

Yi= a0+ a1Xi1+ a2Xi2+ ... + apXip+ i avec i=1, ..,n (9.1)

L’objectif est d’expliquer les donn´ees Y d’imagerie et d’UPDRS III par une combinaison lin´eaire de nos 7 param`etres vocaux Xk et l’information de genre. Les coefficients ak sont es-

tim´es de mani`ere `a en minimiser l’erreur de pr´ediction par une m´ethode de moindre carr´e. Plus pr´ecis´ement ils sont estim´es de mani`ere `a ce que la moyenne de l’erreur de pr´ediction sur l’en- semble des sujets soit nulle, et sont optimis´es pour r´eduire au maximum la variance de cette erreur de pr´ediction. Chacun de ces coefficients akexprime l’impact d’une variation d’une unit´e

de la variable pr´edictive Xk sur la moyenne de la variable r´eponse Y, son signe traduisant le

sens de l’effet. Cependant un coefficient plus ´elev´e qu’un autre ne signifie pas forc´ement que la variable pr´edictive correspondante a plus d’impact sur la variable r´eponse, car les variables pr´edictives n’ont pas forc´ement les mˆemes ordres de grandeur. Pour estimer l’effet d’une variable pr´edictive sur la variable r´eponse, il faut diviser l’estimation de son coefficient (Estimate) par l’erreur standard associ´ee (SE ). Le r´esultat obtenu est ce qu’on appelle la statistique-t (tStat) (cf. ´equation 9.2) correspondant au test de l’hypoth`ese nulle selon laquelle la variable pr´edictive n’aurait pas d’effet sur la variable r´esultat (donc le coefficient associ´e serait nul), sachant les autres variables pr´edictives du mod`ele.

tStat = Estimate

SE (9.2)

Enfin la valeur-p correspondante `a la statistique-t est calcul´ee afin de donner le niveau de significativit´e correspondant. Les estimations des coefficients, l’´ecart standard associ´e, les statistiques-t et la valeurs-p sont d´etaill´ees Figure 9.4.

Figure 9.4 – Estimation des coefficients (Estimate) des mod`eles de r´egression lin´eaire multiple, avec le score UPDRS III (en haut), le DatScan (au milieu) et le volume de la substance noire (en bas) comme variables r´eponses, et 7 param`etres vocaux et l’information du genre comme variables pr´edictives. Les ´ecarts standards associ´es (SE), les statistiques-t (tStat) et la valeurs-p sont ´egalement pr´ecis´ees, ainsi que le coefficient a0 (Intercept )

Nous pouvons constater que SD log Fo est le param`etre vocal expliquant le mieux les variables r´eponses UPDRS III, et les variables d’imagerie, avec p < 0.01 pour l’UPDRS III et le DatScan. La variable HNR a ´egalement un effet significatif sur l’UPDRS III et les donn´ees du DatScan. Si on observe l’ensemble des param`etres, on constate qu’ils semblent mieux expliquer les valeurs d’UPDRS III et de DatScan que le volume de la substance noire estim´e `a partir des images d’IRM sensible `a la NM, ce qui peut venir du fait que le volume de la substance noire tel qu’il a ´et´e calcul´e est moins discriminant que l’UPDRS et les donn´ees du DatScan, cf. section 9.2.2.

Concernant les statistiques des deux param`etres li´es aux pauses, on observe pour l’analyse avec l’UPDRS et celle avec le DatScan que chaque fois une de ces deux variables pr´edictives a un tr`es faible poids statistique, ce qui peut indiquer une probable redondance entre ces deux param`etres.

Les statistiques concernant la pr´ediction du mod`ele lin´eaire, compos´e de l’ensemble des 7 param`etres vocaux et de l’information de genre, sont pr´esent´ees au Tableau 9.1.

- On y trouve la Root Mean Squared Error (RMSE) d´efinie comme la racine de l’erreur quadratique moyenne. La RMSE est ´egale `a l’´ecart type des estimations de la variable r´esultats si l’estimateur est bien non biais´e (c’est-`a-dire erreur de pr´ediction de moyenne nulle). Pour une mˆeme variable r´esultat, plus la RMSE est grande, moins le mod`ele de r´egression linaire est pr´ecis. Si on compare les RMSE de diff´erentes variables r´esultats, il faut prendre en compte les diff´erences d’ordre de grandeur de ces derni`eres.

- Le param`etre R2, aussi appel´e coefficient de d´etermination, est plus adapt´e pour comparer les pr´ecisions de diff´erents mod`eles de r´egressions appliqu´es `a diff´erentes variables r´esultats. Ce param`etre indique la proportion de la variance d’une variable r´esultat expliqu´ee par le mod`ele de r´egression lin´eaire. Par exemple ici notre mod`ele de r´egression lin´eaire explique 42% de la variance des scores de DatScan, 21% de celle des scores UPDRS et 19% de celle des donn´ees d’IRM sensible `a la NM.

- Les statistiques F sont aussi pr´ecis´ees, elles repr´esentent le r´esultat du test F qui compare la pr´ecision de notre mod`ele de r´egression lin´eaire `a celle qu’on aurait avec un mod`ele compos´e seulement d’une constante.

- Enfin la valeur-p indique la significativit´e li´ee au test F du mod`ele.

Variables r´esultats Examen RMSE R2 F valeur-p

UPDRS III OFF tests moteurs 0.215 0.215 4.42 9.56E-5 Transporteurs dopaminergiques DatScan 1.34 0.422 4.47 4.06E-4 Volume substance noire IRM NM 5.2E-5 0.191 3.11 3.32E-3

Table 9.1 – R´esultats statistiques des r´egressions lin´eaires multiples pour les trois types de donn´ees cliniques et d’imagerie que l’on a cherch´e `a pr´edire `a partir des 7 param`etres vocaux (DVB, jitter local, shimmer local, HNR, SD log Fo, nombre des pauses entre 200 `a 500ms et dur´ee m´ediane des pauses) et de l’information du genre.

On constate que pour les trois variables r´esultats, qui sont le score UPDRS III, la quantit´e de transporteurs dopaminergiques et le volume de la substance noire, les mod`eles de r´egression lin´eaires ont des performances significatives (p allant de 3.32E-3 `a 9.56E-5). Ce qui signifie que les 7 param`etres vocaux et l’information de genre sont capables de pr´edire lin´eairement de mani`ere significative les r´esultats moteurs, et les donn´ees de DatScan et d’IRM sensible `a la NM. Ces param`etres vocaux corr`elent particuli`erement avec les donn´ees du DatScan car ils permettent d’expliquer 42% de la variance de la quantit´e de transporteur dopaminergique.

9.5

Conclusion sur corr´elations voix avec neuroimagerie et pa-