2.3 Impact d’une erreur de sp´ecification du mod`ele sur la d´etection
d’un signal . . . 103
3 HCT pour la d´etection d’un signal . . . 105
3.1 Diff´erentes versions de la m´ethode Higher Criticism . . . 105 3.2 HCT en situation de d´ependance . . . 113
4 Factor innovated Higher Criticism Thresholding . . . 114
4.1 D´ecorr´elation par des facteurs latents . . . 114 4.2 Limites de d´etection . . . 116 4.3 Factor innovated HCT . . . 119
5 Etude par simulations et analyse de donn´ees r´eelles . . . . 119
5.1 Etude par simulations . . . 119 5.2 Application aux potentiels ´evoqu´es . . . 121
6 Discussion et conclusion . . . 124
A la diff´erence du Chapitre 2, le Chapitre 4 aborde une proc´edure de tests
multiples dont le but initial n’est pas de contrˆoler le taux de faux positifs mais
de d´etecter un signal de fa¸con optimale. En effet, dans le cadre de la d´etection
d’un signal, c’est-`a-dire le test global de sa nullit´e, le Higher Criticism est construit
pour atteindre les limites d’optimalit´e de d´etection, pour certaines conditions sur
la parcimonie et l’amplitude du signal. Cette m´ethode est aussi connue pour ˆetre
efficace en terme d’estimation du support du signal. Ce chapitre ´etudie donc l’apport
de la d´ecorr´elation des statistiques de test sur les propri´et´es du Higher Criticism en
situation de d´ependance pour la d´etection et pour l’identification d’un signal.
1 Introduction
Les potentiels ´evoqu´es (ERP) sont des diff´erences de potentiels mesur´ees `a
diff´erents emplacements du crˆane d’un sujet. Les ERP permettent de relier l’activit´e
´
electrique c´er´ebrale, mesur´ee par ´electroenc´ephalographie (EEG), `a une condition
exp´erimentale physique ou mentale. Comme l’imagerie par r´esonance magn´etique
fonctionnelle (fMRI), les ERPs sont des outils de mesures non invasifs enregistrant
directement l’activit´e neurologique corticale. En revanche, contrairement `a la fMRI,
les ERPs poss`edent une meilleure r´esolution temporelle pour ´etudier l’´evolution
temporelle des processus mentaux et sont moins couteux. En recherche
fondamen-tale, les ERPs offrent une m´ethode psychophysiologique pour ´etudier les processus
attentionnels, le langage et les fonctions de la m´emoire, ce qui permet d’obtenir
des informations non disponibles `a partir d’´etudes comportementales seules. En
recherche clinique, les ERPs font partie des nombreux biomarqueurs non invasifs
propos´es pour ´evaluer des d´esordres neurologiques ou psychiatriques tels que la
1. INTRODUCTION
95
maladie d’Alzheimer, la d´eficience cognitive l´eg`ere amn´esique, les troubles de
l’at-tention ou encore l’hyperactivit´e.
Durant d’une exp´erience, les ERPs sont habituellement mesur´es en millisecondes
(ms) durant une `a quelques secondes, `a partir du d´ebut d’un ´ev´enement ext´erieur
(stimulus). Les courbes d’ERP sont connues pour ˆetre bruit´ees et tr`es variables, `a
la fois au sein d’un sujet et entre les sujets, ce qui explique que les courbes sont
habituellement moyenn´ees pour une mˆeme condition exp´erimentale et pour le mˆeme
sujet. Afin d’identifier des intervalles de temps durant lesquels les ERPs sont reli´es `a
un stimulus (r´eponse), les chercheurs doivent ´etudier simultan´ement la significativit´e
de milliers de tests d’hypoth`ese. Un ´equilibre doit alors ˆetre ´etabli entre le maintien
d’un taux de faux positifs suffisamment faible et l’assurance d’une puissance de
d´etection du signal correcte. Le but de ce chapitre est donc d’atteindre cet objectif
pour des donn´ees ERP pr´esentant une structure de d´ependance temporelle forte.
La recherche d’instants durant lesquels les ERP sont significativement associ´es `a
une variable r´eponse peut ˆetre vue comme un probl`eme d’identification d’un signal
sous le mod`ele Rare and Weak introduit par Donoho and Jin (2004). L’analyse `a
grande ´echelle de courbes ERP est en effet fond´ee sur une collection de statistiques
de testT = (T
1, . . . ,T
T) associ´ees aux tests de non association de la mesure `a
l’ins-tanttet de la variable cible, d’hypoth`ese nulleH
0,t. Le mod`ele Rare and Weakest
certes simple mais il fournit un cadre th´eorique utile pour ´etudier les propri´et´es des
proc´edures de d´etection d’un signal. Dans le contexte des tests multiples, Donoho
and Jin (2004) proposent la proc´edure Higher Criticism Thresholding (HCT) en
s’inspirant de l’id´ee de Tukey (1976) d’un crit`ere de significativit´e globale d’un
en-semble de tests. La proc´edure HCT est connue pour ˆetre optimale pour d´etecter un
signal sous l’ind´ependance. En effet, les limites de d´etection peuvent ˆetre exprim´ees
et Donoho and Jin (2004) montrent que la proc´edure HCT atteint les limites
op-timales th´eoriques de d´ecision. Pour le probl`eme plus difficile d’identification de
variables sous l’alternative dans une optique de classification ou de pr´ediction,
Do-noho and Jin (2008) montrent la sup´eriorit´e de la proc´edure HCT par rapport aux
proc´edures de tests multiples visant `a contrˆoler le taux de faux positifs (FDR).
Comme mentionn´e dans le Chapitre 2 et dans Causeur et al. (2012), la structure
de d´ependance forte observ´ee entre les courbes ERP induit une r´egularit´e temporelle
des statistiques de test : des p-valeurs faibles sont observ´ees en dehors du support
du signal ce qui peut mener `a des d´ecisions erron´ees. Cette instabilit´e du rang des
probabilit´es critiques due `a la d´ependance est aussi rapport´ee dans le contexte de
l’analyse de donn´ees g´enomique (voir par exemple Ahdesm¨aki and Strimmer (2010),
Friguet et al. (2009) et dans le Chapitre 3). La proc´edure HCT est connue pour ˆetre
performante lorsque les tests sont faiblement corr´el´es (voir Hall and Jin (2008)) mais
ses performances peuvent ˆetre am´elior´ees en prenant en compte la d´ependance (voir
Ahdesm¨aki and Strimmer (2010) et Hall and Jin (2010)). Par exemple, Hall and
Jin (2010) montrent que les limites th´eoriques de d´etection du signal ´etablies sous
le mod`ele Rare and Weaksont affect´ees par une forte d´ependance entre les tests et
les auteurs introduisent en cons´equence la proc´edure innovatedHCT (iHCT). Hall
and Jin (2010) d´emontrent alors qu’en situation de d´ependance, les propri´et´es de
d´etection de la proc´edure HCT sont r´etablies grˆace `a la proc´edure iHCT.
Par ailleurs, dans un contexte de s´election de variables en analyse lin´eaire
dis-criminante, Ahdesm¨aki and Strimmer (2010) appliquent la proc´edure HCT aux
CAT-scores, des statistiques de tests ajust´ees sur la corr´elation par une estimation
shrink´eede la matrice de covariance (voir Zuber and Strimmer (2009)). Les auteurs
montrent que les performances de la proc´edure HCT sont am´elior´ees par cette
d´ecorr´elation par une racine de l’inverse de la matrice de covariance obtenue par
une estimation de type James-Stein de la matrice de covariance. Dans ce contexte de
classification, dans le Chapitre 3, la notion de d´ecorr´elation `a la mani`ere de Friguet
et al. (2009) est adapt´ee au probl`eme de la s´election de variables pour la
classi-fication supervis´ee. L’approche propos´ee repose sur une hypoth`ese assez g´en´erale
de structure en facteurs de la matrice de covariance et un algorithme d’estimation
simultan´ee du signal et de la matrice de covariance est d´eduit, afin de d´ecorr´eler
efficacement les donn´ees avant l’´etape de classification.
Comme illustr´e dans le Chapitre 2 et dans Causeur et al. (2012), la structure
de d´ependance observ´ee sur les statistiques de tests calcul´ees sur les donn´ees ERP
peut ˆetre approch´ee par une d´ecomposition de la matrice de covariance par un
petit nombre de facteurs. La proc´edure propos´ee dans ce chapitre a pour but de
s´electionner efficacement les instants pour lesquels l’activit´e c´er´ebrale est associ´ee
`
a la variable de traitement. Cette approche poss`ede aussi de bonnes propri´et´es
alg´ebriques permettant l’expression explicite d’une racine de la matrice de
cova-riance inverse. Ce chapitre est motiv´e par l’analyse de donn´ees ERP collect´ees
du-rant une tˆache dite de oddballdont le d´eroulement de l’exp´erience est d´ecrit dans
la Section 2. Cette section introduit aussi quelques m´ethodes de d´etection d’un
si-gnal dans le cadre du mod`ele lin´eaire multivari´e. Une rapide revue de la proc´edure
HCT en situation d’ind´ependance et de d´ependance est pr´esent´ee dans la Section 3.
Le mod`ele `a facteurs est rappel´e en Section 4 puis une extension des limites de
d´etection sous d´ependance et la m´ethode Factor-innovated HCT (F-iHCT) sont
propos´ees. Les propri´et´es de cette proc´edure sont ´etudi´ees sur des simulations et
sur les donn´ees r´ecolt´ees lors de l’exp´erience de oddballdans la Section 5. Enfin, la
Section 6 conclut ce chapitre par une discussion.
2 D´etection d’un signal lors d’exp´eriences
ERP
On consid`ere dans ce chapitre le probl`eme statistique d’un test de comparaison
des moyennes deI groupes de courbes ERP o`u le nombre de courbes dans le groupe
i est not´e n
i. Les n = n
1+. . .+n
Icourbes ERP sont observ´ees aux instants
{t
1, . . . , t
T}pourJ sujets. Ce probl`eme de d´etection d’un signal est motiv´e par une
exp´erience auditive de oddball.
2.1 Exp´erience auditive de oddball
La tˆache dite deoddballest une des tˆaches exp´erimentales les plus couramment
utilis´ees dans les ´etudes ERPs (voir Picton (1992)). Le principe de cette exp´erience
est de pr´esenter deux classes de stimuli, l’un se produisant fr´equemment (standard),
2. D ´ETECTION D’UN SIGNAL LORS D’EXP ´ERIENCES ERP
97
l’autre plus rarement (cible). Il est demand´e au sujet de faire la distinction entre
les deux stimuli et de r´epondre en fonction du stimulus d´esign´e comme cible.
L’exemple trait´e dans ce chapitre concerne des donn´ees r´ecolt´ees lors d’une
exp´erience d’ERP auditive r´ealis´ee `a Kaohshung Medical University `a Taiwan. Les
tˆaches consistent en deux tonalit´es pures de 500 Hz et 1000 Hz. La premi`ere
tona-lit´e est pr´esent´ee 120 fois parmi les 150 r´ep´etitions alors que la seconde (la cible)
n’est pr´esent´ee que 30 fois. L’ordre de pr´esentation des tonalit´es est al´eatoire et on
demande au sujet de compter silencieusement le nombre de cibles. Pour chacune
des 4 ´electrodes (FZ, C3, C4 et O1) et pour chacun des J = 15 sujets, une courbe
ERP est obtenue pour les deux conditions de tonalit´e. Chaque courbe commence `a
-100 millisecondes (ms) et se termine `a 399.5 ms, avec une mesure toutes les
demi-millisecondes. Le stimulus commence `a 0 ms. Dans la suite de ce chapitre, seuls les
r´esultats sur l’´electrode FZ sont pr´esent´es.
Parmi une litt´erature vaste sur le sujet, Williams et al. (2005) observent un signal
au niveau de la zone parieto-centrale du crˆane autour de 300 ms (appel´e composante
P300), plus marqu´e apr`es l’occurence de l’´ev´enement cible. La probl´ematique est de
s´electionner des temps, possiblement autour de 300 ms, pour lesquels les mesures
ERP permettent de d´etecter quelle tonalit´e a ´et´e pr´esent´ee au sujet. Le but final
est de v´erifier si la composante P300 peut ˆetre consid´er´ee comme un marqueur
´
electrophysiologique pour ´etudier des troubles psychiatriques ou neurologiques.
On s’attend `a ce que l’activation c´er´ebrale soit diff´erente au cours du temps, en
fonction de la fr´equence de tonalit´e ´ecout´ee par les participants : 500 ou 1000 Hz.
Les donn´ees sont constitu´ees de T = 799 instants mesur´es pour J = 15 sujets et
pour I = 2 conditions. En guise d’exemple, la Figure 4.1 montre les courbes ERP
pour les sujets 1 (ligne bleue) et 2 (ligne orange) pour la condition 500 Hz (trait
plein) et 1000 Hz (trait pointill´e). Cette figure illustre la grande variabilit´e observ´ee
entre les sujets.
Dans le document
Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension
(Page 95-98)