D´ ecorr´ elation par ajustement des effets des facteurs

2.2 Mod´ elisation de la structure de d´ ependance

3. SYNTH `ESE : FARDEAU OU AUBAINE ?

4. ORGANISATION DE LA TH `ESE

2

R

1 Introduction . . . 34 2 Mod`ele pour l’analyse de donn´ees ERPs . . . 36

2.1 Exp´erience d’oubli direct . . . 36

D´ ecorr´ elation par ajustement des effets des facteurs

2.2 Mod´ elisation de la structure de d´ ependance

2.2.4 D´ ecorr´ elation par ajustement des effets des facteurs

a k facteurs : ˆε−Bˆ

Zˆ

pour chaque mod`ele `a k facteurs (B

,Ψ

). Dans la suite,

on utilisera cette m´ethode pour d´eterminer le nombre de facteurs.

2.2.4 D´ecorr´elation par ajustement des effets des facteurs

la-tents

Après estimation des paramètres du modèle à facteurs et des variables latentes,

l’idée principale des méthodes de sélection est de travailler sur des données

décorrélées. On définit les données ajustées sur l’effet de ces facteurs latents par :

˜

X = X−BZ.

En pratique, on approche les facteurs latents Z par ˜Z =E(Z|X). Pour faire le lien

avec les méthodes de décorrélation basées sur les innovations, on peut remarquer

que :

X−BZ˜ = ΨΣ

X.

Ainsi, les méthodes statistiques initialement développées sous l’hypothèse

d’indépendance ou de faible dépendance peuvent être appliquées aux données

obtenues apr`es ajustement de l’effet des facteurs latents. Friguet et al. (2009)

montrent les bonnes propriétés de la méthode de Benjamini-Hochberg appliquée

aux statistiques de tests calculées sur les données décorrélées. De la même manière,

dans une optique de classification supervis´ee, Leek et al. (2014) proposent de

combiner à l’étape de décorrélation une analyse diagonale discriminante dans

laquelle les param`etres sont estim´ees par shrinkage (Tibshirani et al. (2002)).

3 Synth`ese : fardeau ou aubaine ?

Il est int´eressant de remarquer que peu d’articles proposent des r´esultats

théoriques sur les performances de procédures de sélection de variables dans

un cadre général de dépendance : la plupart des résultats supposent en effet

l’ind´ependance entre variables explicatives (le bien connu X

, . . . , X

i.i.d.), une

faible dépendance ou une corrélation très structurée, comme par exemple une

structure auto-r´egressive (Hall and Jin (2008), Hall and Jin (2010)). Certaines

méthodes ignorant la corrélation entre statistique de tests ou de sélection s’avèrent

d’ailleurs robustes à la dépendance (Ahdesmäki and Strimmer (2010), Efron (2008),

Hand (2006), Efron (1975)), ce qui peut laisser penser que cette d´ependance peut

ˆ

etre n´eglig´ee en pratique.

Pourtant, sur la base `a la fois d’un argumentaire th´eorique et d’observations

pratiques, il semble dangereux de généraliser à des situations arbitrairement

complexes de dépendance les propriétés des procédures établies sous l’hypothèse

d’indépendance. Dans les contextes de données d’ERP ou génomiques évoquées

dans ce manuscrit, l’impact de la dépendance sur les propriétés des procédures

standards est en effet clairement négatif : perte de stabilité des procédures de tests

ou de s´election, diminution des niveaux de performance. En d’autres termes, si

l’on s’intéresse à la perturbation engendrée par la dépendance sur les propriétés

de méthodes construites idéalement sous l’hypothèse d’indépendance, il peut être

tentant de conclure que la d´ependance est un fardeau.

En revanche, l’intégration d’un modèle de la dépendance dans la construction

des méthodes permet d’atteindre non seulement l’objectif de restaurer les propriétés

de stabilité sous l’hypothèse d’indépendance mais aussi de réduire le bruit, de mieux

identifier le signal et donc d’augmenter la puissance des proc´edures de tests et de

s´election. C’est aussi le constat fait par Hall and Jin (2010) dans un paragraphe

intitulécorrelation, curse or blessing ?où les auteurs démontrent selon deux

raison-nements que face `a un probl`eme de tests multiples, la situation est plus favorable

lorsque les statistiques de test sont corr´el´ees. S’inspirant du paradigme du signal

Rare and Weak de Donoho and Jin (2008), Hall and Jin (2010) consid`erent qu’un

vecteur de statistiques de test est un vecteur gaussien que l’on peut ´ecrire comme

le mod`ele suivant :

X =µ+Z

o`u Z ∼ N

(0,Σ). Le signal est un vecteur µ parcimonieux dont k coordonn´ees

sont non nulles parmi m et de mˆeme amplitude A

, les indices des coordonn´ees

non nulles sont not´es `

, . . . , `

∈ {1, . . . , m}, l’ensemble de ces indices formant le

support du signal. Σ est une matrice de corr´elation et l’on cherche `a comparer la

situation o`u Σ =I

`a celle o`u Σ6=I

, du point de vue de l’estimation du support du

signal. Comme les moyennesµsont les mêmes dans les deux problèmes, une manière

de les comparer est de mesurer la quantit´e d’incertitude du bruitZ par l’entropie

différentielle. Pour une loi de probabilité à densitéφ, l’entropie différentielle s’écrit :

h(Z) = −

a k facteurs : ˆε−B^ˆ

Z^ˆ

En pratique, on approche les facteurs latents Z par ˜Z =_E(Z|X). Pour faire le lien

X−BZ^˜ = ΨΣ

situation o`u Σ =_I

`a celle o`u Σ6=_I

log|Σ| ≤ mlog(¹

|Σ| ≤ 1 =|_I

Une autre fa¸con de montrer que le cas o`u Σ 6= _I