• Aucun résultat trouvé

Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension

N/A
N/A
Protected

Academic year: 2021

Partager "Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension"

Copied!
146
0
0

Texte intégral

(1)

HAL Id: tel-01326486

https://tel.archives-ouvertes.fr/tel-01326486

Submitted on 3 Jun 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

la classification de données corrélées en grande dimension

Emeline Perthame

To cite this version:

Emeline Perthame. Stabilité de la sélection de variables pour la régression et la classification de données corrélées en grande dimension. Statistiques [math.ST]. Université Rennes 1, 2015. Français.

�NNT : 2015REN1S122�. �tel-01326486�

(2)

ANN´ EE 2015

TH` ESE / UNIVERSIT´ E DE RENNES 1 sous le sceau de l’Universit´ e Europ´ eenne de Bretagne

pour le grade de

DOCTEUR DE L’UNIVERSIT´ E DE RENNES 1

Mention : Math´ ematiques et applications Ecole doctorale Matisse

pr´ esent´ ee par

Emeline Perthame

Pr´ epar´ ee ` a l’IRMAR (UMR CNRS 6625) Institut de Recherche Math´ ematique de Rennes

Laboratoire de Math´ ematiques Appliqu´ ees d’Agrocampus-Ouest

Stabilit´ e de la

s´ election de variables pour la r´ egression et la classification de donn´ ees corr´ el´ ees en grande dimension

Th` ese soutenue ` a Agrocampus-Ouest le 16 octobre 2015

devant le jury compos´ e de :

St´ ephane ROBIN

DR, AgroParisTech/INRA / rapporteur

Korbinian STRIMMER

PR, Universit´ e de Leipzig / rapporteur

Michel DELECROIX

PR, UPMC / examinateur

Anne PHILIPPE

PR, Universit´ e de Nantes / examinatrice

Sylvain SARDY

PR, Universit´ e de Gen` eve / examinateur

David CAUSEUR

PR, Agrocampus-Ouest / directeur de th` ese

(3)
(4)

REMERCIEMENTS

I would like to sincerely thank St´ ephane Robin and Korbinian Strimmer for reporting this thesis as well as Sylvain Sardy, Anne Philippe and Michel Delecroix for their kind participation as examiners in the Ph.D. defense.

I extend my thanks to Ching-Fan Sheu, for enabling this successful collaboration between the Department of statistics of Agrocampus-Ouest and the National Cheng Kung University at Taiwan, for his expertise and for providing the data which stimulated the statistical questions of this thesis.

Je remercie tr` es sinc` erement David Causeur, mon directeur de th` ese, pour tout ce qu’il m’a appris d’un point de vue scientifique mais aussi pour ses pr´ ecieuses qualit´ es humaines. Je te remercie pour ta confiance, car tu m’as orient´ ee tout en me laissant libre dans mes choix. Merci infiniment d’ˆ etre toujours encourageant, rassurant et de t’ˆ etre d´ emen´ e pendant mon stage de M2 pour trouver un financement de th` ese.

Je voudrais adresser des remerciements chaleureux ` a Michel Delecroix pour avoir pris soin des nombreuses promotions de l’ISUP en tant que directeur et enseignant et plus personnellement, pour m’avoir mise en contact avec David lors de ma recherche de stage de M2.

J’adresse ´ egalement des remerciements ` a l’ensemble des membres du d´ epartement de math´ ematiques appliqu´ ees d’Agrocampus-Ouest : Karine et Elizabeth, sans qui le d´ epartement ne tournerait pas aussi bien, Fran¸ cois, Julie, S´ ebastien et Mathieu avec qui j’ai partag´ e mon quotidien : pauses caf´ es, pauses d´ ejeuners, repas de No¨ el ou encore anniversaires. Mine de rien, je me suis attach´ ee

`

a vous tous. Je retiens de ces 3 ann´ ees pass´ ees parmi vous une ambiance amicale

`

a laquelle vous participez tous ` a votre mani` ere. Enfin, j’adresse un petit mot particulier ` a Magalie dont j’ai partag´ e le bureau pendant ces trois ans. Je n’ai qu’une chose ` a dire : merci beaucoup, c’´ etait vraiment (vraiment) super d’ˆ etre ta co-bureau !

Je remercie ma coll` egue (et grande soeur de th` ese) Chlo´ e. Nous avons essentielle-

ment travaill´ e ` a distance et j’ai appr´ eci´ e nos coups de t´ el´ ephone-points avancement

d’article-papotages divers et vari´ es. Tu m’as beaucoup appris et je te remercie pour

ta patience, ta disponibilit´ e et pour ˆ etre toujours rassurante.

(5)

Je ne peux ´ ecrire ces remerciements sans ´ evoquer Vincent et Tam, mes acolytes tout au long de ces 3 ans : on est arriv´ e presque en mˆ eme temps ` a Rennes et on va en partir presque en mˆ eme temps. J’ai pass´ e avec vous de tr` es bons moments au bureau, au restau, au cin´ ema, ` a l’accrobranche etc. J’attends avec impatience nos retrouvailles lors d’un voyage au Vietnam par exemple ! Je pense aussi aux quelques jeunes rencontr´ es ` a Rennes et avec qui j’ai tiss´ e (tricot´ e ?) une belle amiti´ e, Leslie et Guillaume et plus particuli` erement Marie (que je remercie entre autres pour ce magnifique gabarit) et Margot, ` a qui je souhaite bon courage pour les ann´ ees ` a venir ! J’adresse une pens´ ee ` a Samuel et Cyril, les copains de l’ENSAI, ` a mon petit r´ eseau parisien et grenoblois : C´ ecile, Eric, Xavier et Tim et ` a tous ceux que je n’ai pas cit´ e dans ces remerciements et avec qui j’ai pass´ e de bons moments de passage

`

a Rennes, en conf´ erence deci del` a ou ailleurs.

Je n’oublie pas de remercier de tout cœur mes parents qui me soutiennent tou- jours sur tout et ma petite soeur (qui n’est plus petite depuis longtemps) et dont je suis tr` es fi` ere.

Et enfin pour finir, merci ` a Gaspar.

(6)

5

Stabilit´ e de la s´ election de variables pour la r´ egression et la classification de donn´ ees corr´ el´ ees en grande dimension

Les donn´ ees ` a haut-d´ ebit, par leur grande dimension et leur h´ et´ erog´ en´ eit´ e, ont motiv´ e le d´ eveloppement de m´ ethodes statistiques pour la s´ election de variables. En effet, le signal est souvent observ´ e simultan´ ement ` a plusieurs facteurs de confusion.

Les approches de s´ election habituelles, construites sous l’hypoth` ese d’ind´ ependance des variables, sont alors remises en question car elles peuvent conduire ` a des d´ ecisions erron´ ees.

L’objectif de cette th` ese est de contribuer ` a l’am´ elioration des m´ ethodes de s´ election de variables pour la r´ egression et la classification supervis´ ee, par une meilleure prise en compte de la d´ ependance entre les statistiques de s´ election. L’en- semble des m´ ethodes propos´ ees s’appuie sur la description de la d´ ependance entre covariables par un petit nombre de variables latentes. Ce mod` ele ` a facteurs suppose que les covariables sont ind´ ependantes conditionnellement ` a un vecteur de facteurs latents.

Une partie de ce travail de th` ese porte sur l’analyse de donn´ ees de potentiels

´

evoqu´ es (ERP). Les ERP sont utilis´ es pour d´ ecrire par ´ electro-enc´ ephalographie l’´ evolution temporelle de l’activit´ e c´ er´ ebrale. Sur les courts intervalles de temps durant lesquels les variations d’ERPs peuvent ˆ etre li´ ees ` a des conditions exp´ erimentales, le signal psychologique est faible, au regard de la forte variabilit´ e inter-individuelle des courbes ERP. En effet, ces donn´ ees sont caract´ eris´ ees par une structure de d´ ependance temporelle forte et complexe. L’analyse statistique de ces donn´ ees revient ` a tester pour chaque instant un lien entre l’activit´ e c´ er´ ebrale et des conditions exp´ erimentales. Une m´ ethode de d´ ecorr´ elation des statistiques de test est propos´ ee, bas´ ee sur la mod´ elisation jointe du signal et de la d´ ependance ` a partir d’une connaissance pr´ ealable d’instants o` u le signal est nul.

Ensuite, l’apport du mod` ele ` a facteurs dans le cadre g´ en´ eral de l’Analyse Dis- criminante Lin´ eaire est ´ etudi´ e. On d´ emontre que la r` egle lin´ eaire de classification optimale conditionnelle aux facteurs latents est plus performante que la r` egle non- conditionnelle. Un algorithme de type Expectation-Maximization pour l’estimation des param` etres du mod` ele est propos´ e. La m´ ethode de d´ ecorr´ elation des donn´ ees ainsi d´ efinie est compatible avec un objectif de pr´ ediction.

Enfin, on aborde de mani` ere plus formelle les probl´ ematiques de d´ etection et d’identification de signal en situation de d´ ependance. On s’int´ eresse plus parti- culi` erement au Higher Criticism (HC), d´ efini sous l’hypoth` ese d’un signal rare de faible amplitude et sous l’ind´ ependance. Il est montr´ e dans la litt´ erature que cette m´ ethode atteint des bornes th´ eoriques de d´ etection. Les propri´ et´ es du HC en si- tuation de d´ ependance sont ´ etudi´ ees et les bornes de d´ etectabilit´ e et d’estimabilit´ e sont ´ etendues ` a des situations arbitrairement complexes de d´ ependance. Dans le cadre de l’identification de signal, une adaptation de la m´ ethode Higher Criticism Thresholding par d´ ecorr´ elation par les innovations est propos´ ee.

Mots cl´ es : grande dimension, d´ ependance, s´ election de variables, mod` ele ` a

facteurs latents, r´ egression, classification supervis´ ee, tests multiples

(7)

Stability of variable selection in regression and classification issues for correlated data in high dimension

The analysis of high throughput data has renewed the statistical methodology for feature selection. Such data are both characterized by their high dimension and their heterogeneity, as the true signal and several confusing factors are often observed at the same time. In such a framework, the usual statistical approaches are questioned and can lead to misleading decisions as they are initially designed under independence assumption among variables.

The goal of this thesis is to contribute to the improvement of variable selection methods in regression and supervised classification issues, by accounting for the dependence between selection statistics. All the methods proposed in this thesis are based on a factor model of covariates, which assumes that variables are conditionally independent given a vector of latent variables.

A part of this thesis focuses on the analysis of event-related potentials data (ERP). ERPs are now widely collected in psychological research to determine the time courses of mental events. In the significant analysis of the relationships bet- ween event-related potentials and experimental covariates, the psychological signal is often both rare, since it only occurs on short intervals and weak, regarding the huge between-subject variability of ERP curves. Indeed, this data is characterized by a temporal dependence pattern both strong and complex. Moreover, studying the effect of experimental condition on brain activity for each instant is a multiple testing issue. We propose to decorrelate the test statistics by a joint modeling of the signal and time-dependence among test statistics from a prior knowledge of time points during which the signal is null.

Second, an extension of decorrelation methods is proposed in order to handle a variable selection issue in the linear supervised classification models framework. The contribution of factor model assumption in the general framework of Linear Dis- criminant Analysis is studied. It is shown that the optimal linear classification rule conditionally to these factors is more efficient than the non-conditional rule. Next, an Expectation-Maximization algorithm for the estimation of the model parame- ters is proposed. This method of data decorrelation is compatible with a prediction purpose.

At last, the issues of detection and identification of a signal when features are dependent are addressed more analytically. We focus on the Higher Criticism (HC) procedure, defined under the assumptions of a sparse signal of low amplitude and independence among tests. It is shown in the literature that this method reaches theoretical bounds of detection. Properties of HC under dependence are studied and the bounds of detectability and estimability are extended to arbitrarily complex situations of dependence. Finally, in the context of signal identification, an extension of Higher Criticism Thresholding based on innovations is proposed.

Keywords : high dimension, dependence, variable selection, factor model,

regression, supervised classification, multiple testing

(8)

TABLE DES MATI ` ERES

1 Introduction 11

1 Contexte . . . . 12

1.1 S´ election de variables . . . . 12

1.2 Grande dimension . . . . 13

1.3 Illustrations de situations de d´ ependance . . . . 16

2 Prise en compte de la d´ ependance . . . . 19

2.1 D´ ecorr´ elation par les innovations . . . . 21

2.2 Mod´ elisation de la structure de d´ ependance . . . . 24

2.2.1 Mod` ele ` a facteurs . . . . 24

2.2.2 Estimation des param` etres . . . . 26

2.2.3 Nombre de facteurs . . . . 26

2.2.4 D´ ecorr´ elation par ajustement des effets des facteurs latents . . . . 27

3 Synth` ese : fardeau ou aubaine ? . . . . 27

4 Organisation de la th` ese . . . . 30

2 Tests multiples pour des donn´ees de potentiels ´evoqu´es cognitifs 33

1 Introduction . . . . 34

2 Mod` ele pour l’analyse de donn´ ees ERPs . . . . 36

2.1 Exp´ erience d’oubli direct . . . . 36

2.2 Mod` ele et statistique de tests . . . . 37

2.2.1 Mod` ele g´ en´ erale . . . . 37

2.2.2 Allure de la statistique de test . . . . 37

2.2.3 Mod` ele pour l’analyse de l’exp´ erience d’oubli direct 38 3 D´ ependance temporelle entre statistiques de test . . . . 40

3.1 Proc´ edures standards de correction des probabilit´ es critiques 40 3.2 Impact de la d´ ependance sur les proc´ edures de tests multiples 41 3.3 Mod` ele ` a facteurs . . . . 47

4 Estimation jointe du signal et de la structure de d´ ependance . . . . 48

4.1 Algorithme . . . . 48

4.1.1 Correction de l’estimation du signal . . . . 50

(9)

4.1.2 D´ ecorr´ elation de la statistique de test par ajuste-

ment sur les facteurs . . . . 51

4.1.3 Illustration sur un exemple . . . . 52

5 Etude par simulations . . . . 52

5.1 M´ ethodes . . . . 52

5.2 R´ esultats . . . . 55

6 R´ esultats sur les ERPs . . . . 58

7 Conclusion . . . . 59

3 Stabilit´e de la s´election de variables en classification supervis´ee pour des donn´ees d´ependantes de grande dimension 63

1 Introduction . . . . 65

2 S´ election de variables et classification en grande dimension . . . . 66

2.1 Analyse lin´ eaire discriminante . . . . 66

2.2 Analyse lin´ eaire discriminante en grande dimension . . . . . 70

2.3 R´ egression logistique . . . . 72

2.4 R´ egression logistique p´ enalis´ ee . . . . 73

2.5 Autres approches . . . . 74

2.6 Cadre th´ eorique . . . . 74

3 Impact de la d´ ependance . . . . 75

4 Mod` ele ` a facteurs pour la s´ election de variables . . . . 77

4.1 D´ efinition et int´ erˆ et du classifieur de Bayes conditionnel . . . 77

4.2 Algorithme d’estimation du mod` ele ` a facteurs . . . . 80

5 Illustration sur des donn´ ees r´ eelles . . . . 81

5.1 Stabilit´ e de la s´ election de variables . . . . 81

5.1.1 Donn´ ees . . . . 81

5.1.2 M´ ethodes . . . . 82

5.1.3 R´ esultats sur donn´ ees compl` etes . . . . 82

5.1.4 R´ esultats sur donn´ ees incompl` etes . . . . 82

5.1.5 Conclusion . . . . 83

5.2 Etude de donn´ ees de m´ ethylation de l’ADN . . . . 83

5.2.1 Donn´ ees . . . . 84

5.2.2 M´ ethodes . . . . 84

5.2.3 R´ esultats . . . . 84

6 Simulations . . . . 84

6.1 Plan de simulations . . . . 85

6.2 M´ ethodes . . . . 86

6.3 R´ esultats . . . . 87

7 Package FADA . . . . 88

8 Conclusion . . . . 91

4 Identification d’un signal par Higher Criticism Thresholding d´ecorr´el´e pour des donn´ees ERP 93

1 Introduction . . . . 94

2 D´ etection d’un signal lors d’exp´ eriences ERP . . . . 96

2.1 Exp´ erience auditive de oddball . . . . 96

2.2 Mod` ele lin´ eaire multivari´ e . . . . 97

(10)

TABLE DES MATI `ERES 9

2.3 Impact d’une erreur de sp´ ecification du mod` ele sur la

d´ etection d’un signal . . . 103

3 HCT pour la d´ etection d’un signal . . . 105

3.1 Diff´ erentes versions de la m´ ethode Higher Criticism . . . 105

3.2 HCT en situation de d´ ependance . . . 113

4 Factor innovated Higher Criticism Thresholding . . . 114

4.1 D´ ecorr´ elation par des facteurs latents . . . 114

4.2 Limites de d´ etection . . . 116

4.3 Factor innovated HCT . . . 119

5 Etude par simulations et analyse de donn´ ees r´ eelles . . . 119

5.1 Etude par simulations . . . 119

5.2 Application aux potentiels ´ evoqu´ es . . . 121

6 Discussion et conclusion . . . 124

5 Conclusion 129

6 Liste des travaux 133

Bibliographie 135

(11)
(12)

CHAPITRE 1

INTRODUCTION

R

´esum´e :

le recours de plus en plus fr´ equent ` a des technologies pro- duisant des donn´ ees ` a haut-d´ ebit - comme la spectroscopie proche infra-rouge, l’imagerie par r´ esonance magn´ etique fonctionnelle ou l’´ electro-enc´ ephalographie - a g´ en´ er´ e de nouvelles questions de re- cherche en statistique sp´ ecifiques de ces donn´ ees dites de grande di- mension, caract´ eris´ ees par leur nombre de variables tr` es sup´ erieur

`

a celui des individus. En particulier, un grand nombre de m´ ethodes de pr´ ediction, fond´ ees sur des mod` eles de r´ egression ou de clas- sification supervis´ ee, se sont d´ evelopp´ ees en s’appuyant sur une hypoth` ese dite de parcimonie des mod` eles. En effet, ces m´ ethodes supposent que peu de pr´ edicteurs mesur´ es sont pertinents. D` es lors, une part importante de la probl´ ematique d’ajustement d’un mod` ele de pr´ ediction en grande dimension repose sur une ´ etape de s´ election de ces variables. Un tr` es grand nombre de m´ ethodes de s´ election ont ainsi ´ et´ e d´ efinies avec pour objectif essentiel de garantir une bonne performance de pr´ ediction, le plus souvent sans se soucier de la pertinence des pr´ edicteurs s´ electionn´ es ou encore de la reproductibilit´ e de la s´ election. Cependant, la tr` es haute r´ esolution des donn´ ees ` a haut-d´ ebit se traduit souvent par une grande d´ ependance entre les variables, d´ ependance affectant

`

a la fois les performances de pr´ ediction mais aussi la stabilit´ e des

m´ ethodes de s´ election de variables. L’objectif de cette introduc-

tion est de pr´ esenter diff´ erentes approches de prise en compte de la

d´ ependance dans les proc´ edures de s´ election de variables, et ainsi

de montrer qu’il est possible de tirer avantage de la corr´ elation

pour am´ eliorer l’estimation du support d’un signal.

(13)

Sommaire

1 Contexte . . . 12

1.1 S´election de variables . . . 12

1.2 Grande dimension . . . 13

1.3 Illustrations de situations de d´ependance . . . 16

2 Prise en compte de la d´ependance . . . 19

2.1 D´ecorr´elation par les innovations . . . 21

2.2 Mod´elisation de la structure de d´ependance . . . 24

2.2.1 Mod`ele `a facteurs . . . 24

2.2.2 Estimation des param`etres . . . 26

2.2.3 Nombre de facteurs . . . 26

2.2.4 D´ecorr´elation par ajustement des effets des facteurs latents . . . 27

3 Synth`ese : fardeau ou aubaine ? . . . 27

4 Organisation de la th`ese . . . 30

1 Contexte

1.1 S´ election de variables

La probl´ ematique d´ efinissant le cadre g´ en´ eral de cette th` ese est la prise en compte de la d´ ependance dans les proc´ edures de s´ election de variables pour la pr´ ediction en grande dimension, en r´ egression et en classification supervis´ ee. Dans la plupart des situations abord´ ees ci-apr` es, les donn´ ees peuvent ˆ etre d´ ecrites comme une s´ erie de n couples ind´ ependants (X, Y ) compos´ es d’un profil de pr´ edicteurs X = (X

1

, . . . , X

m

) de dimension m n et d’une variable r´ eponse Y , soit quantitative soit cat´ egorielle.

L’identification d’un sous-ensemble pertinent de pr´ edicteurs est un des objectifs majeurs d’une analyse de r´ egression ou de classification supervis´ ee, et ce mˆ eme en situation de “petite dimension” (n

m). Dans ce contexte plus tradition- nel, on recense plusieurs m´ ethodes de s´ election consistant ` a comparer les mod` eles construits sur des sous-ensembles de pr´ edicteurs selon un crit` ere de qualit´ e d’ajus- tement p´ enalis´ e par le nombre de pr´ edicteurs. Ainsi, dans le contexte du mod` ele lin´ eaire g´ en´ eralis´ e, la minimisation des crit` eres AIC (introduit par Akaike (1973)) ou BIC (propos´ e par Schwarz (1978)), versions p´ enalis´ es de la d´ eviance du mod` ele par la norme `

0

du vecteur β des param` etres de r´ egression, pr´ efigurent les m´ ethodes d’estimation par r´ egularisation devenues si populaires pour les donn´ ees de grande dimension, pour lesquelles la p´ enalisation est plus volontiers d´ efinie par les normes

`

1

(Tibshirani (1996)) ou `

2

(Hoerl and Kennard (1970)) de β.

En effet, l’optimisation de crit` eres p´ enalis´ es par :

||β||0

= #

{j∈

[1; m], β

j 6= 0}

,

(14)

1. CONTEXTE 13

o` u #A d´ esigne le cardinal d’un ensemble A, n´ ecessite l’ajustement de tous les sous- mod` eles possibles (2

m

mod` eles), ce qui pose des probl` emes num´ eriques, pour des valeurs mˆ emes mod´ er´ ees de m. Certes, la s´ election pas ` a pas constitue une alterna- tive raisonnable d’un point de vue calculatoire, mais le parcours par cet algorithme s´ equentiel d’une part tr` es faible du graphe des sous-mod` eles, au mieux m(m + 1)/2 sous-mod` eles, g´ en` ere une instabilit´ e de la proc´ edure, d’autant plus grande que m est lui-mˆ eme grand (voir Breiman (1996) et Fan and Li (2001)).

1.2 Grande dimension

Les progr` es technologiques en terme de recueil et de stockage de donn´ ees, notam- ment en biologie mol´ eculaire pour l’´ etude du g´ enome (voir par exemple Shalon et al.

(1996) pour les puces ` a ADN et Baron et al. (2006) pour l’´ etude ´ epig´ en´ etique de la m´ ethylation de l’ADN), ou en neurosciences, pour l’analyse de l’activit´ e c´ er´ ebrale par ´ electro-enc´ ephalographie (Handy (2004)) ou imagerie par r´ esonance magn´ etique (Poldrack et al. (2011)), ont conduit ` a des ´ evolutions importantes de la m´ ethodologie statistique pour l’adapter ` a des situations caract´ eris´ ees par un nombre important de variables. Dans les cas abord´ es dans cette th` ese, le nombre de variables est de l’ordre de plusieurs milliers. Les m´ ethodes classiques, notamment celles dont l’ob- jectif est l’identification de variables d’int´ erˆ et par s´ election ou tests multiples, ont des propri´ et´ es analytiques ´ eprouv´ ees en situation asymptotique, lorsque le nombre n d’individus tends vers l’infini et que le nombre de variables est fixe. Cependant, ces m´ ethodes se montrent peu performantes en grande dimension. Par exemple, la propri´ et´ e de consistance d’estimation du support par le crit` ere BIC (Shao (1997), Yang (2005)) se perd lorsque le nombre de variables n’est pas fix´ e (voir par exemple Broman and Speed (2002), Casella et al. (2009), Kim et al. (2012)). A l’instar de la probl´ ematique abord´ ee plus haut pour ´ evoquer la s´ election pas ` a pas, un des probl` emes est l’explosion combinatoire des associations possibles de variables s´ electionn´ ees, qui n´ ecessite aussi le contrˆ ole par des m´ ethodes adapt´ ees du nombre de s´ elections erron´ ees, ou faux positifs. Une autre raison plus sp´ ecifique du para- digme n m est li´ ee ` a l’instabilit´ e voire l’impossibilit´ e num´ erique de l’ajuste- ment de mod` eles dont le nombre de param` etres d´ epasse celui des individus par des m´ ethodes impliquant le plus souvent l’inversion de la matrice de variance-covariance des pr´ edicteurs (par exemple la m´ ethode des moindres carr´ es en r´ egression). Ainsi, au-del` a de la recherche de solutions statistiques performantes, un des d´ efis de l’ana- lyse de donn´ ees de grande dimension est ´ egalement la simplicit´ e algorithmique des m´ ethodes, garantissant la possibilit´ e effective de leur mise en œuvre.

La s´ election de pr´ edicteurs pertinents s’apparente ` a la probl´ ematique souvent as-

soci´ ee aux tests multiples, dont le but est une identification aussi compl` ete que pos-

sible du support du signal, tout en contrˆ olant le nombre de pr´ edicteurs s´ electionn´ es

par erreur. Les premi` eres r´ eflexions autour de ces questions de contrˆ ole du taux d’er-

reur de type I pour un grand nombre de tests ont conduit ` a revoir l’objectif d’un

contrˆ ole de la probabilit´ e d’un faux positif, le Family-Wise Error Rate (FWER),

pour s’orienter vers un objectif moins conservateur de contrˆ ole de la proportion

de faux positifs dans l’ensemble s´ electionn´ e, le False Discovery Rate (FDR). La

m´ ethode de r´ ef´ erence pour le contrˆ ole du FDR, la proc´ edure de Benjamini-Hochberg

(15)

(Benjamini and Hochberg (1995)), s’est ainsi impos´ ee comme une m´ ethode stan- dard en analyse de donn´ ees g´ enomiques (voir par exemple l’ouvrage de van der Laan and Dudoit (2007)), pr´ ef´ er´ ee ` a la m´ ethode de Bonferroni (Bonferroni (1936)) plus traditionnellement utilis´ ee lorsque le nombre de tests est plus mod´ er´ es. Ben- jamini and Hochberg (1995) d´ emontre que leur m´ ethode de d´ etermination du seuil de s´ election sur les statistiques de tests contrˆ ole effectivement le FDR sous une hypoth` ese d’ind´ ependance ou de faible d´ ependance. La d´ ependance ´ etant d` es lors per¸ cue comme un obstacle potentiel au contrˆ ole du FDR, de nombreux auteurs se sont attach´ es ` a ´ etendre la m´ ethode de Benjamini-Hochberg de telle sorte qu’elle garantisse le contrˆ ole du FDR sous certaines hypoth` eses de d´ ependance (voir par exemple Benjamini and Yekutieli (2001)). En pratique, ces approches de protec- tion contre les effets de la d´ ependance sur le contrˆ ole du FDR ont le plus sou- vent conduit ` a des m´ ethodes tr` es conservatives. Plus r´ ecemment, s’appuyant sur la d´ emonstration que le classement des statistiques de test en situation de d´ ependance n’est pas consistant, au sens statistique o` u il n’est pas conforme ` a l’amplitude du signal test´ e, quelques auteurs ont privil´ egi´ e une autre approche, ne visant pas ` a une modification de la proc´ edure de Benjamini-Hochberg, mais ` a une d´ ecorr´ elation des statistiques de test (voir Zuber and Strimmer (2009) et Hall and Jin (2010) pour une proc´ edure de tests ajust´ es sur la corr´ elation, Kustra et al. (2006), Leek and Storey (2007), Carvalho et al. (2008), Friguet et al. (2009), Sun et al. (2012) et plus r´ ecemment Allen et al. (2014) et Houseman et al. (2015) pour une mod´ elisation par des facteurs latents de la d´ ependance). Les diff´ erentes m´ ethodes se diff´ erencient essentiellement par le mod` ele de variance utilis´ e et surtout par la technique d’esti- mation jointe du signal et de la variance.

A l’instar des proc´ edures de tests multiples, Donoho and Jin (2004) d´ efinissent une proc´ edure de s´ election de variables pour la d´ etection d’un signal, le Higher Cri- ticism Thresholding (HCT). Les auteurs s’appuient sur l’id´ ee propos´ ee par Tukey (1976) que la d´ etection statistique d’un signal, c’est ` a dire le test global de son existence, peut reposer sur le vecteur des statistiques de test des composantes indi- viduelles de ce signal. En situation d’ind´ ependance entre les statistiques de s´ election et dans le cadre g´ en´ eral d’un signal ` a la fois rare et faible (paradigme “Rare-and- Weak”), Donoho and Jin (2008) d´ emontrent l’optimalit´ e de cette proc´ edure de s´ election, au sens o` u elle atteint les bornes optimales de d´ etection de Ingster (1997).

Hall and Jin (2008) et Hall and Jin (2010) montrent que ces r´ esultats th´ eoriques sont fortement affect´ es par une d´ ependance entre les statistiques de s´ election et proposent une extension ` a des cas particuliers de d´ ependance, dont la structure auto-r´ egressive d’ordre 1. Par ailleurs, Ahdesm¨ aki and Strimmer (2010) et Klaus and Strimmer (2013) ´ etudient les propri´ et´ es de la m´ ethode HCT pour l’identification du signal, ` a savoir l’estimation de son support et d´ emontrent son ´ equivalence avec une proc´ edure de tests multiples contrˆ olant le False Non-Discovery Rate (FNDR).

La diversit´ e des approches de prise en compte de la d´ ependance traduit de

profondes divergences dans la communaut´ e statistique, partag´ ee entre une d´ emarche

na¨ıve consistant ` a ignorer la corr´ elation et un point de vue oppos´ e justifiant une

mod´ elisation jointe de la variance et de l’esp´ erance pour am´ eliorer l’identification

du signal. Ainsi, en particulier dans un contexte d’analyse discriminante lin´ eaire, les

(16)

1. CONTEXTE 15

tenants d’une approche dite naive Bayes montrent la sup´ eriorit´ e de ce point de vue en terme de performance de classification (voir notamment Tibshirani et al. (2003), Bickel and Levina (2004), Efron (2008)). Ces m´ ethodes reposent sur une hypoth` ese erron´ ee d’ind´ ependance entre les variables dont une alternative consiste ` a estimer la matrice de covariance par des m´ ethodes de shrinkage, sans hypoth` ese particuli` ere de structure de la d´ ependance. Le principe de ces m´ ethodes est de s’affranchir de la propri´ et´ e de non biais de l’estimateur empirique pour diminuer la variance d’estimation. Ainsi, l’estimateur ridge (Hoerl and Kennard (1970)) du vecteur β des coefficients de r´ egression lin´ eaire, qui r´ esulte de la minimisation de la d´ eviance du mod` ele p´ enalis´ ee par

||β||2

, prend une forme similaire ` a celle de l’estimateur des moindres carr´ es, o` u la matrice de covariance empirique S est remplac´ ee par l’expression suivante :

Σ ˆ

γ

= S + γ

Im

,

o` u

Im

d´ esigne la matrice identit´ e d’ordre m et γ

0. Le param` etre γ de r´ egularisation introduit ci-dessus permet bien un compromis entre deux points de vue extrˆ emes de la d´ ependance, ` a savoir l’ind´ ependance pour de grandes valeurs de γ et la structure de covariance la plus complexe estim´ ee par S pour γ = 0. On retrouve cette id´ ee dans de nombreuses m´ ethodes de r´ egression ou de classification supervis´ ee, dont dans les Correlation Adjusted T-scores (CAT-scores, Zuber and Strimmer (2009)) utilis´ es dans l’´ etape de s´ election de variables de la m´ ethode Shrinkage Discriminant Analysis (SDA, Ahdesm¨ aki and Strimmer (2010)). Ici, les auteurs proposent une expression analytique pour un estimateur du param` etre de shrinkage γ . Cette id´ ee se retrouve aussi dans la m´ ethode shrunken centroids regularized discriminant analysis (SCRDA, Guo et al. (2007)), dans laquelle la matrice de covariance empirique est remplac´ ee par

Σ ˆ

α

= αS + (1

α)

Im

, o` u 0

α

1.

L’estimation par shrinkage, du type de la m´ ethode ridge, apporte une solution essentiellement num´ erique ` a la probl´ ematique de la grande dimension, qui se montre souvent performante en terme de pr´ ecision de la r` egle de d´ ecision qui s’en d´ eduit.

L’estimation ridge de mod` eles de r´ egression ou de classification supervis´ ee s’impose notamment comme la r´ ef´ erence pour les questions relatives ` a la s´ election g´ enomique, dont l’objectif est l’estimation de la valeur g´ en´ etique d’un animal ou d’une plante ` a partir de donn´ ees de g´ enotypage ` a l’´ echelle de son g´ enome. Toutefois, la recherche de zones d’int´ erˆ et du g´ enome appel´ es Quantitative Trait Loci (QTL) ou de mani` ere

´

equivalente la recherche de la signature mol´ eculaire associ´ ee ` a un stress d’int´ erˆ et

de l’organisme n´ ecessite des approches plus exigeantes dont l’objectif est certes de

garantir une bonne pr´ ediction mais aussi d’identifier les leviers de cette pr´ ediction,

en d’autres termes les pr´ edicteurs pertinents. La prise en compte simultan´ ee de

ces deux objectifs par la m´ ethode dite LASSO, pour Least Absolute Shrinkage and

Selection Operator (Tibshirani (1996)), qui consiste ` a minimiser un crit` ere d’ajuste-

ment, la d´ eviance par exemple, p´ enalis´ e par

||β||1

explique sa grande popularit´ e dans

de nombreux domaines associ´ es ` a des technologies ` a haut d´ ebit. Dans le contexte de

(17)

la classification supervis´ ee, des m´ ethodes d’analyse lin´ eaire discriminante p´ enalis´ ee ont ´ et´ e d´ evelopp´ ees (voir Tibshirani et al. (2002) pour une version ridge des plus proches voisins ou Witten and Tibshirani (2011) et Clemmensen et al. (2011) pour une approche lasso).

Pourtant, une d´ ependance forte entre pr´ edicteurs affecte notoirement les pro- pri´ et´ es de la m´ ethode LASSO, notamment dans sa capacit´ e ` a d´ eterminer le support d’un signal (Van de Geer (2010), Fan and Lv (2010)). La p´ enalisation par combinai- son convexe de

||β||1

et

||β||2

dans la m´ ethode elastic net (Zou and Hastie (2005)) vise justement ` a apporter plus de stabilit´ e ` a la m´ ethode. D’autres extensions plus r´ ecentes, bas´ ees sur du r´ e-´ echantillonnage, ont directement vis´ e ` a am´ eliorer la re- productibilit´ e de la s´ election par LASSO, en cherchant ` a r´ eduire le sous-ensemble des variables s´ electionn´ ees ` a celles les plus souvent retenues (voir notamment Bach (2008) pour la m´ ethode bolasso et Meinshausen and B¨ uhlmann (2010) pour la m´ ethode stability selection).

1.3 Illustrations de situations de d´ ependance

On pr´ esente ici quelques situations dans lesquelles on cherche ` a identifier un signal biologique. Ce signal est assimilable ` a un lien entre une variable r´ eponse quan- titative ou cat´ egorielle et des variables explicatives nombreuses, mesur´ ees par une technologie ` a haut d´ ebit, et pr´ esentant une structure de d´ ependance forte. Dans un premier temps, on s’int´ eresse ` a des donn´ ees mesur´ ees par ´ electroenc´ ephalographie (EEG) de l’activit´ e du cerveau en psychologie exp´ erimentale. Ces donn´ ees de potentiels ´ evoqu´ es, ou encore ERP (Event-Related Potentials, Handy (2004)), d´ ecrivent avec une tr` es forte r´ esolution, jusqu’` a une mesure toute les demi- millisecondes (Groppe et al. (2011a) et Groppe et al. (2011b)), l’activit´ e c´ er´ ebrale en des ´ electrodes localis´ ees tr` es pr´ ecis´ ement sur le crˆ ane, pour un nombre limit´ e de sujets, entre 10 et 20 en g´ en´ eral. L’analyse de ces donn´ ees vise g´ en´ eralement

`

a identifier les intervalles de temps pour lesquels l’association avec une r´ eponse exp´ erimentale, par exemple un score ´ evaluant un comportement ou l’appartenance

`

a une cat´ egorie particuli` ere de population, est significative. Une exp´ erience ayant fait l’objet d’une collaboration avec National Cheng-Kung University, Tainan (Taiwan) et le probl` eme cognitif associ´ e sont d´ etaill´ es dans le Chapitre 2.

La Figure 1.1 r´ ev` ele une structure de d´ ependance temporelle forte entre les mesures de l’activit´ e c´ er´ ebrale : l’histogramme montre qu’une grande proportion des corr´ elations entre les ERPs mesur´ es sur l’´ electrode CZ (milieu de la r´ egion centrale de la tˆ ete) sont ´ elev´ ees et positives. En gris, la distribution des corr´ elations d’une matrice de mˆ eme dimension sous l’hypoth` ese d’ind´ ependance est trac´ ee pour comparaison. On remarque une forte asym´ etrie ` a droite de la distribution. D’apr` es l’image de la matrice des corr´ elations, il semble que l’auto-corr´ elation g´ en` ere un grand nombre de corr´ elations proches de 1 sur les bandes proches de la diagonale.

On remarque aussi des blocs de corr´ elations ´ elev´ ees et positives, correspondant

`

a une synchronisation de l’activit´ e c´ er´ ebrale sur des intervalles de temps, et une

auto-corr´ elation croissante au cours du temps. La structure est donc plus complexe

que celle produite par un processus auto-r´ egressif d’ordre 1 souvent utilis´ e pour

(18)

1. CONTEXTE 17

mod´ eliser de telles donn´ ees (voir Yeung et al. (2004), Guthrie and Buchwald (1991) et Bugli and Lambert (2006)). Lors de l’exp´ erience, l’activit´ e c´ er´ ebrale est mesur´ ee sur plusieurs ´ electrodes plac´ ees sur le crˆ ane du sujet. Sur les autres ´ electrodes, on remarque des structures similaires.

La prise en compte de la d´ ependance dans les ´ etudes d’association ou de s´ election suscite ´ egalement de nombreux d´ eveloppements en mati` ere d’analyse de donn´ ees g´ enomiques, en particulier pour l’analyse du transcriptome ` a partir de microarrays (Shalon et al. (1996)). On se r´ ef` ere notamment ` a Lee and Batzoglou (2003) et Teschendorff et al. (2011) pour une application de l’analyse en compo- santes ind´ ependantes, Sch¨ afer and Strimmer (2005), Opgen-Rhein and Strimmer (2007), Zuber and Strimmer (2009) et Ahdesm¨ aki and Strimmer (2010) pour une d´ efinition de statistiques de tests d´ ecorr´ el´ ees (CAT-scores) par un estimateur de type James-Stein de la matrice de covariance et Kustra et al. (2006), Leek and Storey (2007),Carvalho et al. (2008), Friguet et al. (2009), Sun et al. (2012) et plus r´ ecemment Allen et al. (2014) pour une mod´ elisation par des facteurs latents de la d´ ependance. Cette mˆ eme approche est aussi utilis´ ee tr` es r´ ecemment pour l’analyse de donn´ ees de m´ ethylation de l’ADN par Houseman et al. (2015).

On propose d’explorer dans ce paragraphe la distribution des corr´ elations d’une s´ erie de donn´ ees publiques, utilis´ ees ` a des fins d’illustration dans des packages

R

ou

Matlab, pour des m´

ethodes de classification supervis´ ee. Ces donn´ ees ont ´ et´ e choisies pour la vari´ et´ e des situations qu’elles repr´ esentent, notamment par leurs dimensions r´ esum´ ees dans la Table 1.1, ainsi que le nombre de classes de la variable r´ eponse. Ces donn´ ees sont associ´ ees ` a des probl´ ematiques d’´ etudes du cancer du colon (Alon et al. (1999)), du sein (West et al. (2001)), de la leuc´ emie (Golub et al. (1999)), du lymphome (Chung and Keles (2010)), du cancer de la prostate (Singh et al. (2002)) et de cancers chez l’enfant auquel on se r´ ef` ere dans la suite par SRBCT (Khan et al. (2001)).

La Figure 1.2 pr´ esente en noir les histogrammes des corr´ elations entre va-

riables (g` enes) pour chacune des situations introduites ci-dessus et en bleu la distri-

bution des corr´ elations pour des donn´ ees de mˆ emes dimensions sous l’hypoth` ese

d’ind´ ependance. On remarque une diversit´ e de profils de d´ ependance, certaines

s’´ eloignant de mani` ere remarquable de l’ind´ ependance, comme pour le cancer du

colon, Figure 1.2(a), le cancer du sein, Figure 1.2(b) et dans une moindre mesure sur

la leuc´ emie, Figure 1.2(c) pour lesquelles la distribution des corr´ elations r´ ev` ele une

sur-repr´ esentation de corr´ elations fortes et positives. La distribution des corr´ elations

pour les donn´ ees de lymphome, Figure 1.2(d) et SRBCT, Figure 1.2(e) semble en

revanche sym´ etrique avec une proportion notable de corr´ elations mod´ er´ ees. Enfin,

il est int´ eressant de remarquer que les corr´ elations entre g` enes pour le cancer de

la prostate, Figure 1.2(f), s’ajustent bien ` a la distribution des corr´ elations sous

l’ind´ ependance. Ces exemples illustrent que, pour une mˆ eme technologie et des

probl´ ematiques similaires, des profils de d´ ependance tr` es diff´ erents peuvent ˆ etre

observ´ es, qu’il convient de prendre en compte lors de l’analyse statistique. De nom-

breux auteurs ont r´ ecemment ´ emis l’hypoth` ese que ces d´ ependances r´ esultent d’ef-

fets latents de processus biologiques non maitris´ es par les dispositifs exp´ erimentaux,

susceptibles de masquer partiellement le signal biologique d’int´ erˆ et. Ces propos sont

(19)

−1.0 −0.5 0.0 0.5 1.0

0.00.51.01.5

Correlation value

Density

Figure

1.1 – Haut : histogramme des corr´ elations r´ esiduelles entre les mesures de

l’activit´ e c´ er´ ebrale pour les donn´ ees d’ERPs mesur´ ees ` a l’´ electrode

CZ

(en noir)

compar´ e ` a la distribution des corr´ elations d’une matrice de mˆ emes dimensions sous

hypoth` ese d’ind´ ependance. Bas : image de la matrice des corr´ elations

(20)

2. PRISE EN COMPTE DE LA D ´EPENDANCE 19

Table

1.1 – Dimensions de donn´ ees publiques associ´ ees ` a des ´ etudes sur le cancer.

Colon Sein Leuc´ emie Lymphome Prostate SRBCT

Nbre de var. 2000 7129 7129 4026 6033 2308

Nbre d’obs. 62 44 38 62 102 63

Nbre de classes 2 2 2 3 2 4

en particulier tenus par Kustra et al. (2006), Leek and Storey (2007), Pournara and Wernisch (2007), Carvalho et al. (2008), Friguet et al. (2009) et plus r´ ecemment par Sun et al. (2012) et Houseman et al. (2015).

Dans la suite du manuscrit, les exemples ci-dessus sont utilis´ es ` a des fins d’illus- tration de l’impact de la d´ ependance sur les proc´ edures de s´ election de variables.

En particulier, le Chapitre 2 introduit la notion d’instabilit´ e des proc´ edures de tests multiples, principale cons´ equence d’une forte d´ ependance entre les statistiques de s´ election. Le contrˆ ole du taux de faux positifs n’´ etant en revanche pas remis en cause par les formes de d´ ependance temporelle ´ etudi´ ees dans ce Chapitre, la probabilit´ e pour qu’une proc´ edure de type Benjamini-Hochberg d´ etecte un signal peut ˆ etre tr` es faible en situation de d´ ependance et, conditionnellement ` a la d´ etection d’un signal, son identification, ` a savoir l’estimation de son support, est moins pr´ ecise qu’en situation d’ind´ ependance. De mˆ eme, dans un probl` eme de s´ election de va- riables en classification supervis´ ee abord´ e dans le Chapitre 3, on illustrera que la d´ ependance affecte ` a la fois le nombre de variables s´ electionn´ ees et le rang des variables s´ electionn´ ees par des m´ ethodes d’estimation r´ egularis´ ee notamment la m´ ethode Lasso (Tibshirani (1996)). Aussi, on observera sur des donn´ ees r´ eelles que l’ensemble des variables s´ electionn´ ees par ces m´ ethodes n’est pas reproductible. En- fin, le Chapitre 4 est d´ edi´ e ` a l’´ etude de la m´ ethode HCT pour l’identification d’un signal, dans le paradigme “Rare-and-Weak” propos´ e par Donoho and Jin (2004).

On montre que la m´ ethode HCT est tr` es conservative lorsque les variables sont tr` es corr´ el´ ees. Finalement, dans les probl` emes de tests multiples comme dans ceux de s´ election de variables, l’impact de la d´ ependance se traduit par une non-consistance du classement des variables par leur pouvoir pr´ edictif ou discriminant.

2 Prise en compte de la d´ ependance

L’impact n´ egatif de la d´ ependance sur la pr´ ecision des proc´ edures de tests mul-

tiples, en particulier due ` a l’instabilit´ e du rang des statistiques de s´ election, a sus-

cit´ e le d´ eveloppement de nombreuses approches innovantes. La d´ ependance entre

les statistiques de tests ou de s´ election ´ etant directement h´ erit´ ee de celle entre les

variables explicatives, ces approches visent essentiellement ` a estimer la structure de

d´ ependance entre les variables pour construire des strat´ egies de d´ ecorr´ elation. Cette

th` ese vise ` a une contribution ` a l’optimisation de ces m´ ethodes de d´ ecorr´ elation, dans

le but de r´ etablir les propri´ et´ es th´ eoriques et pratiques des m´ ethodes ´ elabor´ ees sous

l’hypoth` ese d’ind´ ependance. On peut distinguer deux types d’approches pour la

d´ ecorr´ elation. Le premier se rapproche des m´ ethodes d’analyse de s´ eries chronolo-

giques, au sens o` u l’on cherche ` a construire la transformation lin´ eaire des donn´ ees

(21)

−0.5 0.0 0.5 1.0

0.00.51.01.52.02.53.0

Density

(a) Cancer du colon

−1.0 −0.5 0.0 0.5 1.0

0.00.51.01.52.02.5

Density

(b) Cancer du sein

−1.0 −0.5 0.0 0.5 1.0

0.00.51.01.52.0

Density

(c) Leuc´emie

−0.5 0.0 0.5 1.0

0.00.51.01.52.02.53.0

Density

(d) Lymphome

−0.5 0.0 0.5 1.0

0.00.51.01.52.02.53.0

Density

(e) SRBCT

−0.5 0.0 0.5 1.0

01234

Density

(f) Cancer de la prostate

Figure

1.2 – Histogramme des corr´ elations entre variables (en noir) compar´ ee ` a la

distribution sous ind´ ependance (en bleu) pour des donn´ ees d’expression de g` enes.

(22)

2. PRISE EN COMPTE DE LA D ´EPENDANCE 21

conduisant ` a des innovations ind´ ependantes (Ahdesm¨ aki and Strimmer (2010), Zu- ber and Strimmer (2009), Hall and Jin (2010)). Le second type s’appuie sur l’hy- poth` ese d’effets latents affectant de mani` ere lin´ eaire la d´ ependance entre les statis- tiques de s´ election (Friguet et al. (2009), Leek and Storey (2007), Leek and Storey (2008), Sun et al. (2012)).

2.1 D´ ecorr´ elation par les innovations

Si l’on consid` ere un vecteur de covariables X de matrice de covariance Σ, le principe g´ en´ eral des m´ ethodes de d´ ecorr´ elation par les innovations s’appuie sur l’existence d’une matrice L (m

×

m) telle que :

Σ

−1

= LL

0

,

o` u L

0

d´ esigne la transpos´ ee de L. Cette matrice L permet de d´ efinir des covariables d´ ecorr´ el´ ees X

, appel´ ees innovations, telles que :

X

= L

0

X.

Ainsi,

V

(X

) = L

0

ΣL = L

0

(L

0

)

−1

L

−1

L =

Im

.

Correlation-adjusted t-scores (CAT scores)

On s’attarde dans ce para- graphe sur la pr´ esentation des CAT-scores, initialement propos´ es par Zuber and Strimmer (2009) dans un contexte de comparaisons multiples puis repris dans la m´ ethode Shrinkage Discriminant Analysis (SDA, voir Ahdesm¨ aki and Strimmer (2010)) en analyse lin´ eaire discriminante.

On consid` ere ici une variable r´ eponse Y , cat´ egorielle ` a K groupes et un m−profil x de variables explicatives distribu´ e, conditionnellement au groupe Y = y, selon une loi normale d’esp´ erance :

E(x|

Y = y) = µ

y

et de mˆ eme variance :

V

(x

|

Y = y) = Σ

pour tout y

∈ {1, . . . , K}. On d´

efinit, pour chaque groupe y

∈ {1, . . . , K}, des

t-scores τ

y

correspondant au m-vecteur des statistiques de test associ´ ees ` a la com- paraison de la moyenne globale µ =

E

(x) ` a µ

y

:

τ

y

=

1 n

y

1

n

D

−1/2

y

µ),

o` u D = diag(Σ), n est le nombre total d’observations ind´ ependantes de (x, Y ) et n

y

est le nombre d’observations dans le groupe y. Zuber and Strimmer (2009) d´ efinissent les correlation-adjusted t-scores ou CAT-scores par :

τ

yadj

= R

−1/2

τ

y

,

(23)

o` u R d´ esigne la matrice de corr´ elation de x telle que : Σ = D

1/2

RD

1/2

.

Pour chaque variable explicative, une statistique du test d’association avec Y est calcul´ ee ` a partir d’une estimation par shrinkage des CAT-scores. Il est int´ eressant de noter qu’apr` es d´ ecorr´ elation du profil des variables explicatives, la s´ election de variables pour la classification supervis´ ee s’apparente ` a un probl` eme de tests mul- tiples. Dans le cas pr´ esent, pour chaque variable, Ahdesm¨ aki and Strimmer (2010) recommande d’estimer le taux de faux positifs (FDR) local et de s´ electionner les variables explicatives par seuillage de ce FDR local, ` a un niveau suffisamment ´ elev´ e pour garantir la s´ election d’une part importante du support du signal.

Pour permettre le calcul des CAT-scores en grande dimension, Ahdesm¨ aki and Strimmer (2010) proposent une m´ ethode d’estimation par shrinkage, de type James- Stein. Ainsi, l’estimateur de la matrice de correlation prend la forme suivante :

R ˆ

γ

= γ

Im

+ (1

γ) ˆ R,

o` u ˆ R est la matrice des corr´ elations empiriques et 0

γ

1 est le param` etre de r´ egularisation. Sch¨ afer and Strimmer (2005) propose une expression analytique de la valeur optimale de γ, au sens de la performance de la m´ ethode de classification supervis´ ee. Cette approche par shrinkage permet le calcul explicite de ˆ R

αγ

, pour toute puissance α. Ainsi, Zuber and Strimmer (2009) d´ efinit la matrice Z suivante :

Z = 1

γ R ˆ

γ

=

Im

+ U M U

0

,

o` u M est une matrice sym´ etrique d´ efinie positive et U est une base orthonormale.

La puissance α de la matrice Z peut-ˆ etre calcul´ ee par la formule suivante : Z

α

=

Im

U(

Ir

(

Ir

+ M)

α

)U

0

o` u r est le rang de M . Cette formule ne fait appel qu’au calcul de puissance de la matrice

Ir

+ M . Apr` es s´ election des variables explicatives selon la proc´ edure d´ ecrite ci-dessus, l’´ etape de classification s’appuie sur une approche d’analyse dis- criminante lin´ eaire pour laquelle tous les param` etres sont estim´ es par shrinkage (Hausseur and Strimmer (2009)). Cette m´ ethode est impl´ ement´ ee dans le package

R sda

(Ahdesm¨ aki et al. (2014)).

innovated HCT

Comme mentionn´ e ci-dessus, la d´ ecorr´ elation du profil des va-

riables explicatives permet de consid´ erer la question de la s´ election de variables

comme un probl` eme de tests multiples, pour lequel la s´ election d’une variable re-

pose sur un seuillage des statistiques de tests ou des p-values associ´ ees. Alors que

Ahdesm¨ aki and Strimmer (2010) propose de d´ efinir le seuil en s’appuyant sur l’esti-

mation des risques d’erreur de s´ election, la m´ ethode Higher Criticism Thresholding

(HCT, voir Donoho and Jin (2015) pour une revue r´ ecente) repose sur la maxi-

misation d’une fonction objectif. Si (p

1

, . . . , p

m

) d´ esigne le vecteur des probabilit´ es

(24)

2. PRISE EN COMPTE DE LA D ´EPENDANCE 23

critiques issues de tests d’hypoth` eses et (p

(1)

, . . . , p

(m)

) leur statistique d’ordre, HCT d´ efinit le seuil optimal comme l’indice des p-values pour lequel l’´ ecart entre la fonc- tion de r´ epartition empirique et celle de la loi uniforme, en d’autres termes la loi d’une p-value sous l’hypoth` ese nulle, est maximal :

j

= argmax

j:1/m≤p(j)≤1/2

m j/m

p

(j) q

p

(j)

(1

p

(j)

)

.

L’ensemble des variables s´ electionn´ ees est

{j, pj

p

(j∗)}. Les variantes et les pro-

pri´ et´ es de HCT sont pr´ esent´ ees en d´ etails dans le Chapitre 4.

En situation de d´ ependance, Hall and Jin (2010) s’appuie sur la factorisation de Cholesky de la matrice de covariance pour d´ efinir la m´ ethode innovated HCT (iHCT), une variante de HCT. Hall and Jin (2010) suppose que le vecteur T des statistiques de test est gaussien tel que :

T = µ + Z o` u Z

∼ N

(0, Σ) et Σ

6=Im

, (1.1) o` u le signal µ est un vecteur parcimonieux poss´ edant k coordonn´ ees non nulles parmi m, de mˆ eme amplitude A

m

. Les statistiques de tests sont d´ ecorr´ el´ ees par la factorisation de Cholesky inverse de Σ telle que U

m

ΣU

m0

=

Im

et Hall and Jin (2010) consid` ere le probl` eme suivant, ´ equivalent ` a (1.1) :

U

m

T = U

m

µ + U

m

Z o` u U

m

Z

∼ N

(0,

Im

). (1.2) Les r´ esultats ´ etablis par Hall and Jin (2010) reposent sur une hypoth` ese sur la matrice de covariance particuli` erement adapt´ ee ` a des structures de d´ ependance temporelle de type auto-r´ egressif et garantissant que le signal transform´ e U

m

µ a un support similaire ` a celui de µ. Afin de satisfaire cette hypoth` ese, les auteurs proposent un lissage de la matrice de d´ ecorr´ elation U

m

et d´ efinissent une matrice U ˜

m

dont le terme g´ en´ eral ˜ u

k,j

est d´ efini par :

˜ u

k,j

=

(

u

kj

si k

b

m

+ 1

j

k 0 sinon,

o` u u

kj

est le terme g´ en´ eral (k, j) de la matrice U

m

et b

m

est une fenˆ etre recommand´ ee entre 1 et log(m). Enfin, les statistiques de tests T sont d´ ecorr´ el´ ees par la matrice V

m

d´ efinie par :

V

m

(b

m

) = U

0m

U

m

,

o` u U

m

est la matrice ˜ U

m

dont les colonnes ont ´ et´ e normalis´ ees ` a 1. Si b

m

= 1, innovated HCT revient ` a appliquer HCT aux statistiques de test d´ ecorr´ el´ ees :

V

m

X = V

m

µ + V

m

Z,

dont de nouvelles probabilit´ es critiques (p

1

, . . . , p

m

) sont d´ eduites. Hall and Jin (2010) recommande b

m

= log(m) et dans ce cas, le seuil optimal iHC

m

(b

m

) de innovated HCT est d´ efini comme suit :

iHC

m

(b

m

) = 1

2b

m

1 max

j:1/m≤p(j)≤1/2

m j/m

p

(j) q

p

(j)

(1

p

(j)

)

.

(25)

Hall and Jin (2010) d´ emontre des propri´ et´ es d’optimalit´ e de innovated HCT en terme de d´ etection et d’estimation du signal sous certaines conditions sur Σ.

Enfin, on verra dans le Chapitre 4 que le mod` ele ` a facteurs pr´ esent´ e dans la section suivante permet ´ egalement une expression analytique de la racine carr´ ee de la matrice de covariance, afin de d´ evelopper une proc´ edure similaire au innovated HCT (Hall and Jin (2010)) ou aux CAT-scores (Zuber and Strimmer (2009)).

2.2 Mod´ elisation de la structure de d´ ependance

Dans certains domaines d’application, en particulier celui de l’analyse de donn´ ees g´ enomiques, il est pertinent de consid´ erer que la d´ ependance est structur´ ee par l’effet de variables latentes. Le mod` ele correspondant ` a ce type de point de vue sur la d´ ependance, appel´ e mod` ele ` a facteurs, conduit ` a la r´ eduction du rang de la matrice de variance-covariance entre les variables explicatives. Les composantes de la d´ ependance, si possible en nombre mod´ er´ e, sont assimilables ` a autant de sources de variabilit´ e g´ en´ erant une h´ et´ erog´ en´ eit´ e de la distribution jointe des variables explicatives. En effet, l’effet de ces facteurs peut se confondre avec le vrai signal et expliquer la non-consistance du classement des p-values par des m´ ethodes de tests qui ignorent la d´ ependance. Par exemple, en analyse de donn´ ees g´ enomiques, l’expression des g` enes peut ˆ etre associ´ ee ` a une condition exp´ erimentale mais aussi activ´ ee par l’activit´ e biologique de l’individu (la bibliographie est riche sur le sujet, voir Kustra et al. (2006), Leek and Storey (2008), Carvalho et al. (2008), Friguet et al. (2009), Teschendorff et al. (2011), Sun and Cai (2009), Pournara and Wernisch (2007), Blum et al. (2010)). Enfin, des articles r´ ecents illustrent l’apport du mod` ele ` a facteurs en ´ epig´ en´ etique, sur des donn´ ees de m´ ethylation de l’ADN (Houseman et al. (2015)).

2.2.1 Mod` ele ` a facteurs

Le mod` ele ` a facteurs suppose l’existence de variables latentes, non observ´ ees, qui peuvent avoir un effet lin´ eaire sur la variable r´ eponse. Ce mod` ele suppose que la d´ ependance peut ˆ etre d´ ecrite dans un espace lin´ eaire de dimension mod´ er´ ee. Ainsi, si on consid` ere que le profil X des variables explicatives suit une loi normale telle que :

X

∼ Nm

(0, Σ), (1.3)

le mod` ele ` a facteurs suppose l’existence d’un vecteur de q m variables latentes Z = (Z

1

, Z

2

, . . . , Z

q

), que l’on suppose distribu´ e selon une loi normale d’esp´ erance nulle et de variance

Iq

, d´ ecrivant la d´ ependance entre les variables explicatives.

Conditionnellement aux facteurs latents Z, les variables explicatives sont en effet ind´ ependantes et suivent une loi normale telle que :

X|Z = z

∼ Nm

(Bz, Ψ), (1.4)

o` u B est une matrice (m

×

q) de loadings repr´ esentant la d´ ependance commune aux m variables. En effet,

Cov(X, Z) = B.

(26)

2. PRISE EN COMPTE DE LA D ´EPENDANCE 25

Ψ est une matrice diagonale repr´ esentant la variance sp´ ecifique aux variables expli- catives.

De mani` ere ´ equivalent, le mod` ele (1.4) conduit ` a la d´ ecomposition suivante de la matrice de variance-covariance Σ :

Σ = Ψ + BB

0

.

D’un point de vue num´ erique, cette d´ ecomposition est int´ eressante car elle permet notamment l’inversion de Σ en ne faisant appel qu’` a l’inversion de matrices dia- gonales ou de petite dimension (q

×

q) par la formule de Woodbury (Press et al.

(2007)) :

Σ

−1

= Ψ

−1

Ψ

−1

B(

Iq

+ B

0

Ψ

−1

B)

−1

B

0

Ψ

−1

.

Plusieurs m´ ethodes de tests ou de s´ election de variables s’appuient sur l’identi- fication du noyau de d´ ependance BZ pour d´ ecorr´ eler les variables explicatives : on d´ enote entre autres SVA pour surrogate variable analysis (Leek and Storey (2007)), FAMT pour factor analysis for multiple testing (Friguet et al. (2009)), LEAPP pour latent effect adjustment after primary projection (Sun et al. (2012)). La principale diff´ erence entre ces m´ ethodes r´ eside sur la technique de s´ eparation du signal et du bruit, structur´ e par l’effet des facteurs latents sur la variable r´ eponse dans la proc´ edure d’estimation des param` etres du mod` ele (1.4). Toutes les m´ ethodes sup- posent que le signal est parcimonieux et l’estimation de la structure de d´ ependance repose sur l’identification des variables hors du support du signal, assimilables ` a du bruit pur.

Plusieurs techniques existent pour identifier ces variables, ` a partir desquelles on peut identifier la structure de d´ ependance du bruit. Dans la proc´ edure FAMT (fac- tor analysis for multiple testing), propos´ ee par Friguet et al. (2009), les variables explicatives sans effet sur la variable r´ eponse sont identifi´ ees par seuillage sur les statistiques de test. Causeur et al. (2012) propose une adaptation de FAMT pour l’analyse de potentiels ´ evoqu´ es cognitifs. La m´ ethode FAMT est impl´ ement´ ee dans le package

R FAMT

(Causeur et al. (2011)). La m´ ethode SVA (surrogate variable analysis , Leek and Storey (2007), Leek and Storey (2008)) estime les coefficients associ´ es ` a la covariable sans ajustement sur la d´ ependance puis isole it´ erativement les facteurs latents en pond´ erant par un poids faible les variables pour lesquelles l’ef- fet est non nul. Cette m´ ethode est impl´ ement´ ee dans le package

R sva

(Leek et al.

(2014)). Enfin, dans la proc´ edure d’estimation LEAPP (latent effect adjustment after primary projection), Sun et al. (2012) introduisent une matrice de rotation transformant les donn´ ees de telle mani` ere ` a concentrer l’ensemble du signal sur une seule variable. Les facteurs latents sont alors estim´ es ` a partir des autres variables transform´ ees par un mod` ele de r´ egression ` a effets mixtes. Enfin, la structure en facteurs est int´ egr´ ee dans l’estimation de l’effet de la variable transform´ ee concen- trant le signal. Cette m´ ethode est impl´ ement´ ee dans le package

R leapp

(Sun et al.

(2014)).

(27)

2.2.2 Estimation des param` etres

La litt´ erature sur l’estimation des param` etres du mod` ele ` a facteurs, en parti- culier pour ses applications traditionnelles en psychologie, est vaste (Mardia et al.

(1979)). L’estimation par maximum de vraisemblance introduite par J¨ oreskog (1967) est adapt´ ee ` a l’hypoth` ese de normalit´ e des variables explicatives introduite plus haut. Cependant, la maximisation directe de la vraisemblance n’est pas possible en grande dimension. Friguet et al. (2009) proposent un algorithme EM (Rubin and Thayer (1982)) s’appuyant sur un parall` ele entre facteurs latents et donn´ ees manquantes. Lorsque B et Ψ sont connus, les facteurs latents sont estim´ es par les scores de Thomson (Thomson (1951)) et par la formule d’inversion de Woodbury :

E

(Z

|X

= x) = B

0

Σ

−1

x

= (I

q

+ B

0

Ψ

−1

B)

−1

B

0

Ψ

−1

x.

2.2.3 Nombre de facteurs

Le choix du nombre de facteurs q ` a retenir dans le mod` ele ` a facteurs est un point crucial de l’analyse. Extraire un trop grand nombre de facteurs peut rendre l’estimation des variances r´ esiduelles sp´ ecifiques Ψ artificiellement faibles et mener

`

a des d´ ecisions erron´ ees lors de l’´ etape de s´ election de variables.

Par analogie avec l’analyse en composantes principales, les m´ ethodes les plus classiques pour estimer le nombre de facteurs reposent sur l’examen de la s´ equence ordonn´ ee dans l’ordre d´ ecroissant des valeurs propres de la matrice de variance- covariance. Certaines proc´ edures simples comme la m´ ethode de Kaiser, retiennent le nombre de valeurs propres sup´ erieures ` a 1 ou ` a la moyenne des valeurs propres (Kaiser (1960)). Pour l’essentiel toutefois, les m´ ethodes de d´ etermination du nombre de facteurs cherchent ` a identifier une rupture dans la d´ ecroissance de la s´ equence des valeurs propres, aussi appel´ ee coude. Certains auteurs ont propos´ e des proc´ edures de d´ etermination automatique de ce coude. Zoski and Jurs (1993) proposent ainsi une m´ ethode bas´ ee sur des r´ egressions sur des s´ equences emboˆıt´ ees de valeurs propres successives, le nombre de facteurs ´ etant alors d´ etermin´ e par le nombre de valeurs propres dans la s´ equence pour laquelle la diff´ erence de pente entre deux r´ egressions successives est maximale. De nombreuses autres m´ ethodes privil´ egient une approche par tests de comparaison de mod` eles emboˆıt´ es (voir entre autres Anderson (1963), Bartlett (1950), Bartlett (1951), Lawley (1956)). Ces m´ ethodes sont toutefois peu utilis´ ees en grande dimension, principalement car elles surestiment le nombre de facteurs. Dans une revue d´ etaill´ ee de nombreuses m´ ethodes, Ford et al. (1986) sugg` erent que l’analyse parall` ele (Buja and Eyuboglu (1992)) d´ ecrite ` a pr´ esent est la m´ ethode la plus performante. Buja and Eyuboglu (1992) proposent de retenir le nombre de valeurs propres de la matrice de covariance empirique sup´ erieures ` a la moyenne (ou ` a un quantile) des valeurs propres de matrices de mˆ emes dimensions obtenues par r´ e-´ echantillonnage sous l’hypoth` ese d’absence de structure en facteurs.

Il s’agit de la m´ ethode utilis´ ee dans SVA par Leek and Storey (2007) et dans LEAPP

par Sun et al. (2012).

Références

Documents relatifs

Contexte M´ ethode Simulations Donn´ ees r´ eelles Etat de l’art Pr´ etraitement S´ election de

Variable d’int´ erˆ et binaire, multinomiale, ou continue Visualisation, sur tous les patients, des g` enes s´ electionn´ es Classification de profils g´ en´ etiques de patients.

On appelle X la variable al´eatoire associ´ee au nombre de salari´es, parmi les 80 interrog´es, qui per¸coivent la prime dans cette PME.. Quelle est la loi suivie par la

Calculer la probabilit´e qu’un ´el`eve choisi au hasard ait pass´e le test pour la 1`ere fois et l’ait r´eussi.. D´eterminer la probabilit´e qu’un ´el`eve choisi au hasard

`a un petit nombre de variables latentes (Friguet et al. La strat´egie propos´ee consiste `a appliquer les proc´edures sur les donn´ees conditionnellement `a cette struc- ture

Deux méthodes statistiques pour la classification et la régression en grande dimension..

La suite de Faure et le plan avec amas présentent des ratios R min faibles (respectivement 0.18 et 0.22) confirmant la présence d’amas qui ont été visualisés dans la

Our procedure can thus be employed in very high-dimensional settings, as the screening property (that is, in the words of Bühlmann (2013), the ability of the Lasso to select