Table des mati` eres
1 Introduction 3
1.1 La grande dimension . . . . 3
1.2 Les r´ eseaux de neurones . . . . 4
2 Le fl´ eau de la grande dimension. 7 2.1 Introduction . . . . 7
2.2 Dans les espaces de grande dimension, personne ne vous en- tend crier . . . . 8
2.2.1 Les voisinages ne sont plus locaux . . . . 8
2.2.2 La notion de plus proche voisin disparaˆıt . . . . 10
2.2.3 Classification en grande dimension et sur-apprentissage 11 2.3 Ph´ enom` enes de concentration . . . . 12
2.3.1 Volume de la boule unit´ e . . . . 12
2.3.2 Les points sont proches des bords . . . . 13
2.3.3 Queue de la gaussienne . . . . 15
2.4 Des propri´ et´ es asymptotiques ´ etonnantes . . . . 15
3 R´ eduction de dimension par s´ election de variables : test mul- tiples 19 3.1 Tests multiples . . . . 19
3.1.1 Probl´ ematique et d´ efinition . . . . 19
3.1.2 Contrˆ ole de la FWER . . . . 21
3.1.3 Contrˆ ole de la FDR : proc´ edure de Benjamini-Hochberg 22 4 R´ eduction de dimension par cr´ eation de nouvelles variables : ACP et PLS 23 4.1 Une approche non supervis´ ee : l’ACP . . . . 23
4.1.1 Crit` ere d’inertie . . . . 23
4.1.2 Caract´ erisation des axes . . . . 25
4.1.3 Repr´ esentation des individus et des variables . . . . . 26
4.1.4 Autre formulation . . . . 26
4.1.5 Utilisation en grande dimension . . . . 27
4.2 La r´ egression PLS . . . . 27
1
4.2.1 Cas o` u Y est une variable simple . . . . 28
4.2.2 Cas o` u Y est une ensemble de q variables Y
1, . . . Y
q. . 29
4.3 Versions probabilistes et parcimonieuses . . . . 30
5 Approches p´ enalis´ ees 31 5.1 Regression p´ enalis´ ee . . . . 31
5.1.1 R´ egression Ridge . . . . 31
5.1.2 LASSO . . . . 33
5.1.3 Elastic-Net et Group-Lasso . . . . 33
5.2 Exemples d’autres applications . . . . 34
5.2.1 Approches p´ enalis´ ees pour la classification . . . . 34
5.2.2 Approches p´ enalis´ ees pour la r´ eduction de dimension . 34 6 Mod` eles graphiques gaussiens - Inf´ erence de r´ eseaux 37 6.1 Ind´ ependance conditionnelle et variables gaussiennes . . . . . 37
6.2 Mod` ele graphique . . . . 38
6.2.1 Graphe d’ind´ ependance conditionnelle . . . . 38
6.2.2 Lien entre graphe d’ind´ ependance conditionnelle et graphe d’interaction entre g` enes . . . . 39
6.3 Inf´ erence d’un mod` ele graphique gaussien . . . . 39
A Rappels sur le mod` ele lin´ eaire 45 A.1 Le mod` ele lin´ eaire gaussien . . . . 45
A.2 Le mod` ele lin´ eaire g´ en´ eralis´ e . . . . 48
B D´ ecomposition en valeurs singuli` eres (SVD) 51 C Loi normale multivari´ ee 53 C.1 D´ efinition et densit´ e . . . . 53
C.2 Op´ erations . . . . 53
C.3 Densit´ e conditionnelle . . . . 54
Chapitre 1
Introduction
L’apprentissage statistique est un terme g´ en´ erique d´ esignant les tech- niques permettant de traiter des donn´ ees r´ eelles afin d’apprendre des obser- vations. Il regroupe plusieurs grandes familles de probl` emes, pour lesquels de nombreux outils statistiques existent, et ont des propri´ et´ es en g´ en´ eral bien connues d’un point de vue th´ eorique, notamment d’un point de vue asymptotique (consistance des estimateurs, lois, vitesse de convergence, ...).
Classification non supervis´ ee : K-means, algorithme EM, . . .
Classification supervis´ ee : Arbres de classification et forˆ ets al´ eatoires, KNN (plus proches voisins), SVM . . .
Pr´ ediction : R´ egressions (lin´ eaire, logistique, probit . . .), arbres de classi- fication, forˆ ets al´ eatoires ou KNN abec des sorties continues, . . . S´ election de variables : Tests, s´ election de mod` ele ` a l’aide de crit` eres
type AIC ou BIC.
L’explosion de la taille des donn´ ees recueillies dans de nombreux do- maines d’appication, dont la biologe et l’image, pose des probl` emes th´ eo- riques qui obligent ` a adapter ces m´ ethodes aux jeux de donn´ ees auxquels les scientifiques sont aujourd’hui confront´ es.
1.1 La grande dimension
En grande dimension, par exemple dans le cadre d’exp´ eriences en g´ e- nomique, le nombre d’observations (les ´ echantillons) est plus petit que le nombre de variables (les g` enes) et l’´ etude asymptotique est donc interdite.
De plus, certaines m´ ethodes reposant sur l’inversion de matrices, par exemple la r´ egression lin´ eaire, ne peuvent plus ˆ etre appliqu´ ees car les matrices ne sont plus inversibles. Enfin, d’un point de vue de l’interpr´ etation des r´ esultats, il est souvent int´ eressant de savoir quelles sont les quelques variables jouant le plus grand rˆ ole d’explication de la sortie en pr´ ediction, de classifieur en
3
classification. Il s’agit de chercher des aiguilles (les variables les plus perti- nentes) dans une meule de foin (les centaines, milliers ou plus de variables
`
a disposition).
L’id´ ee g´ en´ erale commune ` a toute m´ ethode en grande dimension est que l’essentiel de l’information vit dans un espace de dimension plus petit. Par exemple, si l’on cherche ` a faire une classification d’´ echantillons cellulaires tumoraux sur la base de l’expression des g` enes, il est fort ` a parier que l’im- mense majorit´ e des g` enes ont un comportement similaire dans tous les types de cancer et ne portent donc pas d’information pertinente.
Il y a d` es lors essentiellement deux fa¸ cons de proc´ eder :
la s´ election de variables (feature selection) : cette approche consiste
`
a se restreindre ` a un espace plus petit en ne gardant qu’une partie des variables de d´ epart. En d’autres termes, la matrice X repr´ esentant l’´ echantillon est r´ eduite ` a un sous-ensemble de ces colonnes.
la r´ eduction de dimension (feature extraction) : cette approche consiste
`
a trouver le meilleur sous-espace lin´ eaire suivant un crit` ere d´ ependant du but recherch´ e et de la m´ ethode choisie. En d’autres termes, on cherche une matrice de changement de base A et on consid` ere comme nouvelles variables les colonnes de la matrice Z = XA. Les r pre- mi` eres colonnes de Z correspondent alors au meilleur r´ esum´ e de X en dimension r, meilleur au sens du crit` ere choisi pr´ ec´ edemment.
Les avantages et inconv´ enients de ces deux approches sont principale- ment que la r´ eduction de dimension perd moins d’information que la s´ e- lection de variables, l’ensemble des espaces lin´ eraires consid´ er´ e ´ etant plus grand. Par contre, le prix ` a payer est une moindre interpr´ etabilit´ e des r´ esul- tats, puisque ce sont des combinaisons lin´ eaires des variables de d´ epart qui sont s´ electionn´ ees, ce qui peut ne pas correspondre au probl` eme initial (que repr´ esente une combinaison lin´ eaire de g` enes ?).
Le but de la premi` ere partie du cours est de pr´ esenter une partie de ces m´ ethodes, principalement ` a travers l’exemple de la r´ egression lin´ eaire ou logistique. Il ne s’agit en aucun cas d’un cours exhaustif, dans la mesure o` u de tr` es nombreuses m´ ethodes sont d´ evelopp´ ees en grande dimension. Les approches pr´ esent´ ees ici font cependant partie des outils de base ` a connaˆıtre, sur lesquelles beaucoup d’autres m´ ethodes sont bas´ ees.
1.2 Les r´ eseaux de neurones
Dans d’autres cas, en image par exemple, il n’y a pas de souci de grande
dimension au sens statistique du terme, dans le sens o` u le nombre de d’ob-
servations (les images) est encore plus grand que le tr` es grand nombre de
variables (les pixels).
1.2. LES R ´ ESEAUX DE NEURONES 5 Dans ce cas-l` a, une nouvelle m´ ethode a le vent en poupe depuis le d´ e- bit des ann´ ees 2000, ` a savoir les r´ eseaux de neurones. Ces r´ eseaux ont ´ et´ e popularis´ es par de tr` es bonnes performances en terme de pr´ ediction dans des probl` emes comportant un grand nombre de variables. Ils ont en effet l’avantage de permettre l’introduction de non-lin´ earit´ es dans le mod` ele de pr´ ediction utilis´ es. Ils souffrent cependant d’un manque d’interpr´ etabilit´ e du mod` ele appris, et se prˆ etent pour l’instant encore mal ` a la s´ election de variables.
La deuxi` eme (et plus courte) partie de ces cours sera d´ edi´ e ` a une intro-
duction aux r´ eseaux de neurones.
Chapitre 2
Le fl´ eau de la grande dimension.
Ce chapitre est repris d’un cours fait par Julie Delon, merci ` a elle de me l’avoir transmis. Il s’inspire tr` es largement et essentiellement des r´ ef´ e- rences [?, ?, ?].
2.1 Introduction
De nombreux types de donn´ ees modernes comportent des milliers voir des millions de variables. Pour ne citer que quelques exemples frappants :
1. certaines donn´ ees biologiques, comme les donn´ ees ADN. Pour ce type de donn´ ees, on a souvent des milliers de variables mais assez peu d’ob- servations ou d’individus (cf Figure ??).
2. les images ou vid´ eos (Figure ??) : une image sortant d’un appareil photo num´ erique standard est un tableau de plusieurs millions d’en- tr´ ees, et une vid´ eo HD d’une heure comportant 24 images par seconde (standard dans le cin´ ema) comporte presque 130000 images de deux millions de pixels.
3. les donn´ ees li´ ees aux pr´ ef´ erences des consommateurs (Figure ??) : les programmes de fid´ elit´ e ou les sites internet de vente en ligne recensent de tr` es nombreuses informations sur les pr´ ef´ erences et les comporte- ments des consommateurs, pour pouvoir pr´ edire leurs goˆ uts et leur recommander de nouveaux produits de mani` ere personnalis´ ee. Par exemple, des soci´ et´ es comme Netflix ou Spotify poss` edent des bases de notes donn´ ees par plusieurs millions d’utilisateurs sur des milliers de films ou morceaux. Ces bases, tr` es parcimonieuses (chaque utilisa- teur n’a not´ e que quelques films/morceaux en g´ en´ eral), leur permet de proposer des recommandations personnalis´ ees ` a leur clients, et ces syst` emes de recommandation sont tr` es importants dans leur succ` es.
7
Ce grand nombre d’informations peut sembler ˆ etre un atout pour traiter les donn´ ees, mais nous allons voir que dans les espaces de grande dimen- sion, de nombreux ph´ enom` enes peu intuitifs rende l’estimation difficile. On appelle l’ensemble de ces ph´ enom` enes le fl´ eau de la dimension (the curse of dimensionality). Ce terme semble ˆ etre dˆ u ` a R. Bellman qui l’utilise dans l’introduction de son livre “Dynamic programming” en 1957 pour parler des difficult´ es de trouver un optimum dans un espace de grande dimension par recherche exhaustive, afin de prommouvoir les approches de type program- mation dynamique :
All [problems due to high dimension] may be subsumed under the heading
“ the curse of dimensionality”. Since this is a curse, [...], there is no need to feel discouraged about the possibility of obtaining significant results despite it.
On va voir dans les sections suivantes plusieurs propri´ et´ es g´ eom´ etriques contre-intuitives li´ ees aux espaces de grande dimension, et en quoi ces pro- pri´ et´ es sont gˆ enantes pour tous les probl` emes d’apprentissage dans ces es- paces.
2.2 Dans les espaces de grande dimension, per- sonne ne vous entend crier
Le titre de cette section est une r´ ef´ erence ` a l’accroche du film Alien, le huiti` eme passager (Ridley Scott, 1979), voir la Figure 2.1.
Figure 2.1 – ”Dans l’espace, personne ne vous entend crier” ´ etait l’accroche du film Alien, le huiti` eme passager, de Ridley Scott, 1979.
2.2.1 Les voisinages ne sont plus locaux
Imaginons que l’on veuille faire de la classification ou de l’estimation de
densit´ e supervis´ ee en dimension p ` a partir d’une base d’apprentissage de
2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER9 taille n. Une m´ ethode tr` es classique est de se reposer sur la notion de plus
proches voisins.
— Classification (Figure 2.2, gauche) : ´ etant donn´ e n points d’une base d’apprentissage et dont on connaˆıt les classes, on peut simplement classer un nouveau point x en calculant la clase la plus repr´ esent´ ee parmi les k plus proches voisins de x de cette base d’apprentissage.
Ici aussi, la notion de plus proche voisin est essentielle.
— Estimation de densit´ e (Figure 2.2, droite) : on cherche ` a estimer par r´ egression une fonction f liant une variable X de [0, 1]
pet une variable r´ eelle Y , ` a partir de n observations i.i.d. (x
i, y
i) suivant le mod` ele
y
i= f (x
i) +
i,
avec f : [0; 1]
p→ R et les
ii.i.d. centr´ es. Il est classique de supposer que f est r´ eguli` ere et d’estimer f (x) comme la moyenne des y
iassoci´ es aux k plus proches voisins x
ide x :
f (x) = 1 k
X
i;xi∈k−nn(x)
y
i.
Figure 2.2 – La classification (` a gauche) et la r´ egression (` a droite) super- vis´ ees reposent souvent sur des moyennes locales. La Figure de gauche est extraite de [?].
Si les m´ ethodes pr´ ec´ edentes fonctionnent bien en faible dimension, les proc´ edures d’estimation utilisant la notion de voisinage ou de plus proches voisins perdent en partie leur sens lorsque la dimension p de l’espace grandit trop vite par rapport aux nombres n d’´ echantillons de la base d’apprentis- sage.
La premi` ere raison est que les espaces de grande dimension sont
essentiellement vides. Pour faire de la r´ egression ou de la classification
supervis´ ee, il faut si possible avoir des donn´ ees qui ´ echantillonnent bien l’es-
pace. Supposons que nos donn´ ees vivent dans [0, 1]
p. Si on veut capturer un
voisinage d’un point x qui couvre une fraction s du volume de l’hypercube, afin de classer x ou d’estimer une densit´ e en x, il faut choisir autour de x un voisinage hypercubique de cˆ ot´ e s
1/p. Pour p = 10 et s = 0.01, le cˆ ot´ e de l’hypercube doit ˆ etre 0.63 (pour s = 0.1, le cˆ ot´ e devient 0.8). Autrement dit, pour capturer 1% des donn´ ees, il faut un voisinage dont le cˆ ot´ e doit couvrir 63% de la dynamique dans chaque dimension ! Ces voisinages ne sont donc plus du tout locaux (cf Figure 2.3).
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
fraction of volume 0.0
0.2 0.4 0.6 0.8 1.0
distance
p=1p=2 p=3p=10
Figure 2.3 – En ordonn´ ee, longueur du cˆ ot´ e de l’hypercube, en abscisse, volume de l’hypercube, pour diff´ erentes valeurs de la dimension p.
Inversement, supposons qu’on choisisse un hypercube de cˆ ot´ e r = 0.1 autour du point x. Son volume 0.1
pdecroˆıt exponentiellement avec la di- mension, et ne capture plus qu’une proportion infime des donn´ ees. Il se peut qu’il n’y ait aucun ´ el´ ement de la base d’apprentissage dans ce volume, ou alors tr` es peu, ce qui donne des estimateurs de tr` es grande variance. Autre- ment dit, les points des espaces de grande dimension sont isol´ es. Si on a une base d’apprentissage de taille fixe, elle peut ˆ etre suffisante pour bien
´ echantillonner l’espace en faible dimension et pas du tout pour un espace de dimension plus grande. Finalement, pour ´ echantillonner un espace de di- mension p avec une densit´ e d’´ echantillonnage fix´ ee, il faudrait un nombre d’´ echantillons croissant exponentiellement avec p, ce qui devient tr` es vite impossible.
2.2.2 La notion de plus proche voisin disparaˆıt
Une autre mani` ere de voir que les points sont essentiellement isol´ es les uns des autres en grande dimension est de regarder la loi de la distance quadratique entre deux vecteurs de mˆ eme loi.
Soient X, Y des variables i.i.d. de loi uniforme dans [0, 1]
p. L’´ ecart qua- dratique kX − Y k
2a pour esp´ erance
E[kX − Y k
2] = p/6
2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER11 et pour ´ ecart-type
V ar[kX − Y k
2] ' 0.2 √ p.
L’esp´ erance croˆıt donc lin´ eairement avec p alors que l’´ ecart-type ne croˆıt qu’en √
p (voir la Figure 2.4). En cons´ equence, lorsque p est grand, si on tire n points ind´ ependamment avec une loi uniforme sur l’hypercube, tous les points auront tendance ` a ˆ etre ` a une distance similaire les uns des autres, la notion de plus proche voisin perdant de son sens. Les points dans les espaces de grande dimension ont donc tendance ` a ˆ etre isol´ es les uns des autres.
Remarquons que cette propri´ et´ e n’est pas li´ ee au fait que la loi des points est uniforme. Si X et Y ont des coordonn´ ees X
iet Y
itelles que les |X
i− Y
i|
2soient i.i.d. de moyenne µ et d’´ ecart type σ par exemple, le th´ eor` eme de la limite centrale nous permet d’affirmer que
kX − Y k
2− µp
√ pσ = P
pi=1
|X
i− Y
i|
2− µp
√ pσ →
loiN (0, 1).
Les m´ ethodes d’apprentissage reposant sur la notion de plus proche voisin perdent donc une partie de leur sens en grande dimension. En pratique, le probl` eme pourrait ˆ etre r´ esolu en imposant au nombre d’observations n d’ˆ etre assez grand pour ´ eviter aux observations d’ˆ etre isol´ ees les unes des autres.
Mais si on veut par exemple que pour n’importe quelle valeur x de [0, 1]
pil existe un X
i` a distance de x inf´ erieure ` a 1, le nombre d’observations n n´ ecessaire croˆıt exponentiellement vite avec p.
p = 2 p = 100 p = 1000
0.0 0.2 0.4 0.6 0.8 1.0 1.2
distance 0
20 40 60 80 100
0 1 2 3 4 5
distance 0
50 100 150 200 250 300 350 400
0 2 4 6 8 10 12 14
distance 0
200 400 600 800 1000
Figure 2.4 – Histogrammes des distances deux ` a deux entre n = 100 points
´ echantillonn´ es uniform´ ement dans l’hypercube [0, 1]
p2.2.3 Classification en grande dimension et sur-apprentissage
Les espaces de grande dimension ´ etant essentiellement vides, il est facile
en pratique de s´ eparer des groupes de donn´ ees, mˆ eme avec des mod` eles de
classification lin´ eaire. Par exemple, si on utilise un mod` ele de classification
lin´ eaire, plus la dimension est grande, plus il est facile de trouver un hyper- plan s´ eparant les classes de la base d’apprentissage. Le probl` eme est que les classes ainsi apprises se g´ en´ eralisent mal ` a des donn´ ees non observ´ ees, car elles sont sujettes ` a l’overfitting ou sur-apprentissage (voir la Figure 2.5) : le classifieur apprend des exceptions sp´ ecifiques ` a la base d’apprentissage. Cela peut ˆ etre encore pire pour des algorithmes de classification non lin´ eaires (r´ e- seaux de neurones par exemple), qui risquent fortement de venir beaucoup trop coller aux donn´ ees en grande dimension.
Figure 2.5 – Probl` eme de sur-apprentissage quand on augmente la dimen- sion de l’espace.
2.3 Ph´ enom` enes de concentration
On a montr´ e dans les paragraphes pr´ ec´ edents que les points dans les espaces de grande dimension ´ etaient essentiellement isol´ es. Un autre ph´ e- nom` ene surprenant est que les points ont tendance dans ces espaces ` a se concentrer sur des lieux g´ eom´ etriques particuliers, rendant certains pro- bl` emes d’apprentissage particuli` erement ardus.
2.3.1 Volume de la boule unit´ e
Le volume de la boule unit´ e en dimension p est V
p= π
p/2Γ(p/2 + 1) , avec Γ(x) = R
x0
t
x−1e
−tdt la fonction Gamma (voir l’exercice de la feuille de TD et la Figure 2.6). Ce volume atteint un maximum pour p = 5, puis d´ ecroˆıt et tend exponentiellement vite vers 0 lorsque p tend vers l’infini. Le volume de la boule unit´ e devient donc tr` es rapidement n´ egligeable devant celui de l’hypercube.
Cette propri´ et´ e de la boule en dimension p a plusieurs cons´ equences. On
peut d’abord retrouver un r´ esultat d’´ echantillonnage similaire ` a ceux vus
2.3. PH ´ ENOM ` ENES DE CONCENTRATION 13
0 20 40 60 80 100
dimension 0
1 2 3 4 5
volume
Figure 2.6 – Volume de la boule unit´ e en fonction de la dimension p.
dans la section pr´ ec´ edente : si on veut recouvrir l’hypercube par une union de n boules unit´ es, il faut que
n ≥ 1
V
p= Γ(p/2 + 1) π
p/2p→∞
∼ p 2πe
p2√ pπ.
Ce nombre de points augmente exponentiellement avec p et est d´ ej` a de l’ordre de 42.10
39lorsque p vaut 100 et plus grand que le nombre estim´ e de particules dans l’univers quand p vaut 200.
2.3.2 Les points sont proches des bords
Une autre cons´ equence du r´ esultat pr´ ec´ edent est que si l’on tire des points avec une loi uniforme dans l’hypercube [−1, 1]
p, ces points tomberont en dehors de la boule unit´ e centr´ ee en 0 avec une probabilit´ e tr` es rapidement proche de 1 lorsque p grandit. Autrement dit, ces points vont tomber dans les coins du cube. En dimension p, il y a 2
pcoins de ce type, ce qui donne lieu ` a des repr´ esentations graphiques de l’hypercube du type de ceux illustr´ es par la Figure 2.7.
Figure 2.7 – Repr´ esentations bidimensionnelles de l’hypercube en dimen-
sion p, pour p = 2, 3, 4, 6. Figure extraite de [?].
Voyons un autre exemple du mˆ eme type. Soient X
1, . . . X
ndes vecteurs al´ eatoires i.i.d. en dimension p, distribu´ es uniform´ ement sur la boule unit´ e.
La fonction de r´ epartition de la distance de chaque X
i` a l’origine est F (t) = P[kX
1k ≤ t] = V
p(t)
V
p(1) = t
p. Ainsi, la loi de la variable min
ikX
ik d´ erive de
G(t) = P [min kX
ik ≥ t] = (1 − t
p)
n.
On obtient donc que la probabilit´ e que tous les X
isoient ` a une distance sup´ erieure ` a t de l’origine est tr` es vite proche de 1 si p est trop grand devant le nombre d’´ echantillons n. Typiquement, en dimension p = 10, avec 100
´ echantillons, la probabilit´ e que les X
isoient tous ` a une distance sup´ erieure
`
a
12de l’origine est sup´ erieure ` a 0.9. Dans ce cas, la plupart des points tir´ es uniform´ ement sur la boule unit´ e sont plus proches du bord de la boule que de son centre.
Dans la mˆ eme veine, la probabilit´ e qu’une variable uniforme sur la sph` ere unit´ e appartienne ` a la coque comprise entre les boules de rayons 1 − et 1 est
P (X ∈ S
(p)) = 1 − (1 − )
p−→
p→∞
1
Autrement dit, dans les espaces de grande dimension, les points de la boule unit´ e se concentrent essentiellement dans la coque ` a distance de la sph` ere.
0 20 40 60 80 100
dimension 0.2
0.4 0.6 0.8 1.0
probabilité
Figure 2.8 – Probabilit´ e qu’une variable X de loi uniforme sur la boule unit´ e appartienne ` a la coque S
0.9en fonction de la dimension p.
Le fait que les points soient concentr´ es sur les bords de l’espace est un
probl` eme en grande dimension pour faire de la pr´ ediction. En effet, sur les
bords de la base d’apprentissage, on doit extrapoler ` a partir des points plutˆ ot
qu’interpoler pour pr´ edire.
2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 15 2.3.3 Queue de la gaussienne
Int´ eressons nous ` a la densit´ e gaussienne dans R
p. En dimension 1 ou 2, on sait que l’essentiel de sa masse est concentr´ ee au voisinage de 0. On se demande ce qu’il en est lorsque p grandit. Soit X une variable gaussienne N (0, I
p) dans R
p. Que vaut la probabilit´ e que X soit dans la couronne comprise entre r et r + dr ?
La densit´ e de la gaussienne sur la couronne vaut ` a peu pr` es e
−r2/2, et d’apr` es nos calculs sur le volume de la boule de rayon r en dimension p, le volume de la couronne comprise entre r et r + dr est
V
p(r + dr) − V
p(r) = ((r + dr)
p− r
p)V
p(1) ' r
p−1pdr V
p(1).
Donc pour p fix´ e, la masse de la densit´ e gaussienne sur la couronne croˆıt comme la fonction r
p−1e
−r2
2
qui atteint son maximum en r = √
p − 1. Ainsi, mˆ eme si la densit´ e gaussienne d´ ecroˆıt en e
−r2
2
, le fait que le volume de la couronne de rayon r croisse en r
p−1fait que la couronne d’´ epaisseur dr contenant le plus de masse est de plus en plus loin de l’origine quand p augmente, dans un lieu o` u la densit´ e de la gaussienne devient pourtant extrˆ emement petite !
0 1 2 3 4 5 6
r 0.0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
p(r)
p=1p=2 p=10p=20
Figure 2.9 – Masse de la distribution gaussienne dans l’anneau situ´ e entre les sph` eres de rayon r et r + 1 en dimension p
2.4 Des propri´ et´ es asymptotiques ´ etonnantes
On va voir dans ce qui suit que de nombreuses intuitions sur les propri´ e- t´ es asymptotiques des matrices de covariance al´ eatoires s’av` erent fausses lorsque la dimension p des matrices croˆıt en mˆ eme temps que le nombre n d’´ echantillons utilis´ es pour les calculer.
Une mani` ere classique de rendre l’estimation de densit´ e robuste est d’im-
poser un mod` ele param´ etrique simple pour la densit´ e f et d’estimer les
param` etres de ce mod` ele de mani` ere empirique. Un des mod` eles les plus utilis´ es dans la pratique est le mod` ele gaussien, ou les mod` eles de m´ elanges de gaussiennes.
Supposons qu’on ait n ´ echantillons x
1. . . , x
n∈ R
pi.i.d. d’une distribu- tion gaussienne multivari´ ee N (0, Σ
p). L’estimateur du maximum de vrai- semblance de Σ
pest la matrice de covariance empirique
Σ b
p= 1 n
n
X
k=1
x
kx
Tk.
Cette matrice de covariance empirique des observations v´ erifie E [b Σ
p] = Σ
p.
Si p est fix´ e et n → ∞, alors (loi forte des grands nombres) pour n’im- porte quelle norme matricielle
kb Σ
p− Σ
pk −→
a.s.0 Par contre, si n, p → ∞ avec p/n → c > 0,
kb Σ
p− Σ
pk
26→0 ( avec kk
2la norme spectrale).
Pour s’en convaincre, supposons que Σ
p= I
pet que p/n = c > 1. On a bien convergence en norme kk
∞max
i,j|b Σ
i,j− δ
i,j| −→
a.s.0.
Cependant, on perd la convergence en norme spectrale puisque rang(X) ≤ n ⇒ λ
min(c Σ
p) = 0 < 1 = λ
min(Σ
p).
Autrement dit, les valeurs propres de Σ b
pne tendent pas forc´ ement vers 1 lorsque n et p tendent tous les deux vers l’infini. On n’a donc pas convergence de Σ b
pvers I
pen norme spectrale lorsque n et p tendent vers l’infini. Ceci peut sembler contradictoire avec le fait que les normes sont toutes ´ equivalentes en dimension finie, et s’explique par le fait que les constantes apparaissant dans les in´ egalit´ es entre normes d´ ependent de p et peuvent donc elles-mˆ emes tendre vers l’infini (ou 0).
Plus precis´ ement, la th´ eorie des matrices al´ eatoires nous dit que lorsque p, n → ∞ avec p/n → c > 0, alors [Mar˘ cenko-Pastur Theorem, 1967]
1 p
p
X
k=1
δ
λk(Σcp)
−→
a.s.µ faiblement,
avec µ la loi de Mar˘ cenko-Pastur de param` etre c, qui v´ erifie
2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 17
0 0.5 1 1.5 2 2.5 3
0 0.2 0.4 0.6 0.8
Valeurs propres deΣbp
Densit´e
Distribution des valeurs propres Loi de Mar˘cenko–Pastur
0 0.5 1 1.5 2 2.5 3
0 0.2 0.4 0.6 0.8 1 1.2
x
Densit´edeµ
c= 0.1 c= 0.2 c= 0.5
Figure 2.10 – A gauche, histogramme des valeurs propres de Σ b
ppour p = 500, n = 2000, Σ
p= I
p. A droite, loi de Mar˘ cenko-Pastur pour diff´ erents ratios limites c = lim
p→∞p/n.
— µ({0}) = max(0, 1 − c
−1)
— sur (0, ∞), µ a une densit´ e continue de support [(1 − √
c)
2, (1 + √ c)
2].
Ce r´ esultat est illustr´ e Figure 2.10.
Or, dans de nombreux probl` emes d’estimation, la convergence que l’on souhaite est celle des valeurs propres plutˆ ot que la convergence des coeffi- cients. Typiquement, lorsqu’on estime un mod` ele de m´ elange de gaussiennes sur des donn´ ees : on alterne deux ´ etapes, une o` u l’on estime des covariances et moyennes empiriques, et une o` u l’on calcule la vraisemblance de chaque donn´ ee selon chaque gaussienne. Pour calculer ces vraisemblances, il faut pouvoir inverser la covariance Σ, donc calculer ses valeurs propres. Or,
— si n est trop petit devant p, Σ b
prisque d’ˆ etre mal conditionn´ ee ou singuli` ere ;
— mˆ eme si n est plus grand que p, si p augmente proportionnellement
`
a n, les valeurs propres de cette matrice de covariance empirique
constituent une tr` es mauvaise approximation des valeurs propres de
Σ.
Chapitre 3
R´ eduction de dimension par s´ election de variables : test multiples
Une approche possible pour r´ eduire la dimension est de s´ electionner un nombre fini de variables ` a garder, puis de travailler en petite dimension. Ce probl` eme fait l’objet des deux prochains chapitres.
Dans ce chapitre, nous nous int´ eressons au cas particulier des tests d’hy- poth` eses multiples, et de leur application pour d´ eterminer les g` enes diff´ eren- tiellemens exprim´ es entre deux conditions. Cela consisite, parmi un grand nombre de variables (les g` enes), ` a d´ eterminer celles qui sont significativement diff´ erentes d’une condition ` a l’autre. Cela peut ˆ etre int´ eressant la fois en tant que tel (quels sonts les g` enes/voies m´ etaboliques qui se comportent diff´ erem- ment entre deux types de tissus) et dans des buts de pr´ ediction (peut-on ` a l’aide de g` enes ainsi s´ electionn´ es d´ eterminer une r` egle de pr´ ediction de la condition).
Ce chapitre ´ etant d´ evelopp´ e avec en tˆ ete l’application ` a l’expression dif- f´ erentielle, nous consid´ ererons comme test pour chaque g` ene un test d’´ egalit´ e des moyennes entre deux conditions, c’est-` a-dire un test de Student ou de Wilcoxon. La th´ eorie des tests multiples est cependant valable quelque soit le test sous-jacent consid´ er´ e. De mˆ eme, le mot g` ene correspondra ` a la notion de variable et la liste des g` enes diff´ erentiellement exprim´ es correspond ` a la notion de variable s´ electionn´ ee.
3.1 Tests multiples
3.1.1 Probl´ ematique et d´ efinition
Consid´ erons m test d’´ egalit´ e de moyennes r´ ealis´ es simultan´ ement, typi- quement apr` es aoir mesur´ e l’expression de m g` enes simultan´ ement dans des
19
´ echantillons de deux tissus diff´ erents. Parmi ces m g` enes, soit R le nombre de ceux qui sont r´ eellement diff´ erentiellement exprim´ es, et m
0le nombre de d´ ecisions H
0prises. On obtient alors le tableau suivant :
H
0choisi H
1choisi
H
0vrai T N F P m
0H
1vrai F N T P m − m
0m − R R m
Si chaque test est fait ` a un niveau 1 − α, le nombre moyen de faux po- sitifs (FP) est m
0α, ce qui peut ˆ etre bien sup´ erieur au nombre de g` enes vraiment diff´ erentiellement exprim´ es. La liste de g` enes diff´ erentiellement ex- prim´ es renvoy´ ee risque d’ˆ etre essentiellement constitu´ ee d’erreurs.
Il faut par cons´ equent d´ efinir une probabilit´ e d’erreur, et une proc´ edure pour la contrˆ oler, exactement comme pour le risque de premi` ere esp` ece α dans le cas d’un test unique. Il y a essentiellement deux main` eres de d´ efinir un tel crit` ere.
— le Family Wise Error Rate :
F W ER = P (F P ≥ 1)
Contrˆ oler le F W ER, c’est-` a-dire s’assurer que F W ER ≤ α, revient ` a avoir, avec probabilit´ e 1− α, aucun faux positif dans la liste renvoy´ ee.
En d’autres termes, avec forte probabilit´ e, toutes les d´ ecisions H
1prises sont justes.
— le False Discovery Rate :
F DR = E F P F P + T P
Contrˆ oler le F DR, c’est-` a-dire s’assurer que F DR ≤ α, revient ` a avoir, en moyenne, une proportion de faux positifs dans la liste ren- voy´ ee qui est inf´ erieure ` a α. En d’autres termes, une proportion α des d´ ecisions H
1prises sont ´ erron´ ees.
Le contrˆ ole de la F W ER est clairement plus stringent que celui de la F DR puisqu’on aura des listes de g` enes s´ electionn´ es sans erreur au sens o` u tous seront de vrais g` enes diff´ erentiellement exprim´ es avec grande parobabi- lit´ e. Par contre, le prix ` a payer sera une moins bonne puissance, ` a savoir que le nombre de faux n´ egatifs (les g` enes diff´ erentiellement exprim´ es en r´ ealit´ e mais non s´ electionn´ es) sera plus important.
Dans les deux cas, les proc´ edures mises en place pour le contrˆ ole sont
bas´ ees sur une modification des rsiques de premi` ere esp` ece avec lequel sont
men´ es les tests. Dans la suite de cette section, on suppose que les m tests
3.1. TESTS MULTIPLES 21 simples ont ´ et´ e men´ es et que les g` enes sont r´ eordonn´ es par ordre de p-valeur croissante :
p
1≤ p
2≤ . . . ≤ p
mo` u p
iest la p-valeur du test du g` ene i
Toutes les proc´ edures de contrˆ ole vont ˆ etre bas´ ees sur le fait que l’en- semble des g` enes pour lesquels H
1va ˆ etre d´ ecid´ e est un segment initial de la liste ordonn´ ee, c’est-` a-dire qu’il existera un seuil tel que on d´ ecidera H
1si p
ilui est inf´ erieur et H
0sinon. La question est alors de d´ ecider de ce seuil.
3.1.2 Contrˆ ole de la FWER Proc´ edure de Bonferroni
— Sont s´ electionn´ es les g` enes tels que p
i≤
mα— On a bien F W ER ≤ α.
Exemple : On teste 2000 g` enes simultan´ ement. Pour obtenir une FWER de 5%, on effectue chaque test avec un risque de premi` ere esp` ece de α =
.05
2000
= 2.5 10
−5.
Pros : simplicit´ e, s’applique sans aucune hypoth` ese d’aucune sorte Cons : tr` es conservatif
Proc´ edure de Sidak
— On suppose les individus (les g` enes) ind´ ependants ;
— Sont s´ electionn´ es les g` enes tels que p
i≤ 1 − (1 − α)
1/m.
— On a bien F W ER ≤ α.
Exemple : On teste 2000 g` enes simultan´ ement. Pour obtenir une FWER de 5%, on effectue chaque test avec un risque de premi` ere esp` ece de α = 1 − (1 − .05)
1/2000= 2.56 10
−5.
Pros : syst´ ematiquement moins concervative que Bonferroni
Cons : — l’hypoth` ese d’ind´ ependance peut ˆ etre trop forte (par exemple pour les g` enes)
— pour m tr` es grand, un DL montre que 1 − (1 − α)
1/mest proche de
α
m
et le gain est mineur vis-` a-vis de Bonferroni.
Proc´ edure de Holm-Bonferroni
— les d´ ecisions ne sont plus prises ind´ ependamment les unes des autres : 1. on r´ eordoonne les g` enes de telle fa¸ con que
p
1≤ p
2≤ . . . ≤ p
m2. on d´ etermine I = max{k|∀i ≤ k, p
i≤
m−i+1α}
3. on rejette les p-valeurs inf´ erieures ` a
m−I+1α.
— on a bien F W ER ≤ α.
Pros : La m´ ethode de Holm est syst´ ematiquement sup´ erieure ` a celle de Bonferroni et g´ en´ eralement sup´ erieure ` a celle de Sid` ak.
3.1.3 Contrˆ ole de la FDR : proc´ edure de Benjamini-Hochberg
— les d´ ecisions ne sont plus prises ind´ ependamment les unes des autres : 1. on r´ eordoonne les g` enes de telle fa¸ con que
p
1≤ p
2≤ . . . ≤ p
m2. on d´ etermine I = max{i|p
(i)≤ α
mi} 3. on rejette les p-valeurs inf´ erieures ` a α
mI.
— on a bien F DR ≤ α.
p-valeurs ajust´ ees
Les proc´ edures pr´ ec´ edentes consistent en la comparaison des p-valeurs des tests simples ` a un seuil modifi´ e par rapport au test simple. Une mani` ere tout ` a fait ´ equivalente de proc´ eder est de comparer des p-valeurs ajust´ ees
`
a un seuil inchang´ e. C’est la m´ ethode qui est retenu notamment dans la fonction p.adjust de R. Utiliser cette fonction reviant ` a modifier les p-valeurs des test simples, et le r´ esultat peut ensuite ˆ etre compar´ e ` a α g` ene par g` ene.
Exemple : On teste m g` enes simultan´ ement. La p-valeur ajust´ ee du
g` ene i pour la proc´ edure de Bonferroni est p
adji= min(mp
i, 1). en effet , on
a bien que p
adji≤ α si et seulement si p
i≤
mαChapitre 4
R´ eduction de dimension par cr´ eation de nouvelles
variables : ACP et PLS
On consid` ere dans ce chapitre une matrice X de taille n × p contenant un ´ echantillon de p variables mesur´ ees sur n individus avec p >> n.
On note u
i= X
i•la i
emeligne de X, correspondant au i
emeindividu et v
j= X
•jsa j
emecolonne, correspondant ` a la j
emevariable.
On consid` ere, sans perte de g´ en´ eralit´ e, que les variables sont centr´ ees (les moyennes par colonnes sont nulles).
Si l’on souhaite que toutes les variables aient la mˆ eme variance, pour
´ eviter les probl` emes d’unit´ e et d’h´ et´ erog´ en´ eit´ e des variables, il est possible de diviser chaque colonne par l’´ ecart-type de la variable. On parle alors de donn´ ees r´ eduites.
4.1 Une approche non supervis´ ee : l’ACP
4.1.1 Crit` ere d’inertie
L’inertie d’un nuage de points est une mesure de sa dispersion autour de son centre de gravit´ e.
Pour des donn´ ees centr´ ees,
23
I(X) = 1 n
n
X
i=1
d
2(0, u
i)
= 1 n
n
X
i=1 p
X
j=1
x
2ij=
p
X
j=1
1 n
n
X
i=1
x
2ij=
p
X
j=1
var(v
j)
En d’autres termes, l’inertie est d’autant plus grande que le nuage est
´ etal´ e, ou de fa¸ con ´ equivalente que les variances des variables sont grandes.
La notion d’inertie se g´ en´ eralise ` a l’´ etalement par rapport ` a un sous- espace vectoriel W de R
p.
I
W(X) = 1 n
n
X
i=1
kh
W(u
i) − u
ik
2o` u h
West la projection orthogonale sur W .
L’inertie par rapport ` a W est d’autant plus grande que les points sont
´ eloign´ es de W . Par cons´ equent, chercher un espace de faible dimension r´ esu- mant X revient ` a chercher un espace W de faible dimension telle que l’inertie I
X(X) soit tr` es faible. Remplacer les u
ipar leurs projections h
W(u
i) permet alors de r´ eduire drastiquement la dimension tout en perdant peu d’informa- tion.
Pour p = 1, cela revient ` a chercher la droite des moindres carr´ es.
Th´ eor` eme 4.1 (Huyghens). Soit W
∗l’espace orthogonal compl´ ementaire de W . Alors
I
W== 1 n
n
X
i=1
kh
W∗(u
i)k
2et
I
W(X) + I
W∗(X) = I(X)
D´ emonstration. Pour tout i, u
i= h
W(u
i)+h
W∗(u
i) avec < h
W(u
i), h
W∗(u
i) >=
0. Cela implique directement la premi` ere ´ egalit´ e ainsi que ku
ik
2= kh
W(u
i)k
2+ kh
W∗(u
i)k
2En sommant cette ´ egalit´ e sur tous les indices i, on obtient le r´ esultat.
4.1. UNE APPROCHE NON SUPERVIS ´ EE : L’ACP 25 Ce th´ eor` eme implique qu’il est ´ equivalent de minimiser l’inertie suivant W et de maximiser l’inertie suivant son compl´ ementaire orthogonal. I
W∗peut ˆ etre vu comme une mesure de l’allongement du nuage suivant W .
En particulier, si ∆
1, . . . , ∆
psont des axes orthogonaux deux ` a deux,
R
p= ∆
1M . . . M
∆
pI(X) = I
∆∗1
+ . . . + I
∆∗pLe principe de l’ACP est de construire de tels axes de fa¸ con r´ ecursive de mani` ere ` a maximiser I
∆∗1
+ . . . + I
∆∗k
au moment du choix de l’axe k.
4.1.2 Caract´ erisation des axes
On cherche l’axe ∆
1tel que l’inertie suivant ∆
1est maximale, ou de fa¸ con ´ equivalente, I
∆∗1est maximal. Soit a
1un vecteur directeur unitaire de
∆
1. Alors
I
∆∗1= 1 n
n
X
i=1
kh
∆1(u
i)k
2= 1 n
n
X
i=1
< u
i, a
1>
2= 1 n
n
X
i=1
a
01u
iu
0ia
1= a
011 n
n
X
i=1
u
iu
0ia
1= a
01Σa
1o` u
Σ
kl= 1 n
n
X
i=1
(u
iu
0i)
kl= 1 n
n
X
i=1
x
ikx
il= cov(v
k, v
l)
Σ est donc la matrice de covariance des p variables. Cette matrice ´ etant sym´ etrique, elle est diagonalisable dans une base orthonormale :
Σ = AΛA
0o` u Λ est une matrice diagonale et A est une matrice orthogonale. On note λ
ile i
emecoefficient diagonal de Λ (ils sont tous positifs) et a
ila i
emecolonne de A.
Trouver ∆
1revient donc ` a r´ esoudre le probl` eme suivant :
a
1= argmax
a
(a
0Σa) o` u Σ est la matrice de covariance de X sous la contrainte a
0a = 1
En se pla¸ cant dans la base orthonormale A, on voit ais´ ement que la solution ` a ce probl` eme est a
1et que I
∆∗1
= λ
1.
Trouver ∆
2revient ` a se r´ eit´ erer le mˆ eme proc´ ed´ e dans l’espace orthogonal
`
a a
1, c’est-` a-dire engndr´ e par (a
2, . . . , a
p). Le mˆ eme raisonnement conduit au fait que a
2est un vecteur propre unitaire associ´ e ` a λ
2et que I
∆∗2= λ
2.
On d´ emontre ainsi par r´ ecurrence que les axes de la d´ ecomposition de dimension r sont (a
1, . . . , a
r) et que la fraction d’inertie expliqu´ ee par le k
emeaxe est
Ppλki=1λi
.
La proportion d’inertie expliqu´ ee par les r premiers axes est un moyen empirique pour le choix de r, un bon compromis ayant ` a ˆ etre trouv´ e entre expliquer le plus d’inertie possible et utiliser le nombre de dimension le plus petit possible.
4.1.3 Repr´ esentation des individus et des variables
Le vecteur A
0u
irepr´ esente les coordonn´ ees de l’individu i dans le nouvel espace. Ses r premi` eres coordonn´ ees sont alors son projet´ e sur l’espace de dimension r´ eduit.
Pour r = 2, cela permet d’avoir une repr´ esentation graphique de la r´ e- partition des individus suivant les deux premiers axes. Il est ` a noter que la direction des axes est arbitraire.
4.1.4 Autre formulation
Une autre mani` ere de voir l’ACP est de la cosid´ erer comme un change- ment de variables, les variables initiales v
j´ etant remplac´ ees par des variables z
kconstruites de fa¸con ` a ce que :
1. tout z
kest une combinaison lin´ eaire des v
j2. tout z
kv´ erifie cov(z
k, z
l) = 0, 1 ≤ l ≤ k − 1, et z
kest de variance
maximale dans l’espace des ces variables.
4.2. LA R ´ EGRESSION PLS 27 Cela revient ` a d´ efinir
Z = XA
et ` a consid´ erer les r premi` eres colonnes de Z.
Il est ` a noter que la variance de z
kvaut alors λ
k.
Une telle approche permet ´ egalement, en d´ eterminant les corr´ elations des z
kavec les v
j, de voir quelles sont les variables les plus influentes selon chaque axe. L’information port´ ee pas une variable est d’autant mieux port´ ee par un axe que cette corr´ elation est proche de 1.
Elle est d’autant mieux port´ ee par un plan que le point ayant pour coordonn´ ees les deux corr´ elations correspondantes est proche du cercle de centre 0 et de rayon 1.
4.1.5 Utilisation en grande dimension
L’avantage de l’ACP est qu’elle r´ eduit le nombre de dimension d’un jeu de donn´ ees en gardant simplement le plus de variabilit´ e possible : on essaie de gagner le plus de dimensions possible en perdant le moins d’information possible, et en ne pr´ evil´ egiant aucune direction ` a priori. Toute autre m´ ethode de statistiques en petite dimension peut donc ˆ etre appliqu´ ee ` a l’espace r´ eduit obtenu en gardant les r premi` eres colonnes de Z.
On peut ainsi appliquer les mod` eles de r´ egression vus en introduction, mais aussi toute m´ ethode de clustering par exemple.
Le d´ esavantage de l’ACP est potentiellement double :
— Si la dimension est r´ eduite dans un but bien pr´ ecis, par exemple r´ egresser une variable particuli` ere Y , il peut ˆ etre plus int´ eressant de s´ electionner les axes suivant leur potentiel d’explication de Y plutˆ ot que suivant leur variance. Cela aboutit par exemple ` a la m´ ethode PLS de la section suivante.
— Toute combinaison lin´ eaire des X ´ etant permise pour construire les Z, l’interpr´ etation des axes peut s’av´ erer tr` es difficile en grande di- mension, d’autant plus en pr´ ecision de fortes corr´ elations. Il peut par cons´ equent ˆ etre int´ eressant d’obliger les axes ` a utiliser un nombre aussi faible que possible de variables initiales. On parle alors d’ACP parcimonieuse (sparse PCA).
4.2 La r´ egression PLS
La r´ egression PLS reprend l’id´ ee de l’ACP de construire de nouvelles variables une ` a une, chacune ´ etant une combinaison lin´ eaire des variables des initiales et les nouvelles variables ´ etant ind´ ependantes entre elles.
Le crit` ere retenu pour construire une nouvelle variable est cependant
cette fois-ci sa capacit´ e ` a expliquer Y .
4.2.1 Cas o` u Y est une variable simple
Dans ce cas, le crit` ere ` a maximiser est simplement la covariance de la nouvelle variable avec Y .
Il s’agit donc ` a nouveau de construire une matrice Z contenant les r nouvelles variables et une matrice A contenant les vecteurs directeurs des axes telles que
Z = XA
Les h − 1 premi` eres variables (ou de fa¸ con ´ equivalente les h − 1 premiers axes) ´ etant d´ ej` a construites, on construit l’axe suivant en r´ esolvant
a
h= argmax
a
cov(y, z
h) o` u z
h= Xa
h(4.1)
= argmax
a
a
0X
0yy
0Xa sous les contraintes a
0ha
h= 1 et∀l < h, cov(z
h, z
l) = 0
Ce probl` eme n’admet pas comme l’ACP de solution th´ eorique simple pour l’ensemble des axes. Cependant, il est possible de le r´ esoudre pour le premier axe (cf paragraphe suivant qui le d´ emontre dans un cas plus g´ en´ eral) et de d´ emontrer que
a
1= X
0y
kX
0yk et z
1= Xa
1De plus, s’il n’est pas possible d’obtenir une ´ ecriture simple pour a
2, il est n´ eanmoins possible de r´ eduire le probl` eme ` a l’espace Z
⊥1en projetant X et y sur cet espace, c’est ` a dire en cherchant y
(1)et x
(1)i, 1 ≤ i ≤ n tels que
y = αz
1+ y
(1)et < z
1, y
(1)>= 0 x
i= β
iz
1+ x
(1)iet < z
1, x
(1)i>= 0
On montre alors facilement que α = < y, z
1>
kz
1k
2et β
i= < x
i, z
1>
kz
1k
2y
(1)et X
(1)peuvent alors ˆ etre r´ einject´ es dans le probl` eme 4.1, et le premier axe de ce nouveau probl` eme est le second axe du probl` eme initial.
La phase de projection sur z
1est appel´ ee phase de d´ eflation.
4.2. LA R ´ EGRESSION PLS 29 4.2.2 Cas o` u Y est une ensemble de q variables Y
1, . . . Y
qLa notion de corr´ elation avec Y doit dans ce cas ˆ etre modifi´ ee. Elle l’est en cherchant ´ egalement une combinaison lin´ eaire des colonnes de Y telle que cette covariace soit le plus grande possible. Le probl` eme que l’on r´ esout est alors
(a
h, b
h) = argmax
ab
cov(Xa
h, Yb
h) (4.2)
= argmax
a,b
bY
0Xa
sous les contraintes a
0ha
h= 1 et b
0hb
h= 1
∀l < h, cov(Xa
h, Xa
l) = 0
Proposition 4.1. a
1est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de YY
0XX
0.
b
1est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de XX
0YY
0.
D´ emonstration. On note lambda et µ les coeeficients de Lagrange associ´ es aux deux contraintes du probl` eme, ce qui am` ene ` a consid´ erer la fonction
f(a, b) = a
0X
0Yb + λ(1 − ka
ik
2) + µ(1 − kb
ik
2)
= X
i,j
a
i(X
0Y)
i,jb
j+ λ(1 − X
i
a
2i) + µ(1 − X
j
b
2j)
La d´ erivation par rapport ` a chacune des variables a
iet b
jet l’annulation de ces d´ eriv´ ees entraˆıne qu’` a l’optimum,
a
i= 1 2λ
X
j
(X
0Y)
i,jb
jb
j= 1 2µ
X
i
(X
0Y)
i,ja
iEn injectant la deuxi` eme ´ equation dans la premi` ere, on obtient que
a
i= 1 4λµ
X
j,k
(X
0Y)
i,j(X
0Y)
k,ja
k= 1
4λµ X
k
X
j
(X
0Y)
i,j(X
0Y)
0j,ka
k= 1
4λµ X
k
(X
0YY
0X)
i,ka
kOn en d´ eduit que a est un vecteur propre de X
0YY
0X.
On d´ emontre de mˆ eme que b est un vecteur propre de XX
0YY
0.
Comme dans le cas ` a une dimension, on consid` ere ensuite une d´ eflation enlevant du probl` eme les composantes colin´ eaires ` a z
1= Xa
1:
x
i← x
i− cov(x
i, z
1)
var(z
1) z
1et y
j← y
j− cov(y
j, z
1) var(z
1) z
1On r´ ep` ete l’op´ eration r fois, obtenant ainsi r axes a
1, . . . , a
ret r nouvelles variables correspondantes z
1, . . . , z
rqui sont deux ` a deux de covariance nulle.
Plusieurs variantes sont possibles :
Analyse discriminant par PLS Quand les Y
isont des variables binaires, on peut remplacer leurs valeurs par des 0 et des 1, et l’utilisation de la m´ ethode pr´ ec´ edente sur ces donn´ ees est nomm´ ee analyse discriminante par PLS (PLS-DA). Il existe aussi des approches plus adapt´ ees ` a cette situation quand Y est de dimension 1 utilisant un mod` ele logit.
PLS canonique Il est possible d’utiliser une approche PLS non pour une approche par r´ egression, mais pour r´ eduire la dimension de X et de Y conjointement, en imposant que les familles {Xa
i, 1 ≤ i ≤ r} et {Yb
i, 1 ≤ i ≤ r} sont toutes deux form´ es de vecteurs de covariances nulles deux ` a deux.
La proc´ edure est alors la mˆ eme mais la d´ eflation en Y se fait par y
j← y
j− cov(y
j, Yb
1)
var(Yb
1) Yb
14.3 Versions probabilistes et parcimonieuses
Versions probabilistes
L’un des inconv´ enients de l’ACP et de la PLS est qu’il s’agit de m´ e- thode ne reposant pas sur un mod` ele probabiliste et ne permettant donc pas d’obtenir d’intervalles de confiance sur les coefficients estim´ ees de la matrice A.
Afin de rem´ edier ` a ce d´ esavantage a ´ et´ e introduite l’ACP probabiliste Versions parcimonieuses
Un autre inconv´ enient est que les vecteurs directeurs des nouveaux axes peuvent avoir (et ont en pratique) une coordonn´ ee non nulle suivant toutes les axes initiaux. Cela rend l’interpr´ etation des axes tr` es difficile lorsque p est tr` es grand, puisque que les p axes initiaux vont intervenir dans la d´ efinition des nouveaux axes.
Il est par cons´ equent possible de forcer la plupart des coefficients ` a 0 en
cherchant les axes a
i` a l’aide d’un probl` eme p´ enalis´ e par une p´ enalit´ e lasso
ou elastic-net (cf chapitre suivant).
Chapitre 5
Approches p´ enalis´ ees
Le but de ce chapitre est d’introquire les approches p´ enalis´ ees type Ridge, Lasso ou Elastic-net. Ces approches sont pr´ esent´ ees dans le cadre de la r´ egression, puis des applications ` a d’autres probl` emes telles que la r´ eduction de dimension sont abord´ ees.
5.1 Regression p´ enalis´ ee
Le probl` eme de la r´ egression , qui s’´ ecrit comme Trouver β
R= argmin
β
ky − Xβk
22est un probl` eme mal pos´ e dans le cadre de la grande dimension, en raison du rang trop faible de la matrice X. De plus, la pr´ esence de tr` es nombreuses variables engendre de fortes corr´ elations, et de ce fait une incertitude sur la valeur des coeeficients.
Le principe des r´ egressions p´ enalis´ ees est de transformer le probl` eme en un probl` eme bien pos´ e en p´ enalisant le fait d’avoir des coefficients ´ eloign´ es de 0.
5.1.1 R´ egression Ridge
La premi` ere possibilit´ e pour effectuer une r´ egression p´ enalis´ ee est d’utili- ser une p´ enalit´ e de type Ridge. L’id´ ee est de forcer le vecteur de coefficients β ` a ˆ etre born´ e en norme L
2. Intuitivement, les probl` emes de colin´ earit´ e sont alors r´ egl´ es par le fait qu’une variable ne peut ’attirer’ les coefficients des variables qui lui sont corr´ el´ ees que dans une certaine mesure.
Figure
Consid´ erons, pour c > 0 fix´ e, le probl` eme Trouver β
Ridge= argmin
β
ky − Xβk
22sous la contrainte kβ
2k
2≤ c.
31
La m´ ethode des multiplicateurs de Lagrange dit qu’il existe λ ≥ 0 tel que la solution du probl` eme satisfait les conditions de Karush Kuhn Tucker
`
a savoir que
1. Le gradient de ky − Xβk
22+ λ(kβ k
2− c) est nul 2. λ(kβk
2− c) = 0
Une mani` ere d’approcher le probl` eme ci-dessous est donc de consid´ erer, pour un coefficient λ > 0 donn´ ee, le probl` eme suivant :
Trouver β
Ridge(λ) = argmin
β
ky − Xβk
22+ λkβk
22On notera que pour λ tendant vers 0, on retrouve la r´ egression classique, alors que pour λ infini, la solution est β = 0. En faisant varier λ, on obtient ainsi une famille de mod` eles de plus en plus p´ enalis´ es.
Proposition 5.1. La solution du probl` eme est donn´ ee par β
Ridge= (
tXX + λI
p)
−1X
0y
D´ emonstration. Soit f(β) = ky − Xβk
22+ λkβk
22.
∂f
∂β = −2X
0(Y − Xβ) + 2λβ
En annulant cette d´ eriv´ ee, (X
0X + λI
p)
−1Xy est un point stationnaire.
De plus,
∂
2f
∂β
2= 2(X
0X + λI
p)
qui est d´ efinie positive, si bien qu’il s’agit d’un minimum local.
De plus, la fonction f(β) est strictement convexe comme somme d’une fonction convexe et d’une fonction strictement convexe. Le minimum local est donc unique et global.
Remarques :
1. On constate que la p´ enalit´ e rend le probl` eme strictement convexe, et donc r´ esoluble mˆ eme en grande dimesion.
2. Dans les cas de petite dimension, l’estimateur ridge est un estimateur biais´ e, contrairement ` a l’estimateur des moindes carr´ es. Par contre, il est de moindre variance.
3. En cas de variables corr´ el´ ees, la r´ epartition entre les variables est meilleure : l’estimateur des moindres carr´ es risque de mettre tout le poids sur une variable, ce qui n’est pas le cas de l’estimateur ridge.
Une question importante laiss´ e en suspens est celle du choix de la va-
leur de λ ` a appliquer. Une approche visuelle du comportement consiste ` a
faire varier λ d’une valeur assez grande vers 0. Le moment o` u les chemins
5.1. REGRESSION P ´ ENALIS ´ EE 33 partent de 0 et leur ´ ecartement de 0 donnent une id´ ee de l’importance des variables. Un choix automatique de λ peut ˆ etre fait essentiellement suivant deux approches concurrentes :
Validation crois´ ee
Stability selection : dans un cas de grande dimension, on effectue un grand nombre d’apprentissage sur des sous-´ echantillonages (80% des donn´ ees par exemple) et on garde les variables appraissant dans plus de la moiti´ e des ´ echantillons. On peut ensuite r´ ealiser un apprentissage en petite dimension sur les variables s´ electionn´ ees.
5.1.2 LASSO
En grande dimension, la r´ egression Ridge rend le probl` eme bien pos´ e mais le r´ esultat difficile ` a interpr´ eter. En effet, potentiellement toutes les variables sont explicatives.
Un autre type de p´ enalisation consiste ` a favoriser les solutions ayant un grand nombre de coordonn´ ees nulles, en consid´ erant la norme 1 plutˆ ot que la norme 2 du vecteur β. Cette norme aura en effet pour cons´ equence de mettre de nombreux coefficients exactement ` a 0. On parle alors de r´ egression parcimonieuse.
Trouver β
Lasso= argmin
β
ky − Xβ k
22sour la contrainte kβ k
1≤ c.
D’un point de vue g´ eom´ etrique, la forme des boules de la norme 1 va faire que de les solutions auront de nombreux coefficients nuls en grande dimension.
DESSIN
A nouveau, le lagrangien de la fonction ` a optimiser permet de d´ efinir un nouveau probl` eme d’optimisation, ` a savoir, pour un coefficient λ > 0 :
Trouver β
Lasso= argmin
β
ky − Xβ k
22+ λkβk
1Il n’est plus possible de d´ eterminer la solution ` a l’aide d’une formule close. Cependant, la fonction est convexe et admet donc un unique minimum qu’il est possible de trouver de fa¸ con algorithmique (algorithme LARS).
Le choix de λ se fait suivant les mˆ emes crit` eres que dans le cas de la r´ egression Ridge.
5.1.3 Elastic-Net et Group-Lasso
L’inconv´ enient de la r´ egression parcimonieuse est qu’en cas de variables corr´ el´ ees, une variable va ˆ etre privil´ egi´ ee par rapport aux autres, contraire- ment ` a la r´ egression Ridge.
Il existe plusieurs types de compromis possibles entre les avantages des
p´ enalit´ es ridge et Lasso.
Elastic-Net : Cette approche consiste ` a introduire une p´ enalit´ e Ridge et une p´ enalit´ e Lasso afin de profiter des avantages des deux p´ enalit´ es.
Le prix ` a payer est celui de la d´ etermination d’un nouveau param` etre α servant ` a r´ egler le poids respectifs des deux p´ enalit´ es
Trouver β
E−N et= argmin
β
ky − Xβk
22+ λ(αkβk
21+ (1 − α)kβk
22) Group-Lasso : Dans certaines applications, on connaˆıt ` a l’avance une par-
tition des variables en groupes corr´ el´ ees G
1, . . . , G
q. On note β
qle sous- vecteur de β correspondant aux variables dans le groupe q. L’approche Group-Lasso consiste ` a appliquer une p´ enalit´ e Ridge ` a l’int´ erieur de ces groupes, afin de limiter les effets des corr´ elations, tout en appli- quant une p´ enalit´ e Lasso entre les groupes, afin que la plupart des groupes se voient attribuer un vecteur β
qnul.
Trouver β
GL= argmin
β
ky − Xβk
22+ λ P
qi=1
kβ
qk
225.2 Exemples d’autres applications
Les diff´ erentes p´ enalit´ es pr´ ec´ edentes peuvent ˆ etre adapt´ ees ` a d’autres fonctions objectifs que ky − Xβk
22, notamment ` a l’oppos´ e d’une vraisem- blance.
5.2.1 Approches p´ enalis´ ees pour la classification
On peut ainsi les appliquer dans le cadre de tout mod` ele lin´ eaire g´ en´ e- ralis´ e
Trouver β
E−N et= argmin
β
− log(`(X)) + λ(αkβk
21+ (1 − α)kβk
22) o` u `(X) d´ esigne la vraisemblance du mod` ele.
Par exemple, dans le cas d’une r´ egression logistique, il s’agit de minimiser
− P
ni=1
(log(
1+eeβXβX)) + λ(αkβk
21+ (1 − α)kβk
22)
5.2.2 Approches p´ enalis´ ees pour la r´ eduction de dimension On peut ´ egalement reformuler les probl` emes de r´ egression permettant de r´ ealiser une ACP ou une PLS en les p´ enalisant. Cela permet en grande di- mension des axes qui sont plus facilement interpr´ etables puisqu’ils contiennent moins de coefficients non nuls. Par contre, le prix ` a payer est que la variance (ou la covariance) expliqu´ ee est plus faible.
On peut ainsi chercher le premier axe en r´ esolvant a = argmax
a