Table des mati` eres
1 Introduction 3
1.1 La grande dimension . . . . 3
1.2 Les r´ eseaux de neurones . . . . 4
2 Le fl´ eau de la grande dimension. 7 2.1 Introduction . . . . 7
2.2 Dans les espaces de grande dimension, personne ne vous en- tend crier . . . . 8
2.2.1 Les voisinages ne sont plus locaux . . . . 9
2.2.2 La notion de plus proche voisin disparaˆıt . . . . 12
2.2.3 Classification en grande dimension et sur-apprentissage 13 2.3 Ph´ enom` enes de concentration . . . . 13
2.3.1 Volume de la boule unit´ e . . . . 14
2.3.2 Les points sont proches des bords . . . . 14
2.3.3 Queue de la gaussienne . . . . 16
2.4 Des propri´ et´ es asymptotiques ´ etonnantes . . . . 16
3 R´ eduction de dimension par extraction de variables 21 3.1 ACP . . . . 22
3.1.1 Principe de l’ACP . . . . 22
3.1.2 Construction des axes . . . . 24
3.1.3 Cercle des corr´ elations . . . . 26
3.1.4 Utilisation en grande dimension . . . . 27
3.2 PLS . . . . 27
3.2.1 Donn´ ees . . . . 27
3.2.2 Cas o` u Y est une variable simple . . . . 27
3.2.3 Cas o` u Y est une ensemble de q variables Y
1, . . . Y
q. . 28
3.3 ACP probabiliste . . . . 30
A Rappels sur le mod` ele lin´ eaire 35 A.1 Le mod` ele lin´ eaire gaussien . . . . 35
A.2 Le mod` ele lin´ eaire g´ en´ eralis´ e . . . . 38
1
B D´ ecomposition en valeurs singuli` eres (SVD) 41
Chapitre 1
Introduction
L’apprentissage statistique est un terme g´ en´ erique d´ esignant les tech- niques permettant de traiter des donn´ ees r´ eelles afin d’apprendre des obser- vations. Il regroupe plusieurs grandes familles de probl` emes, pour lesquels de nombreux outils statistiques existent, et ont des propri´ et´ es en g´ en´ eral bien connues d’un point de vue th´ eorique, notamment d’un point de vue asymptotique (consistance des estimateurs, lois, vitesse de convergence, ...).
Classification non supervis´ ee : K-means, algorithme EM, . . .
Classification supervis´ ee : Arbres de classification et forˆ ets al´ eatoires, KNN (plus proches voisins), SVM . . .
Pr´ ediction : R´ egressions (lin´ eaire, logistique, probit . . .), arbres de classi- fication, forˆ ets al´ eatoires ou KNN abec des sorties continues, . . . S´ election de variables : Tests, s´ election de mod` ele ` a l’aide de crit` eres
type AIC ou BIC.
L’explosion de la taille des donn´ ees recueillies dans de nombreux do- maines d’appication, dont la biologe et l’image, pose des probl` emes th´ eo- riques qui obligent ` a adapter ces m´ ethodes aux jeux de donn´ ees auxquels les scientifiques sont aujourd’hui confront´ es.
1.1 La grande dimension
En grande dimension, par exemple dans le cadre d’exp´ eriences en g´ e- nomique, le nombre d’observations (les ´ echantillons) est plus petit que le nombre de variables (les g` enes) et l’´ etude asymptotique est donc interdite.
De plus, certaines m´ ethodes reposant sur l’inversion de matrices, par exemple la r´ egression lin´ eaire, ne peuvent plus ˆ etre appliqu´ ees car les matrices ne sont plus inversibles. Enfin, d’un point de vue de l’interpr´ etation des r´ esultats, il est souvent int´ eressant de savoir quelles sont les quelques variables jouant le plus grand rˆ ole d’explication de la sortie en pr´ ediction, de classifieur en
3
classification. Il s’agit de chercher des aiguilles (les variables les plus perti- nentes) dans une meule de foin (les centaines, milliers ou plus de variables
`
a disposition).
L’id´ ee g´ en´ erale commune ` a toute m´ ethode en grande dimension est que l’essentiel de l’information vit dans un espace de dimension plus petit. Par exemple, si l’on cherche ` a faire une classification d’´ echantillons cellulaires tumoraux sur la base de l’expression des g` enes, il est fort ` a parier que l’im- mense majorit´ e des g` enes ont un comportement similaire dans tous les types de cancer et ne portent donc pas d’information pertinente.
Il y a d` es lors essentiellement deux fa¸ cons de proc´ eder :
la s´ election de variables (feature selection) : cette approche consiste
`
a se restreindre ` a un espace plus petit en ne gardant qu’une partie des variables de d´ epart. En d’autres termes, la matrice X repr´ esentant l’´ echantillon est r´ eduite ` a un sous-ensemble de ces colonnes.
la r´ eduction de dimension (feature extraction) : cette approche consiste
`
a trouver le meilleur sous-espace lin´ eaire suivant un crit` ere d´ ependant du but recherch´ e et de la m´ ethode choisie. En d’autres termes, on cherche une matrice de changement de base A et on consid` ere comme nouvelles variables les colonnes de la matrice Z = XA. Les r pre- mi` eres colonnes de Z correspondent alors au meilleur r´ esum´ e de X en dimension r, meilleur au sens du crit` ere choisi pr´ ec´ edemment.
Les avantages et inconv´ enients de ces deux approches sont principale- ment que la r´ eduction de dimension perd moins d’information que la s´ e- lection de variables, l’ensemble des espaces lin´ eraires consid´ er´ e ´ etant plus grand. Par contre, le prix ` a payer est une moindre interpr´ etabilit´ e des r´ esul- tats, puisque ce sont des combinaisons lin´ eaires des variables de d´ epart qui sont s´ electionn´ ees, ce qui peut ne pas correspondre au probl` eme initial (que repr´ esente une combinaison lin´ eaire de g` enes ?).
Le but de la premi` ere partie du cours est de pr´ esenter une partie de ces m´ ethodes, principalement ` a travers l’exemple de la r´ egression lin´ eaire ou logistique. Il ne s’agit en aucun cas d’un cours exhaustif, dans la mesure o` u de tr` es nombreuses m´ ethodes sont d´ evelopp´ ees en grande dimension. Les approches pr´ esent´ ees ici font cependant partie des outils de base ` a connaˆıtre, sur lesquelles beaucoup d’autres m´ ethodes sont bas´ ees.
1.2 Les r´ eseaux de neurones
Dans d’autres cas, en image par exemple, il n’y a pas de souci de grande
dimension au sens statistique du terme, dans le sens o` u le nombre de d’ob-
servations (les images) est encore plus grand que le tr` es grand nombre de
variables (les pixels).
1.2. LES R ´ ESEAUX DE NEURONES 5 Dans ce cas-l` a, une nouvelle m´ ethode a le vent en poupe depuis le d´ e- bit des ann´ ees 2000, ` a savoir les r´ eseaux de neurones. Ces r´ eseaux ont ´ et´ e popularis´ es par de tr` es bonnes performances en terme de pr´ ediction dans des probl` emes comportant un grand nombre de variables. Ils ont en effet l’avantage de permettre l’introduction de non-lin´ earit´ es dans le mod` ele de pr´ ediction utilis´ es. Ils souffrent cependant d’un manque d’interpr´ etabilit´ e du mod` ele appris, et se prˆ etent pour l’instant encore mal ` a la s´ election de variables.
La deuxi` eme (et plus courte) partie de ces cours sera d´ edi´ e ` a une intro-
duction aux r´ eseaux de neurones.
Chapitre 2
Le fl´ eau de la grande dimension.
Ce chapitre est repris d’un cours fait par Julie Delon, merci ` a elle de me l’avoir transmis. Il s’inspire tr` es largement et essentiellement des r´ ef´ e- rences [?, ?, ?].
2.1 Introduction
De nombreux types de donn´ ees modernes comportent des milliers voir des millions de variables. Pour ne citer que quelques exemples frappants :
1. certaines donn´ ees biologiques, comme les donn´ ees ADN. Pour ce type de donn´ ees, on a souvent des milliers de variables mais assez peu d’ob- servations ou d’individus (cf Figure 2.1).
2. les images ou vid´ eos (Figure 2.2) : une image sortant d’un appareil photo num´ erique standard est un tableau de plusieurs millions d’en- tr´ ees, et une vid´ eo HD d’une heure comportant 24 images par seconde (standard dans le cin´ ema) comporte presque 130000 images de deux millions de pixels.
3. les donn´ ees li´ ees aux pr´ ef´ erences des consommateurs (Figure 2.3) : les programmes de fid´ elit´ e ou les sites internet de vente en ligne recensent de tr` es nombreuses informations sur les pr´ ef´ erences et les comporte- ments des consommateurs, pour pouvoir pr´ edire leurs goˆ uts et leur recommander de nouveaux produits de mani` ere personnalis´ ee. Par exemple, des soci´ et´ es comme Netflix ou Spotify poss` edent des bases de notes donn´ ees par plusieurs millions d’utilisateurs sur des milliers de films ou morceaux. Ces bases, tr` es parcimonieuses (chaque utilisa- teur n’a not´ e que quelques films/morceaux en g´ en´ eral), leur permet de proposer des recommandations personnalis´ ees ` a leur clients, et ces syst` emes de recommandation sont tr` es importants dans leur succ` es.
7
Figure 2.1 – Donn´ ees ADN : matrice d’expression de 6830 g` enes (colonnes) pour 64 individus. Seul un ´ echantillon al´ eatoire de 100 colonnes est affich´ e.
Figure extraite de ??.
Ce grand nombre d’informations peut sembler ˆ etre un atout pour traiter les donn´ ees, mais nous allons voir que dans les espaces de grande dimen- sion, de nombreux ph´ enom` enes peu intuitifs rende l’estimation difficile. On appelle l’ensemble de ces ph´ enom` enes le fl´ eau de la dimension (the curse of dimensionality). Ce terme semble ˆ etre dˆ u ` a R. Bellman qui l’utilise dans l’introduction de son livre “Dynamic programming” en 1957 pour parler des difficult´ es de trouver un optimum dans un espace de grande dimension par recherche exhaustive, afin de prommouvoir les approches de type program- mation dynamique :
All [problems due to high dimension] may be subsumed under the heading
“ the curse of dimensionality”. Since this is a curse, [...], there is no need to feel discouraged about the possibility of obtaining significant results despite it.
On va voir dans les sections suivantes plusieurs propri´ et´ es g´ eom´ etriques contre-intuitives li´ ees aux espaces de grande dimension, et en quoi ces pro- pri´ et´ es sont gˆ enantes pour tous les probl` emes d’apprentissage dans ces es- paces.
2.2 Dans les espaces de grande dimension, per- sonne ne vous entend crier
Le titre de cette section est une r´ ef´ erence ` a l’accroche du film Alien, le
huiti` eme passager (Ridley Scott, 1979), voir la Figure 2.4.
2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER9
Figure 2.2 – Les images et les s´ equences d’images sont des donn´ ees de tr` es grande dimension (plusieurs millions de pixels pour une image num´ erique standard) et apparaissent dans des domaines tr` es vari´ es.
Figure 2.3 – Les donn´ ees collect´ ees par l’industrie du divertissement sur les pr´ ef´ erences de leurs utilisateurs leur permettent de leur fournir des recom- mandations personnalis´ ees.
2.2.1 Les voisinages ne sont plus locaux
Imaginons que l’on veuille faire de la classification ou de l’estimation de
densit´ e supervis´ ee en dimension p ` a partir d’une base d’apprentissage de
Figure 2.4 – ”Dans l’espace, personne ne vous entend crier” ´ etait l’accroche du film Alien, le huiti` eme passager, de Ridley Scott, 1979.
taille n. Une m´ ethode tr` es classique est de se reposer sur la notion de plus proches voisins.
— Classification (Figure 2.5, gauche) : ´ etant donn´ e n points d’une base d’apprentissage et dont on connaˆıt les classes, on peut simplement classer un nouveau point x en calculant la clase la plus repr´ esent´ ee parmi les k plus proches voisins de x de cette base d’apprentissage.
Ici aussi, la notion de plus proche voisin est essentielle.
— Estimation de densit´ e (Figure 2.5, droite) : on cherche ` a estimer par r´ egression une fonction f liant une variable X de [0, 1]
pet une variable r´ eelle Y , ` a partir de n observations i.i.d. (x
i, y
i) suivant le mod` ele
y
i= f (x
i) +
i,
avec f : [0; 1]
p→ R et les
ii.i.d. centr´ es. Il est classique de supposer que f est r´ eguli` ere et d’estimer f (x) comme la moyenne des y
iassoci´ es aux k plus proches voisins x
ide x :
f (x) = 1 k
X
i;xi∈k−nn(x)
y
i.
Si les m´ ethodes pr´ ec´ edentes fonctionnent bien en faible dimension, les proc´ edures d’estimation utilisant la notion de voisinage ou de plus proches voisins perdent en partie leur sens lorsque la dimension p de l’espace grandit trop vite par rapport aux nombres n d’´ echantillons de la base d’apprentis- sage.
La premi` ere raison est que les espaces de grande dimension sont
essentiellement vides. Pour faire de la r´ egression ou de la classification
supervis´ ee, il faut si possible avoir des donn´ ees qui ´ echantillonnent bien l’es-
pace. Supposons que nos donn´ ees vivent dans [0, 1]
p. Si on veut capturer un
voisinage d’un point x qui couvre une fraction s du volume de l’hypercube,
afin de classer x ou d’estimer une densit´ e en x, il faut choisir autour de x
2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER11
Figure 2.5 – La classification (` a gauche) et la r´ egression (` a droite) super- vis´ ees reposent souvent sur des moyennes locales. La Figure de gauche est extraite de [?].
un voisinage hypercubique de cˆ ot´ e s
1/p. Pour p = 10 et s = 0.01, le cˆ ot´ e de l’hypercube doit ˆ etre 0.63 (pour s = 0.1, le cˆ ot´ e devient 0.8). Autrement dit, pour capturer 1% des donn´ ees, il faut un voisinage dont le cˆ ot´ e doit couvrir 63% de la dynamique dans chaque dimension ! Ces voisinages ne sont donc plus du tout locaux (cf Figure 2.6).
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
fraction of volume 0.0
0.2 0.4 0.6 0.8 1.0
distance
p=1p=2 p=3p=10
Figure 2.6 – En ordonn´ ee, longueur du cˆ ot´ e de l’hypercube, en abscisse, volume de l’hypercube, pour diff´ erentes valeurs de la dimension p.
Inversement, supposons qu’on choisisse un hypercube de cˆ ot´ e r = 0.1 autour du point x. Son volume 0.1
pdecroˆıt exponentiellement avec la di- mension, et ne capture plus qu’une proportion infime des donn´ ees. Il se peut qu’il n’y ait aucun ´ el´ ement de la base d’apprentissage dans ce volume, ou alors tr` es peu, ce qui donne des estimateurs de tr` es grande variance. Autre- ment dit, les points des espaces de grande dimension sont isol´ es. Si on a une base d’apprentissage de taille fixe, elle peut ˆ etre suffisante pour bien
´ echantillonner l’espace en faible dimension et pas du tout pour un espace
de dimension plus grande. Finalement, pour ´ echantillonner un espace de di- mension p avec une densit´ e d’´ echantillonnage fix´ ee, il faudrait un nombre d’´ echantillons croissant exponentiellement avec p, ce qui devient tr` es vite impossible.
2.2.2 La notion de plus proche voisin disparaˆıt
Une autre mani` ere de voir que les points sont essentiellement isol´ es les uns des autres en grande dimension est de regarder la loi de la distance quadratique entre deux vecteurs de mˆ eme loi.
Soient X, Y des variables i.i.d. de loi uniforme dans [0, 1]
p. L’´ ecart qua- dratique kX − Y k
2a pour esp´ erance
E [kX − Y k
2] = p/6 et pour ´ ecart-type
V ar[kX − Y k
2] ' 0.2 √ p.
L’esp´ erance croˆıt donc lin´ eairement avec p alors que l’´ ecart-type ne croˆıt qu’en √
p (voir la Figure 2.7). En cons´ equence, lorsque p est grand, si on tire n points ind´ ependamment avec une loi uniforme sur l’hypercube, tous les points auront tendance ` a ˆ etre ` a une distance similaire les uns des autres, la notion de plus proche voisin perdant de son sens. Les points dans les espaces de grande dimension ont donc tendance ` a ˆ etre isol´ es les uns des autres.
Remarquons que cette propri´ et´ e n’est pas li´ ee au fait que la loi des points est uniforme. Si X et Y ont des coordonn´ ees X
iet Y
itelles que les |X
i−Y
i|
2soient i.i.d. de moyenne µ et d’´ ecart type σ par exemple, le th´ eor` eme de la limite centrale nous permet d’affirmer que
kX − Y k
2− µp
√ pσ = P
pi=1
|X
i− Y
i|
2− µp
√ pσ →
loiN (0, 1).
Les m´ ethodes d’apprentissage reposant sur la notion de plus proche voisin perdent donc une partie de leur sens en grande dimension. En pratique, le probl` eme pourrait ˆ etre r´ esolu en imposant au nombre d’observations n d’ˆ etre assez grand pour ´ eviter aux observations d’ˆ etre isol´ ees les unes des autres.
Mais si on veut par exemple que pour n’importe quelle valeur x de [0, 1]
pil existe un X
i` a distance de x inf´ erieure ` a 1, le nombre d’observations n
n´ ecessaire croˆıt exponentiellement vite avec p.
2.3. PH ´ ENOM ` ENES DE CONCENTRATION 13
p = 2 p = 100 p = 1000
0.0 0.2 0.4 0.6 0.8 1.0 1.2
distance 0
20 40 60 80 100
0 1 2 3 4 5
distance 0
50 100 150 200 250 300 350 400
0 2 4 6 8 10 12 14
distance 0
200 400 600 800 1000
Figure 2.7 – Histogrammes des distances deux ` a deux entre n = 100 points
´ echantillonn´ es uniform´ ement dans l’hypercube [0, 1]
p2.2.3 Classification en grande dimension et sur-apprentissage Les espaces de grande dimension ´ etant essentiellement vides, il est facile en pratique de s´ eparer des groupes de donn´ ees, mˆ eme avec des mod` eles de classification lin´ eaire. Par exemple, si on utilise un mod` ele de classification lin´ eaire, plus la dimension est grande, plus il est facile de trouver un hyper- plan s´ eparant les classes de la base d’apprentissage. Le probl` eme est que les classes ainsi apprises se g´ en´ eralisent mal ` a des donn´ ees non observ´ ees, car elles sont sujettes ` a l’overfitting ou sur-apprentissage (voir la Figure 2.8) : le classifieur apprend des exceptions sp´ ecifiques ` a la base d’apprentissage. Cela peut ˆ etre encore pire pour des algorithmes de classification non lin´ eaires (r´ e- seaux de neurones par exemple), qui risquent fortement de venir beaucoup trop coller aux donn´ ees en grande dimension.
Figure 2.8 – Probl` eme de sur-apprentissage quand on augmente la dimen- sion de l’espace.
2.3 Ph´ enom` enes de concentration
On a montr´ e dans les paragraphes pr´ ec´ edents que les points dans les
espaces de grande dimension ´ etaient essentiellement isol´ es. Un autre ph´ e-
nom` ene surprenant est que les points ont tendance dans ces espaces ` a se
concentrer sur des lieux g´ eom´ etriques particuliers, rendant certains pro- bl` emes d’apprentissage particuli` erement ardus.
2.3.1 Volume de la boule unit´ e
Le volume de la boule unit´ e en dimension p est V
p= π
p/2Γ(p/2 + 1) , avec Γ(x) = R
x0
t
x−1e
−tdt la fonction Gamma (voir l’exercice de la feuille de TD et la Figure 2.9). Ce volume atteint un maximum pour p = 5, puis d´ ecroˆıt et tend exponentiellement vite vers 0 lorsque p tend vers l’infini. Le volume de la boule unit´ e devient donc tr` es rapidement n´ egligeable devant celui de l’hypercube.
0 20 40 60 80 100
dimension 0
1 2 3 4 5
volume
Figure 2.9 – Volume de la boule unit´ e en fonction de la dimension p.
Cette propri´ et´ e de la boule en dimension p a plusieurs cons´ equences. On peut d’abord retrouver un r´ esultat d’´ echantillonnage similaire ` a ceux vus dans la section pr´ ec´ edente : si on veut recouvrir l’hypercube par une union de n boules unit´ es, il faut que
n ≥ 1
V
p= Γ(p/2 + 1) π
p/2p→∞
∼ p 2πe
p2√ pπ.
Ce nombre de points augmente exponentiellement avec p et est d´ ej` a de l’ordre de 42.10
39lorsque p vaut 100 et plus grand que le nombre estim´ e de particules dans l’univers quand p vaut 200.
2.3.2 Les points sont proches des bords
Une autre cons´ equence du r´ esultat pr´ ec´ edent est que si l’on tire des
points avec une loi uniforme dans l’hypercube [−1, 1]
p, ces points tomberont
2.3. PH ´ ENOM ` ENES DE CONCENTRATION 15 en dehors de la boule unit´ e centr´ ee en 0 avec une probabilit´ e tr` es rapidement proche de 1 lorsque p grandit. Autrement dit, ces points vont tomber dans les coins du cube. En dimension p, il y a 2
pcoins de ce type, ce qui donne lieu ` a des repr´ esentations graphiques de l’hypercube du type de ceux illustr´ es par la Figure 2.10.
Figure 2.10 – Repr´ esentations bidimensionnelles de l’hypercube en dimen- sion p, pour p = 2, 3, 4, 6. Figure extraite de [?].
Voyons un autre exemple du mˆ eme type. Soient X
1, . . . X
ndes vecteurs al´ eatoires i.i.d. en dimension p, distribu´ es uniform´ ement sur la boule unit´ e.
La fonction de r´ epartition de la distance de chaque X
i` a l’origine est F (t) = P [kX
1k ≤ t] = V
p(t)
V
p(1) = t
p. Ainsi, la loi de la variable min
ikX
ik d´ erive de
G(t) = P [min kX
ik ≥ t] = (1 − t
p)
n.
On obtient donc que la probabilit´ e que tous les X
isoient ` a une distance sup´ erieure ` a t de l’origine est tr` es vite proche de 1 si p est trop grand devant le nombre d’´ echantillons n. Typiquement, en dimension p = 10, avec 100
´ echantillons, la probabilit´ e que les X
isoient tous ` a une distance sup´ erieure
`
a
12de l’origine est sup´ erieure ` a 0.9. Dans ce cas, la plupart des points tir´ es uniform´ ement sur la boule unit´ e sont plus proches du bord de la boule que de son centre.
Dans la mˆ eme veine, la probabilit´ e qu’une variable uniforme sur la sph` ere unit´ e appartienne ` a la coque comprise entre les boules de rayons 1 − et 1 est
P (X ∈ S (p)) = 1 − (1 − )
p−→
p→∞
1
Autrement dit, dans les espaces de grande dimension, les points de la boule unit´ e se concentrent essentiellement dans la coque ` a distance de la sph` ere.
Le fait que les points soient concentr´ es sur les bords de l’espace est un
probl` eme en grande dimension pour faire de la pr´ ediction. En effet, sur les
bords de la base d’apprentissage, on doit extrapoler ` a partir des points plutˆ ot
qu’interpoler pour pr´ edire.
0 20 40 60 80 100 dimension
0.2 0.4 0.6 0.8 1.0
probabilité
Figure 2.11 – Probabilit´ e qu’une variable X de loi uniforme sur la boule unit´ e appartienne ` a la coque S
0.9en fonction de la dimension p.
2.3.3 Queue de la gaussienne
Int´ eressons nous ` a la densit´ e gaussienne dans R
p. En dimension 1 ou 2, on sait que l’essentiel de sa masse est concentr´ ee au voisinage de 0. On se demande ce qu’il en est lorsque p grandit. Soit X une variable gaussienne N (0, I
p) dans R
p. Que vaut la probabilit´ e que X soit dans la couronne comprise entre r et r + dr ?
La densit´ e de la gaussienne sur la couronne vaut ` a peu pr` es e
−r2/2, et d’apr` es nos calculs sur le volume de la boule de rayon r en dimension p, le volume de la couronne comprise entre r et r + dr est
V
p(r + dr) − V
p(r) = ((r + dr)
p− r
p)V
p(1) ' r
p−1pdr V
p(1).
Donc pour p fix´ e, la masse de la densit´ e gaussienne sur la couronne croˆıt comme la fonction r
p−1e
−r2
2
qui atteint son maximum en r = √
p − 1. Ainsi, mˆ eme si la densit´ e gaussienne d´ ecroˆıt en e
−r2
2
, le fait que le volume de la couronne de rayon r croisse en r
p−1fait que la couronne d’´ epaisseur dr contenant le plus de masse est de plus en plus loin de l’origine quand p augmente, dans un lieu o` u la densit´ e de la gaussienne devient pourtant extrˆ emement petite !
2.4 Des propri´ et´ es asymptotiques ´ etonnantes
On va voir dans ce qui suit que de nombreuses intuitions sur les propri´ e-
t´ es asymptotiques des matrices de covariance al´ eatoires s’av` erent fausses
lorsque la dimension p des matrices croˆıt en mˆ eme temps que le nombre n
d’´ echantillons utilis´ es pour les calculer.
2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 17
0 1 2 3 4 5 6
r 0.0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
p(r)
p=1p=2 p=10p=20
Figure 2.12 – Masse de la distribution gaussienne dans l’anneau situ´ e entre les sph` eres de rayon r et r + 1 en dimension p
Une mani` ere classique de rendre l’estimation de densit´ e robuste est d’im- poser un mod` ele param´ etrique simple pour la densit´ e f et d’estimer les param` etres de ce mod` ele de mani` ere empirique. Un des mod` eles les plus utilis´ es dans la pratique est le mod` ele gaussien, ou les mod` eles de m´ elanges de gaussiennes.
Supposons qu’on ait n ´ echantillons x
1. . . , x
n∈ R
pi.i.d. d’une distribu- tion gaussienne multivari´ ee N (0, Σ
p). L’estimateur du maximum de vrai- semblance de Σ
pest la matrice de covariance empirique
Σ b
p= 1 n
n
X
k=1
x
kx
Tk.
Cette matrice de covariance empirique des observations v´ erifie E[ Σ b
p] = Σ
p.
Si p est fix´ e et n → ∞, alors (loi forte des grands nombres) pour n’im- porte quelle norme matricielle
kb Σ
p− Σ
pk −→
a.s.0 Par contre, si n, p → ∞ avec p/n → c > 0,
kb Σ
p− Σ
pk
26→0 ( avec kk
2la norme spectrale).
Pour s’en convaincre, supposons que Σ
p= I
pet que p/n = c > 1. On a bien convergence en norme kk
∞max
i,j|b Σ
i,j− δ
i,j| −→
a.s.0.
Cependant, on perd la convergence en norme spectrale puisque rang(X) ≤ n ⇒ λ
min(c Σ
p) = 0 < 1 = λ
min(Σ
p).
Autrement dit, les valeurs propres de Σ b
pne tendent pas forc´ ement vers 1 lorsque n et p tendent tous les deux vers l’infini. On n’a donc pas convergence de Σ b
pvers I
pen norme spectrale lorsque n et p tendent vers l’infini. Ceci peut sembler contradictoire avec le fait que les normes sont toutes ´ equivalentes en dimension finie, et s’explique par le fait que les constantes apparaissant dans les in´ egalit´ es entre normes d´ ependent de p et peuvent donc elles-mˆ emes tendre vers l’infini (ou 0).
0 0.5 1 1.5 2 2.5 3
0 0.2 0.4 0.6 0.8
Valeurs propres deΣbp
Densit´e
Distribution des valeurs propres Loi de Mar˘cenko–Pastur
0 0.5 1 1.5 2 2.5 3
0 0.2 0.4 0.6 0.8 1 1.2
x
Densit´edeµ
c= 0.1 c= 0.2 c= 0.5
Figure 2.13 – A gauche, histogramme des valeurs propres de Σ b
ppour p = 500, n = 2000, Σ
p= I
p. A droite, loi de Mar˘ cenko-Pastur pour diff´ erents ratios limites c = lim
p→∞p/n.
Plus precis´ ement, la th´ eorie des matrices al´ eatoires nous dit que lorsque p, n → ∞ avec p/n → c > 0, alors [Mar˘ cenko-Pastur Theorem, 1967]
1 p
p
X
k=1
δ
λk(Σcp)
−→
a.s.µ faiblement,
2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 19 avec µ la loi de Mar˘ cenko-Pastur de param` etre c, qui v´ erifie
— µ({0}) = max(0, 1 − c
−1)
— sur (0, ∞), µ a une densit´ e continue de support [(1 − √
c)
2, (1 + √ c)
2].
Ce r´ esultat est illustr´ e Figure 2.13.
Or, dans de nombreux probl` emes d’estimation, la convergence que l’on souhaite est celle des valeurs propres plutˆ ot que la convergence des coeffi- cients. Typiquement, lorsqu’on estime un mod` ele de m´ elange de gaussiennes sur des donn´ ees : on alterne deux ´ etapes, une o` u l’on estime des covariances et moyennes empiriques, et une o` u l’on calcule la vraisemblance de chaque donn´ ee selon chaque gaussienne. Pour calculer ces vraisemblances, il faut pouvoir inverser la covariance Σ, donc calculer ses valeurs propres. Or,
— si n est trop petit devant p, Σ b
prisque d’ˆ etre mal conditionn´ ee ou singuli` ere ;
— mˆ eme si n est plus grand que p, si p augmente proportionnellement
`
a n, les valeurs propres de cette matrice de covariance empirique
constituent une tr` es mauvaise approximation des valeurs propres de
Σ.
Chapitre 3
R´ eduction de dimension par extraction de variables
Une mani` ere de r´ eduire les probl` emes li´ es ` a la grande dimension est de r´ eduire la dimension du probl` eme. Une mani` ere de faire cela est de chercher un espace vectoriel de petite dimension qui porte l’essentiel des informations des donn´ ees. Les techniques habituelles en petite dimension peuvent alors ˆ etre appliqu´ ees dans ce nouvel espace.
Dans toute cette partie, on note X une matrice d’observations (n × p) portant sur p variables observ´ ees chez n individus. La norme matricielle consid´ er´ ee est la norme 2, ` a savoir kXk
2= P
i,j
x
2ij= tr(XX
T) = tr(X
TX).
Soit r la dimension choisie pour l’espace r´ eduit. Le but est alors de transformer le jeu de donn´ ees X exprim´ e en les variables X
1, . . . , X
pen un jeu de donn´ ees Z exprim´ e en les variables Z
1, . . . , Z
r, r < p. Chaque variable Z
i, appel´ ee i
emecomposante, est une combinaison lin´ eaire des X
j, et le vecteur encodant cette combinaison lin´ eaire est appel´ e le i
emeaxe de la d´ ecomposition.
Le probl` eme revient de fa¸ con matricielle ` a d´ eterminer les meilleures ma- trices A et Z telles que
Z = XA avec
— A une matrice (p × r) contenant en colonne les vecteurs unitaires (de norme 1) engendrant le nouvel espace.
— Z une matrice (n × r, r << n) contenant les nouvelles donn´ ees en fonction des r nouvelles variables (le nouveau nuage de points), et v´ e- rifiant que Z
TZ est diagonale (ses vecteurs colonnes sont d´ ecorr´ el´ es).
Ses lignes correspondent aux projet´ es des points du nuage initial sur le sous-espace de petite dimension.
21
La fa¸ con de d´ eterminer ce qu’on appelle meilleure matrice ( ou de fa¸ con
´ equivalente perte minimale d’information) va donner ` a lieu ` a plusieurs r´ e- ductions de dimension diff´ erentes. La suite de de chapitre en d´ etaille deux des plus couramment utilis´ ees, ` a savoir l’ACP (Analayse en Composantes Principales, PCA en anglais) et la PLS (Partial Least Square regression).
3.1 ACP
3.1.1 Principe de l’ACP
L’ACP repose sur le principe de minimisation de l’inertie, qui est une mesure de la dispersion d’un nuage de points autour de son centre de gravit´ e.
Supposons X centr´ ee (chaque colonne est de moyenne nulle), et notons x
i,•(resp. x
•,j) la i
emeligne de X (resp. la j
emecolonne), qui correspond donc au i
emeindividu de l’´ echantillon (resp. la j
emevariable mesur´ ee).
I(X) = 1 n
n
X
i=1
d
2(0, x
i,•)
= 1 n
n
X
i=1 p
X
j=1
x
2ij=
p
X
j=1
1 n
n
X
i=1
x
2ij=
p
X
j=1
var(x
•,j)
= 1 n kXk
2En d’autres termes, l’inertie est d’autant plus grande que le nuage est
´ etal´ e, ou de fa¸ con ´ equivalente que les variances des variables sont grandes.
La notion d’inertie se g´ en´ eralise ` a l’´ etalement par rapport ` a un sous- espace vectoriel W de R
p.
I
W(X) = 1 n
n
X
i=1
kh
W(x
i,•) − x
i,•k
2= kX − XP
Wk
2o` u h
West la projection orthogonale sur W et P
Wla matrice associ´ ee.
L’inertie par rapport ` a W est d’autant plus grande que les points sont
´ eloign´ es de W . Par cons´ equent, chercher un espace de faible dimension r´ esu-
mant X revient ` a chercher un espace W de faible dimension telle que l’iner-
tie I
W(X) soit tr` es faible. Remplacer les x
i,•par leurs projections h
W(x
i,•)
3.1. ACP 23 permet alors de r´ eduire drastiquement la dimension tout en perdant peu d’information.
On notera que pour p = 1, cela revient ` a chercher la droite des moindres carr´ es.
D’un point de vue de l’interpr´ etation, il est int´ eressant de remarquer que le th´ eor` eme de Pythagore entraine, en raison de l’orhtogonalit´ e de la projection, que
kX
2k = kX − XP
Wk
2+ kXP
Wk
2= nI
W(X) + kXP
Wk
2Ceci implique qu’il est ´ equivalent de minimiser l’inertie suivant W et de maximiser la norme du nuage projet´ e, qui correspond ` a la somme des variances des diff´ erentes variables dans ce nuage. En d’autres termes, l’ACP transforme le nuage en un nuage inscrit dans un espace de dimension r tel qu’un maximum de la variance initiale est pr´ eserv´ ee.
On parle de pourcentage de variance expliqu´ ee pour d´ esigner
kXPkXkW2k2Donn´ ees
La transformation pr´ eliminaire consistant ` a centrer les variables est tou- jours appliqu´ ee. En effet, cela revient ` a simplement changer l’origine de l’espace, sans modifier le nuage de points.
Par contre, il faut prendre une d´ ecision concernant le fait de normer ou pas chaque variable, c’est-` a-dire ramener sa variance ` a 1. L’avantage est de pouvoir comparer des variables dans des unit´ es diff´ erentes, l’inconv´ enient est de lisser le signal dans le cas de variables comparables.
Supposons par exemple que X est compos´ e de mesures d’expression d’un grand nombre de g` enes, parmi lesquels figurent des g` enes dit de m´ enage, qui s’expriment de mani` ere quasi-constante ` a travers tous les tissus et toutes les conditions. Normer de telles variables va donner une importance dispropor- tionn´ ee ` a leurs variations qui ne sont du bruit, et masquer ainsi les g` enes qui s’expriment diff´ erentiellement suivant les conditions. Ne pas normer rend difficile l’ajout de variables autre que les expressions de g` enes dans la matrice X. En pratique, pour le cas des g` enes de m´ enage, les biologistes proc` ede ` a une s´ election par tests multiples de g` enes diff´ erentiellement exprim´ es ou du moins retirent du jeu tous les g` enes dont la variance empirique ne d´ epasse pas un certain seuil, ce qui permet de normer ensuite.
Il n’y a donc pas de bonne fa¸ con de proc´ eder dans l’absolu, la connais- sance de l’expert est id´ ealement le crit` ere qui permet de choisir.
Une autre remarque concernant les donn´ ees est que l’ACP porte unique-
ment sur le nuage de points X. En d’autre termes, dans un probl` eme o` u une
variable de sortie Y est ´ egalement mesur´ ee, celle-ci ne rentre pas en compte.
Par exemple, dans un exemple o` u on chercherait ` a pr´ edire une sortie ma- lade/sain (Y ) en fonction de l’expression d’un grand nombre de g` enes (X), la r´ eduction de dimension par ACP de prend pas Y en compte.
Si le but de l’´ etude est de pr´ edire Y , on peut r´ eduire la dimension ` a l’aide d’une ACP puis appliquer une r´ egression en petite dimension. On parle alors de PCR (Principal Component Regression). On verra plus tard que l’approche PLS est cependant plus efficace dans ce cas.
3.1.2 Construction des axes
Il existe plusieurs mani` eres de construire, ou d’interpr´ eter la construction des axes d’une ACP. Elles sont ´ equivalentes entre elles en termes de r´ esultats mais donnent des points de vue diff´ erents sur l’ACP et des algorithmes plus ou moins efficace en terme d’ex´ ecution.
Construction par d´ ecomposition de matrice
Σ = X
TX est une matrice sym´ etrique positive et admet donc une dia- gonalisation dans une base orthogonale
Σ = U
TΛU
o` u U est orthogonale et ∆ est diagonale avec des coefficients diagonaux λ
1≥ λ
2. . . λ
n≥ 0.
On en d´ eduit que, pour toute matrice P de projection orthogonale, kXPk
2= tr(P
TΣP)
= tr(P
TU
TΛUP)
= tr(ΛUPP
TU
T)
= tr(ΛUPU
T)
= kΛQk
2La derni` ere ´ egalit´ e est due au fait que, P ´ etant une projection ortho- gonale, P
T= P et P
2= P. De plus, U ´ etant une matrice orthogonale, l’ensemble des {UPU
T} tels que P est une matriec e projection orthogoa- nale est ´ egalement l’ensemble des projections orthogonales.
Or, la projection orthogonale Q sur un espace de dimension r qui maxi- mise kΛQk
2est clairement la matrice diagonale dont la diagonale est form´ e de r coefficients 1 suivis de p − r coefficients nuls (` a faire en exercice). Cette projection correspond ` a la projection sur les r premiers vecteurs propres de U.
Par cons´ equent, la solution (Z, A) au probl` eme initial est la matrice A form´ ee des r premiers vecteurs propres de Q et Z = XA. La fraction de variance expliqu´ ee est
Pr i=1λi
Pp i=1λi
.
3.1. ACP 25 Remarque : On peut, plutˆ ot que de diagonaliser Σ, consid´ erer la d´ e- composition en valeur singuli` eres de X (cf l’annexe ??).
X = U∆V
TLa matrice des r premi` eres colonnes de U est la matrice A telle que Z = XA donne les coordonn´ ees des individus en les nouvelles variables.
Construction pas ` a pas
Une mani` ere alternative de voir l’ACP et de la consid´ erer comme un processus pas ` a pas.
On cherche l’axe ∆
1tel que l’inertie suivant ∆
1est maximale. Soit a
1un vecteur directeur unitaire de ∆
1. Alors
I
∆∗1
= 1 n
n
X
i=1
kh
∆1(u
i)k
2= 1 n
n
X
i=1
< u
i, a
1>
2= 1 n
n
X
i=1
a
01u
iu
0ia
1= a
011 n
n
X
i=1
u
iu
0ia
1= a
01Σa
1Trouver ∆
1revient donc ` a r´ esoudre le probl` eme suivant :
a
1= argmax
a
(a
0Σa) o` u Σ est la matrice de covariance de X sous la contrainte a
0a = 1
On consid` ere ` a nouveau la diagonalisation de Σ dans une base orthonor- male :
Σ = UΛU
0En se pla¸ cant dans la base orthonormale A, on voit ais´ ement que la solution ` a ce probl` eme est le vecteur propre associ´ e ` a λ
1et que I
∆∗1
= λ
1.
Les h − 1 premi` eres variables (ou de fa¸ con ´ equivalente les h − 1 premiers
axes) ´ etant d´ ej` a construites, on construit l’axe suivant en r´ esolvant
a
h= argmax
a
a
TΣa a
tha
h= 1
∀l < h, a
ThΣa
l= 0
Le crit` ere ` a maximiser (a
TΣa = a
TX
TXa) correspond ` a la variance du vecteur Xa, c’est-` a-dire ` a la variance de la projection orthogonale du nuage sur l’axe a. On remarquera de plus que cov(z
h, z
l) = a
ThX
TXa
l= a
ThΣa
let que la derni` ere condition entraˆıne que les nouvelles variables sont d´ ecorr´ el´ ees.
Le second axe correspond donc ` a chercher l’axe qui expliquera le plus de variances parmi ceux v´ erifiant que la nouvelle variable cr´ e´ ee sera d´ ecorr´ el´ ee de z
1, et ainsi de suite. En se pla¸ cant dans la base form´ e par les vecteurs propres de U, on montre par r´ ecurrence que le k
emeaxe correspond ` a la k
emecolonne de U.
Construction par optimisation altern´ ee
Les m´ ethodes pr´ ec´ edentes demandent une diagonalisation de Σ ou du moins son calcul explicite, ce qui peut s’av´ erer couteux en calcul.
Pour l’´ eviter, il est possible [?] de consid´ erer que de trouver Z et A revient ` a d´ eterminer les matrices F et W qui minimisent kX − FW
Tk
2sous les contraintes
— F est une matrice n × r dont les colonnes sont orthogonales ;
— W est une matrice p × r dont les colonnes sont norm´ ees.
Il est possible de r´ esoudre ce probl` eme par des moindres carr´ es altern´ es :
— ` a F fix´ e, le W optimal vaut ˆ W = X
TF(F
TF)
−1— ` a W fix´ e, la F optimal vaut ˆ F = XW(W
TW)
−1Cet algorithme converge vers un le minimum ` a atteindre et a l’avantage de ne pas n´ ecessiter le calcul de Σ.
D´ etermination par minimum de vraisemblance cf l’ACP probabiliste au chapitre 3.3.
3.1.3 Cercle des corr´ elations
L’ACP peu ˆ etre utilis´ e pour l’analyse des ´ echantillons, notamment pour faire de la classification. Les r´ esultats peuvent cependant aussi ˆ etre examin´ es du point de vue des variables. L’analyse la plus fr´ equente dans ce cadre est celle du cercle de corr´ elation, qui consiste ` a garder les deux premi` eres composantes, c’est-` a-dire les deux premi` eres nouvelles variables Z
1et Z
2.
Dans le plan g´ en´ er´ e par ces variables, on place un point pour chacune des
anciennes variables X
i, qui a pour coordonn´ ees les corr´ elations du vecteur
3.2. PLS 27 X
iavec Z
1et Z
2. La variable est d’autant mieux expliqu´ ee par Z
1et Z
2que ce point est proche du cercle de rayon 1 et ce graphe permet de isualiser des groupes de variables corr´ el´ ees.
3.1.4 Utilisation en grande dimension
L’avantage de l’ACP est qu’elle r´ eduit le nombre de dimension d’un jeu de donn´ ees en gardant simplement le plus de variabilit´ e possible : on essaie de gagner le plus de dimensions possible en perdant le moins d’information possible, et en ne pr´ evil´ egiant aucune direction ` a priori. Toute autre m´ ethode de statistiques en petite dimension peut donc ˆ etre appliqu´ ee ` a l’espace r´ eduit obtenu en gardant les r premi` eres colonnes de Z.
On peut ainsi appliquer les mod` eles de r´ egression vus en introduction, mais aussi toute m´ ethode de clustering par exemple.
Le d´ esavantage de l’ACP est potentiellement double :
— Si la dimension est r´ eduite dans un but bien pr´ ecis, par exemple r´ egresser une variable particuli` ere Y , il peut ˆ etre plus int´ eressant de s´ electionner les axes suivant leur potentiel d’explication de Y plutˆ ot que suivant leur variance. Cela aboutit par exemple ` a la m´ ethode PLS de la section suivante.
— Toute combinaison lin´ eaire des X ´ etant permise pour construire les Z, l’interpr´ etation des axes peut s’av´ erer tr` es difficile en grande di- mension, d’autant plus en pr´ ecision de fortes corr´ elations. Il peut par cons´ equent ˆ etre int´ eressant d’obliger les axes ` a utiliser un nombre aussi faible que possible de variables initiales. On parle alors d’ACP parcimonieuse (sparse PCA).
3.2 PLS
3.2.1 Donn´ ees
La PLS ne s’applique que dans le cas o` u les observations se divisent en des variables pr´ edictives (X) et des variables ` a pr´ edire (Y).
Les mˆ emes remarques que pour l’ACP s’appliquent concernant le cen- trage et la r´ eduction.
3.2.2 Cas o` u Y est une variable simple
Dans ce cas, le crit` ere ` a maximiser est simplement la covariance de la nouvelle variable avec Y .
Il s’agit donc ` a nouveau de construire une matrice Z contenant les r
nouvelles variables et une matrice A contenant les vecteurs directeurs des
axes telles que
Z = XA
Les h − 1 premi` eres variables (ou de fa¸con ´ equivalente les h − 1 premiers axes) ´ etant d´ ej` a construites, on construit l’axe suivant en r´ esolvant
a
h= argmax
a
cov(y, z
h) o` u z
h= Xa
h(3.1)
= argmax
a
a
0X
0yy
0Xa sous les contraintes a
0ha
h= 1 et∀l < h, cov(z
h, z
l) = 0
Ce probl` eme n’admet pas comme l’ACP de solution th´ eorique simple pour l’ensemble des axes. Cependant, il est possible de le r´ esoudre pour le premier axe (cf paragraphe suivant qui le d´ emontre dans un cas plus g´ en´ eral) et de d´ emontrer que
a
1= X
0y
kX
0yk et z
1= Xa
1De plus, s’il n’est pas possible d’obtenir une ´ ecriture simple pour a
2, il est n´ eanmoins possible de r´ eduire le probl` eme ` a l’espace Z
⊥1en projetant X et y sur cet espace, c’est ` a dire en cherchant y
(1)et x
(1)i, 1 ≤ i ≤ n tels que
y = αz
1+ y
(1)et < z
1, y
(1)>= 0 x
i= β
iz
1+ x
(1)iet < z
1, x
(1)i>= 0
On montre alors facilement que α = < y, z
1>
kz
1k
2et β
i= < x
i, z
1>
kz
1k
2y
(1)et X
(1)peuvent alors ˆ etre r´ einject´ es dans le probl` eme 3.1, et le premier axe de ce nouveau probl` eme est le second axe du probl` eme initial.
La phase de projection sur z
1est appel´ ee phase de d´ eflation.
3.2.3 Cas o` u Y est une ensemble de q variables Y
1, . . . Y
qLa notion de corr´ elation avec Y doit dans ce cas ˆ etre modifi´ ee. Elle l’est
en cherchant ´ egalement une combinaison lin´ eaire des colonnes de Y telle que
cette covariace soit le plus grande possible. Le probl` eme que l’on r´ esout est
alors
3.2. PLS 29
(a
h, b
h) = argmax
ab
cov(Xa
h, Yb
h) (3.2)
= argmax
a,b
bY
0Xa
sous les contraintes a
0ha
h= 1 et b
0hb
h= 1
∀l < h, cov(Xa
h, Xa
l) = 0
Proposition 3.1. a
1est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de YY
0XX
0.
b
1est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de XX
0YY
0.
D´ emonstration. On note lambda et µ les coeeficients de Lagrange associ´ es aux deux contraintes du probl` eme, ce qui am` ene ` a consid´ erer la fonction
f(a, b) = a
0X
0Yb + λ(1 − ka
ik
2) + µ(1 − kb
ik
2)
= X
i,j
a
i(X
0Y)
i,jb
j+ λ(1 − X
i
a
2i) + µ(1 − X
j
b
2j)
La d´ erivation par rapport ` a chacune des variables a
iet b
jet l’annulation de ces d´ eriv´ ees entraˆıne qu’` a l’optimum,
a
i= 1 2λ
X
j
(X
0Y)
i,jb
jb
j= 1 2µ
X
i
(X
0Y)
i,ja
iEn injectant la deuxi` eme ´ equation dans la premi` ere, on obtient que a
i= 1
4λµ X
j,k
(X
0Y)
i,j(X
0Y)
k,ja
k= 1
4λµ X
k
X
j
(X
0Y)
i,j(X
0Y)
0j,ka
k= 1
4λµ X
k
(X
0YY
0X)
i,ka
kOn en d´ eduit que a est un vecteur propre de X
0YY
0X.
On d´ emontre de mˆ eme que b est un vecteur propre de XX
0YY
0.
Comme dans le cas ` a une dimension, on consid` ere ensuite une d´ eflation enlevant du probl` eme les composantes colin´ eaires ` a z
1= Xa
1:
x
i← x
i− cov(x
i, z
1)
var(z
1) z
1et y
j← y
j− cov(y
j, z
1) var(z
1) z
1On r´ ep` ete l’op´ eration r fois, obtenant ainsi r axes a
1, . . . , a
ret r nouvelles variables correspondantes z
1, . . . , z
rqui sont deux ` a deux de covariance nulle.
Plusieurs variantes sont possibles :
Analyse discriminant par PLS Quand les Y
isont des variables binaires, on peut remplacer leurs valeurs par des 0 et des 1, et l’utilisation de la m´ ethode pr´ ec´ edente sur ces donn´ ees est nomm´ ee analyse discriminante par PLS (PLS-DA). Il existe aussi des approches plus adapt´ ees ` a cette situation quand Y est de dimension 1 utilisant un mod` ele logit.
PLS canonique Il est possible d’utiliser une approche PLS non pour une approche par r´ egression, mais pour r´ eduire la dimension de X et de Y conjointement, en imposant que les familles {Xa
i, 1 ≤ i ≤ r} et {Yb
i, 1 ≤ i ≤ r} sont toutes deux form´ es de vecteurs de covariances nulles deux ` a deux.
La proc´ edure est alors la mˆ eme mais la d´ eflation en Y se fait par y
j← y
j− cov(y
j, Yb
1)
var(Yb
1) Yb
13.3 ACP probabiliste
L’un des inconv´ enients de l’ACP et de la PLS est qu’il s’agit de m´ ethode ne reposant pas sur un mod` ele probabiliste. Ceci rend plus difficile la prise en compte des donn´ ees manquantes et la g´ en´ eralisation ` a des contraintes pa- triculi` eres comme la parcimonie, rend impossible les approches bay´ esiennes ...
Fin des ann´ ees 90, un mod` ele probabiliste, appel´ e ACP probabiliste, a
´ et´ e d´ evelopp´ e [?] afin de pallier ` a ce manque. Il s’agit de consid´ erer le mod` ele suivant :
x
p×1= µ
p×1+ Γ
p×rz
r×1+
p×1avec
— z ∼ N (0
r, σ
2I
r)
— ∼ N (0
p, I
p)
Ce mod` ele rappelle le raisonnement ` a la base de l’ACP : un espace de
dimension r dans lequel un individu est caract´ eris´ e par z se plonge dans un
espace de dimension p, et l’individu y est caract´ eris´ e par un x proche du
plongement de Z (σ sercant ` a d´ efinir le terme proche).
3.3. ACP PROBABILISTE 31 Il faut cependant porter attention au fait que la variance de Z
idans la matrice de l’ACP standard ´ etait de variance λ
ialors qu’on force dans ce mod` ele une variance de 1 pour chaque coordonn´ ee de Z. Les variances expliqu´ ees par les axes sont par cons´ equent support´ ees ici par la matrice de changement de base Γ, ou matrice de loadings. Elle correspond donc intuitivement ` a la matrice A pr´ ec´ edente (en version transpos´ ee) donc chaque ligne porte ´ egalement la variance n´ ecessaire suivant l’axe correspondant.
Le th´ eor` eme suivant confirme cette intuition et permet d’appr´ ehender la d´ etermination d’une ACP comme un probl` eme d’estimation statistique.
Proposition 3.2. 1. x suit une loi N (0
r, Σ) avec Σ = Γ
TΓ + σ
2I
p. 2. Soit λ
1≥ . . . ≥ λ
ples valeurs propres de la matrice de variance-
covariance empirique S = X
TX, Λ
rla matrice diagonale contenant les r premi` eres et A la matrice des r premiers vecteurs propres en colonne.
L’estimateur du maximum de vraisemblance de (Γ, σ) est Γ ˆ = A
T(Λ
r− σ
2I
r)
1/2V et ˆ σ = 1
p − r
p
X
i=r+1
λ
io` u V est un matrice orthogonale quelconque.
On notera la non-unicit´ e de ˆ Γ en raison de V, mais V ´ etant orthogonale, Σ ˆ est bien unique. G´ eom´ etriquement, V correspond ` a une rotation dans la d´ efinition de l’espace de petite dimension, qui implique simplement un reparam´ etrage de Γ sans changer la vraisemblance du mod` ele.
Il est ` a noter d’un point de vue algorithmique qu’il est ` a nouveau possible d’´ eviter le calcul et la diagonalisation de S en consid´ erant le mod` ele initial comme un mod` ele ` a variables cach´ ees (les Z) et en utilisant un algorithme EM pour le r´ esoudre.
Avantages d’une telle approche
Les avantages d’une approche bas´ ee sur un mod` ele par rapport ` a l’ap- proche purement vectorielle sont nombreux :
1. d´ ependance r´ eduite par rapport aux mesures exceptionnelles ou ab´ er- rantes (outliers) ;
2. possibilit´ e de g´ en´ erer des valeurs al´ eatoires pour la gestion des donn´ ees manquantes ;
3. comparaison et choix de mod` eles ; 4. approche bay´ esienne ;
5. possibilit´ e de complexification du mod` ele pour ajouter des contraintes
suppl´ ementaires. On peut par exemple y ajouter de la r´ egularisation
pour inciter ` a la parcimonie (cf chapitre ??).
Bibliographie
33
Annexe A
Rappels sur le mod` ele lin´ eaire
Ce chapitre constitue un tr` es bref rappel sur la r´ egression lin´ eaire en petite dimension (p ≤ n). Des r´ esum´ es plus longs avec bibliographie sont disponibles dans l’onglet Mod` ele lin´ eaire de la page http://wikistat.fr
— Soit Y une variable d’int´ erˆ et, qui peut ˆ etre qualitative ou quantita- tive.
— (X
1, . . . , X
p) sont les p variables explicatives qui sont qualitatives ou quantitatives.
On suppose qu’on dispose d’un ´ echantillon i.i.d. de r´ ealisations de ces va- riables pour n individus : (Y
i, X
i,1, . . . , X
i,p, 1 ≤ i ≤ n). On d´ esigne par Y ∈ R
net X ∈ R
n×(p+1)le vecteur de sortie et la matrices des donn´ ees explicatives. X est la matrice dont la i
emeligne est (1, X
i,1, . . . , X
i,K).
A.1 Le mod` ele lin´ eaire gaussien
Le mod` ele
Le mod` ele lin´ eaire gaussien consiste ` a supposer qu-il existe des constantes (β
0, . . . , β
p) telles que
Y = β
0+ β
1X
1+ . . . + β
pX
p+ o` u suit une loi normale N (0, σ
2)
De fa¸con ´ equivalente, en notant β le vecteur contenant les β
i, y = Xβ +
o` u est un n-uplet de r´ ealisation ind´ ependantes de .
35
Estimation
L’ensemble des param` etres est le vecteur β et l’´ ecart-type σ. Ils peuvent ˆ etre inf´ er´ es par maximum de vraisemblance. En particulier, l’estimateur de maximum de vraisemblance est
β ˆ = (X
0X)
−1X
0y
Les valeurs des observations pr´ edites par la mod` ele sont alors ˆ
y = X(X
0X)
−1X
0y ˆ
y est le projet´ e de y sur l’espace engendr´ e par les vecteurs colonnes de X.
Mesure de la qualit´ e : Coefficients R
2et R
2ajust´ e
La somme des carr´ es des r´ esidus est SSE =
n
X
i=1
(y
i− y ˆ
i)
2celle des carr´ es de la r´ egression est
SSR =
n
X
i=1
(ˆ y
i− y)
2et la somme des carr´ es vaut SST =
n
X
i=1