Table des mati`eres

(1)

Table des mati` eres

1 Introduction 3

1.1 La grande dimension . . . . 3

1.2 Les r´ eseaux de neurones . . . . 4

2 Le fl´ eau de la grande dimension. 7 2.1 Introduction . . . . 7

2.2 Dans les espaces de grande dimension, personne ne vous en- tend crier . . . . 8

2.2.1 Les voisinages ne sont plus locaux . . . . 9

2.2.2 La notion de plus proche voisin disparaˆıt . . . . 12

2.2.3 Classification en grande dimension et sur-apprentissage 13 2.3 Ph´ enom` enes de concentration . . . . 13

2.3.1 Volume de la boule unit´ e . . . . 14

2.3.2 Les points sont proches des bords . . . . 14

2.3.3 Queue de la gaussienne . . . . 16

2.4 Des propri´ et´ es asymptotiques ´ etonnantes . . . . 16

3 R´ eduction de dimension par extraction de variables 21 3.1 ACP . . . . 22

3.1.1 Principe de l’ACP . . . . 22

3.1.2 Construction des axes . . . . 24

3.1.3 Cercle des corr´ elations . . . . 26

3.1.4 Utilisation en grande dimension . . . . 27

3.2 PLS . . . . 27

3.2.1 Donn´ ees . . . . 27

3.2.2 Cas o` u Y est une variable simple . . . . 27

3.2.3 Cas o` u Y est une ensemble de q variables Y

1

, . . . Y

q

. . 28

3.3 ACP probabiliste . . . . 30

A Rappels sur le mod` ele lin´ eaire 35 A.1 Le mod` ele lin´ eaire gaussien . . . . 35

A.2 Le mod` ele lin´ eaire g´ en´ eralis´ e . . . . 38

1

(2)

B D´ ecomposition en valeurs singuli` eres (SVD) 41

(3)

Chapitre 1

Introduction

L’apprentissage statistique est un terme g´ en´ erique d´ esignant les tech- niques permettant de traiter des donn´ ees r´ eelles afin d’apprendre des obser- vations. Il regroupe plusieurs grandes familles de probl` emes, pour lesquels de nombreux outils statistiques existent, et ont des propri´ et´ es en g´ en´ eral bien connues d’un point de vue th´ eorique, notamment d’un point de vue asymptotique (consistance des estimateurs, lois, vitesse de convergence, ...).

Classification non supervis´ ee : K-means, algorithme EM, . . .

Classification supervis´ ee : Arbres de classification et forˆ ets al´ eatoires, KNN (plus proches voisins), SVM . . .

Pr´ ediction : R´ egressions (lin´ eaire, logistique, probit . . .), arbres de classi- fication, forˆ ets al´ eatoires ou KNN abec des sorties continues, . . . S´ election de variables : Tests, s´ election de mod` ele ` a l’aide de crit` eres

type AIC ou BIC.

L’explosion de la taille des donn´ ees recueillies dans de nombreux do- maines d’appication, dont la biologe et l’image, pose des probl` emes th´ eo- riques qui obligent ` a adapter ces m´ ethodes aux jeux de donn´ ees auxquels les scientifiques sont aujourd’hui confront´ es.

1.1 La grande dimension

En grande dimension, par exemple dans le cadre d’exp´ eriences en g´ e- nomique, le nombre d’observations (les ´ echantillons) est plus petit que le nombre de variables (les g` enes) et l’´ etude asymptotique est donc interdite.

De plus, certaines m´ ethodes reposant sur l’inversion de matrices, par exemple la r´ egression lin´ eaire, ne peuvent plus ˆ etre appliqu´ ees car les matrices ne sont plus inversibles. Enfin, d’un point de vue de l’interpr´ etation des r´ esultats, il est souvent int´ eressant de savoir quelles sont les quelques variables jouant le plus grand rˆ ole d’explication de la sortie en pr´ ediction, de classifieur en

3

(4)

classification. Il s’agit de chercher des aiguilles (les variables les plus perti- nentes) dans une meule de foin (les centaines, milliers ou plus de variables

`

a disposition).

L’id´ ee g´ en´ erale commune ` a toute m´ ethode en grande dimension est que l’essentiel de l’information vit dans un espace de dimension plus petit. Par exemple, si l’on cherche ` a faire une classification d’´ echantillons cellulaires tumoraux sur la base de l’expression des g` enes, il est fort ` a parier que l’im- mense majorit´ e des g` enes ont un comportement similaire dans tous les types de cancer et ne portent donc pas d’information pertinente.

Il y a d` es lors essentiellement deux fa¸ cons de proc´ eder :

la s´ election de variables (feature selection) : cette approche consiste

`

a se restreindre ` a un espace plus petit en ne gardant qu’une partie des variables de d´ epart. En d’autres termes, la matrice X repr´ esentant l’´ echantillon est r´ eduite ` a un sous-ensemble de ces colonnes.

la r´ eduction de dimension (feature extraction) : cette approche consiste

`

a trouver le meilleur sous-espace lin´ eaire suivant un crit` ere d´ ependant du but recherch´ e et de la m´ ethode choisie. En d’autres termes, on cherche une matrice de changement de base A et on consid` ere comme nouvelles variables les colonnes de la matrice Z = XA. Les r pre- mi` eres colonnes de Z correspondent alors au meilleur r´ esum´ e de X en dimension r, meilleur au sens du crit` ere choisi pr´ ec´ edemment.

Les avantages et inconv´ enients de ces deux approches sont principale- ment que la r´ eduction de dimension perd moins d’information que la s´ e- lection de variables, l’ensemble des espaces lin´ eraires consid´ er´ e ´ etant plus grand. Par contre, le prix ` a payer est une moindre interpr´ etabilit´ e des r´ esul- tats, puisque ce sont des combinaisons lin´ eaires des variables de d´ epart qui sont s´ electionn´ ees, ce qui peut ne pas correspondre au probl` eme initial (que repr´ esente une combinaison lin´ eaire de g` enes ?).

Le but de la premi` ere partie du cours est de pr´ esenter une partie de ces m´ ethodes, principalement ` a travers l’exemple de la r´ egression lin´ eaire ou logistique. Il ne s’agit en aucun cas d’un cours exhaustif, dans la mesure o` u de tr` es nombreuses m´ ethodes sont d´ evelopp´ ees en grande dimension. Les approches pr´ esent´ ees ici font cependant partie des outils de base ` a connaˆıtre, sur lesquelles beaucoup d’autres m´ ethodes sont bas´ ees.

1.2 Les r´ eseaux de neurones

Dans d’autres cas, en image par exemple, il n’y a pas de souci de grande

dimension au sens statistique du terme, dans le sens o` u le nombre de d’ob-

servations (les images) est encore plus grand que le tr` es grand nombre de

variables (les pixels).

(5)

1.2. LES R ´ ESEAUX DE NEURONES 5 Dans ce cas-l` a, une nouvelle m´ ethode a le vent en poupe depuis le d´ e- bit des ann´ ees 2000, ` a savoir les r´ eseaux de neurones. Ces r´ eseaux ont ´ et´ e popularis´ es par de tr` es bonnes performances en terme de pr´ ediction dans des probl` emes comportant un grand nombre de variables. Ils ont en effet l’avantage de permettre l’introduction de non-lin´ earit´ es dans le mod` ele de pr´ ediction utilis´ es. Ils souffrent cependant d’un manque d’interpr´ etabilit´ e du mod` ele appris, et se prˆ etent pour l’instant encore mal ` a la s´ election de variables.

La deuxi` eme (et plus courte) partie de ces cours sera d´ edi´ e ` a une intro-

duction aux r´ eseaux de neurones.

(6)

(7)

Chapitre 2

Le fl´ eau de la grande dimension.

Ce chapitre est repris d’un cours fait par Julie Delon, merci ` a elle de me l’avoir transmis. Il s’inspire tr` es largement et essentiellement des r´ ef´ e- rences [?, ?, ?].

2.1 Introduction

De nombreux types de donn´ ees modernes comportent des milliers voir des millions de variables. Pour ne citer que quelques exemples frappants :

1. certaines donn´ ees biologiques, comme les donn´ ees ADN. Pour ce type de donn´ ees, on a souvent des milliers de variables mais assez peu d’ob- servations ou d’individus (cf Figure 2.1).

2. les images ou vid´ eos (Figure 2.2) : une image sortant d’un appareil photo num´ erique standard est un tableau de plusieurs millions d’en- tr´ ees, et une vid´ eo HD d’une heure comportant 24 images par seconde (standard dans le cin´ ema) comporte presque 130000 images de deux millions de pixels.

3. les donn´ ees li´ ees aux pr´ ef´ erences des consommateurs (Figure 2.3) : les programmes de fid´ elit´ e ou les sites internet de vente en ligne recensent de tr` es nombreuses informations sur les pr´ ef´ erences et les comporte- ments des consommateurs, pour pouvoir pr´ edire leurs goˆ uts et leur recommander de nouveaux produits de mani` ere personnalis´ ee. Par exemple, des soci´ et´ es comme Netflix ou Spotify poss` edent des bases de notes donn´ ees par plusieurs millions d’utilisateurs sur des milliers de films ou morceaux. Ces bases, tr` es parcimonieuses (chaque utilisa- teur n’a not´ e que quelques films/morceaux en g´ en´ eral), leur permet de proposer des recommandations personnalis´ ees ` a leur clients, et ces syst` emes de recommandation sont tr` es importants dans leur succ` es.

7

(8)

Figure 2.1 – Donn´ ees ADN : matrice d’expression de 6830 g` enes (colonnes) pour 64 individus. Seul un ´ echantillon al´ eatoire de 100 colonnes est affich´ e.

Figure extraite de ??.

Ce grand nombre d’informations peut sembler ˆ etre un atout pour traiter les donn´ ees, mais nous allons voir que dans les espaces de grande dimen- sion, de nombreux ph´ enom` enes peu intuitifs rende l’estimation difficile. On appelle l’ensemble de ces ph´ enom` enes le fl´ eau de la dimension (the curse of dimensionality). Ce terme semble ˆ etre dˆ u ` a R. Bellman qui l’utilise dans l’introduction de son livre “Dynamic programming” en 1957 pour parler des difficult´ es de trouver un optimum dans un espace de grande dimension par recherche exhaustive, afin de prommouvoir les approches de type program- mation dynamique :

All [problems due to high dimension] may be subsumed under the heading

“ the curse of dimensionality”. Since this is a curse, [...], there is no need to feel discouraged about the possibility of obtaining significant results despite it.

On va voir dans les sections suivantes plusieurs propri´ et´ es g´ eom´ etriques contre-intuitives li´ ees aux espaces de grande dimension, et en quoi ces pro- pri´ et´ es sont gˆ enantes pour tous les probl` emes d’apprentissage dans ces es- paces.

2.2 Dans les espaces de grande dimension, per- sonne ne vous entend crier

Le titre de cette section est une r´ ef´ erence ` a l’accroche du film Alien, le

huiti` eme passager (Ridley Scott, 1979), voir la Figure 2.4.

(9)

2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER9

Figure 2.2 – Les images et les s´ equences d’images sont des donn´ ees de tr` es grande dimension (plusieurs millions de pixels pour une image num´ erique standard) et apparaissent dans des domaines tr` es vari´ es.

Figure 2.3 – Les donn´ ees collect´ ees par l’industrie du divertissement sur les pr´ ef´ erences de leurs utilisateurs leur permettent de leur fournir des recom- mandations personnalis´ ees.

2.2.1 Les voisinages ne sont plus locaux

Imaginons que l’on veuille faire de la classification ou de l’estimation de

densit´ e supervis´ ee en dimension p ` a partir d’une base d’apprentissage de

(10)

Figure 2.4 – ”Dans l’espace, personne ne vous entend crier” ´ etait l’accroche du film Alien, le huiti` eme passager, de Ridley Scott, 1979.

taille n. Une m´ ethode tr` es classique est de se reposer sur la notion de plus proches voisins.

— Classification (Figure 2.5, gauche) : ´ etant donn´ e n points d’une base d’apprentissage et dont on connaˆıt les classes, on peut simplement classer un nouveau point x en calculant la clase la plus repr´ esent´ ee parmi les k plus proches voisins de x de cette base d’apprentissage.

Ici aussi, la notion de plus proche voisin est essentielle.

— Estimation de densit´ e (Figure 2.5, droite) : on cherche ` a estimer par r´ egression une fonction f liant une variable X de [0, 1]

^p

et une variable r´ eelle Y , ` a partir de n observations i.i.d. (x

ⁱ

, y

ⁱ

) suivant le mod` ele

y

ⁱ

= f (x

ⁱ

) +

_i

,

avec f : [0; 1]

^p

→ R et les

i

i.i.d. centr´ es. Il est classique de supposer que f est r´ eguli` ere et d’estimer f (x) comme la moyenne des y

_i

associ´ es aux k plus proches voisins x

_i

de x :

f (x) = 1 k

X

i;xi∈k−nn(x)

y

i

.

Si les m´ ethodes pr´ ec´ edentes fonctionnent bien en faible dimension, les proc´ edures d’estimation utilisant la notion de voisinage ou de plus proches voisins perdent en partie leur sens lorsque la dimension p de l’espace grandit trop vite par rapport aux nombres n d’´ echantillons de la base d’apprentis- sage.

La premi` ere raison est que les espaces de grande dimension sont

essentiellement vides. Pour faire de la r´ egression ou de la classification

supervis´ ee, il faut si possible avoir des donn´ ees qui ´ echantillonnent bien l’es-

pace. Supposons que nos donn´ ees vivent dans [0, 1]

^p

. Si on veut capturer un

voisinage d’un point x qui couvre une fraction s du volume de l’hypercube,

afin de classer x ou d’estimer une densit´ e en x, il faut choisir autour de x

(11)

2.2. DANS LES ESPACES DE GRANDE DIMENSION, PERSONNE NE VOUS ENTEND CRIER11

Figure 2.5 – La classification (` a gauche) et la r´ egression (` a droite) super- vis´ ees reposent souvent sur des moyennes locales. La Figure de gauche est extraite de [?].

un voisinage hypercubique de cˆ ot´ e s

^1/p

. Pour p = 10 et s = 0.01, le cˆ ot´ e de l’hypercube doit ˆ etre 0.63 (pour s = 0.1, le cˆ ot´ e devient 0.8). Autrement dit, pour capturer 1% des donn´ ees, il faut un voisinage dont le cˆ ot´ e doit couvrir 63% de la dynamique dans chaque dimension ! Ces voisinages ne sont donc plus du tout locaux (cf Figure 2.6).

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

fraction of volume 0.0

0.2 0.4 0.6 0.8 1.0

distance

p=1p=2 p=3p=10

Figure 2.6 – En ordonn´ ee, longueur du cˆ ot´ e de l’hypercube, en abscisse, volume de l’hypercube, pour diff´ erentes valeurs de la dimension p.

Inversement, supposons qu’on choisisse un hypercube de cˆ ot´ e r = 0.1 autour du point x. Son volume 0.1

^p

decroˆıt exponentiellement avec la di- mension, et ne capture plus qu’une proportion infime des donn´ ees. Il se peut qu’il n’y ait aucun ´ el´ ement de la base d’apprentissage dans ce volume, ou alors tr` es peu, ce qui donne des estimateurs de tr` es grande variance. Autre- ment dit, les points des espaces de grande dimension sont isol´ es. Si on a une base d’apprentissage de taille fixe, elle peut ˆ etre suffisante pour bien

´ echantillonner l’espace en faible dimension et pas du tout pour un espace

(12)

de dimension plus grande. Finalement, pour ´ echantillonner un espace de di- mension p avec une densit´ e d’´ echantillonnage fix´ ee, il faudrait un nombre d’´ echantillons croissant exponentiellement avec p, ce qui devient tr` es vite impossible.

2.2.2 La notion de plus proche voisin disparaˆıt

Une autre mani` ere de voir que les points sont essentiellement isol´ es les uns des autres en grande dimension est de regarder la loi de la distance quadratique entre deux vecteurs de mˆ eme loi.

Soient X, Y des variables i.i.d. de loi uniforme dans [0, 1]

^p

. L’´ ecart qua- dratique kX − Y k

²

a pour esp´ erance

E [kX − Y k

²

] = p/6 et pour ´ ecart-type

V ar[kX − Y k

²

] ' 0.2 √ p.

L’esp´ erance croˆıt donc lin´ eairement avec p alors que l’´ ecart-type ne croˆıt qu’en √

p (voir la Figure 2.7). En cons´ equence, lorsque p est grand, si on tire n points ind´ ependamment avec une loi uniforme sur l’hypercube, tous les points auront tendance ` a ˆ etre ` a une distance similaire les uns des autres, la notion de plus proche voisin perdant de son sens. Les points dans les espaces de grande dimension ont donc tendance ` a ˆ etre isol´ es les uns des autres.

Remarquons que cette propri´ et´ e n’est pas li´ ee au fait que la loi des points est uniforme. Si X et Y ont des coordonn´ ees X

i

et Y

i

telles que les |X

_i

−Y

_i

|

²

soient i.i.d. de moyenne µ et d’´ ecart type σ par exemple, le th´ eor` eme de la limite centrale nous permet d’affirmer que

kX − Y k

²

− µp

√ pσ = P

p

i=1

|X

_i

− Y

_i

|

²

− µp

√ pσ →

_loi

N (0, 1).

Les m´ ethodes d’apprentissage reposant sur la notion de plus proche voisin perdent donc une partie de leur sens en grande dimension. En pratique, le probl` eme pourrait ˆ etre r´ esolu en imposant au nombre d’observations n d’ˆ etre assez grand pour ´ eviter aux observations d’ˆ etre isol´ ees les unes des autres.

Mais si on veut par exemple que pour n’importe quelle valeur x de [0, 1]

^p

il existe un X

i

` a distance de x inf´ erieure ` a 1, le nombre d’observations n

n´ ecessaire croˆıt exponentiellement vite avec p.

(13)

2.3. PH ´ ENOM ` ENES DE CONCENTRATION 13

p = 2 p = 100 p = 1000

0.0 0.2 0.4 0.6 0.8 1.0 1.2

distance 0

20 40 60 80 100

0 1 2 3 4 5

distance 0

50 100 150 200 250 300 350 400

0 2 4 6 8 10 12 14

distance 0

200 400 600 800 1000

Figure 2.7 – Histogrammes des distances deux ` a deux entre n = 100 points

´ echantillonn´ es uniform´ ement dans l’hypercube [0, 1]

^p

2.2.3 Classification en grande dimension et sur-apprentissage Les espaces de grande dimension ´ etant essentiellement vides, il est facile en pratique de s´ eparer des groupes de donn´ ees, mˆ eme avec des mod` eles de classification lin´ eaire. Par exemple, si on utilise un mod` ele de classification lin´ eaire, plus la dimension est grande, plus il est facile de trouver un hyper- plan s´ eparant les classes de la base d’apprentissage. Le probl` eme est que les classes ainsi apprises se g´ en´ eralisent mal ` a des donn´ ees non observ´ ees, car elles sont sujettes ` a l’overfitting ou sur-apprentissage (voir la Figure 2.8) : le classifieur apprend des exceptions sp´ ecifiques ` a la base d’apprentissage. Cela peut ˆ etre encore pire pour des algorithmes de classification non lin´ eaires (r´ e- seaux de neurones par exemple), qui risquent fortement de venir beaucoup trop coller aux donn´ ees en grande dimension.

Figure 2.8 – Probl` eme de sur-apprentissage quand on augmente la dimen- sion de l’espace.

2.3 Ph´ enom` enes de concentration

On a montr´ e dans les paragraphes pr´ ec´ edents que les points dans les

espaces de grande dimension ´ etaient essentiellement isol´ es. Un autre ph´ e-

nom` ene surprenant est que les points ont tendance dans ces espaces ` a se

(14)

concentrer sur des lieux g´ eom´ etriques particuliers, rendant certains pro- bl` emes d’apprentissage particuli` erement ardus.

2.3.1 Volume de la boule unit´ e

Le volume de la boule unit´ e en dimension p est V

_p

= π

^p/2

Γ(p/2 + 1) , avec Γ(x) = R

x

0

t

^x−1

e

^−t

dt la fonction Gamma (voir l’exercice de la feuille de TD et la Figure 2.9). Ce volume atteint un maximum pour p = 5, puis d´ ecroˆıt et tend exponentiellement vite vers 0 lorsque p tend vers l’infini. Le volume de la boule unit´ e devient donc tr` es rapidement n´ egligeable devant celui de l’hypercube.

0 20 40 60 80 100

dimension 0

1 2 3 4 5

volume

Figure 2.9 – Volume de la boule unit´ e en fonction de la dimension p.

Cette propri´ et´ e de la boule en dimension p a plusieurs cons´ equences. On peut d’abord retrouver un r´ esultat d’´ echantillonnage similaire ` a ceux vus dans la section pr´ ec´ edente : si on veut recouvrir l’hypercube par une union de n boules unit´ es, il faut que

n ≥ 1

V

_p

= Γ(p/2 + 1) π

^p/2

p→∞

∼ p 2πe

^p₂

√ pπ.

Ce nombre de points augmente exponentiellement avec p et est d´ ej` a de l’ordre de 42.10

³⁹

lorsque p vaut 100 et plus grand que le nombre estim´ e de particules dans l’univers quand p vaut 200.

2.3.2 Les points sont proches des bords

Une autre cons´ equence du r´ esultat pr´ ec´ edent est que si l’on tire des

points avec une loi uniforme dans l’hypercube [−1, 1]

^p

, ces points tomberont

(15)

2.3. PH ´ ENOM ` ENES DE CONCENTRATION 15 en dehors de la boule unit´ e centr´ ee en 0 avec une probabilit´ e tr` es rapidement proche de 1 lorsque p grandit. Autrement dit, ces points vont tomber dans les coins du cube. En dimension p, il y a 2

^p

coins de ce type, ce qui donne lieu ` a des repr´ esentations graphiques de l’hypercube du type de ceux illustr´ es par la Figure 2.10.

Figure 2.10 – Repr´ esentations bidimensionnelles de l’hypercube en dimen- sion p, pour p = 2, 3, 4, 6. Figure extraite de [?].

Voyons un autre exemple du mˆ eme type. Soient X

₁

, . . . X

_n

des vecteurs al´ eatoires i.i.d. en dimension p, distribu´ es uniform´ ement sur la boule unit´ e.

La fonction de r´ epartition de la distance de chaque X

i

` a l’origine est F (t) = P [kX

₁

k ≤ t] = V

p

(t)

V

_p

(1) = t

^p

. Ainsi, la loi de la variable min

i

kX

_i

k d´ erive de

G(t) = P [min kX

_i

k ≥ t] = (1 − t

^p

)

ⁿ

.

On obtient donc que la probabilit´ e que tous les X

i

soient ` a une distance sup´ erieure ` a t de l’origine est tr` es vite proche de 1 si p est trop grand devant le nombre d’´ echantillons n. Typiquement, en dimension p = 10, avec 100

´ echantillons, la probabilit´ e que les X

i

soient tous ` a une distance sup´ erieure

`

a

¹₂

de l’origine est sup´ erieure ` a 0.9. Dans ce cas, la plupart des points tir´ es uniform´ ement sur la boule unit´ e sont plus proches du bord de la boule que de son centre.

Dans la mˆ eme veine, la probabilit´ e qu’une variable uniforme sur la sph` ere unit´ e appartienne ` a la coque comprise entre les boules de rayons 1 − et 1 est

P (X ∈ S (p)) = 1 − (1 − )

^p

−→

p→∞

1 Autrement dit, dans les espaces de grande dimension, les points de la boule unit´ e se concentrent essentiellement dans la coque ` a distance de la sph` ere.

Le fait que les points soient concentr´ es sur les bords de l’espace est un

probl` eme en grande dimension pour faire de la pr´ ediction. En effet, sur les

bords de la base d’apprentissage, on doit extrapoler ` a partir des points plutˆ ot

qu’interpoler pour pr´ edire.

(16)

0 20 40 60 80 100 dimension

0.2 0.4 0.6 0.8 1.0

probabilité

Figure 2.11 – Probabilit´ e qu’une variable X de loi uniforme sur la boule unit´ e appartienne ` a la coque S

0.9

en fonction de la dimension p.

2.3.3 Queue de la gaussienne

Int´ eressons nous ` a la densit´ e gaussienne dans R

^p

. En dimension 1 ou 2, on sait que l’essentiel de sa masse est concentr´ ee au voisinage de 0. On se demande ce qu’il en est lorsque p grandit. Soit X une variable gaussienne N (0, I

_p

) dans R

^p

. Que vaut la probabilit´ e que X soit dans la couronne comprise entre r et r + dr ?

La densit´ e de la gaussienne sur la couronne vaut ` a peu pr` es e

^−r²^/2

, et d’apr` es nos calculs sur le volume de la boule de rayon r en dimension p, le volume de la couronne comprise entre r et r + dr est

V

p

(r + dr) − V

p

(r) = ((r + dr)

^p

− r

^p

)V

p

(1) ' r

^p−1

pdr V

p

(1).

Donc pour p fix´ e, la masse de la densit´ e gaussienne sur la couronne croˆıt comme la fonction r

^p−1

e

⁻^r

2

qui atteint son maximum en r = √

p − 1. Ainsi, mˆ eme si la densit´ e gaussienne d´ ecroˆıt en e

⁻^r

2

, le fait que le volume de la couronne de rayon r croisse en r

^p−1

fait que la couronne d’´ epaisseur dr contenant le plus de masse est de plus en plus loin de l’origine quand p augmente, dans un lieu o` u la densit´ e de la gaussienne devient pourtant extrˆ emement petite !

2.4 Des propri´ et´ es asymptotiques ´ etonnantes

On va voir dans ce qui suit que de nombreuses intuitions sur les propri´ e-

t´ es asymptotiques des matrices de covariance al´ eatoires s’av` erent fausses

lorsque la dimension p des matrices croˆıt en mˆ eme temps que le nombre n

d’´ echantillons utilis´ es pour les calculer.

(17)

2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 17

0 1 2 3 4 5 6

r 0.0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

p(r)

p=1p=2 p=10p=20

Figure 2.12 – Masse de la distribution gaussienne dans l’anneau situ´ e entre les sph` eres de rayon r et r + 1 en dimension p

Une mani` ere classique de rendre l’estimation de densit´ e robuste est d’im- poser un mod` ele param´ etrique simple pour la densit´ e f et d’estimer les param` etres de ce mod` ele de mani` ere empirique. Un des mod` eles les plus utilis´ es dans la pratique est le mod` ele gaussien, ou les mod` eles de m´ elanges de gaussiennes.

Supposons qu’on ait n ´ echantillons x

₁

. . . , x

_n

∈ R

^p

i.i.d. d’une distribu- tion gaussienne multivari´ ee N (0, Σ

p

). L’estimateur du maximum de vrai- semblance de Σ

p

est la matrice de covariance empirique

Σ b

p

= 1 n

n

X

k=1

x

_k

x

^T_k

.

Cette matrice de covariance empirique des observations v´ erifie E[ Σ b

p

] = Σ

p

.

Si p est fix´ e et n → ∞, alors (loi forte des grands nombres) pour n’im- porte quelle norme matricielle

kb Σ

p

− Σ

p

k −→

^a.s.

0 Par contre, si n, p → ∞ avec p/n → c > 0,

kb Σ

_p

− Σ

_p

k

₂

6→0 ( avec kk

₂

la norme spectrale).

Pour s’en convaincre, supposons que Σ

_p

= I

_p

et que p/n = c > 1. On a bien convergence en norme kk

_∞

max

i,j

|b Σ

i,j

− δ

i,j

| −→

^a.s.

0.

(18)

Cependant, on perd la convergence en norme spectrale puisque rang(X) ≤ n ⇒ λ

_min

(c Σ

_p

) = 0 < 1 = λ

_min

(Σ

_p

).

Autrement dit, les valeurs propres de Σ b

p

ne tendent pas forc´ ement vers 1 lorsque n et p tendent tous les deux vers l’infini. On n’a donc pas convergence de Σ b

p

vers I

p

en norme spectrale lorsque n et p tendent vers l’infini. Ceci peut sembler contradictoire avec le fait que les normes sont toutes ´ equivalentes en dimension finie, et s’explique par le fait que les constantes apparaissant dans les in´ egalit´ es entre normes d´ ependent de p et peuvent donc elles-mˆ emes tendre vers l’infini (ou 0).

0 0.5 1 1.5 2 2.5 3

0 0.2 0.4 0.6 0.8

Valeurs propres deΣbp

Densit´e

Distribution des valeurs propres Loi de Mar˘cenko–Pastur

0 0.5 1 1.5 2 2.5 3

0 0.2 0.4 0.6 0.8 1 1.2

x

Densit´edeµ

c= 0.1 c= 0.2 c= 0.5

Figure 2.13 – A gauche, histogramme des valeurs propres de Σ b

_p

pour p = 500, n = 2000, Σ

p

= I

p

. A droite, loi de Mar˘ cenko-Pastur pour diff´ erents ratios limites c = lim

p→∞

p/n.

Plus precis´ ement, la th´ eorie des matrices al´ eatoires nous dit que lorsque p, n → ∞ avec p/n → c > 0, alors [Mar˘ cenko-Pastur Theorem, 1967]

1 p

p

X

k=1

δ

_λ

k(Σcp)

−→

a.s.

µ faiblement,

(19)

2.4. DES PROPRI ´ ET ´ ES ASYMPTOTIQUES ´ ETONNANTES 19 avec µ la loi de Mar˘ cenko-Pastur de param` etre c, qui v´ erifie

— µ({0}) = max(0, 1 − c

⁻¹

)

— sur (0, ∞), µ a une densit´ e continue de support [(1 − √

c)

²

, (1 + √ c)

²

].

Ce r´ esultat est illustr´ e Figure 2.13.

Or, dans de nombreux probl` emes d’estimation, la convergence que l’on souhaite est celle des valeurs propres plutˆ ot que la convergence des coeffi- cients. Typiquement, lorsqu’on estime un mod` ele de m´ elange de gaussiennes sur des donn´ ees : on alterne deux ´ etapes, une o` u l’on estime des covariances et moyennes empiriques, et une o` u l’on calcule la vraisemblance de chaque donn´ ee selon chaque gaussienne. Pour calculer ces vraisemblances, il faut pouvoir inverser la covariance Σ, donc calculer ses valeurs propres. Or,

— si n est trop petit devant p, Σ b

_p

risque d’ˆ etre mal conditionn´ ee ou singuli` ere ;

— mˆ eme si n est plus grand que p, si p augmente proportionnellement

`

a n, les valeurs propres de cette matrice de covariance empirique

constituent une tr` es mauvaise approximation des valeurs propres de

Σ.

(20)

(21)

Chapitre 3

R´ eduction de dimension par extraction de variables

Une mani` ere de r´ eduire les probl` emes li´ es ` a la grande dimension est de r´ eduire la dimension du probl` eme. Une mani` ere de faire cela est de chercher un espace vectoriel de petite dimension qui porte l’essentiel des informations des donn´ ees. Les techniques habituelles en petite dimension peuvent alors ˆ etre appliqu´ ees dans ce nouvel espace.

Dans toute cette partie, on note X une matrice d’observations (n × p) portant sur p variables observ´ ees chez n individus. La norme matricielle consid´ er´ ee est la norme 2, ` a savoir kXk

²

= P

i,j

x

²_ij

= tr(XX

^T

) = tr(X

^T

X).

Soit r la dimension choisie pour l’espace r´ eduit. Le but est alors de transformer le jeu de donn´ ees X exprim´ e en les variables X

₁

, . . . , X

_p

en un jeu de donn´ ees Z exprim´ e en les variables Z

₁

, . . . , Z

_r

, r < p. Chaque variable Z

i

, appel´ ee i

^eme

composante, est une combinaison lin´ eaire des X

j

, et le vecteur encodant cette combinaison lin´ eaire est appel´ e le i

^eme

axe de la d´ ecomposition.

Le probl` eme revient de fa¸ con matricielle ` a d´ eterminer les meilleures ma- trices A et Z telles que

Z = XA avec

— A une matrice (p × r) contenant en colonne les vecteurs unitaires (de norme 1) engendrant le nouvel espace.

— Z une matrice (n × r, r << n) contenant les nouvelles donn´ ees en fonction des r nouvelles variables (le nouveau nuage de points), et v´ e- rifiant que Z

^T

Z est diagonale (ses vecteurs colonnes sont d´ ecorr´ el´ es).

Ses lignes correspondent aux projet´ es des points du nuage initial sur le sous-espace de petite dimension.

21

(22)

La fa¸ con de d´ eterminer ce qu’on appelle meilleure matrice ( ou de fa¸ con

´ equivalente perte minimale d’information) va donner ` a lieu ` a plusieurs r´ e- ductions de dimension diff´ erentes. La suite de de chapitre en d´ etaille deux des plus couramment utilis´ ees, ` a savoir l’ACP (Analayse en Composantes Principales, PCA en anglais) et la PLS (Partial Least Square regression).

3.1 ACP

3.1.1 Principe de l’ACP

L’ACP repose sur le principe de minimisation de l’inertie, qui est une mesure de la dispersion d’un nuage de points autour de son centre de gravit´ e.

Supposons X centr´ ee (chaque colonne est de moyenne nulle), et notons x

i,•

(resp. x

•,j

) la i

^eme

ligne de X (resp. la j

^eme

colonne), qui correspond donc au i

^eme

individu de l’´ echantillon (resp. la j

^eme

variable mesur´ ee).

I(X) = 1 n

n

X

i=1

d

²

(0, x

i,•

)

= 1 n

n

X

i=1 p

X

j=1

x

²_ij

=

p

X

j=1

1 n

n

X

i=1

x

²_ij

=

p

X

j=1

var(x

•,j

)

= 1 n kXk

²

En d’autres termes, l’inertie est d’autant plus grande que le nuage est

´ etal´ e, ou de fa¸ con ´ equivalente que les variances des variables sont grandes.

La notion d’inertie se g´ en´ eralise ` a l’´ etalement par rapport ` a un sous- espace vectoriel W de R

^p

.

I

W

(X) = 1 n

n

X

i=1

kh

_W

(x

i,•

) − x

i,•

k

²

= kX − XP

W

k

²

o` u h

W

est la projection orthogonale sur W et P

W

la matrice associ´ ee.

L’inertie par rapport ` a W est d’autant plus grande que les points sont

´ eloign´ es de W . Par cons´ equent, chercher un espace de faible dimension r´ esu-

mant X revient ` a chercher un espace W de faible dimension telle que l’iner-

tie I

W

(X) soit tr` es faible. Remplacer les x

i,•

par leurs projections h

W

(x

i,•

)

(23)

3.1. ACP 23 permet alors de r´ eduire drastiquement la dimension tout en perdant peu d’information.

On notera que pour p = 1, cela revient ` a chercher la droite des moindres carr´ es.

D’un point de vue de l’interpr´ etation, il est int´ eressant de remarquer que le th´ eor` eme de Pythagore entraine, en raison de l’orhtogonalit´ e de la projection, que

kX

²

k = kX − XP

W

k

²

+ kXP

_W

k

²

= nI

W

(X) + kXP

_W

k

²

Ceci implique qu’il est ´ equivalent de minimiser l’inertie suivant W et de maximiser la norme du nuage projet´ e, qui correspond ` a la somme des variances des diff´ erentes variables dans ce nuage. En d’autres termes, l’ACP transforme le nuage en un nuage inscrit dans un espace de dimension r tel qu’un maximum de la variance initiale est pr´ eserv´ ee.

On parle de pourcentage de variance expliqu´ ee pour d´ esigner

^kXP_kXk^W2^k²

Donn´ ees

La transformation pr´ eliminaire consistant ` a centrer les variables est tou- jours appliqu´ ee. En effet, cela revient ` a simplement changer l’origine de l’espace, sans modifier le nuage de points.

Par contre, il faut prendre une d´ ecision concernant le fait de normer ou pas chaque variable, c’est-` a-dire ramener sa variance ` a 1. L’avantage est de pouvoir comparer des variables dans des unit´ es diff´ erentes, l’inconv´ enient est de lisser le signal dans le cas de variables comparables.

Supposons par exemple que X est compos´ e de mesures d’expression d’un grand nombre de g` enes, parmi lesquels figurent des g` enes dit de m´ enage, qui s’expriment de mani` ere quasi-constante ` a travers tous les tissus et toutes les conditions. Normer de telles variables va donner une importance dispropor- tionn´ ee ` a leurs variations qui ne sont du bruit, et masquer ainsi les g` enes qui s’expriment diff´ erentiellement suivant les conditions. Ne pas normer rend difficile l’ajout de variables autre que les expressions de g` enes dans la matrice X. En pratique, pour le cas des g` enes de m´ enage, les biologistes proc` ede ` a une s´ election par tests multiples de g` enes diff´ erentiellement exprim´ es ou du moins retirent du jeu tous les g` enes dont la variance empirique ne d´ epasse pas un certain seuil, ce qui permet de normer ensuite.

Il n’y a donc pas de bonne fa¸ con de proc´ eder dans l’absolu, la connais- sance de l’expert est id´ ealement le crit` ere qui permet de choisir.

Une autre remarque concernant les donn´ ees est que l’ACP porte unique-

ment sur le nuage de points X. En d’autre termes, dans un probl` eme o` u une

variable de sortie Y est ´ egalement mesur´ ee, celle-ci ne rentre pas en compte.

(24)

Par exemple, dans un exemple o` u on chercherait ` a pr´ edire une sortie ma- lade/sain (Y ) en fonction de l’expression d’un grand nombre de g` enes (X), la r´ eduction de dimension par ACP de prend pas Y en compte.

Si le but de l’´ etude est de pr´ edire Y , on peut r´ eduire la dimension ` a l’aide d’une ACP puis appliquer une r´ egression en petite dimension. On parle alors de PCR (Principal Component Regression). On verra plus tard que l’approche PLS est cependant plus efficace dans ce cas.

3.1.2 Construction des axes

Il existe plusieurs mani` eres de construire, ou d’interpr´ eter la construction des axes d’une ACP. Elles sont ´ equivalentes entre elles en termes de r´ esultats mais donnent des points de vue diff´ erents sur l’ACP et des algorithmes plus ou moins efficace en terme d’ex´ ecution.

Construction par d´ ecomposition de matrice

Σ = X

^T

X est une matrice sym´ etrique positive et admet donc une dia- gonalisation dans une base orthogonale

Σ = U

^T

ΛU

o` u U est orthogonale et ∆ est diagonale avec des coefficients diagonaux λ

1

≥ λ

2

. . . λ

n

≥ 0.

On en d´ eduit que, pour toute matrice P de projection orthogonale, kXPk

²

= tr(P

^T

ΣP)

= tr(P

^T

U

^T

ΛUP)

= tr(ΛUPP

^T

U

^T

)

= tr(ΛUPU

^T

)

= kΛQk

²

La derni` ere ´ egalit´ e est due au fait que, P ´ etant une projection ortho- gonale, P

^T

= P et P

²

= P. De plus, U ´ etant une matrice orthogonale, l’ensemble des {UPU

^T

} tels que P est une matriec e projection orthogoa- nale est ´ egalement l’ensemble des projections orthogonales.

Or, la projection orthogonale Q sur un espace de dimension r qui maxi- mise kΛQk

²

est clairement la matrice diagonale dont la diagonale est form´ e de r coefficients 1 suivis de p − r coefficients nuls (` a faire en exercice). Cette projection correspond ` a la projection sur les r premiers vecteurs propres de U.

Par cons´ equent, la solution (Z, A) au probl` eme initial est la matrice A form´ ee des r premiers vecteurs propres de Q et Z = XA. La fraction de variance expliqu´ ee est

Pr i=1λi

Pp i=1λi

.

(25)

3.1. ACP 25 Remarque : On peut, plutˆ ot que de diagonaliser Σ, consid´ erer la d´ e- composition en valeur singuli` eres de X (cf l’annexe ??).

X = U∆V

^T

La matrice des r premi` eres colonnes de U est la matrice A telle que Z = XA donne les coordonn´ ees des individus en les nouvelles variables.

Construction pas ` a pas

Une mani` ere alternative de voir l’ACP et de la consid´ erer comme un processus pas ` a pas.

On cherche l’axe ∆

1

tel que l’inertie suivant ∆

1

est maximale. Soit a

1

un vecteur directeur unitaire de ∆

₁

. Alors

I

_∆^∗

1

= 1 n

n

X

i=1

kh

_∆₁

(u

_i

)k

²

= 1 n

n

X

i=1

< u

i

, a

1

>

²

= 1 n

n

X

i=1

a

⁰₁

u

_i

u

⁰_i

a

₁

= a

⁰₁

1 n

n

X

i=1

u

i

u

⁰_i

a

1

= a

⁰₁

Σa

₁

Trouver ∆

1

revient donc ` a r´ esoudre le probl` eme suivant :

a

1

= argmax

a

(a

⁰

Σa) o` u Σ est la matrice de covariance de X sous la contrainte a

⁰

a = 1

On consid` ere ` a nouveau la diagonalisation de Σ dans une base orthonor- male :

Σ = UΛU

⁰

En se pla¸ cant dans la base orthonormale A, on voit ais´ ement que la solution ` a ce probl` eme est le vecteur propre associ´ e ` a λ

₁

et que I

_∆^∗

1

= λ

₁

.

Les h − 1 premi` eres variables (ou de fa¸ con ´ equivalente les h − 1 premiers

axes) ´ etant d´ ej` a construites, on construit l’axe suivant en r´ esolvant

(26)

a

_h

= argmax

a

^T

Σa a

^t_h

a

_h

= 1

∀l < h, a

^T_h

Σa

_l

= 0

Le crit` ere ` a maximiser (a

^T

Σa = a

^T

X

^T

Xa) correspond ` a la variance du vecteur Xa, c’est-` a-dire ` a la variance de la projection orthogonale du nuage sur l’axe a. On remarquera de plus que cov(z

_h

, z

_l

) = a

^T_h

X

^T

Xa

_l

= a

^T_h

Σa

_l

et que la derni` ere condition entraˆıne que les nouvelles variables sont d´ ecorr´ el´ ees.

Le second axe correspond donc ` a chercher l’axe qui expliquera le plus de variances parmi ceux v´ erifiant que la nouvelle variable cr´ e´ ee sera d´ ecorr´ el´ ee de z

₁

, et ainsi de suite. En se pla¸ cant dans la base form´ e par les vecteurs propres de U, on montre par r´ ecurrence que le k

^eme

axe correspond ` a la k

^eme

colonne de U.

Construction par optimisation altern´ ee

Les m´ ethodes pr´ ec´ edentes demandent une diagonalisation de Σ ou du moins son calcul explicite, ce qui peut s’av´ erer couteux en calcul.

Pour l’´ eviter, il est possible [?] de consid´ erer que de trouver Z et A revient ` a d´ eterminer les matrices F et W qui minimisent kX − FW

^T

k

²

sous les contraintes

— F est une matrice n × r dont les colonnes sont orthogonales ;

— W est une matrice p × r dont les colonnes sont norm´ ees.

Il est possible de r´ esoudre ce probl` eme par des moindres carr´ es altern´ es :

— ` a F fix´ e, le W optimal vaut ˆ W = X

^T

F(F

^T

F)

⁻¹

— ` a W fix´ e, la F optimal vaut ˆ F = XW(W

^T

W)

⁻¹

Cet algorithme converge vers un le minimum ` a atteindre et a l’avantage de ne pas n´ ecessiter le calcul de Σ.

D´ etermination par minimum de vraisemblance cf l’ACP probabiliste au chapitre 3.3.

3.1.3 Cercle des corr´ elations

L’ACP peu ˆ etre utilis´ e pour l’analyse des ´ echantillons, notamment pour faire de la classification. Les r´ esultats peuvent cependant aussi ˆ etre examin´ es du point de vue des variables. L’analyse la plus fr´ equente dans ce cadre est celle du cercle de corr´ elation, qui consiste ` a garder les deux premi` eres composantes, c’est-` a-dire les deux premi` eres nouvelles variables Z

1

et Z

2

.

Dans le plan g´ en´ er´ e par ces variables, on place un point pour chacune des

anciennes variables X

i

, qui a pour coordonn´ ees les corr´ elations du vecteur

(27)

3.2. PLS 27 X

i

avec Z

1

et Z

2

. La variable est d’autant mieux expliqu´ ee par Z

1

et Z

2

que ce point est proche du cercle de rayon 1 et ce graphe permet de isualiser des groupes de variables corr´ el´ ees.

3.1.4 Utilisation en grande dimension

L’avantage de l’ACP est qu’elle r´ eduit le nombre de dimension d’un jeu de donn´ ees en gardant simplement le plus de variabilit´ e possible : on essaie de gagner le plus de dimensions possible en perdant le moins d’information possible, et en ne pr´ evil´ egiant aucune direction ` a priori. Toute autre m´ ethode de statistiques en petite dimension peut donc ˆ etre appliqu´ ee ` a l’espace r´ eduit obtenu en gardant les r premi` eres colonnes de Z.

On peut ainsi appliquer les mod` eles de r´ egression vus en introduction, mais aussi toute m´ ethode de clustering par exemple.

Le d´ esavantage de l’ACP est potentiellement double :

— Si la dimension est r´ eduite dans un but bien pr´ ecis, par exemple r´ egresser une variable particuli` ere Y , il peut ˆ etre plus int´ eressant de s´ electionner les axes suivant leur potentiel d’explication de Y plutˆ ot que suivant leur variance. Cela aboutit par exemple ` a la m´ ethode PLS de la section suivante.

— Toute combinaison lin´ eaire des X ´ etant permise pour construire les Z, l’interpr´ etation des axes peut s’av´ erer tr` es difficile en grande di- mension, d’autant plus en pr´ ecision de fortes corr´ elations. Il peut par cons´ equent ˆ etre int´ eressant d’obliger les axes ` a utiliser un nombre aussi faible que possible de variables initiales. On parle alors d’ACP parcimonieuse (sparse PCA).

3.2 PLS

3.2.1 Donn´ ees

La PLS ne s’applique que dans le cas o` u les observations se divisent en des variables pr´ edictives (X) et des variables ` a pr´ edire (Y).

Les mˆ emes remarques que pour l’ACP s’appliquent concernant le cen- trage et la r´ eduction.

3.2.2 Cas o` u Y est une variable simple

Dans ce cas, le crit` ere ` a maximiser est simplement la covariance de la nouvelle variable avec Y .

Il s’agit donc ` a nouveau de construire une matrice Z contenant les r

nouvelles variables et une matrice A contenant les vecteurs directeurs des

axes telles que

(28)

Z = XA

Les h − 1 premi` eres variables (ou de fa¸con ´ equivalente les h − 1 premiers axes) ´ etant d´ ej` a construites, on construit l’axe suivant en r´ esolvant

a

_h

= argmax

a

cov(y, z

_h

) o` u z

_h

= Xa

_h

(3.1)

= argmax

a

⁰

X

⁰

yy

⁰

Xa sous les contraintes a

⁰_h

a

_h

= 1 et∀l < h, cov(z

_h

, z

_l

) = 0

Ce probl` eme n’admet pas comme l’ACP de solution th´ eorique simple pour l’ensemble des axes. Cependant, il est possible de le r´ esoudre pour le premier axe (cf paragraphe suivant qui le d´ emontre dans un cas plus g´ en´ eral) et de d´ emontrer que

a

1

= X

⁰

y

kX

⁰

yk et z

1

= Xa

1

De plus, s’il n’est pas possible d’obtenir une ´ ecriture simple pour a

2

, il est n´ eanmoins possible de r´ eduire le probl` eme ` a l’espace Z

^⊥₁

en projetant X et y sur cet espace, c’est ` a dire en cherchant y

⁽¹⁾

et x

⁽¹⁾_i

, 1 ≤ i ≤ n tels que

y = αz

₁

+ y

⁽¹⁾

et < z

₁

, y

⁽¹⁾

>= 0 x

i

= β

i

z

1

+ x

⁽¹⁾_i

et < z

1

, x

⁽¹⁾_i

>= 0

On montre alors facilement que α = < y, z

₁

>

kz

₁

k

²

et β

_i

= < x

_i

, z

₁

>

kz

₁

k

²

y

⁽¹⁾

et X

⁽¹⁾

peuvent alors ˆ etre r´ einject´ es dans le probl` eme 3.1, et le premier axe de ce nouveau probl` eme est le second axe du probl` eme initial.

La phase de projection sur z

1

est appel´ ee phase de d´ eflation.

3.2.3 Cas o` u Y est une ensemble de q variables Y

₁

, . . . Y

_q

La notion de corr´ elation avec Y doit dans ce cas ˆ etre modifi´ ee. Elle l’est

en cherchant ´ egalement une combinaison lin´ eaire des colonnes de Y telle que

cette covariace soit le plus grande possible. Le probl` eme que l’on r´ esout est

alors

(29)

3.2. PLS 29

(a

_h

, b

_h

) = argmax

ab

cov(Xa

_h

, Yb

_h

) (3.2)

= argmax

a,b

bY

⁰

Xa

sous les contraintes a

⁰_h

a

h

= 1 et b

⁰_h

b

h

= 1

∀l < h, cov(Xa

h

, Xa

l

) = 0

Proposition 3.1. a

1

est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de YY

⁰

XX

⁰

.

b

1

est un vecteur propre unitaire correspondant ` a la plus grande valeur propre de XX

⁰

YY

⁰

.

D´ emonstration. On note lambda et µ les coeeficients de Lagrange associ´ es aux deux contraintes du probl` eme, ce qui am` ene ` a consid´ erer la fonction

f(a, b) = a

⁰

X

⁰

Yb + λ(1 − ka

_i

k

²

) + µ(1 − kb

_i

k

²

)

= X

i,j

a

i

(X

⁰

Y)

i,j

b

j

+ λ(1 − X

i

a

²_i

) + µ(1 − X

j

b

²_j

)

La d´ erivation par rapport ` a chacune des variables a

_i

et b

_j

et l’annulation de ces d´ eriv´ ees entraˆıne qu’` a l’optimum,

a

i

= 1 2λ

X

j

(X

⁰

Y)

i,j

b

j

b

j

= 1 2µ

X

i

(X

⁰

Y)

i,j

a

i

En injectant la deuxi` eme ´ equation dans la premi` ere, on obtient que a

i

= 1

4λµ X

j,k

(X

⁰

Y)

i,j

(X

⁰

Y)

k,j

a

k

= 1

4λµ X

k

X

j

(X

⁰

Y)

_i,j

(X

⁰

Y)

⁰_j,k

a

_k

= 1

4λµ X

k

(X

⁰

YY

⁰

X)

_i,k

a

_k

On en d´ eduit que a est un vecteur propre de X

⁰

YY

⁰

X. On d´ emontre de mˆ eme que b est un vecteur propre de XX

⁰

YY

⁰

.

(30)

Comme dans le cas ` a une dimension, on consid` ere ensuite une d´ eflation enlevant du probl` eme les composantes colin´ eaires ` a z

1

= Xa

1

:

x

_i

← x

_i

− cov(x

_i

, z

₁

)

var(z

₁

) z

₁

et y

_j

← y

_j

− cov(y

_j

, z

₁

) var(z

₁

) z

₁

On r´ ep` ete l’op´ eration r fois, obtenant ainsi r axes a

1

, . . . , a

r

et r nouvelles variables correspondantes z

1

, . . . , z

r

qui sont deux ` a deux de covariance nulle.

Plusieurs variantes sont possibles :

Analyse discriminant par PLS Quand les Y

_i

sont des variables binaires, on peut remplacer leurs valeurs par des 0 et des 1, et l’utilisation de la m´ ethode pr´ ec´ edente sur ces donn´ ees est nomm´ ee analyse discriminante par PLS (PLS-DA). Il existe aussi des approches plus adapt´ ees ` a cette situation quand Y est de dimension 1 utilisant un mod` ele logit.

PLS canonique Il est possible d’utiliser une approche PLS non pour une approche par r´ egression, mais pour r´ eduire la dimension de X et de Y conjointement, en imposant que les familles {Xa

_i

, 1 ≤ i ≤ r} et {Yb

_i

, 1 ≤ i ≤ r} sont toutes deux form´ es de vecteurs de covariances nulles deux ` a deux.

La proc´ edure est alors la mˆ eme mais la d´ eflation en Y se fait par y

j

← y

j

− cov(y

j

, Yb

1

)

var(Yb

₁

) Yb

1

3.3 ACP probabiliste

L’un des inconv´ enients de l’ACP et de la PLS est qu’il s’agit de m´ ethode ne reposant pas sur un mod` ele probabiliste. Ceci rend plus difficile la prise en compte des donn´ ees manquantes et la g´ en´ eralisation ` a des contraintes pa- triculi` eres comme la parcimonie, rend impossible les approches bay´ esiennes ...

Fin des ann´ ees 90, un mod` ele probabiliste, appel´ e ACP probabiliste, a

´ et´ e d´ evelopp´ e [?] afin de pallier ` a ce manque. Il s’agit de consid´ erer le mod` ele suivant :

x

p×1

= µ

_p×1

+ Γ

p×r

z

r×1

+

p×1

avec

— z ∼ N (0

r

, σ

²

I

r

)

— ∼ N (0

_p

, I

_p

)

Ce mod` ele rappelle le raisonnement ` a la base de l’ACP : un espace de

dimension r dans lequel un individu est caract´ eris´ e par z se plonge dans un

espace de dimension p, et l’individu y est caract´ eris´ e par un x proche du

plongement de Z (σ sercant ` a d´ efinir le terme proche).

(31)

3.3. ACP PROBABILISTE 31 Il faut cependant porter attention au fait que la variance de Z

i

dans la matrice de l’ACP standard ´ etait de variance λ

i

alors qu’on force dans ce mod` ele une variance de 1 pour chaque coordonn´ ee de Z. Les variances expliqu´ ees par les axes sont par cons´ equent support´ ees ici par la matrice de changement de base Γ, ou matrice de loadings. Elle correspond donc intuitivement ` a la matrice A pr´ ec´ edente (en version transpos´ ee) donc chaque ligne porte ´ egalement la variance n´ ecessaire suivant l’axe correspondant.

Le th´ eor` eme suivant confirme cette intuition et permet d’appr´ ehender la d´ etermination d’une ACP comme un probl` eme d’estimation statistique.

Proposition 3.2. 1. x suit une loi N (0

_r

, Σ) avec Σ = Γ

^T

Γ + σ

²

I

_p

. 2. Soit λ

₁

≥ . . . ≥ λ

_p

les valeurs propres de la matrice de variance-

covariance empirique S = X

^T

X, Λ

r

la matrice diagonale contenant les r premi` eres et A la matrice des r premiers vecteurs propres en colonne.

L’estimateur du maximum de vraisemblance de (Γ, σ) est Γ ˆ = A

^T

(Λ

_r

− σ

²

I

_r

)

^1/2

V et ˆ σ = 1

p − r

p

X

i=r+1

λ

_i

o` u V est un matrice orthogonale quelconque.

On notera la non-unicit´ e de ˆ Γ en raison de V, mais V ´ etant orthogonale, Σ ˆ est bien unique. G´ eom´ etriquement, V correspond ` a une rotation dans la d´ efinition de l’espace de petite dimension, qui implique simplement un reparam´ etrage de Γ sans changer la vraisemblance du mod` ele.

Il est ` a noter d’un point de vue algorithmique qu’il est ` a nouveau possible d’´ eviter le calcul et la diagonalisation de S en consid´ erant le mod` ele initial comme un mod` ele ` a variables cach´ ees (les Z) et en utilisant un algorithme EM pour le r´ esoudre.

Avantages d’une telle approche

Les avantages d’une approche bas´ ee sur un mod` ele par rapport ` a l’ap- proche purement vectorielle sont nombreux :

1. d´ ependance r´ eduite par rapport aux mesures exceptionnelles ou ab´ er- rantes (outliers) ;

2. possibilit´ e de g´ en´ erer des valeurs al´ eatoires pour la gestion des donn´ ees manquantes ;

3. comparaison et choix de mod` eles ; 4. approche bay´ esienne ;

5. possibilit´ e de complexification du mod` ele pour ajouter des contraintes

suppl´ ementaires. On peut par exemple y ajouter de la r´ egularisation

pour inciter ` a la parcimonie (cf chapitre ??).

(32)

(33)

Bibliographie

33

(34)

(35)

Annexe A

Rappels sur le mod` ele lin´ eaire

Ce chapitre constitue un tr` es bref rappel sur la r´ egression lin´ eaire en petite dimension (p ≤ n). Des r´ esum´ es plus longs avec bibliographie sont disponibles dans l’onglet Mod` ele lin´ eaire de la page http://wikistat.fr

— Soit Y une variable d’int´ erˆ et, qui peut ˆ etre qualitative ou quantita- tive.

— (X

₁

, . . . , X

_p

) sont les p variables explicatives qui sont qualitatives ou quantitatives.

On suppose qu’on dispose d’un ´ echantillon i.i.d. de r´ ealisations de ces va- riables pour n individus : (Y

i

, X

i,1

, . . . , X

i,p

, 1 ≤ i ≤ n). On d´ esigne par Y ∈ R

ⁿ

et X ∈ R

^n×(p+1)

le vecteur de sortie et la matrices des donn´ ees explicatives. X est la matrice dont la i

^eme

ligne est (1, X

i,1

, . . . , X

i,K

).

A.1 Le mod` ele lin´ eaire gaussien

Le mod` ele

Le mod` ele lin´ eaire gaussien consiste ` a supposer qu-il existe des constantes (β

₀

, . . . , β

_p

) telles que

Y = β

₀

+ β

₁

X

₁

+ . . . + β

_p

X

_p

+ o` u suit une loi normale N (0, σ

²

)

De fa¸con ´ equivalente, en notant β le vecteur contenant les β

_i

, y = Xβ +

o` u est un n-uplet de r´ ealisation ind´ ependantes de .

35

(36)

Estimation

L’ensemble des param` etres est le vecteur β et l’´ ecart-type σ. Ils peuvent ˆ etre inf´ er´ es par maximum de vraisemblance. En particulier, l’estimateur de maximum de vraisemblance est

β ˆ = (X

⁰

X)

⁻¹

X

⁰

y

Les valeurs des observations pr´ edites par la mod` ele sont alors ˆ

y = X(X

⁰

X)

⁻¹

X

⁰

y ˆ

y est le projet´ e de y sur l’espace engendr´ e par les vecteurs colonnes de X.

Mesure de la qualit´ e : Coefficients R

²

et R

²

ajust´ e

La somme des carr´ es des r´ esidus est SSE =

n

X

i=1

(y

i

− y ˆ

i

)

²

celle des carr´ es de la r´ egression est

SSR =

n

X

i=1

(ˆ y

_i

− y)

²

et la somme des carr´ es vaut SST =

n

X

i=1

(y

i

− y)

²

On v´ erifie ais´ ement que SST = SSR + SSE, SSR (resp. SSE) ´ etant alors une mesure de la part de la variabilit´ e des donn´ ees qui est expliqu´ ee (resp. non expliqu´ ee) par le mod` ele.

Le coefficient R

²

=

^SSR_SST

est une mesure de la variation de Y expliqu´ ee par le mod` ele.

Il s’agit du carr´ e du cosinus de l’angle entre y et ˆ y.

Cependant, ce coefficient augmente avec le nombre de variables consid´ e- r´ ees, quel que soit le caract` ere explicatif des variables suppl´ ementaires. Le coefficient ajust´ e

R

⁰²

= 1 − n − 1

n − p − 1 (1 − R

²

) = 1 − SSR/(n − p − 1) SST /(n − 1)

permet de comparer des mod` eles avec un nombre de variables diff´ erent.

(37)

A.1. LE MOD ` ELE LIN ´ EAIRE GAUSSIEN 37 Choix de mod` ele

Une strat´ egie possible pour d´ eterminer le meilleur mod` ele (c’est-` a-dire quelles variables prendre en compte) est alors de chercher celui de R

²

ajust´ e minimum, en parcourant l’espace des mod` eles possibles. Quand celui-ci est trop grand, on peut utiliser des strat´ egies forward (on part d’un mod` ele vide et on ajoute ` a chaque ´ etape la variable augmentant le plus le crit` ere) ou backward (on part du mod` ele complet et on supprime ` a chaque ´ etape la variable diminuant le moins le crit` ere), ou un m´ elange des deux.

D’autres crit` eres peuvent cependant ˆ etre pr´ ef´ er´ es au R

²

, en raison notam- ment de leur g´ en´ eralisation possible en-dehors du cadre du mod` ele lin´ eaire gaussien. Ils s’agit de crit` eres de vraisemblance p´ enalis´ ee, l’id´ ee sous-jacente

´ etant de choisir le mod` ele de meilleure vraisemblance ` a taille de mod` ele ´ egale, et de n’agrandir le mod` ele que si le gain en vraisemblance est suffisant. Les deux plus couramment utilis´ es sont :

Crit` ere AIC

AIC = −2 log(ˆ l) + 2k

o` u ˆ l d´ esigne le maximum de vraisemblance estim´ e et k le nombre de param` etres du mod` ele.

Crit` ere BIC

BIC = − log(ˆ l) + k log n

avec les notations pr´ ec´ edentes et n la taille de l’´ echantillon.

Tests

Il est possible de tester :

— la nullit´ e de facteurs

H

0

: β

j

= 0 H

1

: β

j

6= 0

pour un indice j particulier ou pour un ensemble d’indices J

— le gain d’une extension ou d’une diminution. On consid` ere deux mo- d` eles emboit´ es M

₁

⊂ M

₂

(les variables prises en compte dans M

₁

les sont dans M

2

).

H

₀

: M

₂

n’est pas meilleur que M

₁

H

₁

: M

₂

est meilleur que M

₁

Ordres sup´ erieurs

Il est possible de prendre en consid´ eration des interactions entre variables

d’int´ erˆ ets en augmentant la liste des variables de produits de variables. Une

nouvelle variable de type X

_i

X

_j

sera d´ esign´ ee comme une interaction d’ordre

2, X

i

X

j

X

k

comme une interaction d’ordre 3, etc.

(38)

A.2 Le mod` ele lin´ eaire g´ en´ eralis´ e

La famille exponentielle

On rappelle que f

θ

est de la famille exponentielle s’il existe un param` etre (θ, φ) ∈ Θ telle que la densit´ e de Y s’´ ecrit

f

_θ,φ

(y) = exp yθ − b(θ)

φ + c(y, φ)

o` u b(.) et c(.) sont des fonctions connues et d´ erivables (b trois fois d´ erivable et b

⁰

inversible), θ ∈ Θ ⊂ R et φ est un param` etre de dispersion.

Si Y a pour loi f

_θ,φ

qui appartient ` a la famille exponentielle alors on a

— E [Y ] = b

⁰

(θ)

— var[Y ] = b

⁰⁰

(θ)φ.

En particulier, les lois normales, exponentielles, gamma, Bernoulli, bio- miale et Poisson font partie de la famille exponentielle.

Ecriture g´ en´ erale

On suppose que la variable ` a expliquer Y d´ epend (` a une fonction de lien g pr` es) lin´ eairement des variables explicatives (1, X

1

, . . . , X

K

) via le mod` ele suivant :



 

 

Y ∼ f

_θ

, f

_θ

∈ F (Θ) E [Y ] = µ

g(µ) = Xβ = β

0

+ β

1

X

1

+ . . . , β

K

X

K

.

(M1)

Pour que ce mod` ele soit bien d´ efini, il faut choisir :

1. La famille param´ etrique F(Θ) ` a laquelle appartient la loi de Y . On choisira F (Θ) dans la famille exponentielle.

2. La fonction de lien g qui relie E [Y ] et (X

1

, . . . , X

K

).

On peut remarquer qu’un tel mod` ele impose des liens entre θ, µ et β :

— Choisir Y ∼ f

θ

, revient ` a imposer µ = E [Y ] = R

xf

θ

(x)dx = h(θ) : µ et θ sont reli´ es par une certaine fonction h.

— Imposer g(µ) = Xβ est ´ equivalent µ = g

⁻¹

(Xβ), µ et β sont donc aussi reli´ es via g.

Exemple : la r´ egression logistique

Soit Y ∼ B(p) et posons θ = logit(p) = log(

_1−p^p

). Alors f

_p

(x) = p

^x

(1 − p)

^1−x

= exp(θx − log(1 + e

^θ

))

(39)

A.2. LE MOD ` ELE LIN ´ EAIRE G ´ EN ´ ERALIS ´ E 39 En posant φ = 1 et c(x, φ) = 0, la loi binomiale fait partie de la famille exponentielle.

En prenant pour fonction de lien la fonction logit, on obtient le mod` ele logistique :

Y ∼ B

log P (Y = 1) P (Y = 0)

= Xβ Remarques :

1. En dehors du cas gaussien, un mod` ele lin´ eaire ne s’´ ecrit pas y = Xβ + avec suivant la loi d’int´ erˆ et. Il stipule (seulement) que E(Y |X) = Xβ et que Y a une distribution de la forme choisie.

2. Plusieurs fonctions de lien sont parfois possibles pour la mˆ eme famille de loi. Dans le cas de la loi de Bernoulli, on parle de regr´ ession probit si la fonction utilis´ ee est φ

⁻¹

, o` u φ d´ esigne la fonction de r´ epartition de la loi normale centr´ ee r´ eduite.

Exemples de mod` eles lin´ eaires g´ en´ eralis´ es

Le tableau ci-dessous r´ ecapitule les mod` eles les plus souvent utilis´ es :

Loi de Y Binomial (Bernoulli) Poisson Gamma Gaussienne B(N, µ), (N = 1) P(µ) G(K, µ) N (µ, σ

²

) Fonction de lien g(µ) = logit(µ) g(µ) = log(µ) g(µ) = −

¹_µ

g(µ) = µ

canonique = log(

_N^µ_−µ

)

Nom du lien logit log r´ eciproque identit´ e

Le choix de la loi de Y d´ epend des donn´ ees :

— Mod` ele Binomial (Cas particulier Bernoulli) : s’utilise sur des donn´ ees binaires (ex. oui/non, sain/malade, succ` es/´ echec...) ou des proportions : comptage dans une population ferm´ ee d´ efinie ` a l’avance (ex. Sur un groupe de 100 personnes combien r´ eussissent un test, sur un ´ echantillon de 50 malades combien gu´ erissent...).

— Mod` ele de Poisson : nombre d’occurrences d’un ´ ev´ enement rare dans une p´ eriode de temps et d’espace bien d´ efinie, o` u la probabilit´ e d’occurrence de cet ´ ev´ enement est faible et que ces ´ ev´ enements se pro- duisent ind´ ependamment. (Attention ´ etude du nombre de cas d’une maladie, si cette maladie est infectieuse l’ind´ ependance ne sera pas v´ erifi´ ee !). Exemples : Nombre de cyclones sur une saison, nombre de pi` eces d´ efectueuses dans la chaˆıne de production d’une usine...