• Aucun résultat trouvé

Exercice 1.1. Distances et plus proches voisins en grande dimension.

N/A
N/A
Protected

Academic year: 2022

Partager "Exercice 1.1. Distances et plus proches voisins en grande dimension."

Copied!
11
0
0

Texte intégral

(1)

Chapitre 1

G´ eom´ etrie des espaces de grande dimension

Exercice 1.1. Distances et plus proches voisins en grande dimension.

1. Soient X, Y deux variables ind´ ependantes, de distribution uniforme sur [0, 1] p . Montrer que

E [kX − Y k 2 ] = p/6 et Std[kX − Y k 2 ] ' 0.2 √ p.

2. Que peut-on dire si X et Y ne suivent pas une loi uniforme mais que toutes leurs coordonn´ ees sont i.i.d. ?

3. Tirer n = 100 points avec une loi uniforme dans [0, 1] p et calcu- ler la distribution empirique de leurs distances deux ` a deux. Affi- cher cette distribution pour diff´ erentes valeurs de p (par exemple p = 2, 10, 100, 1000). Ces observations confirment-elles le r´ esultat th´ eorique ? 4. Faire plusieurs tirages pour chacune des valeurs de p et d´ eterminer la

distribution empirique de la plus petite distance entre les points.

Exercice 1.2. Volume de la boule unit´ e

On veut calculer le volume V p (r) de la boule de rayon r en dimension p.

1. Montrer que la fonction Γ(x) = R +∞

0 t x−1 e −t dt (d´ efinie pour x > 0) v´ erifie Γ(1) = 1, Γ(1/2) = √

π et Γ(x + 1) = xΓ(x). En d´ eduire que pour tout entier p,

Γ(p + 1) = p! et Γ(p + 3/2) = (2p + 1)(2p − 1) . . . 1 2 p+1

√ π.

2. Montrer que V p (r) = r p V p (1) pour tout p ≥ 1 et v´ erifier que V 1 (1) = 2 et V 2 (1) = π.

3. Pour p ≥ 3, montrer que V p (1) =

Z

t

2

+s

2

≤1

V p−2

p 1 − s 2 − t 2

dsdt = V p−2 (1) Z 1

r=0

Z 2π

θ=0

(1−r 2 ) p/2−1 r dr dθ = 2π

p V p−2 (1)

1

(2)

2CHAPITRE 1. G ´ EOM ´ ETRIE DES ESPACES DE GRANDE DIMENSION En d´ eduire que

V p (1) = π p/2 Γ(p/2 + 1) 4. Utiliser la formule de Stirling (qui dit que p! ∼ √

2πp(p/e) p ) pour en d´ eduire que

V p (r) p→∞

2πer 2 p

p/2

(pπ) −1/2

5. Ecrire une fonction permettant d’afficher la courbe du volume de la boule unit´ e en fonction de p, pour p entre 1 et 100. En d´ eduire une fonc- tion permettant de calculer une borne inf´ erieure du nombre minimum de boules unit´ es n´ ecessaires pour recouvrir l’hypercube en dimension p. Donner le r´ esultat pour p = 1, 10, 20, 50, 100.

6. Ecrire une fonction qui donne le rayon d’une boule dont le volume est une fraction 1% du volume de l’hypercube unit´ e.

Exercice 1.3. Montrer que la probabilit´ e qu’une variable X de loi uniforme sur la boule unit´ e en dimension p appartienne ` a la coque entre les boules de rayons 1 − ε et 1 est

P (X ∈ S 1−ε (p)) = 1 − (1 − ε) p −→

p→∞ 1

Exercice 1.4. Soient X 1 , . . . X n i.i.d. en dimension p, de loi uniforme sur la boule unit´ e.

1. Quelle est la loi de la distance entre X i et l’origine de la boule ? 2. En d´ eduire la loi de la distance entre l’origine et le point X i le plus

proche de l’origine

3. Montrer que la m´ ediane de cette distance est med(p, n) =

1 − 1

2

n1

1p

.

Que vaut cette distance m´ ediane pour n = 500 et p = 10 ? Comment l’interpr´ eter ?

Exercice 1.5. Montrer que l’angle θ entre la diagonale v de l’hypercube [0, 1] p et le premier vecteur e 1 de la base euclidienne tend vers π/2. La diagonale de l’hypercube tend donc ` a devenir orthogonale ` a tous les cˆ ot´ e du cube lorsque p grandit !

Exercice 1.6. Estimation en grande dimension. Dans cet exercice, on

souhaite estimer la valeur en 0 d’une fonction f ` a partir de n observations

(x i , y i ) telles que y i = f (x i ). On propose d’estimer la valeur de f en 0 en

trouvant les 10 points x k les plus proches de 0 et en calculant la moyenne

des y k correpondants.

(3)

3 1. Faites l’exp´ erience num´ erique pour la fonction f (x) = e −kxk

2

, avec n = 1000 ´ echantillons et pour p = 1, 10, 100. Qu’observez-vous et comment expliquez-vous ce r´ esultat ?

2. Supposons que les x i soient ´ echantillonn´ es selon une loi uniforme sur l’hypercube [−1, 1] p . Pour n = 1000 ´ echantillons et en dimension 10, calculer la probabilit´ e que le plus proche voisin de 0 soit ` a une distance sup´ erieure ` a 1 2 de l’origine.

Exercice 1.7. Matrices de covariance empirique. Ecrire un script qui

tire al´ eatoirement n vecteurs suivant une loi gaussienne N (0, I p ), calcule

leur matrice de covariance empirique et affiche l’histogramme de ses valeurs

propres. Lancer le script pour p = 1000 et n = 10∗p (le nombre d’´ echantillons

est 10 fois plus grand que la dimension de l’espace). Quel est le support

de cette distribution des valeurs propres ? Comparer l’histogramme obtenu

(normalis´ e) avec la loi de Mar˘ cenko-Pastur. Tester avec d’autres valeurs de

n et p. Que se passe-t-il si p > n ?

(4)

4CHAPITRE 1. G ´ EOM ´ ETRIE DES ESPACES DE GRANDE DIMENSION

(5)

Chapitre 2

Mod` ele lin´ eaire en petite dimension

Les mod` eles lin´ eaires peuvent ˆ etre appris ` a l’aide de la fonction glm. Le r´ esultat peut ˆ etre visualis´ e ` a l’aide de la fonction summary.

Exercice 2.1. On consid` ere les donn´ ees iris.

1. Charger les donn´ ees ` a l’aide de data(iris) et comprendre ce qu’elles contiennent.

2. Apprendre un mod` ele lin´ eaire gaussien expliquant la longueur des p´ e- tales en fonction des autres variables. Analyser les r´ esultats.

Commenter les variables apparaissant dans la solution concernant l’es- p` ece de fleurs.

3. D´ eterminer ` a l’aide d’un mod` ele logistique quelle variable caract´ erise l’esp` ece versicolor.

Exercice 2.2. On consid` ere les donn´ ees airquality.

1. Charger les donn´ ees ` a l’aide de data(aiquality) et comprendre ce qu’elles contiennent.

2. Quelles sont les variables qui ont une influence lin´ eaire sur le taux d’Ozone. Quels signes confortent vos ` a-priori ?

3. Que dire du signe affect´ e au coefficient du mois ? Pour mieux l’analyser, tracer les boxplots par mois du taux d’ozone ` a l’aide de boxplot.

R´ eduire les donn´ ees ` a celles de mai ` a juillet. Quel signe attendez- vous pour l’influence du mois ? Relancer l’apprentissage d’un mod` ele lin´ eaire. Commentez. Avez-vous une explication ?

5

(6)

6 CHAPITRE 2. MOD ` ELE LIN ´ EAIRE EN PETITE DIMENSION Exercice 2.3. Le but de cet exercice est d’illustrer le probl` eme de la coli- n´ earit´ e et de la grande dimension par simulation.

Pour cela, nous allons consid´ erer deux entiers p et n et une covariance 0 ≤ ρ ≤ 1. Nous allons construire un jeu de donn´ ees de 2p + 1 variables (X 1 , . . . , X 2p , Y ) mesur´ ees dans n ´ echantillons, et telles que

— var(X i ) = 1 pour tout i.

— X i et X j sont ind´ ependantes si i ≤ p et j ≥ p + 1, cov(X i , X j ) = ρ sinon.

— Y = X 1 + X p+1 + , suivant une loi normale centr´ ee d’´ ecart-type 0.5.

1. Ecrire une fonction qui prend en argument p, n et ρ et qui, ` a l’aide de la fonction mrvnorm du package MASS, g´ en` ere des donn´ ees correspondant

`

a n ´ echantillons.

2. Pour ρ = 0.1, g´ en´ erer des donn´ ees et apprenez un mod` ele lin´ eaire gaussien pour diff´ erente valeurs de p et n : n >> p, n > 2p et n ≤ 2p.

3. Mˆ eme question pour ρ = .9. Commenter les r´ esultats pour n l´ eg` ere- ment sup´ erieur ` a p.

Exercice 2.4. La r´ egression logistique correspond au cas o` u Y suit une loi binomiale et g est la fonction de lien g : x → ln 1−x x

.

1. Justifier que la loi binomiale appartient ` a la famille exponentielle.

2. Ecrire la vraisemblance et la d´ eviance li´ ees ` a un ´ echantillon.

On note p(x) = P (Y = 1|X = x). L’odds (”la cote”, ”la chance”), pour un individu dont les caract´ eristiques sont x, d’obtenir la r´ eponse Y = 1 est d´ efini par odds(x) = 1−p(x) p(x) . L’odds ratio entre 2 individus de caract´ eristiques x et x 0 ∈ R K est d´ efinit par

OR(x, x 0 ) = odds(x)

odds(x 0 ) = p(x)(1 − p(x 0 )) p(x 0 )(1 − p(x)) .

Il est ` a noter que comparer l’odd-ratio ` a 1 revient ` a d´ eterminer si Y = 1 est plus probable sous X = x ou sous X = x 0 .

3. Que vaut l’odd-ratio si x et x 0 ne diff` erent que par leur k ieme coordon- n´ ee. En d´ eduire une interpr´ etation de β k .

4. Si Y d´ esigne une maladie rare, comment peut s’interpr´ eter l’odd-ratio entre x et x 0 ?

On consid` ere la base de donn´ ees BreastCancer disponible sous le package mlbench.

3. Eliminer les cas pour lesquels il y a des donn´ ees manquantes. S´ eparer

le jeu de donn´ ees en un jeu d’apprentissage et un jeu test, faisant

respectivement 2/3 et 1/3 du jeu initial.

(7)

7 4. Appliquer le mod` ele logit aux donn´ ees du jeu d’apprentissage. Inter-

pr´ eter les r´ esultats.

5. Regarder l’aide de la fonction step. L’appliquer aux donn´ ees.

6. Quelles sont les variables qui influent sur Y =Class ? Interpr´ eter les odds-ratio.

7. Estimer l’erreur de pr´ evision ` a l’aide du jeu d’apprentissage.

(8)

8 CHAPITRE 2. MOD ` ELE LIN ´ EAIRE EN PETITE DIMENSION

(9)

Chapitre 3

R´ egression p´ enalis´ ee

Exercice 3.1. Maximisation de la variance expliqu´ ee On consid` ere le probl` eme

Q projection orthogonalek ΛQk 2

o` u Λ est une matrice diagonale de coefficients positifs rang´ es par ordre d´ ecroissant.

On rappelle que kXk 2 = tr(X 0 X) et que, pour toute matrice de pro- jection orthogonale Q de rang r, il existe une matrice orthogonale U telle que

Q = U 0

I r 0 0 0

U

1. Soit Q une matrice de projection orthogonale. Montrer que k ΛQk 2 =

p

X

k=1

λ 2 q kk

2. Justifier que si Q est de rang r, tr(Q) = r.

3. Justifier que 0 ≤ q kk ≤ 1 pour tout k.

4. Au vu des questions pr´ ec´ edentes, montrer que la matrice

I r 0 0 0

est une solution du probl` eme.

Exercice 3.2. ACP et PLS en pratique Plusieurs packages R permettent de faire des r´ egressions bas´ ees sur une ACP ou une PLS, par exemple pls, plsgenomics ou plsRglm.

Le but de cet exercice est d’illustrer la diff´ erence entre les deux m´ ethodes sur le jeu gasoline de pls.

1. Installer le package pls et de charger, ainsi que les donn´ ees gasoline.

Justifier du fait qu’il s’agit d’un jeu de grande dimension.

9

(10)

10 CHAPITRE 3. R ´ EGRESSION P ´ ENALIS ´ EE 2. S´ eparer le jeu en un jeu d’apprentissage d’environ 50 ´ echantillons, et

un jeu test.

3. Apprendre une r´ egression PCR (ACP suivie d’une r´ egression standard)

`

a l’aide de pcr.

Choisir le nombre de composantes ` a garder en effectuant une validation crois´ ee.

Visualiser les r´ esultats ` a l’aide de plot telles que d´ ecrites dans la vignette du package.

4. Faire de mˆ eme avec une r´ eduction PLSR ` a l’aide de plsr.

Comparer les r´ esultats des deux cas, notamment en termes de compo- santes retenues.

Exercice 3.3. ACP probabiliste On consid` ere le mod` ele de l’ACP probabi- liste :

x p×1 = µ p×1 + Γ p×r z r×1 + p×1

avec

— z ∼ N (0 r , I r )

— ∼ N (0 p , σ 2 I p )

— z et sont ind´ ependants.

On rappelle qu’une variable Y ∈ R n suit une loi gaussienne multivari´ ee si, pour tout vecteur a ∈ R p , a 0 Y suit une loi normale univari´ ee.

1. Justifier que x suit une loi normale multivari´ ee N (µ, C) avec C = ΓΓ 0 + σ 2 I p .

2. On consid` ere que un ´ echantillon (x 1 , . . . , x N ) et sa matrice variance- covariance empirique

S = 1 N

N

X

n=1

(x n − µ)(x N − µ) 0

Montrer que la log-vraisemblance de l’´ echantillon s’´ ecrit

` = − N

2 p log(2π) + log | det C| + tr(C −1 S)

(11)

Chapitre 4

R´ egression p´ enalis´ ee

Exercice 4.1. Montrer que la fonction objectif d’une r´ egression Elastic-Net (et donc d’une r´ egression Ridge ou Lasso) est une focntion convexe.

Exercice 4.2. On consid` ere les donn´ ees Colon et SRBCT de plsgenomics.

On souhaite comparer sur ces jeux de donn´ ees la pr´ ediction faite ` a l’aide d’un mod` ele lin´ eaire p´ enalis´ e avec celle faite en petite dimension suite ` a une PLS p´ enalis´ ee. Ces deux m´ ethodes sont disponibles respectivement dans les fonctions glmnet du package glmnet et plsr de plsgenomics.

1. Appliquer la fonction glmnet par d´ efaut (avec 100 valeurs diff´ erentes de λ) et tracer les trajectoires des coefficients en appliquant plot au r´ esultat.

Faire cela pour alpha qui vaut 1 ou 0.5. A quoi correspondant ces dux cas ? Que peut-on des deux figures ? Est-ce attendu ?

2. En utilisant la fonction glmnet, proposer un mod` ele de pr´ ediction.

3. Proposer ´ egalement un mod` ele de pr´ ediction bas´ e sur plsr.

4. Appliquer ces deux mod` eles et les comparer, en termes de qualit´ e de la pr´ ediction et de nombre de g` enes s´ electionn´ es, sur la base d’un jeu d’apprentissage et d’un jeu test.

11

Références

Documents relatifs

Cette quinzaine encore, n’h´esitez pas `a demander la simplification d’une somme, le calcul d’un d´eveloppement limit´e, d’une int´egrale, d’une limite, d’un ´equivalent,

En occultant ensuite cette information, ajuster un ou plusieurs mod` eles (soit de type AR/MA/ARMA/ARIMA/SARIMA, soit de type r´ egression avec tendance et/ou saisonnalit´ e

centr´ ees de variance σ 2 0 (mais ce ne sont pas n´ ecessairement

e) On suppose que β a pour loi a priori, la loi de Bernoulli de param` etre 0.5... 2p, sont des variables i.i.d., gaussienes de variance

En d´ eduire une g´ en´ eralisation du th´ eor` eme de Gauss-Markov au cas de l’esti- mation par moindres carr´ es g´ en´ eralis´ es ainsi que l’optimalit´ e de l’estimateur

Le syst` eme informatique d’une biblioth` eque enregistre le num´ ero national, le nom, le pr´ enom et l’adresse (rue, num´ ero, code postal, ville) de chacun de ses clients.. Le

Pour les sommes de type II, on doit faire la diff´erence entre la somme des carr´es relative aux erreurs dans le mod`ele avec les seuls effets de F 2 et la mˆeme somme dans le

L’acc´el´eration ~a est constant et parall`ele `a l’un des axes : MRUA selon cet axe et MRU