Choix du param` etre de p´ enalisation λ - Lien entre héritabilité et prédiction de phénotypes

2.5.1 Comment choisir λ ?

Nous avons vu qu’un bon choix de paramètre de pénalisation est important pour avoir un estimateur ridge de qualité. Mais comment choisir ce paramètre ? Dans l’exemple du graphe 2.1 le param`etre optimal λ_opt était visible avec la décomposition biais-variance. En pratique nous avons rarement accès au param`etre σ2 et au vecteur d’effets

u et ce n’est donc pas utilisable.

Notre objectif est d’avoir les meilleures prédictions possibles pour l’estimateur ridge i.e de trouver λ_opt qui minimise l’erreur de prédiction définie en 1.13 pour un nouveau point (y₀, z₀)

λ_opt = arg min

ErrA(λ) = arg min

λ Ey0,z0

y₀− zT

0uˆ_R(λ)² | A

Une approche tentante serait de choisir λ `a partir des donn´ees de l’ensemble d’ap-prentissage A i.e choisir le lambda qui minimise l’erreur de pr´ediction sur A

errA(λ) = ¹ nA X i∈A y_i− zT i uˆ_R(λ)² avec nA = Card(A). (2.13) En pratique cela ne fonctionne pas. En effet errAa tendance à sous-estimer ErrA. De plus errA favorise toujours le mod`ele le plus complexe possible et donc choisit λ_opt = 0. Ce phénomène est bien illustré dans la figure 2.2. Dans cet exemple nous avons simulé un jeu de donn´ees de taille n = 600 et p = 30 selon un mod`ele linéaire. Nous avons gardé 100 individus pour estimer le vecteur d’effet en utilisant la régression ridge et utilisé les 500 autres comme ensemble de validation. Nous avons calculé errA (courbe rouge) et estimé ErrA (courbe bleue) avec le MSE sur l’ensemble de validation. Il apparaˆıt clairement que errA est un mauvais estimateur de ErrA.

0 5 10 15 20 25 30 0.4 0.5 0.6 0.7 0.8 0.9 1.0 d.d.l.e( λ ) Errtest err_train

Figure 2.2 – Un exemple du comportement de errA et ErrT.

Au vu de l’importance d’avoir des donn´ees externes pour le choix de λ, une bonne pratique serait de s´eparer notre jeu de donn´ees en 3 parties : un ensemble d’appren-tissage A pour construire l’estimateur, un ensemble de validation V pour choisir la

complexité optimale (`a travers le choix de λ) et un ensemble de test T pour estimer les capacités prédictives.

Le problème de ce découpage est qu’il est gourmand en données. Il est nécessaire d’avoir une taille d’ensemble d’apprentissage suffisante pour estimer correctement le vecteur d’effet, un faible effectif dans V peut entraˆıner un mauvais choix de complexité optimale et enfin l’estimation de la capacité prédictive ne sera pas fiable si on a trop peu d’individus dans T . Ce découpage n’est donc pas toujours applicable en pratique. Pour palier à ce problème il existe des méthodes pour remplacer l’étape de vali-dation. Une première approche est d’utiliser une formule analytique telle que l’AIC (Aikaike Information Criteria) [Akaike and BN Petrov ; F Csaki, 1973] ou la statistique

C_p [Mallows, 1973]. Ces formules permettent de choisir λ `a partir de A et permettent donc de se passer de l’ensemble de validation. Une autre approche est d’utiliser un ré-échantillonnage des données tel que la validation croisée ou le bootstrap. Dans la suite de ce manuscrit nous nous concentrerons sur la validation croisée.

2.5.2 La validation crois´ee

La validation crois´ee K fold

Figure 2.3 – Principe de la validation crois´ee.

La validation croisée vise à fractionner l’ensemble d’apprentissage en sous-ensembles indépendants, puis à construire le modèle sur tous les sous-ensembles sauf un et à l’évaluer sur le sous-ensemble restant, et ceci en changeant plusieurs fois les rôles comme décrit dans le graphe 2.3. Notons {A₁, ..., A_K} une partition en K sous-ensembles de A telle que A = ^KS

l=1

A_l, ^KT

l=1

A_l = ∅ et notons ´egalement A⁻ⁱ = A \ {A_l : i ∈ A_l} la partition priv´ee du sous-ensemble contenant l’individu i. Nous d´efinissons alors l’erreur de la validation crois´ee K-fold pour la r´egression ridge comme

err_{V C}(λ) = ¹ nA nA X i=1 y_i− zT i uˆÂ_R⁻ⁱ(λ)², (2.14) avec zi ∈ Rp un vecteur colonne représentant la i-ème ligne de Z et ûÂ_R⁻ⁱ l’estimateur ridge construit avec A⁻ⁱ. Nous choisirons ensuite

λ^{V C}_opt = arg min

errV C(λ).

Chaque individu est utilis´e K − 1 fois dans la construction d’estimateur et une fois dans l’évaluation du modèle. Tr`es souvent nous prendrons K entre 5 et 15. La validation croisée est une méthode robuste donnant des résultats satisfaisants mais qui peut se révéler parfois coûteuse en temps de calcul.

Notons enfin que la validation croisée estime l’erreur attendue de prédiction 1.14 plu-tôt que l’erreur de prédiction 1.13 : la validation croisée ”construit” plusieurs ensembles de test et d’apprentissage et mimique donc une espérance sur l’ensemble d’apprentis-sage (voir le chapitre 7 de [Trevor Hastie et al., 2009]).

Un cas particulier : la Leave-One-Out

Un cas particulier de la validation crois´ee est le cas K = n dans lequel nous ef-fectuons une prédiction sur un individu à partir de tous les autres. Ce cas particulier est appelé validation croisée Laissée pour compte (que nous allons angliciser en Leave-One-Out et abréger en LOO). L’erreur de LOO avec standardisation unique pour tout les individus est définie comme

err^LOO(λ) = ¹ nA nA X i=1 y_i− zT i uˆ⁻ⁱ_R(λ)² (2.15) avec ˆu⁻ⁱ_R = Z−i

(Z−i)^TZ−i+ λIp

−1

(Z−i)^Ty_−il’estimateur de la r´egression ridge construit en excluant la ligne i du vecteur de r´eponse et de la matrice des donn´ees. En utilisant la formule de Sherman-Morrison-Woodbury, Meijer and Goeman [2013] montre que

ˆ u⁻ⁱ_R = ˆu_R− ^(Z T Z + λIp)⁻¹zi(yi− zT i uˆR) 1 − [h_λ]_ii ^(2.16)

avec [h_λ]_ii le i-ème coefficient diagonal de H_λ. Des éléments de la preuve de cette formule sont disponibles en annexe A.4. En injectant 2.16 dans 2.15, nous obtenons

err^LOO(λ) = ¹ nA nA X i=1 yi− zT i uˆR(λ) 1 − [h_λ]_ii !2 (2.17) = ¹ nA y^T(I_n_A− H_λ)(diag(I_n_A− H_λ))⁻²(I_n_A− H_λ)y. (2.18)

La formule 2.18 est plus rapide à calculer qu’une validation croisée `a K = nA plis (que l’on appellera validation croisée `a K = nA fold) car elle ne nécessite que le calcul de H_λ. Notons toutefois qu’il existe une différence subtile au niveau de la normalisation entre l’erreur proposée par Meijer 2.15 et une validation crois´ee avec K = nA folds. Dans la version de Meijer Z−i correspond à la matrice Z privée de la ligne i et n’est jamais renormalisée. A l’inverse dans une validation crois´ee avec K = n_A folds, Z_−i sera renormalisée a chaque fois. Cette différence peut paraˆıtre anecdotique mais elle peut avoir une grande importance en grande dimension, comme nous allons le voir.

La LOO est l’approche la plus gourmande en calcul pour l’estimation de l’erreur attendue de prédiction parmi la famille des K-fold. Il est donc particulièrement perti-nent d’utiliser la LOO quand nous ne disposons que de peu de données. Nous pourrons ´

egalement souhaiter utiliser la LOO dans le cadre de la grande dimension (i.e. quand

n << p) o`u nous souhaiterons utiliser la ”meilleure” approximation de l’erreur atten-due de prédiction pour ”compenser” l’apprentissage difficile. Malheureusement dans ce cadre les temps de calcul de la LOO risquent d’être très longs (par exemple en gén´ e-tique nous aurons facilement n > 10 000). Nous allons donc pr´esenter une approche réduisant les temps de calculs pour permettre d’approcher la LOO dans ce contexte de grande dimension.

Une approximation de la Leave-One-Out : la Generalized Cross-Validation

L’erreur de Generalized Cross-Validation (GCV) est une approximation de l’erreur LOO 2.15 proposée dans [Golub et al., 1978]. L’idée est de projeter le modèle dans un espace complexe pour obtenir une matrice H_λ à coefficients diagonaux constants. En combinaison avec la décomposition en valeurs singulières et l’expression 2.17, nous arrivons à une expression très simple :

err^GCV(λ) = ¹ nA nA P k=1 λ dk+λ

Dans le document Lien entre héritabilité et prédiction de phénotypes complexes chez l’humain : une approche du problème par la régression ridge sur des données de population (Page 41-46)