• Aucun résultat trouvé

Q1 Q2  R =  0n−r,r In−r  R1 0n−r,n = 0n−r,r.

Comme QT2A = 0n−r,r et QT2Q2 = In−r, alors c’est une matrice de contraste. La d´ecomposition QR d’une matrice ´etant relativement peu coˆuteuse `a calculer, cette m´ethode est bien pratique.

Estimation disjointe

Dans la pratique plutˆot que d’utiliser les approches d´ecrites au dessus, il sera par-fois tentant d’effectuer une estimation disjointe pour les variables p´enalis´ees et non-p´enalis´ees (particuli`erement dans les cas o`u nous nous attendons `a ce que les variables p´enalis´ees soient ind´ependantes des non-p´enalis´ees). Un exemple d’un tel cas pourrait ˆ

etre un mod`ele avec un intercept tr`es ´elev´e. Nous commen¸cons par estimer les effets fixes avec y comme r´eponse

ˆ

β = (XTX)−1XTy.

Ensuite, nous calculons l’estimateur ridge avec comme r´eponse la r´eponse y moins l’estimation du terme des effets non-p´enalis´es

ˆ

uR=ZTZ + λIp−1ZT(y − X ˆβ).

2.8 Extension du lien entre r´egression ridge et

mo-d`ele `a effets al´eatoires en pr´esence d’effets fixes

Il est possible de g´en´eraliser le lien ´etabli dans la section 2.6.1 au cas avec effets fixes. Prenons le mod`ele d´efini en (2.39)

y = Xβ + Zu + e

avec u ∼ N (0p, τ Ip) et e ∼ N (0n, σ2In). En remarquant que y|u ∼ N (Xβ + Zu, σ2In), en supposant encore une fois Z fix´ee et en utilisant les mˆemes calculs que plus haut

nous pouvons montrer l’´equivalence

arg max

u p (u|y) = arg min

u ky − Xβ − Zuk22+ λ kuk22 avec λ = σ

2

τ . (2.54)

Notons ´egalement que le lien se prolonge ´egalement au cas des mod`eles contrast´es. Prenons la version contrast´ee de (2.39)

Cy = CZu + Ce. (2.55) avec C une matrice de contraste de X. En remarquant que Ce ∼ N (0n−r, σ2In−r) et que Cy ∼ N (CZu, σ2In−r), nous avons alors l’´equivalence

arg max

u

p (u|Cy) = arg min

u

kCy − CZuk22+ λ kuk22 avec λ = σ

2

τ . (2.56)

Notons en particulier que dans le mod`ele initial (2.39) ou dans le mod`ele contrast´e le param`etre de p´enalisation optimal est le mˆeme, ce qui remontre l’int´erˆet de travailler dans un mod`ele contrast´e.

Validation crois´ee g´en´eralis´ee en

grande dimension

Utiliser la GCV en grande dimension n’a pas ´et´e imm´ediat. En effet cette derni`ere avait tendance `a tr`es fortement sous-estimer le param`etre de p´enalisation optimal car il ´

etait syst´ematiquement nul. Dans cette section nous d´ecrirons les probl`emes que nous avons rencontr´es et expliquerons comment nous avons r´eussi `a les r´esoudre.

Nous travaillerons avec le mod`ele lin´eaire classique.

y = Zu + e (3.1)

Avec y ∈ Rn, Z ∈ Mn,p(R), u ∈ Rp et e ∼ N (0n, σ2In). Nous supposerons que toutes les variables de la matrice de donn´ees sont p´enalis´ees. Ainsi l’erreur de GCV pour choisir le param`etre de p´enalisation λ de la r´egression ridge s’´ecrit

errGCV(λ) = 1 ny T(In− Hλ)(tr(In− Hλ)In)−2(In− Hλ)y = 1 nb T(In− Dλ)(tr(In− Dλ)In)−2(In− Dλ)b. avec Dλ = DDT DDT + λIn−1et (3.2) b = UTy. (3.3)

Nous supposerons ´egalement que le centrage et la r´eduction de Z seront r´ealis´es de mani`ere empirique. Soit G ∈ Mn,p(N) la matrice de donn´ees brutes. Nous calculerons pour chaque variant j la moyenne empirique

ˆ µj = 1 n1TnGj = 1 n n X i=1 Gi,j et l’´ecart-type empirique ˆ σj = 1 n − 1(Gj − ˆµj1n)T(Gj − ˆµj1n) = 1 n − 1 n X i=1 (Gi,j− ˆµj)2.

Alors la matrice de donn´ees standardis´ees Z est d´efinie comme Z = [z1, ..., zp] avec zj = (Gj − ˆµj1n)/ˆσj.

3.1 Illustration des probl`emes de la GCV en grande

dimension et sous centrage empirique

Nous allons illustrer les probl`emes de la GCV en grande dimension et avec un mau-vais choix de centrage en utilisant des simulations qui seront r´esum´ees dans le graphe 3.1. Nous avons simul´e n = 100 individus selon un mod`ele lin´eaire pour un sc´enario ”petite dimension” avec p = 20 (panneaux du haut) et un sc´enario ”grande dimension” avec p = 2000 (panneaux du bas). Nous comparerons le centrage empirique de la ma-trice des g´enotypes (panneaux de gauche) et un centrage avec des valeurs externes qui seront ici les valeurs que nous avons utilis´ees pour la simulation des g´enotypes (pan-neaux de droite). Dans tous ces sc´enarios les ph´enotypes seront centr´es empiriquement. Notre objectif est de chercher le param`etre de p´enalisation optimal pour la r´egression ridge. Pour cela nous avons calcul´e la GCV et ´egalement estim´e la pr´ecision du mod`ele par 1p(u − ˆuR)T(u − ˆuR) avec u le vecteur d’effet simul´e et ˆuR l’estimateur de la r´ e-gression ridge. Dans chacun des panneaux du graphe 3.1 nous avons affich´e l’erreur de GCV et la pr´ecision de l’estimateur en fonction des degr´es de libert´e effectifs d´efinis en (1.15). Toutes les courbes de GCV ont ´et´e multipli´ees par une constante pour ˆetre `a la mˆeme ´echelle que la pr´ecision mais ce n’est pas un probl`eme car nous nous int´eressons uniquement aux minimums des courbes et non pas `a leurs valeurs.

Nous constatons que dans le cas n > p la GCV et la pr´ecision choisissent la mˆeme complexit´e optimale qu’importe le centrage. Cela montre qu’en petite dimension utiliser

0.15 0.20 0.25

0 5 10 15 20

d. d. l. e( λ )

n > p & Centrage empirique

0.15 0.20 0.25

0 5 10 15 20

d. d. l. e( λ )

n > p & Centrage indépendant

E[ ( u−u^)2 ] errGCV 0.000 0.025 0.050 0.075 0.100 0 25 50 75 100 d. d. l. e( λ )

n < p & Centrage empirique

0.01 0.02 0.03 0.04 0 25 50 75 100 d. d. l. e( λ )

n < p & Centrage indépendant

Figure 3.1 – Une illustration du biais de la GCV en grande dimension et avec le centrage

empirique. Chaque panel qui correspond `a un sc´enario de dimension et de centrage repr´esente

la pr´ecision de l’estimateur (courbe pleine) et l’erreur de la GCV (courbe en pointill´es) selon

les degr´es de libert´e effectifs comme mesure de la complexit´e. Les deux ´etudes sont de taille

n = 100 avec p = {20, 2000}. Le centrage ind´ependant a ´et´e r´ealis´e avec des valeurs issues

un centrage empirique n’a pas un effet net sur la qualit´e de la GCV.

En revanche dans le cas n < p le choix de standardisation se r´ev`ele avoir une grande importance. Dans le panel avec standardisation par donn´ees externes, la GCV et la pr´ecision choisissent une complexit´e optimale assez proche. Avec une standardisation empirique la GCV a un comportement ´etrange et choisit comme complexit´e optimale le cas o`u λ = 0 (autrement dit le mod`ele le plus complexe), et a un comportement diff´erent de la pr´ecision.

Ce comportement est in´evitable. Dans la section suivante, nous allons montrer que cela est dˆu `a la conjonction de plusieurs facteurs : le contexte de la grande dimension, de standardisation empirique de la matrice des g´enotypes et enfin l’estimation disjointe de l’intercept par la moyenne empirique et des effets g´en´etiques.