• Aucun résultat trouvé

5.5 Application aux donn´ ees UK Biobank

5.5.1 Description de l’approche

Dans les sections pr´ec´edentes de ce chapitre, nous avons ´etudi´e le comportement th´eorique de pouvoir pr´edictif de la r´egression ridge selon le ratio n/p. Nous allons maintenant regarder si ce comportement se v´erifie sur des donn´ees r´eelles. Sur des don-n´ees r´eelles, nous souhaiterons souvent ajouter au mod`ele des variables non-p´enalis´ees comme des covariables cliniques par exemple. Notre mod`ele sera de la forme

y = Xβ + Zu + e = f + g + e.

De nombreuses questions sont ouvertes : comment calculer les diff´erents termes de la pr´ediction ? comment les ´evaluer ? lesquels ´evaluer ?

Commen¸cons par savoir comment les calculer : en effet nous voulons ici utiliser la r´egression ridge pour estimer les effets g´en´etiques mais notre mod`ele int`egre ´egalement des covariables non-g´en´etiques. Or nos calculs des sections pr´ec´edentes n’avaient pas pris en compte la pr´esence d’effets fixes. L’estimation jointe des effets des variables non-p´enalis´ees et p´enalis´ees dans la r´egression ridge est quelque chose d’assez mal d´efini. Faute de mieux nous avons opt´e pour une estimation en deux temps des effets p´enalis´es et non-p´enalis´es. Dans le chapitre 7 nous pr´esenterons quelques id´ees pour une estimation plus satisfaisante des effets.

Comme montr´e pr´ec´edemment, en utilisant une approche bas´ee sur une projection, il est possible d’estimer u en prenant en compte les effets fixes. Pour l’estimation des effets fixes, nous pouvons nous demander si nous devons prendre en compte le terme g´en´etique. Devons-nous effectuer une r´egression lin´eaire sur les covariables en utilisant comme r´eponse les ph´enotypes directement (estimation disjointe) ou bien plutˆot en utilisant les r´esidus des ph´enotypes obtenus par soustraction de l’estimation du terme g´en´etique (estimation ”semi-disjointe”) ? Nous allons tester ces deux approches pour voir si des diff´erences notables apparaissent.

Pour la question de savoir comment ´evaluer le pouvoir pr´edictif, nous nous int´ e-resserons `a 4 crit`eres : le M SE, le coefficient de d´etermination R2, la corr´elation et l’h´eritabilit´e de ratio. Le M SE calcule la capacit´e de pr´ediction mais a pour principal d´efaut de n’ˆetre pas tr`es comparable d’une ´etude ou d’un ph´enotype `a l’autre. Les autres quantit´es permettront plus de comparaisons. Le carr´e de la corr´elation entre

ph´enotype et pr´ediction n’est pas rigoureusement une capacit´e de pr´ediction mais a l’avantage d’ˆetre une quantit´e born´ee et surtout d’ˆetre un standard de la litt´erature. Le R2 sur un ensemble de test est une quantit´e qui permet d’illustrer la capacit´e de pr´ediction tout en rendant la comparaison possible (mˆeme si, comme on est sur un ensemble de test, on perd le cˆot´e born´e entre 0 et 1). Enfin l’h´eritabilit´e de ratio sur un ensemble de test ne mesure pas la qualit´e de la pr´ediction mais plutˆot l’amplitude de la pr´ediction par rapport `a la r´eponse.

Enfin que regarder ? Nous pouvons nous int´eresser `a la pr´ediction du ph´enotype (donc avec pr´ediction des effets fixes ET des effets g´en´etiques). Mais nous pouvons ´egalement ˆetre plus int´eress´es par les performances de pr´ediction du terme g´en´etique uniquement et donc comparer pr´ediction g´en´etique et r´esidus du ph´enotype apr`es sous-traction des effets fixes. Nous pouvons aussi regarder les pr´edictions par uniquement les effets fixes ou g´en´etiques pour voir lesquels jouent un plus grand rˆole.

Description des exp´eriences

Ici nous d´ecrivons notre protocole op´eratoire pour l’´evaluation du pouvoir pr´edictif selon le ratio n/p. Contrairement aux simulations o`u nous faisions varier le ratio n/p en jouant sur p, nous allons ici faire varier n et p sera constant. Les diff´erentes valeurs de n utilis´ees sont report´ees dans la table 5.1.

Nous utiliserons les mˆemes proc´edures de pr´etraitement et les mˆemes covariables que dans les estimations d’h´eritabilit´e de la section 4.5. Nous utiliserons les VWB comme population et les CP fournies par UKBiobank pour prendre en compte la structure de population. Pour chaque valeur de n ´etudi´ee, nous allons sous-´echantillonner plusieurs ensembles d’apprentissage et calculer les quantit´es d’int´erˆet pour chacun de ces sous-´echantillonnages (voir table 5.2 pour le nombre d’ensembles d’apprentissage associ´e `a chaque n).

Nous allons ´egalement s´electionner al´eatoirement deux ´echantillons de 1000 indivi-dus ind´ependants parmi les individus de UKBiobank : un ensemble de standardisation destin´e `a l’apprentissage des effets non-p´enalis´es (nous pouvons nous permettre de r´eserver des donn´ees pour cette tˆache car nous sommes en situation de richesse de donn´ees) et un ensemble de test pour ´evaluer les capacit´es pr´edictives. Notons que ces ensembles ne sont choisis qu’une fois et seront donc les mˆemes pour toutes les tailles d’ensemble d’apprentissage et leurs r´ep´etitions respectives.

En pratique, pour chaque valeur de n et chaque r´ep´etition, notre plan d’exp´erience est le suivant :

1. ´Echantillonage d’un ensemble d’apprentissage de taille n ind´ependant des en-sembles de standardisation et de test.

2. Application des filtres de pr´etraitement d´ecrits dans la section 4.5.2 `a l’ensemble d’apprentissage. Les variants exclus de l’ensemble d’apprentissage le sont ´ egale-ment des ensembles de standardisation et de test.

3. Calcul d’un estimateur des effets g´en´etiques avec une approche type projection pour prendre en compte les effets non-p´enalis´es. Le param`etre de p´enalisation est obtenu par GCV.

ˆ

uR = ZTtrCTtrCtrZtrZTtrCTtr + λGCVIn−r−1Ctrytr

4. Calcul d’un estimateur des effets non-p´enalis´es. Nous testerons les deux ap-proches : en utilisant comme r´eponse les r´esidus du ph´enotype apr`es soustraction de l’estimation du terme g´en´etique

ˆ

β2 =XTstdXstd

−1

XTstd(ystd− ZstduˆR) . (5.8) ou bien directement le ph´enotype

ˆ

β1 =XTstdXstd−1XTstdystd (5.9) 5. Calcul de l’estimateur du terme g´en´etique, du terme non-p´enalis´e et de

l’estima-teur du ph´enotype sur le jeu de test. ˆ

gte = ZteuˆR ˆfte = Xteβˆ

ˆ

yte = ˆfte+ ˆgte

6. Calcul du MSE, du carr´e de la corr´elation, du R2 et de l’h´eritabilit´e de ratio entre les diff´erentes quantit´es d’int´erˆet (ˆgte, ˆfte, ˆyte et yte).

Ensemble Cardinal

Apprentissage {1000, 2000, 5000, 10000, 20000} Standardisation 1000

Test 1000

Tableau 5.1 – Taille des ensembles d’apprentissage pour l’´evaluation du pouvoir pr´edictif

sur les donn´ees r´eelles.

Taille de l’ensemble d’apprentissage 1000 2000 5000 10 000 20 000 Nombre de r´ep´etitions 100 70 50 20 10

Tableau 5.2 – Nombre de r´ep´etitions pour l’´evaluation du pouvoir pr´edictif sur donn´ees

r´eelles. Valeurs `a v´erifier