Données onsidérées et proédures testées - Approhe jointe et séletion de variables

9.2 Approhe jointe et séletion de variables

9.2.1 Données onsidérées et proédures testées

Données synthétiques pour la séletion

Nous nous basons dans un premier temps sur les jeux de données synthétiques

déritsen Setion 9.1.1 ar eux-i possède l'avantage de séparerla parimonie des

eets xes de elle des eets aléatoires, nous permettant dans e adre de mieux

appréhender leomportementde notreproédurebasée surune approhe jointedes

modèlesmixtes, vis-à-visde la séletiondes eets xes et aléatoiresséparément.Ii

enore, la onguration A est destinée à onduire à de meilleures performanes en

termede séletiondeseets xesetaléatoires.Eneet,l'estimateur(8.13)des eets

xes dans l'approhe jointe s'apparente à un seuillage SCAD usuel des oeients

orrigésdes préditionsdeseets aléatoires.Ainsi,danslaongurationAeten

fai-sant abstrationde la problématiquede séletiondes varianesdes eets aléatoires,

le seuillage est plus fort sur les oeients nuls onduisant à l'obtention de moins

de oeientsséletionnés àtort (faux positifs)tandis quedans laongurationB,

le ontraire est valable, à savoir, un seuillage moins important sur les oeients

eetivementnuls,quinesontpastouhés parleseets aléatoires,pouvantonduire

alors à l'obtention de plus de faux positifs.Par ailleurs, l'estimateur (8.16) des

va-rianes des eets aléatoires se ramène aussi à un seuillage des données, orrigées

des préditionsdes eets xes, etdevrait onduire de e faitàun omportement,là

enore, meilleurdans la ongurationA par les mêmes arguments.

Stratégies étudiées

Nousappliquonsàesjeuxdedonnéesnotreproéduredeséletionbaséesurune

double pénalisation de la vraisemblane du modèle par rapport aux eets xes et

aléatoires.Un des pointsentralde l'ajustementdu modèle résidedans lehoixdes

paramètresde régularisationλ₁ etλ₂.Ainsi,nous proposons une première stratégie durant laquelle, es deux paramètres sont xés aumoyen d'un ritère de type BIC

ommedéni en Setion8.3.2. Lesparamètres (λ1, λ2) parourent une doublegrille suivantuneéhelle logarithmique,leoupleétantensuitexéàlavaleurminimisant

le ritère BIC. Cette proédure peut se révéler oûteuse d'un point de vue

numé-rique ar elle néessite un grand nombre d'appel à l'algorithme EM (de l'ordre de

laentaine suivant le pas de grillehoisi), dont un seul appel est déjàrelativement

oûteux. Ande limiter e oût, nous en proposons une variante onsistant à

rem-plaerleparamètreλ1parleseuiluniverselhomosédastiqueégalàσ^[ε^h^] p

2 logM/N,

dépendant de l'itération ourante [h] de l'algorithme. Cela peut se justier par le fait que leparamètre λ1 orrespond à la séletion d'eets xes et est don lié à un problème d'estimation d'une fontion µ observée dans un bruit. On est don, pour e paramètre, dans un adre similaire à elui développé par Donoho et Johnstone

(1994).Pourleparamètreλ2,liéàuneproblématiquede séletiondevarianes,nous hoisissonsdeonserverlagrillelogarithmiquetellequedéniepréédemment.Cette

optimisationselon unedoublegrilleseranotée"BIC".Nousproposonsen outreune

versionrelaxéede esdeux proédures, ommedériten Setion3.3.2(Meinshausen

2007), dans un but de stabilisation de l'estimation des paramètres du modèle. Ces

deux dernières serontnotées respetivement "BIC.relaxe" et "Minimax.relaxe".

Enn, nous utilisons omme ritère d'évaluation eux utilisés pour l'approhe

marginale(f.Setion9.1.2)onernantlesperformanesdeséletionetdepréision

des estimateurs.

9.2.2 Résultats

Nous donnons à présent les résultats obtenus sur les données simulées. Les

ré-sultatsprinipaux sont donnés auvu de l'objetif de séletiondes eets xes d'une

part etdes eets aléatoiresd'autre part.

Séletion des eets xes

Lesrésultatsdeséletiononernantlaséletiondes eetsxessontprésentés en

Figure9.7oùsontreprésentéspourles4typesd'eetsxes,lesritèresdesensibilité,

despéiitéainsiquelesritèresPPVetNPV.Lesgraphiquesorrespondentàune

valeurτU xée à0.1etnous signalonsqueles onlusionsrestent lesmêmes dans le as d'eets aléatoiresplus modérés. En Figure9.8, nous avons représenté leséarts

quadratiques moyens obtenus pour lareonstrution de l'eet xe fontionnelpour

les4 types d'eets xes onsidérés etplusieurs intensitésd'eets aléatoires.

Laonguration A, où leseets aléatoires sont plaés sur les positions nulles

des eets xes, favorise bien laséletion puisqu'on observe de meilleures

per-formanes générales de séletion pour l'ensemble des proédures onsidérées

(f Figure 9.7). Une exeption est à faire onernant la proédure BIC qui

présenteun omportementmoinsbonentermede spéiité,'est-à-diredans

saapaité à retrouverles positions nulles. Cependant, ette proédureest la

plus instable ar elle néessite l'ajustement de deux hyperparamètres et on

peut observer que la version relaxée de ette dernière permet de stabiliser la

séletion.

Dans la onguration B, désavantageuse quant à la séletion des eets xes,

l'utilisationd'unseuil basésurleseuilminimaxpourlehoixdu paramètreλ₁ onduitlesproédures "Minimax"et "Minimax.relaxe"à ne pas distinguer la

présened'eets xes sur lesoeientsnon nulsdans leas d'une variabilité

élevée. En eet, dans e ontexte, on observe pour es deux proédures des

sensibilité et des valeurs de NPV prohes de zéro signiant que très peu de

oeientssontséletionnés.Ce phénomènes'observenotammentdu pointde

vuedelaséletiondesvarianesdes eetsaléatoiresqui,auontraire,serévèle

performantedanseaspartiulier(détailléeauparagraphesurlaséletiondes

àde faiblesvaleursde spéiité etde PPV, onfortant l'idée d'instabilité de

laproédure BIC.

Bienquen'étantpas l'objetifpremierdes proédures présentées auChapitre

8, nous pouvons observer en Figure 9.8 que les éarts quadratiques moyens

assoiés àlareonstrution del'eet xefontionnelrestent dansdes gammes

de valeurs faibles, omparables à elle obtenues pour le seuillage

hétérosé-dastique assoié à une estimation des varianesde type moment, présenté au

Chapitre7 etei reste valable pour lesdeux ongurations partiulières

étu-diéesetl'ensembledesproédurestestées. Cerésultatestenourageantetnous

inite à nous intéresser, dans une perspetive de e travail,aux propriétés de

reonstrution de l'estimateur de l'eet xe fontionnel en terme de risque

quadratique.

Séletion des varianes des eets aléatoires

Lesrésultatsdeséletiononernantlaséletiondesvarianesdeseetsaléatoires

sont présentés de manière similaire. En Figure 9.9, les ritères de sensibilité, de

spéiitéainsiquelesritèresPPVetNPVsontreprésentéspourles4typesd'eets

xes.LesgraphiquesorrespondentàunevaleurdeSNRxéeà1maislesonlusions

restent aussi lesmêmes dans le as de paramètres SNR plus élevés.

On observe en premier lieu en Figure 9.9 que, dans les deux ongurations,

lesperformanes de séletion de varianes sontinuenées par le niveau

d'ef-fets aléatoires présents et deviennent meilleures lorsque le niveau d'eets

in-dividuels est fort : en eet, dans e as, la disrimination entre les positions

aetéespar un eetaléatoire etelles qui ne le sont pas est alors failitée.

Deplus,entrelesdiérentesproédures,ladiérenedeomportementsesitue

iientre lesméthodesrelaxéesetlesnonrelaxées.Celanousonduitàonlure

quel'étapederéestimationrevêtuneimportanepartiulièrepourlaséletion

desvarianesassoiéesauxeetsaléatoires.Ceiestpartiulièrementvraidans

laongurationB,désavantageusepourlaséletion,oùpourdes fortsniveaux

d'eets aléatoires, lesméthodes non relaxées réalisent peu de séletion

('est-à-dire,séletionnent plus de positionsque néessaire), se traduisant alors par

desvaleursde spéiitéetdePPVprohes dezéro.Ceiest illustréen Figure

9.10 présentant un exemple d'estimation des varianes pour la onguration

B ave un fort niveau d'eets individuels entre les méthodes "Minimax" et

"Minimax.relaxe". La présene de forts eets aléatoires est pourtant sensée

onduireàuneséletionfailitéeetephénomènenousonduitdonàpréférer

Temps de alul assoiés aux proédures de séletion

Les temps de alul assoiés aux proédures basées sur l'algorithme EM sont

aussi à prendre en ompte : en eet, la proédure de seuillage hétérosédastique

baséesuruneestimationdesvarianesdetypemomentnenéessitepasdepuissane

de alul partiulière et le résultat est obtenu de manière immédiate. Ce n'est pas

le as pour les proédures dérites dans ette setion, qui sont, d'une part, basée

sur une optimisation au moyen d'un algorithme itératifet d'autre part, néessitent

le réglaged'hyperparamètres, notamment pour la proédure BIC où l'on doit xer

les deux paramètres de régularisation λ1 et λ2. Nous présentons en Table 9.2 les temps de alul moyens obtenus pour les proédures de séletion BIC et Minimax

pour lesdeux ongurations partiulièresétudiées etdiérentes valeurs de SNR,τU etd'eetxe.Lestemps de alulassoiés auxméthodes relaxéessont omparables

à leur version non relaxées ar l'étape de réestimation possède un oût numérique

négligeabledevant elui des proédures itératives omplètes.

Nous onstatons sur ette table que les proédures de séletion Minimax où le

paramètre λ₁ est préalablement xé permettant un vrai gain en terme de temps de alul. Un deuxième omportement partiulier peut être mis en avant : dans la

ongurationA,ladiminutionduniveaudevariabilitéglobaleparlebiaisdeSNRet τ_U onduità des temps de alul plus importants,tandis que dans la onguration B,labaisseduniveaud'eetsaléatoiresentraîneunediminutiondu tempsde alul.

Cetypedephénomèneestohérentavelesonlusionsréaliséesquantàlaséletion

desvarianesassoiées auxeets aléatoires,onpeut donpenserqueladiulté de

séletion/estimationdes varianesassoiées auxeetsaléatoiresinuenefortement

leoût numérique global de la proédure.

Autermedeettepremièreétudeonernantlesproéduresdeséletiondeseets

xes etaléatoires basées sur une approhe jointe des modèles mixtes, deux

onlu-sionsprinipales peuvent être mises en avant: d'unepart, l'utilisationde méthodes

relaxéestellesqueproposéesparMeinshausen(2007)permettentdestabiliserle

pro-essus de séletionet de e fait, d'améliorer lapréisiondes estimateurs résultants.

De plus, en orant un temps de alul bien inférieur, nous privilégierons l'usage de

la proédure appelée "Minimax.relaxe où l'hyperparamètre assoié à l'estimation

des eets xes est xé auseuil universel.

Néanmoins, les ongurations simulées dans ette première étude sont peu

réa-listes ar elles séparent les parimoniesdes eets xes et aléatoires. Nous

Dans le document Classification non supervisée et sélection de variables dans les modèles mixtes fonctionnels. Applications à la biologie moléculaire (Page 160-164)