9.2 Approhe jointe et séletion de variables
9.2.1 Données onsidérées et proédures testées
Données synthétiques pour la séletion
Nous nous basons dans un premier temps sur les jeux de données synthétiques
déritsen Setion 9.1.1 ar eux-i possède l'avantage de séparerla parimonie des
eets xes de elle des eets aléatoires, nous permettant dans e adre de mieux
appréhender leomportementde notreproédurebasée surune approhe jointedes
modèlesmixtes, vis-à-visde la séletiondes eets xes et aléatoiresséparément.Ii
enore, la onguration A est destinée à onduire à de meilleures performanes en
termede séletiondeseets xesetaléatoires.Eneet,l'estimateur(8.13)des eets
xes dans l'approhe jointe s'apparente à un seuillage SCAD usuel des oeients
orrigésdes préditionsdeseets aléatoires.Ainsi,danslaongurationAeten
fai-sant abstrationde la problématiquede séletiondes varianesdes eets aléatoires,
le seuillage est plus fort sur les oeients nuls onduisant à l'obtention de moins
de oeientsséletionnés àtort (faux positifs)tandis quedans laongurationB,
le ontraire est valable, à savoir, un seuillage moins important sur les oeients
eetivementnuls,quinesontpastouhés parleseets aléatoires,pouvantonduire
alors à l'obtention de plus de faux positifs.Par ailleurs, l'estimateur (8.16) des
va-rianes des eets aléatoires se ramène aussi à un seuillage des données, orrigées
des préditionsdes eets xes, etdevrait onduire de e faitàun omportement,là
enore, meilleurdans la ongurationA par les mêmes arguments.
Stratégies étudiées
Nousappliquonsàesjeuxdedonnéesnotreproéduredeséletionbaséesurune
double pénalisation de la vraisemblane du modèle par rapport aux eets xes et
aléatoires.Un des pointsentralde l'ajustementdu modèle résidedans lehoixdes
paramètresde régularisationλ1 etλ2.Ainsi,nous proposons une première stratégie durant laquelle, es deux paramètres sont xés aumoyen d'un ritère de type BIC
ommedéni en Setion8.3.2. Lesparamètres (λ1, λ2) parourent une doublegrille suivantuneéhelle logarithmique,leoupleétantensuitexéàlavaleurminimisant
le ritère BIC. Cette proédure peut se révéler oûteuse d'un point de vue
numé-rique ar elle néessite un grand nombre d'appel à l'algorithme EM (de l'ordre de
laentaine suivant le pas de grillehoisi), dont un seul appel est déjàrelativement
oûteux. Ande limiter e oût, nous en proposons une variante onsistant à
rem-plaerleparamètreλ1parleseuiluniverselhomosédastiqueégalàσ[εh] p
2 logM/N,
dépendant de l'itération ourante [h] de l'algorithme. Cela peut se justier par le fait que leparamètre λ1 orrespond à la séletion d'eets xes et est don lié à un problème d'estimation d'une fontion µ observée dans un bruit. On est don, pour e paramètre, dans un adre similaire à elui développé par Donoho et Johnstone
(1994).Pourleparamètreλ2,liéàuneproblématiquede séletiondevarianes,nous hoisissonsdeonserverlagrillelogarithmiquetellequedéniepréédemment.Cette
optimisationselon unedoublegrilleseranotée"BIC".Nousproposonsen outreune
versionrelaxéede esdeux proédures, ommedériten Setion3.3.2(Meinshausen
2007), dans un but de stabilisation de l'estimation des paramètres du modèle. Ces
deux dernières serontnotées respetivement "BIC.relaxe" et "Minimax.relaxe".
Enn, nous utilisons omme ritère d'évaluation eux utilisés pour l'approhe
marginale(f.Setion9.1.2)onernantlesperformanesdeséletionetdepréision
des estimateurs.
9.2.2 Résultats
Nous donnons à présent les résultats obtenus sur les données simulées. Les
ré-sultatsprinipaux sont donnés auvu de l'objetif de séletiondes eets xes d'une
part etdes eets aléatoiresd'autre part.
Séletion des eets xes
Lesrésultatsdeséletiononernantlaséletiondes eetsxessontprésentés en
Figure9.7oùsontreprésentéspourles4typesd'eetsxes,lesritèresdesensibilité,
despéiitéainsiquelesritèresPPVetNPV.Lesgraphiquesorrespondentàune
valeurτU xée à0.1etnous signalonsqueles onlusionsrestent lesmêmes dans le as d'eets aléatoiresplus modérés. En Figure9.8, nous avons représenté leséarts
quadratiques moyens obtenus pour lareonstrution de l'eet xe fontionnelpour
les4 types d'eets xes onsidérés etplusieurs intensitésd'eets aléatoires.
Laonguration A, où leseets aléatoires sont plaés sur les positions nulles
des eets xes, favorise bien laséletion puisqu'on observe de meilleures
per-formanes générales de séletion pour l'ensemble des proédures onsidérées
(f Figure 9.7). Une exeption est à faire onernant la proédure BIC qui
présenteun omportementmoinsbonentermede spéiité,'est-à-diredans
saapaité à retrouverles positions nulles. Cependant, ette proédureest la
plus instable ar elle néessite l'ajustement de deux hyperparamètres et on
peut observer que la version relaxée de ette dernière permet de stabiliser la
séletion.
Dans la onguration B, désavantageuse quant à la séletion des eets xes,
l'utilisationd'unseuil basésurleseuilminimaxpourlehoixdu paramètreλ1 onduitlesproédures "Minimax"et "Minimax.relaxe"à ne pas distinguer la
présened'eets xes sur lesoeientsnon nulsdans leas d'une variabilité
élevée. En eet, dans e ontexte, on observe pour es deux proédures des
sensibilité et des valeurs de NPV prohes de zéro signiant que très peu de
oeientssontséletionnés.Ce phénomènes'observenotammentdu pointde
vuedelaséletiondesvarianesdes eetsaléatoiresqui,auontraire,serévèle
performantedanseaspartiulier(détailléeauparagraphesurlaséletiondes
àde faiblesvaleursde spéiité etde PPV, onfortant l'idée d'instabilité de
laproédure BIC.
Bienquen'étantpas l'objetifpremierdes proédures présentées auChapitre
8, nous pouvons observer en Figure 9.8 que les éarts quadratiques moyens
assoiés àlareonstrution del'eet xefontionnelrestent dansdes gammes
de valeurs faibles, omparables à elle obtenues pour le seuillage
hétérosé-dastique assoié à une estimation des varianesde type moment, présenté au
Chapitre7 etei reste valable pour lesdeux ongurations partiulières
étu-diéesetl'ensembledesproédurestestées. Cerésultatestenourageantetnous
inite à nous intéresser, dans une perspetive de e travail,aux propriétés de
reonstrution de l'estimateur de l'eet xe fontionnel en terme de risque
quadratique.
Séletion des varianes des eets aléatoires
Lesrésultatsdeséletiononernantlaséletiondesvarianesdeseetsaléatoires
sont présentés de manière similaire. En Figure 9.9, les ritères de sensibilité, de
spéiitéainsiquelesritèresPPVetNPVsontreprésentéspourles4typesd'eets
xes.LesgraphiquesorrespondentàunevaleurdeSNRxéeà1maislesonlusions
restent aussi lesmêmes dans le as de paramètres SNR plus élevés.
On observe en premier lieu en Figure 9.9 que, dans les deux ongurations,
lesperformanes de séletion de varianes sontinuenées par le niveau
d'ef-fets aléatoires présents et deviennent meilleures lorsque le niveau d'eets
in-dividuels est fort : en eet, dans e as, la disrimination entre les positions
aetéespar un eetaléatoire etelles qui ne le sont pas est alors failitée.
Deplus,entrelesdiérentesproédures,ladiérenedeomportementsesitue
iientre lesméthodesrelaxéesetlesnonrelaxées.Celanousonduitàonlure
quel'étapederéestimationrevêtuneimportanepartiulièrepourlaséletion
desvarianesassoiéesauxeetsaléatoires.Ceiestpartiulièrementvraidans
laongurationB,désavantageusepourlaséletion,oùpourdes fortsniveaux
d'eets aléatoires, lesméthodes non relaxées réalisent peu de séletion
('est-à-dire,séletionnent plus de positionsque néessaire), se traduisant alors par
desvaleursde spéiitéetdePPVprohes dezéro.Ceiest illustréen Figure
9.10 présentant un exemple d'estimation des varianes pour la onguration
B ave un fort niveau d'eets individuels entre les méthodes "Minimax" et
"Minimax.relaxe". La présene de forts eets aléatoires est pourtant sensée
onduireàuneséletionfailitéeetephénomènenousonduitdonàpréférer
Temps de alul assoiés aux proédures de séletion
Les temps de alul assoiés aux proédures basées sur l'algorithme EM sont
aussi à prendre en ompte : en eet, la proédure de seuillage hétérosédastique
baséesuruneestimationdesvarianesdetypemomentnenéessitepasdepuissane
de alul partiulière et le résultat est obtenu de manière immédiate. Ce n'est pas
le as pour les proédures dérites dans ette setion, qui sont, d'une part, basée
sur une optimisation au moyen d'un algorithme itératifet d'autre part, néessitent
le réglaged'hyperparamètres, notamment pour la proédure BIC où l'on doit xer
les deux paramètres de régularisation λ1 et λ2. Nous présentons en Table 9.2 les temps de alul moyens obtenus pour les proédures de séletion BIC et Minimax
pour lesdeux ongurations partiulièresétudiées etdiérentes valeurs de SNR,τU etd'eetxe.Lestemps de alulassoiés auxméthodes relaxéessont omparables
à leur version non relaxées ar l'étape de réestimation possède un oût numérique
négligeabledevant elui des proédures itératives omplètes.
Nous onstatons sur ette table que les proédures de séletion Minimax où le
paramètre λ1 est préalablement xé permettant un vrai gain en terme de temps de alul. Un deuxième omportement partiulier peut être mis en avant : dans la
ongurationA,ladiminutionduniveaudevariabilitéglobaleparlebiaisdeSNRet τU onduità des temps de alul plus importants,tandis que dans la onguration B,labaisseduniveaud'eetsaléatoiresentraîneunediminutiondu tempsde alul.
Cetypedephénomèneestohérentavelesonlusionsréaliséesquantàlaséletion
desvarianesassoiées auxeets aléatoires,onpeut donpenserqueladiulté de
séletion/estimationdes varianesassoiées auxeetsaléatoiresinuenefortement
leoût numérique global de la proédure.
Autermedeettepremièreétudeonernantlesproéduresdeséletiondeseets
xes etaléatoires basées sur une approhe jointe des modèles mixtes, deux
onlu-sionsprinipales peuvent être mises en avant: d'unepart, l'utilisationde méthodes
relaxéestellesqueproposéesparMeinshausen(2007)permettentdestabiliserle
pro-essus de séletionet de e fait, d'améliorer lapréisiondes estimateurs résultants.
De plus, en orant un temps de alul bien inférieur, nous privilégierons l'usage de
la proédure appelée "Minimax.relaxe où l'hyperparamètre assoié à l'estimation
des eets xes est xé auseuil universel.
Néanmoins, les ongurations simulées dans ette première étude sont peu
réa-listes ar elles séparent les parimoniesdes eets xes et aléatoires. Nous