Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Choix du modèle F rédér ic et Myr iam Ber tr and1 1IRMA,UniversitéLouisPasteur Strasbourg,France Master 2ème Année 09-11-2006
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
CritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Il e xiste plusieurs cr itères pour sélectionner ( p − 1 ) v ar iab les e xplicativ es par mi k v ar iab les e xplicativ es disponib les . Le cr itère du R
2se révèle le plus utilisé.
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsCritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Un incon vénient majeur du R
2: Il augmente de façon monotone a v ec l’introduction de nouv elles v ar iab les même si celles-ci sont peu corrélées a v ec la v ar iab le e xpliquée . P our parer à cet incon vénient : On utilise le R
2ajusté ou un autre cr itère relatif au biais : le C
pde Mallo ws . Ces trois cr itères v ont être maintenant présentés .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsCritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Le coefficient de détermination m ultiple R 2 : Il a déjà déjà introduit (cf les chapitres précédents). C’est une mesure qui per met d’év aluer le deg ré d’adéquation du modèle . Lors de l’introduction du test F par tiel : accroissement de R2 au fur et à mesure de l’introduction de v ar iab les dans le modèle . Il atteint son maxim um lorsque toutes les v ar iab les disponib les au dépar t sont incluses .
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
CritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
P our comparer deux modèles a y ant le même nombre de v ariab les e xplicatives : comparer les R
2obten us et choisir le modèle pour lequel R
2le plus g rand. P our comparer un modèle a vec ( p − 1 ) v ariab les a vec un modèle ( p − 1 + r ) v ariab les : utiliser le test du F par tiel. Que nous dit ce test ? Ce test dit si l’introduction des v ar iab les supplémentaires augmente suffisamment le R
2ou non.
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsCritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Introduire un R
2qui concer ne la population et non plus l’échantillon défini par : R
2 pop= 1 − σ
2σ
2( Y ) . Estimer R
2 poppar : R
2 aj= 1 − s
2s
2( Y ) = 1 − SC
resSC
totn − 1 n − p .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsCritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Pr opriété sur R 2 aj : R2 aj< R
2 dès que p ≥ 2. R
2 ajpeut prendre des v aleurs négativ es . Intérêts de R
2 aj: R
2 ajn’augmente pas forcément lors de l’introduction de v ar iab les supplémentaires dans le modèle . possibilité de comparer deux modèles n’a y ant pas le même nombre de v ar iab les à l’aide du R
2 ajet choisir le modèle pour lequel R
2 ajest le plus g rand.
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
CritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Le critère du C p de Mallo ws est défini par : Cp= SC
res c σ
2− ( n − 2 p ) Mais il y a un prob lème ! : Lequel ? On ne peut plus estimer σ
2 par s
2 = SC
res n − p . P our quoi ? Car C
pv audr ait toujours p et alors il ne ser ait plus intéressant.
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
CritèreduR2 CritèreduR2ajusté LecritèreduCpdeMallows
Que fait-on dans la pratique ? On estime σ2 par le s
2 du modèle qui fait inter v enir toutes les k v ar iab les e xplicativ es du modèle à disposition. P our ce modèle on a : C
p= p . Et pour les autres ? C
p prendr a d’autres v aleurs que p . On choisit par mi les modèles le modèle où C
pde Mallo ws est le plus proche de p .
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Plusieur s types de pr océdures de sélection de v ariab les : la recherche e xhaustiv e les méthodes de type pas à pas . L’efficacité de ces méthodes n’est pas démentie mais il est impossib le de se fier aux résultats four nis par un prog ramme inf or matique . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Quant à décider ou suppr imer une v ar iab le dans un modèle , il faut conser v er : une par t d’intuition une par t de déduction une par t de synthèse . Sur tout ne pas oub lier l’objectif rec her c hé !
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Ex emples : P our rendre l’équation utile à des fins de prévision, il est souhaitab le que le modèle contienne un maxim um de v ar iab les e xplicativ es afin d’en augmenter le pouv oir e xplicatif . En raison du coût éle vé relatif à l’obtention d’inf or mations pour un g rand nombre de v ar iab les e xplicativ es , l’analyste souhaite a v oir un modèle a v ec un minim um de v ar iab les e xplicativ es . FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
P our obtenir un compromis entre ces deux e xtrêmes , le statisticien dispose d’ une gamme de méthodes : la recherche e xhaustiv e la méthode descendante la méthode ascendante la rég ression stepwise deux v ar iantes des quatre méthodes précédentes la rég ression stage wise . T outes ces procédures ne mènent pas forcément à la même solution quand elles sont appliquées au même prob lème .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Lorsque le nombre k de v ar iab les e xplicativ es à disposition n’est pas trop éle vé, il est en visageab le de considérer tous les modèles possib les . On a C
r k= k ! r !( k − r )! modèles différents faisant inter v enir r v ar iab les e xplicativ es . Cela fait
kX
r=0C
r k= 2
kmodèles possib les à considérer . On choisit ensuite le modèle pour lequel, par e x emple , le R
2 ajest le maxim um.
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Les méthodes de type pas à pas consistent à considérer d’abord un modèle faisant inter v enir un cer tain nombre de v ar iab les e xplicativ es . Puis on procède par élimination ou ajout successif de v ar iab les . On par le de la méthode descendante lorsqu’on élimine des v ariab les (elle ser a dév eloppée dans le par ag raphe 4) On par le de la méthode ascendante lorsqu’on ajoute des v ariab les (elle ser a dév eloppée dans le par ag raphe 5). La méthode stepwise est une combinaison de ces deux méthodes (elle ser a dév eloppée dans le par ag raphe 6).
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
La rec her c he e xhaustive est une méthode fastidieuse et difficile à utiliser sans un ordinateur rapide . P our quoi ? Il faut calculer toutes les rég ressions possib les impliquant un sous-ensemb le des k v ar iab les e xplicativ es à disposition, soit un total de 2k rég ressions .
FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Que fait-on ensuite ? Ces équations sont répar ties selon le nombre r de v ar iab les e xplicativ es qu’elles contiennent. Chaque ensemb le d’équations est ordonné selon le cr itère choisi, souv ent le R
2. Les meilleures équations de rég ression issues de ce classement sont ensuite sélectionnées pour un e xamen plus détaillé.
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Méthode descendante (ou élimination en arr ière) est une simplification de la méthode de la recherche e xhaustiv e . En quoi est-elle une simplification ? Cette méthode e xamine non pas toutes les rég ressions possib les mais uniquement une rég ression pour chaque nombre r de v ar iab les e xplicativ es . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
En pratique comment fait-on ? Calculer la rég ression pour le modèle incluant toutes les k v ar iab les e xplicativ es à diposition. Eff ectuer un test de Student pour chacune des v ar iab les e xplicativ es . Deux cas se présentent : Les v ar iab les sont trouv ées significativ es . Ce modèle est alors choisi. On stoppe là notre analyse . Éliminer la v ar iab le la m oins significativ e du modèle . Recommencer le processus a v ec une v ar iab le en moins . Le modèle final est donc un modèle au sein duquel toutes les v ar iab les sont significativ es . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Conc lusions : La méthode descendante est très satisf aisante pour l’utilisateur préfér ant a v oir toutes les v ar iab les possib les afin de ne rien ignorer . C’est une procédure plus économique en ter me de temps et d’inter prétation Mais il y a un incon vénient majeur . Il n’est plus possib le de réintroduire une v ar iab le une fois qu’elle a été suppr imée ! FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Méthode ascendante (ou sélection en a v ant) : C’est également une simplification de la méthode de la recherche e xhaustiv e . Cette méthode procéde dans le sens in v erse de la méthode descendante . Cette méthode e xamine un modèle a v ec une seule v ar iab le e xplicativ e puis introduction une à une d’autres v ar iab les e xplicativ es .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
En pratique comment fait-on ? Eff ectuer les k rég ressions possib les a v ec une seule v ar iab le e xplicativ e . P our chacune d’elles , eff ectuer le test de Student . Retenir le modèle pour lequel la v ar iab le e xplicativ e est la plus significativ e . Eff ectuer les ( k − 1 ) rég resions possib les a v ec deux v ar iab les e xplicativ es . P our chacune d’elles , eff ectuer le test de Student pour la nouvelle v ariab le . Retenir le modèle pour lequel la v ar iab le est la plus significativ e . Si aucune v ar iab le est reten ue , alors on stoppe le processus . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Sinon Réitérer le processus en eff ectuant les ( k − 2 ) rég ressions possib les a v ec trois v ar iab les e xplicativ es . P our chacune d’elles , eff ectuer le test de Student pour la nouvelle v ariab le . Retenir le modèle pour lequel la v ar iab le est la plus significativ e . Si aucune v ar iab le est reten ue , alors on stoppe le processus . Sinon Réitèrer le processus en eff ectuant les ( k − 3 ) rég ressions possib les a v ec quatre v ar iab les e xplicativ es ... Le processus se ter mine lorsqu’on ne peut plus introduire des v ar iab le significativ es dans le modèle .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
P ar mi les méthodes présentées , la méthode ascendante est la plus économique . Les a v anta g es de la méthode ascendante : éviter de tr a v ailler a v ec plus de v ar iab les que nécessaire , améliorer l’équation à chaque étape . L ’incon vénient majeur de la méthode ascendante : une v ar iab le introduite dans le modèle ne peut plus être éliminée . Le modèle final peut alors contenir des v ar iab les non significativ es . Ce pr ob lème est alor s résolu par la pr ocèdure stepwise .
FrédéricetMyriamBertrandChoixdumodèleLescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Pr ocèdure stepwise : amélior ation de la méthode descendante . P our quoi ? À chaque étape , on rée xamine toutes les v ar iab les introduites précédemment dans le modèle . En eff et, une v ar iab le considérée comme la plus significativ e à une étape de l’algor ithme peut à une étape ultér ieure de v enir non significativ e . P our quoi ce phénomène ? En raison de ces corréla tions a v ec d’autres v ar iab les introduites après coup d ans le modèle . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Comment remédie-t-on à cela ? La pr océdure stepwise propose après l’introduction d’une nouv elle v ar iab le dans le modèle : rée xaminer les tests de Student pour chaque v ar iab le e xplicativ e anciennement admise dans le modèle , après rée xamen, si des v ar iab les ne sont plus significativ es , alors retirer du modèle la moins significative d’entre elles . Le processus contin ue jusqu’à ce que plus aucune v ar iab le ne puisse être introduite ni retirée du modèle .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsRechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
La pr océdure stepwise semb le être la meilleure procédure de sélection de v ar iab les . Mais la pr océdure stepwise peut facilement ab user l’utilisateur qui a tendance à se focaliser e xclusiv ement sur le résultat de la sélection automatique proposé par l’outil inf or matique . En eff et, il faut se méfier de cer taines situations : celles où appar ait un phénomène de m ulticolinéarité que nous étudierons dans un prochain chapitre . FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Rechercheexhaustive Lesméthodesdetypepasàpas Rechercheexhaustive Méthodedescendante Méthodeascendante Procédurestepwise
Un e x emple : X
1et X
2e xpliquant significativ ement Y , sont for tement corrélées entre elles . L’introduction de X
1dans le modèle masquer a le pouv oir e xplicatif de X
2. En eff et, l’introduction de X
1en premier v a accroitre le R
2alors que l’introduction ultér ieure de X
2pro v oquer a un faib le eff et. Et réciproquement.
FrédéricetMyriamBertrandChoixdumodèleLescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
Lapremièrevariantedesméthodesprécédentes Lasecondevariantedesméthodesprécédentes
Premières remar ques : Les méthodes présentées jusqu’ici : ne sélectionnent pas nécessairement le meilleur modèle absolu, mais donnent génér alement un modèle acceptab le . Des procédures alter nativ es et combinatoires sont appar ues . On présenter a très br ièv ement seulement deux méthodes dans ce cours .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsLapremièrevariantedesméthodesprécédentes Lasecondevariantedesméthodesprécédentes
La première méthode : eff ectuer d’abord la procédure stepwise . Supposons que le modèle sélectionné contient r v ar iab les e xplicativ es . Eff ectuer alors C
r krég ressions possib les utilisant r v ar iab les . Choisir comme modèle final celui pour lequel R
2est maximal. D’un point de vue pr atique , les améliorations appor tées par cette pr océdure sont faib les ...et nécessitent beaucoup de calculs .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsLapremièrevariantedesméthodesprécédentes Lasecondevariantedesméthodesprécédentes
La deuxième méthode : utiliser deux seuils de signification différents lors de l’utilisation de la méthode stepwise : un cer tain seuil (par e x e mple α = 0 , 05) lors de la procédure d’élimination de v ar iab les , un seuil plus petit (par e x emple α = 0 , 01) lors de la procédure d’introduction de v ar iab les .
FrédéricetMyriamBertrandChoixdumodèle Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise QuelquesconclusionsLapremièrevariantedesméthodesprécédentes Lasecondevariantedesméthodesprécédentes
On fa v or ise l’introduction des v ar iab les les plus significativ es , tout en acceptant de les maintenir dans le modèle si elles de viennent par la suite un peu moins significativ es . C’est intéressant d’utiliser cette méthode . P our quoi ? Cette méthode propose un modèle alter natif au modèle donné par la méthode stepwise tout en maintenant son pouv oir e xplicatif .
FrédéricetMyriamBertrandChoixdumodèleLescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions
La pr océdure de régresion sta g e wise diffère des procédures présentées ci-dessus . P our quoi ? La pr océdure de régresion sta g e wise n’aboutit pas toujours à une équation obten ue par la méthode des moindres carrés . FrédéricetMyriamBertrandChoixdumodèle
Lescritèresdechoix Procéduresdesélectiondevariables Deuxvariantesdesméthodesprécédentes Procédurederégressionstagewise Quelquesconclusions