• Aucun résultat trouvé

3.2 Traitement de la colinéarité - Sélection de variables

3.2.1 Sélection par optimisation

Cette approche consiste à produire toutes les combinaisons possibles de variables exogènes, puis de choisir la régression qui maximise un critère de qualité. Le premier écueil est le nombre de cas à évaluer, il est égal à2p1, ce qui peut se révéler prohibitif lorsquepest élevé. Il faut donc choisir une stratégie de recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale. Il existe un grand nombre de techniques d'exploration dans la littérature (ex. approches gloutonnes, approches best rst search, algorithmes génétiques, etc.). Elles se distinguent par leur complexité et leur aptitude à trouver la solution maximisant le critère.

Mais quel critère justement ? C'est ce que nous allons étudier maintenant.

Critère duR2

LeR2 semble de prime abord évident. Il exprime la part de la variance expliquée par le modèle. C'est le premier critère que l'on regarde dans une régression. On essaie de trouver la combinaison de variables qui maximise leR2.

En réalité, il ne convient pas. En eet, le R2 augmente de manière mécanique avec le nombre de variables : plus on ajoute de variables, meilleur il est, même si ces variables ne sont absolument pas pertinentes. A la limite, on connaît d'oce la solution optimale : c'est le modèle comportant lespvariables candidates.

Dans un processus de sélection de modèle, leR2conviendrait uniquement pour comparer des solutions comportant le même nombre de variables.

Critère duR2 corrigé

Le R2 corrigé, noté R¯2, tient compte des degrés de liberté, donc du nombre de variables introduits dans le modèle. Il rend comparable des régressions comportant un nombre d'exogènes diérent. Pour bien

comprendre la diérence, rappelons la formule duR2

LeR¯2 introduit une correction par les degrés de liberté, il s'écrit R¯2= 1−CM R

CM T = 1−SCR/(n−q−1)

SCT /(n−1) (3.3)

CM Rsont les carrés moyens résiduels,CM T les carrés moyens totaux,qest le nombre de variables dans le modèle évalué.

Il est possible d'exprimer leR¯2 à partir duR2 R¯2= 1 n−1

n−q−1(1−R2) (3.4)

On voit bien le mécanisme qui se met en place. Deux eets antagonistes s'opposent lorsque l'on ajoute une variable supplémentaire dans le modèle :R¯2augmente parce queR2s'améliore,R¯2diminue parce que le nombre d'exogènesqprend une valeur plus élevée. Tant que la précision du modèle quantiée parR2 prend le pas sur la complexité du modèle quantiée parq, nous pouvons ajouter de nouvelles variables.

Si le principe est sain, on se rend compte dans la pratique que ce critère est trop permissif. L'eet contraignant de q n'est pas assez fort dans la formulation duR¯2 (Équation 3.4). Le critère favorise les solutions comportant un grand nombre de variables. Il faut trouver des formulations plus restrictives.

Critères AIC et BIC

Ces critères s'appuient sur la même idée : mettre en balance la précision du modèle quantié par le R2 (ou leSCR, c'est la même chose puisqueSCT est constant quel que soit le modèle à évaluer) avec la complexité du modèle quantiée par le nombre de variables qu'il comporte.

Avec le critère Akaike (AIC), nous cherchons la régression qui minimise la quantité suivante : AIC=nlnSCR

n + 2(q+ 1) (3.5)

Avec le critère BIC de Schwartz, nous cherchons à optimiser BIC =nlnSCR

n + ln(n)(q+ 1) (3.6)

Dès quen > e27, on constate que le critère BIC pénalise plus fortement les modèles complexes. Il favorise les solutions comportant peu de variables.

Remarque 17 (Complexité et colinéarité entre les exogènes). Notons que ces techniques de sélection ne tiennent pas compte explicitement de la redondance entre les variables. Cela est fait de manière implicite

avec la pénalisation de la complexité : deux explicatives corrélées n'améliorent guère le SCR mais sont pénalisées parce que la complexité augmente, elles ne peuvent pas être simultanément présentes dans le modèle.

Critère du PRESS

Maximiser le coecient de déterminationR2n'est pas approprié. Rappelons que R2= 1−SCR

SCT

SCT, la somme des carrés totaux est constante quelle que soit la régression considérée ;SCRest dénie de la manière suivante :

SCR=

n i=1

(yi−yˆi)2

Lorsque l'on rajoute de nouvelles variables dans le modèle, même non pertinentes, SCR diminue mécaniquement (au pire il reste constant), et par conséquentR2augmente. Cela provient du fait que l'on confronte la vraie valeur yi avec la prédictionyˆi alors que l'observationi a participé à l'élaboration du modèle. A l'extrême, si on se contente que créer autant de dummy variable qu'il y a d'observations, nous sommes assurés d'obtenir unR2= 1puisque nous réalisons une interpolation.

Pour avoir une estimation honnête des performances en prédiction, il ne faudrait pas que l'observation iparticipe à la construction du modèle lorsqu'on veut prédire sa valeur de l'endogène. Elle intervient ainsi comme une observation supplémentaire6. On déduit alors un indicateur similaire au SCR que l'on appelle PRESS (Predicted Residual Sum of Squares)7:

P RESS=

n i=1

(yi−yˆi(−i))2 (3.7)

yˆi(−i) est la prédiction de la valeur de l'endogène pour l'observationiutilisée en donnée supplé-mentaire dans la régression numéroi.

Calcul pratique du PRESS

Tout comme lors du calcul de certains indicateurs lors de la détection des points atypiques, nous ne saurions eectuer réellement n régressions, surtout lorsque les eectifs sont élevés. Encore une fois la matrice H nous sauve la mise, il est possible de calculer le PRESS à partir de la seule régression sur l'ensemble des observations en utilisant la relation suivante

yi−yˆi(−i) =yi−yˆi

1−hi (3.8)

6. Cela n'est pas sans rappeler la distinction que nous faisions entre les résidus standardisés et studentisés dans la détection des points atypiques.

7. http://www.ltrr.arizona.edu/~dmeko/notes_12.pdf

Procédure de sélection basée sur le PRESS

A la diérence duR2, nous disposons d'un critère honnête d'évaluation des performances en prédiction.

Il est possible dès lors de dénir une stratégie de sélection de variables uniquement basé sur ce critère de performances, sans tenir compte explicitement de la complexité du modèle. En eet, dans la pratique, on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir explicatif, leR2 peut s'améliorer (fallacieusement), le PRESS lui en revanche se dégrade, indiquant par là l'inutilité de la variable.

Remarque 18 (Wrapper). Notons pour l'anecdote que ce type de stratégie de sélection de variables dans le domaine de l'apprentissage automatique (grosso modo, il s'agit de problèmes de prédiction où la variable à prédire est qualitative) est connu sous le terme générique wrapper. Sauf, qu'à ma connaissance, les procédures construisent explicitement lesnmodèles de prédiction (moins si on décide d'exclure non pas une seule maiskobservations à chaque phase de construction de modèle)8.

Application : calcul du PRESS sur les données CONSO

Calculons le PRESS à partir des coecients de la régression estimées sur les27observations (Figure 2.18). Nous procédons par étapes (Figure 3.4) :

Fig. 3.4. Calcul du PRESS sur les données CONSO - Régression à4explicatives

8. Kohavi, R., John, G., Wrappers for Feature Subset Selection, in Articial Intelligence, (97)1-2, P. 273-324, 1997 http://citeseer.ist.psu.edu/cache/papers/cs/124/http:zSzzSzrobotics.stanford.

eduzSz~ronnykzSzwrappers.pdf/kohavi97wrappers.pdf

1. Nous utilisons les coecients de la régression pour calculer la prédiction en resubstitutionyˆi; 2. Nous formons alors l'erreur de prédictionεˆi=yi−yˆi;

3. Nous calculons les éléments diagonaux de la Hat Matrix, qui sont ni plus ni moins que les leviers (leverage)hi= [X(XX)1X]ii;

4. Nous formons l'erreur de prédiction en donnée supplémentaire yi−yˆi(−i) =1εˆih

i; 5. Nous en déduisons leP RESS=∑n

i=1[yi−yˆi(−i)]2= 13.54.

Notons pour rappel que SCR= 9.33(Figure 2.18), nous avons systématiquement la relationSCR≤ P RESS. Plus l'écart entre ces deux indicateurs est élevé, plus nous suspectons un sur-apprentissage c.-à-d. le modèle "colle" trop aux données, il intègre des spécicités du chier et ne restitue plus la vraie relation qui existe dans la population.

Calcul du PRESS sur les données CONSO - Modèle simplié

A titre de comparaison, nous avons calculé le PRESS du modèle n'utilisant que CYLINDRÉE et POIDS comme explicatives. A priori le modèle est de moins bonne qualité puisque leR2 = 0.92768 et laSCR= 9.57211sont moins avantageux que ceux de la régression à4 variables (PRIX, CYLINDRÉE, PUISSANCE, POIDS) avec respectivement R2 = 0.92952 et SCR = 9.3285. Et pourtant, le modèle simplié s'avère plus performant en prédiction avecP RESS= 11.694(Figure 3.5), contreP RESS = 13.54précédemment.

Cela montre combien la recherche d'un modèle parcimonieux est tout sauf une élucubration esthétique.

Elle permet d'améliorer (souvent) l'ecacité des modèles lors du déploiement dans la population. Les prédictions sont plus précises.

Sélection de variables sur les données CONSO - Critère AIC

Nous allons essayer de trouver le modèle optimal qui minimise le critère AIC. Nous adoptons une démarche backward. Elle consiste, à partir du modèle complet comportant toutes les variables, à éliminer unes à unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la suppression d'une variable améliore le critère.

Voici le détail de la procédure :

1. calculer l'AIC pour le modèle comportant l'ensemble courant de variables ;

2. évaluer l'AIC consécutive à la suppression de chaque variable du modèle, choisir la suppression en-traînant la plus forte diminution et vérier qu'elle propose une amélioration du critère par rapport à la situation précédente ;

3. si NON, arrêt de l'algorithme ; si OUI, retour en (1).

Fig. 3.5. Calcul du PRESS sur les données CONSO - Régression à2explicatives (CYLINDRÉE, POIDS)

Appliqué sur le chier CONSO de27observations, nous obtenons la séquence de calculs9:

Étape Modèle courant (cte = constante) AIC Suppression d'une variable (AIC)

1 y = prix + cylindrée + puissance + poids + cte 18.69

puissance→ −20.6188 prix → −20.0081 cylindrée → −17.4625 poids → −12.1155

2 y = prix + cylindrée + poids + cte 20.6188

prix → −21.9986 cylindrée→ −17.6000 poids → −13.3381 3 y = cylindrée + poids + cte 21.9986 cylindrée→ −13.3049 poids → −0.2785

Au départ, étape1, avec toutes les variables,AIC=18.69 = 27 ln9.32827 + 2(4 + 1). La suppression de la variable puissance entraîne la plus grande diminution du critère, il passe alors à20.6188, etc. A l'étape3, on constate qu'aucune suppression de variable n'améliore le modèle courant.

9. Nous avons utilisé la fonction stepAIC du package MASS du logiciel R

Le modèle optimal au sens du critère AIC est

y= 1.392276 + 0.01311×cylindree+ 0.004505×poids

Remarque 19 (Recherche forward). Si nous avions adopté une recherche forward c.-à-d. partir du modèle composé de la seule constante, ajouter au fur et à mesure une variable de manière à diminuer au possible le critère AIC, nous aurions obtenu le même ensemble nal de variables exogènes.