E
RREUR DE PRÉDICTIONC
HOIX DE MODÈLES ET MESURE DE PERFORMANCEJulie Scholler - Bureau B246
février 2020
M Éc E n
I. Introduction
Introduction
La performance du modèle issu d’une méthode d’apprentissage s’évalue par sa capacité de prédiction. La mesure de l’erreur de prédiction est très importante.
L’erreur de prédiction
• permet d’opérer une sélection de modèles dans une famille associée à la méthode d’apprentissage
• guide le choix de modèles en comparant chacun des modèles sélectionnés à l’étape précédente
• fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision
I. Introduction
Situation
• Y : variable à prédire (ou expliquer)
• X = (X1,X2, . . . ,Xp) : variables explicatives ou prédicteurs
• Y = f(X) +ε : modèle à estimer, avec ε le terme d’erreur (E(ε) = 0, indépendant de X)
Modèle
échantillon de taille n ⇒ un modèle de prédiction bfn Erreur de prédiction
Err = E
1Y6=
bf(X)
ou 1 N
X
ω∈Ωpop
1Y(ω)6=
bfn(X(ω))
Problème : on ne dispose pas de la loi de (Y,X) ou de toute la population.
Comment estimer l’erreur de prédiction ?
II. Erreur de resubstitution
Erreur de resubstitution
Échantillon observé : (xi)i=1,...,n et (y)i=1,...,n
Erreur de resubstitution ou qualité d’ajustement sur l’échantillon observé ou erreur en apprentissage ou erreur apparente
Edrr(appr) = 1 n
n
X
i=1
1yi6=
bfn(xi)
II. Erreur de resubstitution
Erreur de resubstitution
Problèmes
• estimation biaisée : biais d’optimisme
• dépend des caractéristiques du classifieur, complexité, sur-ajustement
• plus un point influe sur sa propre affectation, plus le biais d’optimisme sera élevé (knn-1 : 0% d’erreur de resubstitution)
• ne dépend que de la partie biais de l’erreur de prédiction
II. Erreur de resubstitution
Solutions
Stratégies pour palier ce biais d’optimisme
• pénalisation de l’erreur de resubstitution par la complexité du modèle
• partage de l’échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l’erreur de prédiction
• usage intensif du calcul par la mise en œuvre de simulations Facteurs de choix
• taille de l’échantillon initial
• situation paramétrique ou non
• complexité des algorithmes, volume de calcul admissible
II. Erreur de resubstitution
Pénalisation de l’erreur de resubstitution
Idée
• estimer l’optimisme de l’estimateur précédent
• corriger ce biais en ajoutant une pénalité
• pénalité liée à la variance et la complexité du modèle Exemples
• Cp de Mallows
• critère d’information d’Akaike : AIC
• critère bayésien d’information : BIC Inconvénient
• uniquement utilisable en situation paramétrique
III. Partage de l’échantillon
Partage de l’échantillon
Idée
• dissocier les données servant à construire le modèle de celles servant à l’évaluer
• calculer Edrr sur un échantillon indépendant de celui ayant servi à l’estimation du modèle
Découpage des données : D = Dappr ∪ Dtest
• Dappr : utilisé pour estimer bf
• Dtest : utilisé pour estimer l’erreur de prédiction : Edrr(test)
III. Partage de l’échantillon
Remarques
• estimation non biaisée de l’erreur de prédiction du modèle construit
• estimation biaisée de l’erreur de prédiction du modèle construit sur l’ensemble de l’échantillon (modèle testé de moins bonne qualité que le modèle final)
• variance de l’estimateur peut être importante et ne peut être estimée
Compromis biais-variance
• plus l’échantillon de test est grand, plus l’estimation est précise (variance faible)
• plus l’échantillon est grand, plus l’estimation est biaisée
III. Partage de l’échantillon
Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000
et pour méthode : analyse discriminante linéaire
10 100 1000 5000
0.00.20.40.6
III. Partage de l’échantillon
Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000
et pour méthode 3-plus proches voisins
10 100 1000 5000
0.000.020.040.06
III. Partage de l’échantillon
Modification du ratio de la taille
de l’échantillon d’apprentissage sur la taille de l’échantillon de test pour la méthode 3-plus proches voisins
4900-100 4500-500 4000-1000 2500-2500
0.000.010.020.030.04
III. Partage de l’échantillon
Partage d’échantillon et choix de modèle
Découpage des données : D = Dappr ∪ Dvalid ∪ Dtest
• Dappr : utilisé pour estimer bf
• Dvalid : utilisé pour comparer des modèles au sein d’une famille afin d’en choisir un minimisant cette erreur
• Dtest : utilisé pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées
IV. Simulations d’échantillons
Simulations d’échantillons
Idée
• itérer l’estimation de l’erreur sur plusieurs échantillons construits par rééchantillonnage
• calculer la moyenne des estimations obtenues Gains
• réduction de la variance
• amélioration de la précision lorsque la taille initiale de l’échantillon est trop réduite
IV. Simulations d’échantillons
Rééchantillonnage
• Méthodes basées sur de nouveaux échantillons construits à partir de l’échantillon initial
• Mise en place
• Création des nouveaux échantillons grâce à des simulations informatiques
• analyse de ces « nouvelles » données pour « raffiner » l’inférence
• Utilisation classiques
• estimation d’un IC sans hypothèse sur la famille de lois
• validation d’un modèle de prédiction
• Différentes méthodes et historique
• Validation croisée : 1948
• Jackknife par Quenouille et Tukey : 1958
• Bootstrap par Efron : 1979
IV. Simulations d’échantillons
Validation croisée
Algorithme
• découper aléatoirement uniformément l’échantillon en K blocs de tailles égales ou proches
• pour chaque k = 1, . . . ,K :
• mettre de côté le ke bloc
• construire le modèle à partir des données des k −1 blocs restants
• calculer l’erreur sur chacune des observations n’ayant pas participé à la construction du modèle
• faire la moyenne des toutes ces erreurs pour aboutir à l’estimation par validation croisée de l’erreur de prédiction
IV. Simulations d’échantillons
Fonction d’indexation (aléatoire)
τ : {1, . . . ,n} → {1, . . . ,K}
telle que, pour tout k dans {1, . . . ,K}, les ensembles τ−1(k) soient de tailles égales ou proches
Estimation de l’erreur de prédiction
Edrr(CV) = 1 n
n
X
i=1
1yi6=
bf(−τ(i))(xi)
avec bf(−k) estimation de f sur les données privées du ke bloc
IV. Simulations d’échantillons
Choix de K
Cas où K = n dit Leave One Out (LOOCV) : Edrr(LOOCV)
• biais très faible : chaque échantillon d’apprentissage est de taille n − 1
• très coûteux en temps de calcul (sauf situation particulière)
• variance très importante car on fait la moyenne d’estimations calculées sur n modèles entraînés sur des échantillons
quasiment identiques Cas où K < n
• plus K est petit, plus le biais est grand
• plus K est petit, plus la variance est faible Compromis biais-variance : K entre 5 et 10
IV. Simulations d’échantillons
Estimation de l’erreur de prédiction par validation croisée pour différentes valeurs de K
2 3 4 5 6 7 8 9 10 11 12 13 14 15
0.0060.0080.0100.012
IV. Simulations d’échantillons
Utilisation classique de la validation croisée
Choix d’un paramètre optimal au sein d’une famille de modèle bf
bλ = argmin
λ
Edrrλ(CV)
IV. Simulations d’échantillons
Choix du paramètre k pour le modèle des k plus proches voisins par validation croisée
5 10 15 20
0.00700.0085
erreur
5 10 15 20
0.00600.0080
erreur
IV. Simulations d’échantillons
Exemple de mauvaise utilisation
Scénario
• échantillon de taille n = 50
• deux classes de tailles équivalentes
• p = 500 prédicteurs de loi N(0; 1) indépendants entre eux et indépendants des classes à prédire
Procédure
• Étape 1 : choix des prédicteurs les plus corrélés
• Étape 2 : estimation de l’erreur de prédiction par méthode de validation croisée du modèle 1-nearest neighbors
50 simulations de ce procédé : moyenne du taux d’erreur de 3%
Véritable erreur de prédiction : 50%
IV. Simulations d’échantillons
Exemple de mauvaise utilisation
Problème : les prédicteurs choisis ont un avantage injuste, ils ont été choisis en considérant toutes les données.
Bonne façon de procéder :
• on divise l’échantillon en K sous-groupes aléatoirement
• pour chaque k entre 1 et K
• on choisit un bon sous ensemble de prédicteur en n’utilisant pas le groupe k
• on construit le modèle sans le groupe k
• on effectue les prédictions sur le groupe k
• on calcule l’erreur de prédiction sur le groupe k
• on effectue la moyenne des erreurs calculées
IV. Simulations d’échantillons
De la bonne utilisation de la validation croisée
Quand une procédure nécessite plusieurs étapes de construction, la validation croisée doit s’appliquer à toute la suite d’étapes.
IV. Simulations d’échantillons
Bootstrap
Principe
• création de nouveaux échantillons par tirage aléatoire avec remise parmi l’échantillon initial
• création d’un modèle sur chacun de ces nouveaux échantillons
• utilisation de ces modèles pour estimer l’erreur de prédiction
IV. Simulations d’échantillons
Population complète
échantillon initial de taille n
1 2 3 4 B ... B
échantillons bootstrap
estimations bootstrap de f
→bf1∗
→bf2∗
→bf3∗
→bf4∗
→bfB∗
IV. Simulations d’échantillons
Bootstrap
Algorithme
répéter B fois (on parle de réplications)
• tirage avec remise d’un échantillon de taille n : Ωb, appelé échantillon bootstrap
• construire le modèle sur l’échantillon bootstrap Ωb
• calculer l’erreur sur l’ensemble des données de départ
Estimation de l’erreur de prédiction
Edrr(Boot) = 1 B
B
X
b=1
1 n
n
X
i=1
1y
i6=bfb∗(xi)
avec bfb∗ estimation de f sur l’échantillon bootstrap Ωb
• généralement biaisé par optimisme
IV. Simulations d’échantillons
Estimateur bootstrap out-of-bag
Estimation de l’erreur de prédiction
Edrr(Boot −oob) = 1 n
n
X
i=1
1 Bi
X
b∈Ki
1yi6=
bf
∗ b (xi)
• Ki : ensemble des indices b des échantillons bootstrap ne contenant pas la ie observation à l’issue des B simulations
• Bi = Card(Ki) : nombre d’échantillons bootstrap ne contenant pas la ie observation à l’issue des B simulations
Remarques
• B doit être assez grand pour que toute observation n’ait pas été choisie au moins une fois (ou on enlève le termes tels que Ki = ∅)
• cet estimateur résout le problème du biais d’optimisme mais n’échappe pas au biais introduit par la réduction
IV. Simulations d’échantillons
Estimateur .632-Bootstrap
Probabilité qu’une observation fasse partie d’un échantillon bootstrap
P(xi ∈ Ωb) = 1−
1− 1 n
n
'
n grand 1− 1
e ' 0.632
On compense l’optimisme du taux d’erreur de resubstitution par le pessimisme du bootstrap out-of-bag par une combinaison
Edrr0.632 = 0.368 Edrr(Appr) + 0.632 Edrr(Boot − oob) Il existe un estimateur dit .632-Bootstrap+.
IV. Simulations d’échantillons
Validation croisée ou Bootstrap
• Conceptuellement le bootstrap est plus compliqué et moins utilisé que la validation croisée.
• Le boostrap joue un rôle central dans les algorithmes de combinaisons de modèles.
• La validation croisée est très répandue car simple à implémenter.
À effort de calcul égal : K = B
• Le bootstrap a une variance plus faible.
• La validation croisée est moins biaisée.
V. Conclusions
Estimation d’une erreur de prédiction
• opération délicate
• conséquences importantes
Recommandations
• en dehors de tout système d’hypothèses probabilistes, se
montrer prudent sur le caractère absolu d’une estimation dans l’objectif d’une certification : le recours à un échantillon test de bonne taille est incontournable dans ce cas
• en situation de choix de modèle au sein d’une même famille, un estimateur plus économique est adapté en supposant que le biais induit est identique d’un modèle à l’autre
• utiliser le même estimateur pour comparer l’efficacité des méthodes