Erreurs de prédiction

(1)

E

RREUR DE PRÉDICTION

C

HOIX DE MODÈLES ET MESURE DE PERFORMANCE

Julie Scholler - Bureau B246

février 2020

M Éc E n

I. Introduction

Introduction

La performance du modèle issu d’une méthode d’apprentissage s’évalue par sa capacité de prédiction. La mesure de l’erreur de prédiction est très importante.

L’erreur de prédiction

• permet d’opérer une sélection de modèles dans une famille associée à la méthode d’apprentissage

• guide le choix de modèles en comparant chacun des modèles sélectionnés à l’étape précédente

• fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision

(2)

I. Introduction

Situation

• Y : variable à prédire (ou expliquer)

• X = (X₁,X₂, . . . ,X_p) : variables explicatives ou prédicteurs

• Y = f(X) +ε : modèle à estimer, avec ε le terme d’erreur (E(ε) = 0, indépendant de X)

Modèle

échantillon de taille n ⇒ un modèle de prédiction ^bf_n Erreur de prédiction

Err = E

1_Y₆₌

b^f^(X)

ou 1 N

X

ω∈Ωpop

1_Y_(ω)6=

b^fn(X(ω))

Problème : on ne dispose pas de la loi de (Y,X) ou de toute la population.

Comment estimer l’erreur de prédiction ?

II. Erreur de resubstitution

Erreur de resubstitution

Échantillon observé : (x_i)_i_=1,...,n et (y)_i_=1,...,n

Erreur de resubstitution ou qualité d’ajustement sur l’échantillon observé ou erreur en apprentissage ou erreur apparente

Edrr(appr) = 1 n

n

X

i=1

1_y_i₆₌

b^fⁿ^(xi)

(3)

Erreur de resubstitution

Problèmes

• estimation biaisée : biais d’optimisme

• dépend des caractéristiques du classifieur, complexité, sur-ajustement

• plus un point influe sur sa propre affectation, plus le biais d’optimisme sera élevé (knn-1 : 0% d’erreur de resubstitution)

• ne dépend que de la partie biais de l’erreur de prédiction

Solutions

Stratégies pour palier ce biais d’optimisme

• pénalisation de l’erreur de resubstitution par la complexité du modèle

• partage de l’échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l’erreur de prédiction

• usage intensif du calcul par la mise en œuvre de simulations Facteurs de choix

• taille de l’échantillon initial

• situation paramétrique ou non

• complexité des algorithmes, volume de calcul admissible

(4)

Pénalisation de l’erreur de resubstitution

Idée

• estimer l’optimisme de l’estimateur précédent

• corriger ce biais en ajoutant une pénalité

• pénalité liée à la variance et la complexité du modèle Exemples

• C_p de Mallows

• critère d’information d’Akaike : AIC

• critère bayésien d’information : BIC Inconvénient

• uniquement utilisable en situation paramétrique

III. Partage de l’échantillon

Partage de l’échantillon

Idée

• dissocier les données servant à construire le modèle de celles servant à l’évaluer

• calculer E^drr sur un échantillon indépendant de celui ayant servi à l’estimation du modèle

Découpage des données : D = D_appr ∪ D_test

• D_appr : utilisé pour estimer ^bf

• D_test : utilisé pour estimer l’erreur de prédiction : E^drr(test)

(5)

Remarques

• estimation non biaisée de l’erreur de prédiction du modèle construit

• estimation biaisée de l’erreur de prédiction du modèle construit sur l’ensemble de l’échantillon (modèle testé de moins bonne qualité que le modèle final)

• variance de l’estimateur peut être importante et ne peut être estimée

Compromis biais-variance

• plus l’échantillon de test est grand, plus l’estimation est précise (variance faible)

• plus l’échantillon est grand, plus l’estimation est biaisée

Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000

et pour méthode : analyse discriminante linéaire

10 100 1000 5000

0.00.20.40.6

(6)

Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000

et pour méthode 3-plus proches voisins

10 100 1000 5000

0.000.020.040.06

Modification du ratio de la taille

de l’échantillon d’apprentissage sur la taille de l’échantillon de test pour la méthode 3-plus proches voisins

4900-100 4500-500 4000-1000 2500-2500

0.000.010.020.030.04

(7)

Partage d’échantillon et choix de modèle

Découpage des données : D = D_appr ∪ D_valid ∪ D_test

• D_appr : utilisé pour estimer ^bf

• D_valid : utilisé pour comparer des modèles au sein d’une famille afin d’en choisir un minimisant cette erreur

• D_test : utilisé pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées

IV. Simulations d’échantillons

Simulations d’échantillons

Idée

• itérer l’estimation de l’erreur sur plusieurs échantillons construits par rééchantillonnage

• calculer la moyenne des estimations obtenues Gains

• réduction de la variance

• amélioration de la précision lorsque la taille initiale de l’échantillon est trop réduite

(8)

Rééchantillonnage

• Méthodes basées sur de nouveaux échantillons construits à partir de l’échantillon initial

• Mise en place

• Création des nouveaux échantillons grâce à des simulations informatiques

• analyse de ces « nouvelles » données pour « raffiner » l’inférence

• Utilisation classiques

• estimation d’un IC sans hypothèse sur la famille de lois

• validation d’un modèle de prédiction

• Différentes méthodes et historique

• Validation croisée : 1948

• Jackknife par Quenouille et Tukey : 1958

• Bootstrap par Efron : 1979

Validation croisée

Algorithme

• découper aléatoirement uniformément l’échantillon en K blocs de tailles égales ou proches

• pour chaque k = 1, . . . ,K :

• mettre de côté le k^e bloc

• construire le modèle à partir des données des k −1 blocs restants

• calculer l’erreur sur chacune des observations n’ayant pas participé à la construction du modèle

• faire la moyenne des toutes ces erreurs pour aboutir à l’estimation par validation croisée de l’erreur de prédiction

(9)

Fonction d’indexation (aléatoire)

τ : {1, . . . ,n} → {1, . . . ,K}

telle que, pour tout k dans {1, . . . ,K}, les ensembles τ⁻¹(k) soient de tailles égales ou proches

Estimation de l’erreur de prédiction

Edrr(CV) = 1 n

n

X

i=1

1_y_i₆₌

b^f^(−τ(i))^(xi)

avec ^bf^(−k) estimation de f sur les données privées du k^e bloc

Choix de K

Cas où K = n dit Leave One Out (LOOCV) : E^drr(LOOCV)

• biais très faible : chaque échantillon d’apprentissage est de taille n − 1

• très coûteux en temps de calcul (sauf situation particulière)

• variance très importante car on fait la moyenne d’estimations calculées sur n modèles entraînés sur des échantillons

quasiment identiques Cas où K < n

• plus K est petit, plus le biais est grand

• plus K est petit, plus la variance est faible Compromis biais-variance : K entre 5 et 10

(10)

Estimation de l’erreur de prédiction par validation croisée pour différentes valeurs de K

2 3 4 5 6 7 8 9 10 11 12 13 14 15

0.0060.0080.0100.012

Utilisation classique de la validation croisée

Choix d’un paramètre optimal au sein d’une famille de modèle bf

bλ = argmin

λ

Edrr_λ(CV)

(11)

Choix du paramètre k pour le modèle des k plus proches voisins par validation croisée

5 10 15 20

0.00700.0085

erreur

5 10 15 20

0.00600.0080

erreur

Exemple de mauvaise utilisation

Scénario

• échantillon de taille n = 50

• deux classes de tailles équivalentes

• p = 500 prédicteurs de loi N(0; 1) indépendants entre eux et indépendants des classes à prédire

Procédure

• Étape 1 : choix des prédicteurs les plus corrélés

• Étape 2 : estimation de l’erreur de prédiction par méthode de validation croisée du modèle 1-nearest neighbors

50 simulations de ce procédé : moyenne du taux d’erreur de 3%

Véritable erreur de prédiction : 50%

(12)

Exemple de mauvaise utilisation

Problème : les prédicteurs choisis ont un avantage injuste, ils ont été choisis en considérant toutes les données.

Bonne façon de procéder :

• on divise l’échantillon en K sous-groupes aléatoirement

• pour chaque k entre 1 et K

• on choisit un bon sous ensemble de prédicteur en n’utilisant pas le groupe k

• on construit le modèle sans le groupe k

• on effectue les prédictions sur le groupe k

• on calcule l’erreur de prédiction sur le groupe k

• on effectue la moyenne des erreurs calculées

De la bonne utilisation de la validation croisée

Quand une procédure nécessite plusieurs étapes de construction, la validation croisée doit s’appliquer à toute la suite d’étapes.

(13)

Bootstrap

Principe

• création de nouveaux échantillons par tirage aléatoire avec remise parmi l’échantillon initial

• création d’un modèle sur chacun de ces nouveaux échantillons

• utilisation de ces modèles pour estimer l’erreur de prédiction

Population complète

échantillon initial de taille n

1 2 3 4 B ... B

échantillons bootstrap

estimations bootstrap de f

→bf₁^∗

→bf₂^∗

→bf₃^∗

→bf₄^∗

→bf_B^∗

(14)

Bootstrap

Algorithme

répéter B fois (on parle de réplications)

• tirage avec remise d’un échantillon de taille n : Ω_b, appelé échantillon bootstrap

• construire le modèle sur l’échantillon bootstrap Ω_b

• calculer l’erreur sur l’ensemble des données de départ

Edrr(Boot) = 1 B

B

X

b=1

1 n

n

X

i=1

1_y

i6=b^f_b^∗^(xi)

avec ^bf_b^∗ estimation de f sur l’échantillon bootstrap Ω_b

• généralement biaisé par optimisme

Estimateur bootstrap out-of-bag

Edrr(Boot −oob) = 1 n

n

X

i=1

1 B_i

X

b∈Ki

1_y_i₆₌

b^f

∗ b (x_i)

• K_i : ensemble des indices b des échantillons bootstrap ne contenant pas la i^e observation à l’issue des B simulations

• B_i = Card(K_i) : nombre d’échantillons bootstrap ne contenant pas la i^e observation à l’issue des B simulations

Remarques

• B doit être assez grand pour que toute observation n’ait pas été choisie au moins une fois (ou on enlève le termes tels que K_i = ∅)

• cet estimateur résout le problème du biais d’optimisme mais n’échappe pas au biais introduit par la réduction

(15)

Estimateur .632-Bootstrap

Probabilité qu’une observation fasse partie d’un échantillon bootstrap

P(x_i ∈ Ω_b) = 1−

1− 1 n

n

'

n grand 1− 1

e ' 0.632

On compense l’optimisme du taux d’erreur de resubstitution par le pessimisme du bootstrap out-of-bag par une combinaison

Edrr_0.632 = 0.368 E^drr(Appr) + 0.632 E^drr(Boot − oob) Il existe un estimateur dit .632-Bootstrap+.

Validation croisée ou Bootstrap

• Conceptuellement le bootstrap est plus compliqué et moins utilisé que la validation croisée.

• Le boostrap joue un rôle central dans les algorithmes de combinaisons de modèles.

• La validation croisée est très répandue car simple à implémenter.

À effort de calcul égal : K = B

• Le bootstrap a une variance plus faible.

• La validation croisée est moins biaisée.

(16)

V. Conclusions

Estimation d’une erreur de prédiction

• opération délicate

• conséquences importantes

Recommandations

• en dehors de tout système d’hypothèses probabilistes, se

montrer prudent sur le caractère absolu d’une estimation dans l’objectif d’une certification : le recours à un échantillon test de bonne taille est incontournable dans ce cas

• en situation de choix de modèle au sein d’une même famille, un estimateur plus économique est adapté en supposant que le biais induit est identique d’un modèle à l’autre

• utiliser le même estimateur pour comparer l’efficacité des méthodes