• Aucun résultat trouvé

Erreurs de prédiction

N/A
N/A
Protected

Academic year: 2022

Partager "Erreurs de prédiction"

Copied!
16
0
0

Texte intégral

(1)

E

RREUR DE PRÉDICTION

C

HOIX DE MODÈLES ET MESURE DE PERFORMANCE

Julie Scholler - Bureau B246

février 2020

M Éc E n

I. Introduction

Introduction

La performance du modèle issu d’une méthode d’apprentissage s’évalue par sa capacité de prédiction. La mesure de l’erreur de prédiction est très importante.

L’erreur de prédiction

permet d’opérer une sélection de modèles dans une famille associée à la méthode d’apprentissage

guide le choix de modèles en comparant chacun des modèles sélectionnés à l’étape précédente

fournit, tous choix faits, une mesure de la qualité ou de la confiance à accorder à la prévision

(2)

I. Introduction

Situation

Y : variable à prédire (ou expliquer)

X = (X1,X2, . . . ,Xp) : variables explicatives ou prédicteurs

Y = f(X) +ε : modèle à estimer, avec ε le terme d’erreur (E(ε) = 0, indépendant de X)

Modèle

échantillon de taille n ⇒ un modèle de prédiction bfn Erreur de prédiction

Err = E

1Y6=

bf(X)

ou 1 N

X

ω∈Ωpop

1Y(ω)6=

bfn(X(ω))

Problème : on ne dispose pas de la loi de (Y,X) ou de toute la population.

Comment estimer l’erreur de prédiction ?

II. Erreur de resubstitution

Erreur de resubstitution

Échantillon observé : (xi)i=1,...,n et (y)i=1,...,n

Erreur de resubstitution ou qualité d’ajustement sur l’échantillon observé ou erreur en apprentissage ou erreur apparente

Edrr(appr) = 1 n

n

X

i=1

1yi6=

bfn(xi)

(3)

II. Erreur de resubstitution

Erreur de resubstitution

Problèmes

estimation biaisée : biais d’optimisme

dépend des caractéristiques du classifieur, complexité, sur-ajustement

plus un point influe sur sa propre affectation, plus le biais d’optimisme sera élevé (knn-1 : 0% d’erreur de resubstitution)

ne dépend que de la partie biais de l’erreur de prédiction

II. Erreur de resubstitution

Solutions

Stratégies pour palier ce biais d’optimisme

pénalisation de l’erreur de resubstitution par la complexité du modèle

partage de l’échantillon (apprentissage, validation, test) afin de distinguer estimation du modèle et estimations de l’erreur de prédiction

usage intensif du calcul par la mise en œuvre de simulations Facteurs de choix

taille de l’échantillon initial

situation paramétrique ou non

complexité des algorithmes, volume de calcul admissible

(4)

II. Erreur de resubstitution

Pénalisation de l’erreur de resubstitution

Idée

estimer l’optimisme de l’estimateur précédent

corriger ce biais en ajoutant une pénalité

pénalité liée à la variance et la complexité du modèle Exemples

Cp de Mallows

critère d’information d’Akaike : AIC

critère bayésien d’information : BIC Inconvénient

uniquement utilisable en situation paramétrique

III. Partage de l’échantillon

Partage de l’échantillon

Idée

dissocier les données servant à construire le modèle de celles servant à l’évaluer

calculer Edrr sur un échantillon indépendant de celui ayant servi à l’estimation du modèle

Découpage des données : D = Dappr ∪ Dtest

Dappr : utilisé pour estimer bf

Dtest : utilisé pour estimer l’erreur de prédiction : Edrr(test)

(5)

III. Partage de l’échantillon

Remarques

estimation non biaisée de l’erreur de prédiction du modèle construit

estimation biaisée de l’erreur de prédiction du modèle construit sur l’ensemble de l’échantillon (modèle testé de moins bonne qualité que le modèle final)

variance de l’estimateur peut être importante et ne peut être estimée

Compromis biais-variance

plus l’échantillon de test est grand, plus l’estimation est précise (variance faible)

plus l’échantillon est grand, plus l’estimation est biaisée

III. Partage de l’échantillon

Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000

et pour méthode : analyse discriminante linéaire

10 100 1000 5000

0.00.20.40.6

(6)

III. Partage de l’échantillon

Modification de la taille de l’échantillon de test avec comme taille de l’échantillon d’apprentissage : 5000

et pour méthode 3-plus proches voisins

10 100 1000 5000

0.000.020.040.06

III. Partage de l’échantillon

Modification du ratio de la taille

de l’échantillon d’apprentissage sur la taille de l’échantillon de test pour la méthode 3-plus proches voisins

4900-100 4500-500 4000-1000 2500-2500

0.000.010.020.030.04

(7)

III. Partage de l’échantillon

Partage d’échantillon et choix de modèle

Découpage des données : D = Dappr ∪ Dvalid ∪ Dtest

Dappr : utilisé pour estimer bf

Dvalid : utilisé pour comparer des modèles au sein d’une famille afin d’en choisir un minimisant cette erreur

Dtest : utilisé pour comparer entre eux les meilleurs modèles de chacune des méthodes considérées

IV. Simulations d’échantillons

Simulations d’échantillons

Idée

itérer l’estimation de l’erreur sur plusieurs échantillons construits par rééchantillonnage

calculer la moyenne des estimations obtenues Gains

réduction de la variance

amélioration de la précision lorsque la taille initiale de l’échantillon est trop réduite

(8)

IV. Simulations d’échantillons

Rééchantillonnage

Méthodes basées sur de nouveaux échantillons construits à partir de l’échantillon initial

Mise en place

Création des nouveaux échantillons grâce à des simulations informatiques

analyse de ces « nouvelles » données pour « raffiner » l’inférence

Utilisation classiques

estimation d’un IC sans hypothèse sur la famille de lois

validation d’un modèle de prédiction

Différentes méthodes et historique

Validation croisée : 1948

Jackknife par Quenouille et Tukey : 1958

Bootstrap par Efron : 1979

IV. Simulations d’échantillons

Validation croisée

Algorithme

découper aléatoirement uniformément l’échantillon en K blocs de tailles égales ou proches

pour chaque k = 1, . . . ,K :

mettre de côté le ke bloc

construire le modèle à partir des données des k 1 blocs restants

calculer l’erreur sur chacune des observations n’ayant pas participé à la construction du modèle

faire la moyenne des toutes ces erreurs pour aboutir à l’estimation par validation croisée de l’erreur de prédiction

(9)

IV. Simulations d’échantillons

Fonction d’indexation (aléatoire)

τ : {1, . . . ,n} → {1, . . . ,K}

telle que, pour tout k dans {1, . . . ,K}, les ensembles τ−1(k) soient de tailles égales ou proches

Estimation de l’erreur de prédiction

Edrr(CV) = 1 n

n

X

i=1

1yi6=

bf(−τ(i))(xi)

avec bf(−k) estimation de f sur les données privées du ke bloc

IV. Simulations d’échantillons

Choix de K

Cas où K = n dit Leave One Out (LOOCV) : Edrr(LOOCV)

biais très faible : chaque échantillon d’apprentissage est de taille n − 1

très coûteux en temps de calcul (sauf situation particulière)

variance très importante car on fait la moyenne d’estimations calculées sur n modèles entraînés sur des échantillons

quasiment identiques Cas où K < n

plus K est petit, plus le biais est grand

plus K est petit, plus la variance est faible Compromis biais-variance : K entre 5 et 10

(10)

IV. Simulations d’échantillons

Estimation de l’erreur de prédiction par validation croisée pour différentes valeurs de K

2 3 4 5 6 7 8 9 10 11 12 13 14 15

0.0060.0080.0100.012

IV. Simulations d’échantillons

Utilisation classique de la validation croisée

Choix d’un paramètre optimal au sein d’une famille de modèle bf

bλ = argmin

λ

Edrrλ(CV)

(11)

IV. Simulations d’échantillons

Choix du paramètre k pour le modèle des k plus proches voisins par validation croisée

5 10 15 20

0.00700.0085

erreur

5 10 15 20

0.00600.0080

erreur

IV. Simulations d’échantillons

Exemple de mauvaise utilisation

Scénario

échantillon de taille n = 50

deux classes de tailles équivalentes

p = 500 prédicteurs de loi N(0; 1) indépendants entre eux et indépendants des classes à prédire

Procédure

Étape 1 : choix des prédicteurs les plus corrélés

Étape 2 : estimation de l’erreur de prédiction par méthode de validation croisée du modèle 1-nearest neighbors

50 simulations de ce procédé : moyenne du taux d’erreur de 3%

Véritable erreur de prédiction : 50%

(12)

IV. Simulations d’échantillons

Exemple de mauvaise utilisation

Problème : les prédicteurs choisis ont un avantage injuste, ils ont été choisis en considérant toutes les données.

Bonne façon de procéder :

on divise l’échantillon en K sous-groupes aléatoirement

pour chaque k entre 1 et K

on choisit un bon sous ensemble de prédicteur en n’utilisant pas le groupe k

on construit le modèle sans le groupe k

on effectue les prédictions sur le groupe k

on calcule l’erreur de prédiction sur le groupe k

on effectue la moyenne des erreurs calculées

IV. Simulations d’échantillons

De la bonne utilisation de la validation croisée

Quand une procédure nécessite plusieurs étapes de construction, la validation croisée doit s’appliquer à toute la suite d’étapes.

(13)

IV. Simulations d’échantillons

Bootstrap

Principe

création de nouveaux échantillons par tirage aléatoire avec remise parmi l’échantillon initial

création d’un modèle sur chacun de ces nouveaux échantillons

utilisation de ces modèles pour estimer l’erreur de prédiction

IV. Simulations d’échantillons

Population complète

échantillon initial de taille n

1 2 3 4 B ... B

échantillons bootstrap

estimations bootstrap de f

bf1

bf2

bf3

bf4

bfB

(14)

IV. Simulations d’échantillons

Bootstrap

Algorithme

répéter B fois (on parle de réplications)

tirage avec remise d’un échantillon de taille n : Ωb, appelé échantillon bootstrap

construire le modèle sur l’échantillon bootstrap Ωb

calculer l’erreur sur l’ensemble des données de départ

Estimation de l’erreur de prédiction

Edrr(Boot) = 1 B

B

X

b=1

1 n

n

X

i=1

1y

i6=bfb(xi)

avec bfb estimation de f sur l’échantillon bootstrap Ωb

généralement biaisé par optimisme

IV. Simulations d’échantillons

Estimateur bootstrap out-of-bag

Estimation de l’erreur de prédiction

Edrr(Boot −oob) = 1 n

n

X

i=1

1 Bi

X

b∈Ki

1yi6=

bf

b (xi)

Ki : ensemble des indices b des échantillons bootstrap ne contenant pas la ie observation à l’issue des B simulations

Bi = Card(Ki) : nombre d’échantillons bootstrap ne contenant pas la ie observation à l’issue des B simulations

Remarques

B doit être assez grand pour que toute observation n’ait pas été choisie au moins une fois (ou on enlève le termes tels que Ki = ∅)

cet estimateur résout le problème du biais d’optimisme mais n’échappe pas au biais introduit par la réduction

(15)

IV. Simulations d’échantillons

Estimateur .632-Bootstrap

Probabilité qu’une observation fasse partie d’un échantillon bootstrap

P(xi ∈ Ωb) = 1−

1− 1 n

n

'

n grand 1− 1

e ' 0.632

On compense l’optimisme du taux d’erreur de resubstitution par le pessimisme du bootstrap out-of-bag par une combinaison

Edrr0.632 = 0.368 Edrr(Appr) + 0.632 Edrr(Boot − oob) Il existe un estimateur dit .632-Bootstrap+.

IV. Simulations d’échantillons

Validation croisée ou Bootstrap

Conceptuellement le bootstrap est plus compliqué et moins utilisé que la validation croisée.

Le boostrap joue un rôle central dans les algorithmes de combinaisons de modèles.

La validation croisée est très répandue car simple à implémenter.

À effort de calcul égal : K = B

Le bootstrap a une variance plus faible.

La validation croisée est moins biaisée.

(16)

V. Conclusions

Estimation d’une erreur de prédiction

opération délicate

conséquences importantes

Recommandations

en dehors de tout système d’hypothèses probabilistes, se

montrer prudent sur le caractère absolu d’une estimation dans l’objectif d’une certification : le recours à un échantillon test de bonne taille est incontournable dans ce cas

en situation de choix de modèle au sein d’une même famille, un estimateur plus économique est adapté en supposant que le biais induit est identique d’un modèle à l’autre

utiliser le même estimateur pour comparer l’efficacité des méthodes

Références

Documents relatifs

Puisque le nombre de fonctions de base à utiliser diffère très peu d’un éléphant à un autre, et puisque nous avons constaté que pour les éléphants de mer 2 et 3, les erreurs

Dans ce papier, nous utilisons un mod` ele multi-´ etats pour constru- ire la fonction de pr´ ediction individualis´ ee de la pneumonie nosocomiale en r´ eanimation dans les trois

[r]

Outre la confirmation de l’intérêt de l’utilisation de la levure vivante pour augmenter la production laitière, cette étude montre également que les modèles de rationnement

Pour les vaches en lactation, l’augmentation des quantités d’eau bue lorsque la température a augmenté a été moindre que celle de l’eau évaporée dans l’essai 1 (+8,8 l/j)

La somme pondérée des facteurs de risque de chaque catégorie est elle-même pondérée et permet de calculer la probabilité de contamination significative en mycotoxines de la ration

Dans ce travail, nous nous int´ eressons ` a l’estimation de la fonction de va- riance en r´ egression par agr´ egation de type s´ election mod` ele (MS).. Le but de la proc´ edure

Puisque le nombre de fonctions de base à utiliser diffère très peu d’un éléphant à un autre, et puisque nous avons constaté que pour les éléphants de mer 2 et 3, les erreurs