Validation croisée

(1)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

Sylvain Arlot (collaborations avec Alain Celisse, Matthieu Lerasle, Nelo Magalhães)

Laboratoire de Mathématiques d’Orsay, Université Paris-Sud

JES 2016, Fréjus 6 Octobre 2016

(2)

2/41

Plan

1 Problèmes

2 Définition

3 Estimation du risque

4 Sélection d’estimateurs

5 Conclusion

(3)

Rappel : problème de prévision

Données:D_n= (X_i,Y_i)_16i6n Xi ∈ X : variable explicative Y_i ∈ Y : variable d’intérêt

Hypothèse : (X,Y),(X₁,Y₁), . . . ,(X_n,Y_n), . . . i.i.d.∼P Prédicteur :f :X → Y

(F : ensemble des prédicteurs)

Nouvelle observation Xn+1 ⇒ f(Xn+1) « prévoit » Yn+1

Mesure de qualité: fonction de coût c :Y × Y →[0,+∞[

Risque (erreur de prévision) :R_P(f) =E

hc f(X),Yⁱ

(4)

3/41

Deux problèmes

Règle d’apprentissage ^bf

⇒ estimation de son risqueR_P bf(Dn)?

Famille de règles d’apprentissage(^bfm)m∈M

⇒ sélection d’un estimateurf^b

m(Db n)(Dn)?

(5)

Exemple : régression

−1 0 1 2 3 4

(6)

5/41

Sélection d’estimateurs (régression) : partitions cubiques

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(7)

Sélection d’estimateurs (régression) : k plus proches voisins

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

(8)

7/41

Sélection d’estimateurs (régression) : Nadaraya-Watson

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(9)

Sélection d’estimateurs (régression) : ridge à noyau

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

(10)

9/41

Sélection d’estimateurs

Estimateur/Règle d’apprentissage :^bf :D_n7→bf(D_n)∈ F Exemple : estimateur des moindres carrés sur S_m⊂ F :

bf_m ∈argmin

f∈S_m

n

Rb_n(f)^o où R^b_n(f) := 1 n

n

X

i=1

c f(X_i),Y_i

Exemples de modèlesSm: histogrammes, e.v.{ϕ1, . . . , ϕD}

Famille d’estimateurs (^bf_m)m∈M⇒ choisirm_b =m(D_b _n)? Exemples :

choix de modèles

« calibration » d’hyperparamètres (choix dek ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre des méthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(11)

Sélection d’estimateurs

Estimateur/Règle d’apprentissage : ^bf :D_n7→bf(D_n)∈ F Exemple : estimateur des moindres carrés sur S_m⊂ F :

bf_m ∈argmin

f∈S_m

n

X

i=1

c f(X_i),Y_i

Famille d’estimateurs (^bf_m)m∈M⇒ choisirm_b =m(D_b _n)?

Exemples :

choix de modèles

« calibration » d’hyperparamètres (choix dek ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre des méthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(12)

9/41

Sélection d’estimateurs

Estimateur/Règle d’apprentissage : ^bf :D_n7→bf(D_n)∈ F Exemple : estimateur des moindres carrés sur S_m⊂ F :

bf_m ∈argmin

f∈S_m

n

X

i=1

c f(X_i),Y_i

Famille d’estimateurs (^bf_m)m∈M⇒ choisirm_b =m(D_b _n)? Exemples :

choix de modèles

« calibration » d’hyperparamètres(choix de k ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre desméthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(13)

Sélection d’estimateurs : deux objectifs

Estimation : minimiser le risque de l’estimateur final, i.e., Inégalité oracle (en espérance ou avec grande probabilité) :

`(f^?,^bf

mb)6C inf

m∈M

`(f^?,^bf_m) +R_n

Identification : choisir le « meilleur » estimateur/modèle asymptotiquement, en supposant qu’il est bien défini, i.e., Consistance en sélection :

P m(Db n) =m^?−−−→

n→∞ 1.

Équivalent à l’estimation dans le cadreparamétrique.

Double objectif avec une seule procédure (dilemme AIC-BIC) ? Non en général (Yang, 2005). Parfois possible.

(14)

10/41

Sélection d’estimateurs : deux objectifs

`(f^?,^bf

mb)6C inf

m∈M

`(f^?,^bf_m) +R_n

P m(Db n) =m^?−−−→

n→∞ 1.

Double objectif avec une seule procédure (dilemme AIC-BIC) ? Non en général (Yang, 2005). Parfois possible.

(15)

Sélection d’estimateurs : deux objectifs

`(f^?,^bf

mb)6C inf

m∈M

`(f^?,^bf_m) +R_n

P m(Db n) =m^?−−−→

n→∞ 1.

(16)

11/41

Enjeux du problème (rappel)

0 20 40 60 80 100

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

dimension D

Err. approx.

E[Err. estim.]

E[Exc. risque]

Sous-apprentissage Sur-apprentissage

(17)

Plan

1 Problèmes

2 Définition

5 Conclusion

(18)

12/41

Principe de la validation simple

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(19)

Principe de la validation : échantillon d’entraînement

−1 0 1 2 3 4

(20)

12/41

Principe de la validation : échantillon d’entraînement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(21)

Principe de la validation : échantillon de validation

−1 0 1 2 3 4

(22)

12/41

Principe de la validation : échantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(23)

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

Entraînement D^E_n⇒bfm D_n^E

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationD_n^E^c⇒évaluer le risque

estimateur « hold-out » du risque : Rb^val(^bf_m;D_n;E) =R^b^E_n^c bf_m(D_n^E)= 1

Card(E^c) X

i∈E^c

c ^bf_m(D_n^E;X_i),Y_i

validation croisée : moyenne d’estimateurs « hold-out » Rb^vc ^bfm;Dn; (Ej)_16j6V= 1

V

X

j=1

Rb^val(^bfm;Dn;Ej) sélection d’estimateurs :

mb^vc Dn; (Ej)_16j6V∈argmin

m∈M

n

Rb^vc bfm;Dn; (Ej)_16j_6V^o

(24)

13/41

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationD_n^E^c⇒évaluer le risque estimateur « hold-out » du risque :

Rb^val(^bf_m;D_n;E) =R^b^E_n^c bf_m(D_n^E)= 1 Card(E^c)

X

i∈E^c

V

X

j=1

m∈M

n

(25)

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

Card(E^c) X

i∈E^c

validation croisée : moyenne d’estimateurs « hold-out »

Rb^vc ^bfm;Dn; (Ej)_16j6V= 1 V

V

X

j=1

Rb^val(^bfm;Dn;Ej)

sélection d’estimateurs :

m∈M

n

(26)

13/41

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

Card(E^c) X

i∈E^c

V

X

j=1

m∈M

n

(27)

Validation croisée : exemples

Méthodes exhaustives : tous les sous-ensembles de taillene

⇒ leave-one-out (n_e=n−1) Rb^loo(^bf_m;D_n) =R^b^vcbf_m;D_n; {j}^c

16j6n

= 1 n

n

X

j=1

c ^bf_m(D_n^(−j⁾;X_j),Y_j

⇒ leave-p-out (ne=n−p)

Validation croisée «V-fold » :B= (B_j)_16j_6V partition de {1, . . . ,n}

⇒ Rb^vf fbm;Dn; (Bj)_16j6V= 1 V

V

X

j=1

Rb^B_n^j

bfm

D^B

c j

n

Validation croisée Monte-Carlo / Apprentissage Test Répété : E1, . . . ,E_V i.i.d. uniforme

(28)

14/41

Validation croisée : exemples

16j6n

= 1 n

n

X

j=1

⇒ Rb^vf bfm;Dn; (Bj)16j6V

= 1 V

V

X

j=1

Rb^B_n^j

bfm

D^B

c

nj

Validation croisée Monte-Carlo / Apprentissage Test Répété : E1, . . . ,E_V i.i.d. uniforme

(29)

Validation croisée : exemples

16j6n

= 1 n

n

X

j=1

⇒ Rb^vf bfm;Dn; (Bj)16j6V

= 1 V

V

X

j=1

Rb^B_n^j

bfm

D^B

c

nj

(30)

15/41

Deux hypothèses

Dans cet exposé :

(Ej)_16j6V est indépendante deDn (Ind)

Card(E₁) =Card(E₂) =· · ·=Card(E_V) =n_e (Reg)

Pour la VC «V-fold » :ne = n(V −1) V

(31)

Plan

1 Problèmes

2 Définition

5 Conclusion

(32)

16/41

Biais

E h

Rb^vc bf_m;D_n; (E_j)_16j6Vⁱ= 1 V

V

X

j=1

E

Rb^E

c

nj

bf_m Dn^E^j

= 1 V

V

X

j=1

E

R_Pbf_m D^En^j

(Ind)

=E

hR_P bfm(Dne)ⁱ (Reg) Biais pour l’estimation du risque :

E

hR_P ^bf_m(D_n_e)ⁱ−E

hR_P ^bf_m(D_n)ⁱ

⇒tout dépend de n→E

hR_P bfm(Dn)ⁱ

Attention !D_n→bf_m(D_n) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(33)

Biais

E h

V

X

j=1

E

Rb^E

c

nj

bf_m Dn^E^j

= 1 V

V

X

j=1

E

R_Pbf_m D^En^j

(Ind)

=E

E

hR_P ^bf_m(D_n)ⁱ

hR_P bfm(Dn)ⁱ

(34)

16/41

Biais

E h

V

X

j=1

E

Rb^E

c

nj

bf_m Dn^E^j

= 1 V

V

X

j=1

E

R_Pbf_m D^En^j

(Ind)

=E

hR_P bfm(Dne)ⁱ (Reg)

Biais pour l’estimation du risque : E

hR_P ^bf_m(D_n)ⁱ

hR_P bfm(Dn)ⁱ

(35)

Biais

E h

V

X

j=1

E

Rb^E

c

nj

bf_m Dn^E^j

= 1 V

V

X

j=1

E

R_Pbf_m D^En^j

(Ind)

=E

E

hR_P ^bf_m(D_n)ⁱ

h i

(36)

16/41

Biais

E h

V

X

j=1

E

Rb^E

c

nj

bf_m Dn^E^j

= 1 V

V

X

j=1

E

R_Pbf_m D^En^j

(Ind)

=E

E

hR_P ^bf_m(D_n)ⁱ

hR_P bfm(Dn)ⁱ

(37)

Biais de la validation croisée : exemple générique

Hypothèse : E

hR_P fb_m(D_n)ⁱ=α(m) +β(m) n

(e.g., moindres carrés/ridge/k-ppv en régression, moindres carrés/noyaux en estimation de densité).

⇒ E h

Rb^vc bf_m;D_n; (E_j)_16j6Vⁱ=α(m) + n n_e

β(m) n

⇒Biais :

fonction décroissante den_e, minimal pourne=n−1, négligeable si ne∼n.

⇒V-fold : le biais diminue quandV augmente, disparaît quand V →+∞.

(38)

17/41

Biais de la validation croisée : exemple générique

Hypothèse : E

⇒ E h

β(m) n

⇒Biais :

fonction décroissante den_e, minimal pourne=n−1, négligeable si ne∼n.

(39)

Biais de la validation croisée : exemple générique

Hypothèse : E

⇒ E h

β(m) n

⇒Biais :

fonction décroissante den_e, minimal pourne=n−1,

(40)

17/41

Biais de la validation croisée : exemple générique

Hypothèse : E

⇒ E h

β(m) n

⇒Biais :

fonction décroissante den_e, minimal pourne=n−1, négligeable si ne ∼n.

(41)

Correction du biais

Définition (Burman, 1989) :

Rb^vc−cor bfm;Dn; (Ej)_16j6V=R^b^vc bfm;Dn; (Ej)_16j6V +R^b_n fbm(Dn)− 1

V

X

j=1

Rb_n bfm(Dn^E^j)

Proposition (3.1)

Hypothèses : (Ind) et ∃γ(m),∀n>1, E

hR_P ^bf_m(D_n)−R^b_n ^bf_m(D_n)ⁱ= γ(m) n Alors :

E h

Rb^vc−cor bfm;Dn; (Ej)_16j_6Vⁱ=E

hR_P bfm(Dn)ⁱ

(42)

18/41

Correction du biais

Définition (Burman, 1989) :

Rb^vc−cor bfm;Dn; (Ej)_16j6V=R^b^vc bfm;Dn; (Ej)_16j6V +R^b_n fbm(Dn)− 1

V

X

j=1

Rb_n bfm(Dn^E^j)

Proposition (3.1)

Hypothèses : (Ind) et ∃γ(m),∀n>1, E

hR_P ^bf_m(D_n)−R^b_n ^bf_m(D_n)ⁱ= γ(m) n Alors :

E h

Rb^vc−cor bfm;Dn; (Ej)16j6Vi

=E

hR_P bfm(Dn)ⁱ

(43)

Variance

Proposition (3.2)

On suppose (Ind) et (Reg). Alors :

var R^b^val bf_m;D_n;E₀)>varR^b^vc bf_m;D_n; (E_j)_16j6V

>var R^b^lpo(^bfm;Dn;n−ne)

Proposition (3.3)

On suppose (Ind) et (Reg).

Pour la VC Monte-Carlo (E_j iid uniformes), on a :

varR^b^vc ^bfm;Dn; (Ej)_16j_6V=var R^b^lpo(^bfm;Dn;n−ne) +1

V

hvar R^b^val(^bf_m;D_n;E₁)−var R^b^lpo(^bf_m;D_n;n−n_e)

| {z }

variance de permutation

i

(44)

19/41

Variance

Proposition (3.2)

On suppose (Ind) et (Reg). Alors :

var R^b^val bf_m;D_n;E₀)>varR^b^vc bf_m;D_n; (E_j)_16j6V

>var R^b^lpo(^bfm;Dn;n−ne) Proposition (3.3)

On suppose (Ind) et (Reg).

Pour la VC Monte-Carlo (E_j iid uniformes), on a :

varR^b^vc ^bfm;Dn; (Ej)_16j_6V=var R^b^lpo(f^bm;Dn;n−ne) +1

V

hvar R^b^val(^bf_m;D_n;E₁)−var R^b^lpo(^bf_m;D_n;n−n_e)

| {z }

variance de permutation

i

(45)

Variance : estimation de densité L

²

(A. & Lerasle 2012)

Histogramme régulier de pashm >0 : var R^b^vc(^bf_m)= C₁(n,V,n_e)

n² W₁(h_m,P) +C₂(n,V,n_e)

n W₂(h_m,P)

Sin→+∞, au premier ordre :

C₁(n,V,n_e) C₂(n,V,n_e)

V-fold,V → ∞ 1+ 4

V 1

hold-out,ne ∼nτ 1

τ² + 2

τ(1−τ) >11 1 1−τ

leave-p-out,ne∼nτ 1 1

Monte-Carlo n_e = ^n(V_V⁻¹⁾

V-fold >1 siV >3 2− 1

V

(46)

20/41

Variance : estimation de densité L

²

(A. & Lerasle 2012)

Histogramme régulier de pashm >0 : var R^b^vc(^bf_m)= C₁(n,V,n_e)

n² W₁(h_m,P) +C₂(n,V,n_e)

n W₂(h_m,P) Sin→+∞, au premier ordre :

C₁(n,V,n_e) C₂(n,V,n_e)

V-fold,V → ∞ 1+ 4

V 1

hold-out,ne ∼nτ 1

τ² + 2

τ(1−τ) >11 1 1−τ

leave-p-out,ne∼nτ 1 1

Monte-Carlo n_e = ^n(V_V⁻¹⁾

V-fold >1 siV >3 2− 1

V