• Aucun résultat trouvé

Validation croisée

N/A
N/A
Protected

Academic year: 2022

Partager "Validation croisée"

Copied!
93
0
0

Texte intégral

(1)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

Sylvain Arlot (collaborations avec Alain Celisse, Matthieu Lerasle, Nelo Magalhães)

Laboratoire de Mathématiques d’Orsay, Université Paris-Sud

JES 2016, Fréjus 6 Octobre 2016

(2)

2/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Plan

1 Problèmes

2 Définition

3 Estimation du risque

4 Sélection d’estimateurs

5 Conclusion

(3)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Rappel : problème de prévision

Données:Dn= (Xi,Yi)16i6n Xi ∈ X : variable explicative Yi ∈ Y : variable d’intérêt

Hypothèse : (X,Y),(X1,Y1), . . . ,(Xn,Yn), . . . i.i.d.∼P Prédicteur :f :X → Y

(F : ensemble des prédicteurs)

Nouvelle observation Xn+1f(Xn+1) « prévoit » Yn+1

Mesure de qualité: fonction de coût c :Y × Y →[0,+∞[

Risque (erreur de prévision) :RP(f) =E

hc f(X),Yi

(4)

3/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Deux problèmes

Règle d’apprentissage bf

⇒ estimation de son risqueRP bf(Dn)?

Famille de règles d’apprentissage(bfm)m∈M

⇒ sélection d’un estimateurfb

m(Db n)(Dn)?

(5)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Exemple : régression

−1 0 1 2 3 4

(6)

5/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs (régression) : partitions cubiques

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(7)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs (régression) : k plus proches voisins

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

(8)

7/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs (régression) : Nadaraya-Watson

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(9)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs (régression) : ridge à noyau

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 1 2 3 4

(10)

9/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs

Estimateur/Règle d’apprentissage :bf :Dn7→bf(Dn)∈ F Exemple : estimateur des moindres carrés sur Sm⊂ F :

bfm ∈argmin

f∈Sm

n

Rbn(f)o où Rbn(f) := 1 n

n

X

i=1

c f(Xi),Yi

Exemples de modèlesSm: histogrammes, e.v.{ϕ1, . . . , ϕD}

Famille d’estimateurs (bfm)m∈M⇒ choisirmb =m(Db n)? Exemples :

choix de modèles

« calibration » d’hyperparamètres (choix dek ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre des méthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(11)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs

Estimateur/Règle d’apprentissage : bf :Dn7→bf(Dn)∈ F Exemple : estimateur des moindres carrés sur Sm⊂ F :

bfm ∈argmin

f∈Sm

n

Rbn(f)o où Rbn(f) := 1 n

n

X

i=1

c f(Xi),Yi

Exemples de modèlesSm: histogrammes, e.v.{ϕ1, . . . , ϕD}

Famille d’estimateurs (bfm)m∈M⇒ choisirmb =m(Db n)?

Exemples :

choix de modèles

« calibration » d’hyperparamètres (choix dek ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre des méthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(12)

9/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs

Estimateur/Règle d’apprentissage : bf :Dn7→bf(Dn)∈ F Exemple : estimateur des moindres carrés sur Sm⊂ F :

bfm ∈argmin

f∈Sm

n

Rbn(f)o où Rbn(f) := 1 n

n

X

i=1

c f(Xi),Yi

Exemples de modèlesSm: histogrammes, e.v.{ϕ1, . . . , ϕD}

Famille d’estimateurs (bfm)m∈M⇒ choisirmb =m(Db n)? Exemples :

choix de modèles

« calibration » d’hyperparamètres(choix de k ou d’une distance pourk-ppv, choix du paramètre de régularisation, choix d’un noyau, etc.)

choix entre desméthodes de natures différentes ex. :k-ppv ou splines de lissage ?

(13)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs : deux objectifs

Estimation : minimiser le risque de l’estimateur final, i.e., Inégalité oracle (en espérance ou avec grande probabilité) :

`(f?,bf

mb)6C inf

m∈M

`(f?,bfm) +Rn

Identification : choisir le « meilleur » estimateur/modèle asymptotiquement, en supposant qu’il est bien défini, i.e., Consistance en sélection :

P m(Db n) =m?−−−→

n→∞ 1.

Équivalent à l’estimation dans le cadreparamétrique.

Double objectif avec une seule procédure (dilemme AIC-BIC) ? Non en général (Yang, 2005). Parfois possible.

(14)

10/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs : deux objectifs

Estimation : minimiser le risque de l’estimateur final, i.e., Inégalité oracle (en espérance ou avec grande probabilité) :

`(f?,bf

mb)6C inf

m∈M

`(f?,bfm) +Rn

Identification : choisir le « meilleur » estimateur/modèle asymptotiquement, en supposant qu’il est bien défini, i.e., Consistance en sélection :

P m(Db n) =m?−−−→

n→∞ 1.

Équivalent à l’estimation dans le cadreparamétrique.

Double objectif avec une seule procédure (dilemme AIC-BIC) ? Non en général (Yang, 2005). Parfois possible.

(15)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Sélection d’estimateurs : deux objectifs

Estimation : minimiser le risque de l’estimateur final, i.e., Inégalité oracle (en espérance ou avec grande probabilité) :

`(f?,bf

mb)6C inf

m∈M

`(f?,bfm) +Rn

Identification : choisir le « meilleur » estimateur/modèle asymptotiquement, en supposant qu’il est bien défini, i.e., Consistance en sélection :

P m(Db n) =m?−−−→

n→∞ 1.

Équivalent à l’estimation dans le cadreparamétrique.

(16)

11/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Enjeux du problème (rappel)

0 20 40 60 80 100

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

dimension D

Err. approx.

E[Err. estim.]

E[Exc. risque]

Sous-apprentissage Sur-apprentissage

(17)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Plan

1 Problèmes

2 Définition

3 Estimation du risque

4 Sélection d’estimateurs

5 Conclusion

(18)

12/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Principe de la validation simple

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(19)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Principe de la validation : échantillon d’entraînement

−1 0 1 2 3 4

(20)

12/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Principe de la validation : échantillon d’entraînement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(21)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Principe de la validation : échantillon de validation

−1 0 1 2 3 4

(22)

12/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Principe de la validation : échantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(23)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

Entraînement DEnbfm DnE

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationDnEc⇒évaluer le risque

estimateur « hold-out » du risque : Rbval(bfm;Dn;E) =RbEnc bfm(DnE)= 1

Card(Ec) X

i∈Ec

c bfm(DnE;Xi),Yi

validation croisée : moyenne d’estimateurs « hold-out » Rbvc bfm;Dn; (Ej)16j6V= 1

V

V

X

j=1

Rbval(bfm;Dn;Ej) sélection d’estimateurs :

mbvc Dn; (Ej)16j6V∈argmin

m∈M

n

Rbvc bfm;Dn; (Ej)16j6Vo

(24)

13/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

Entraînement DEnbfm DnE

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationDnEc⇒évaluer le risque estimateur « hold-out » du risque :

Rbval(bfm;Dn;E) =RbEnc bfm(DnE)= 1 Card(Ec)

X

i∈Ec

c bfm(DnE;Xi),Yi

validation croisée : moyenne d’estimateurs « hold-out » Rbvc bfm;Dn; (Ej)16j6V= 1

V

V

X

j=1

Rbval(bfm;Dn;Ej) sélection d’estimateurs :

mbvc Dn; (Ej)16j6V∈argmin

m∈M

n

Rbvc bfm;Dn; (Ej)16j6Vo

(25)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

Entraînement DEnbfm DnE

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationDnEc⇒évaluer le risque

estimateur « hold-out » du risque : Rbval(bfm;Dn;E) =RbEnc bfm(DnE)= 1

Card(Ec) X

i∈Ec

c bfm(DnE;Xi),Yi

validation croisée : moyenne d’estimateurs « hold-out »

Rbvc bfm;Dn; (Ej)16j6V= 1 V

V

X

j=1

Rbval(bfm;Dn;Ej)

sélection d’estimateurs :

mbvc Dn; (Ej)16j6V∈argmin

m∈M

n

Rbvc bfm;Dn; (Ej)16j6Vo

(26)

13/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée

(X1,Y1), . . . ,(Xne,Yne)

| {z }

Entraînement DEnbfm DnE

(Xne+1,Yne+1), . . . ,(Xn,Yn)

| {z }

ValidationDnEc⇒évaluer le risque

estimateur « hold-out » du risque : Rbval(bfm;Dn;E) =RbEnc bfm(DnE)= 1

Card(Ec) X

i∈Ec

c bfm(DnE;Xi),Yi

validation croisée : moyenne d’estimateurs « hold-out » Rbvc bfm;Dn; (Ej)16j6V= 1

V

V

X

j=1

Rbval(bfm;Dn;Ej) sélection d’estimateurs :

mbvc Dn; (Ej)16j6V∈argmin

m∈M

n

Rbvc bfm;Dn; (Ej)16j6Vo

(27)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée : exemples

Méthodes exhaustives : tous les sous-ensembles de taillene

⇒ leave-one-out (ne=n−1) Rbloo(bfm;Dn) =Rbvcbfm;Dn; {j}c

16j6n

= 1 n

n

X

j=1

c bfm(Dn(−j);Xj),Yj

⇒ leave-p-out (ne=np)

Validation croisée «V-fold » :B= (Bj)16j6V partition de {1, . . . ,n}

⇒ Rbvf fbm;Dn; (Bj)16j6V= 1 V

V

X

j=1

RbBnj

bfm

DB

c j

n

Validation croisée Monte-Carlo / Apprentissage Test Répété : E1, . . . ,EV i.i.d. uniforme

(28)

14/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée : exemples

Méthodes exhaustives : tous les sous-ensembles de taillene

⇒ leave-one-out (ne=n−1) Rbloo(bfm;Dn) =Rbvcbfm;Dn; {j}c

16j6n

= 1 n

n

X

j=1

c bfm(Dn(−j);Xj),Yj

⇒ leave-p-out (ne=np)

Validation croisée «V-fold » :B= (Bj)16j6V partition de {1, . . . ,n}

⇒ Rbvf bfm;Dn; (Bj)16j6V

= 1 V

V

X

j=1

RbBnj

bfm

DB

c

nj

Validation croisée Monte-Carlo / Apprentissage Test Répété : E1, . . . ,EV i.i.d. uniforme

(29)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Validation croisée : exemples

Méthodes exhaustives : tous les sous-ensembles de taillene

⇒ leave-one-out (ne=n−1) Rbloo(bfm;Dn) =Rbvcbfm;Dn; {j}c

16j6n

= 1 n

n

X

j=1

c bfm(Dn(−j);Xj),Yj

⇒ leave-p-out (ne=np)

Validation croisée «V-fold » :B= (Bj)16j6V partition de {1, . . . ,n}

⇒ Rbvf bfm;Dn; (Bj)16j6V

= 1 V

V

X

j=1

RbBnj

bfm

DB

c

nj

(30)

15/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Deux hypothèses

Dans cet exposé :

(Ej)16j6V est indépendante deDn (Ind)

Card(E1) =Card(E2) =· · ·=Card(EV) =ne (Reg)

Pour la VC «V-fold » :ne = n(V −1) V

(31)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Plan

1 Problèmes

2 Définition

3 Estimation du risque

4 Sélection d’estimateurs

5 Conclusion

(32)

16/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais

E h

Rbvc bfm;Dn; (Ej)16j6Vi= 1 V

V

X

j=1

E

RbE

c

nj

bfm DnEj

= 1 V

V

X

j=1

E

RPbfm DEnj

(Ind)

=E

hRP bfm(Dne)i (Reg) Biais pour l’estimation du risque :

E

hRP bfm(Dne)i−E

hRP bfm(Dn)i

⇒tout dépend de n→E

hRP bfm(Dn)i

Attention !Dnbfm(Dn) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(33)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais

E h

Rbvc bfm;Dn; (Ej)16j6Vi= 1 V

V

X

j=1

E

RbE

c

nj

bfm DnEj

= 1 V

V

X

j=1

E

RPbfm DEnj

(Ind)

=E

hRP bfm(Dne)i (Reg) Biais pour l’estimation du risque :

E

hRP bfm(Dne)i−E

hRP bfm(Dn)i

⇒tout dépend de n→E

hRP bfm(Dn)i

Attention !Dnbfm(Dn) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(34)

16/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais

E h

Rbvc bfm;Dn; (Ej)16j6Vi= 1 V

V

X

j=1

E

RbE

c

nj

bfm DnEj

= 1 V

V

X

j=1

E

RPbfm DEnj

(Ind)

=E

hRP bfm(Dne)i (Reg)

Biais pour l’estimation du risque : E

hRP bfm(Dne)i−E

hRP bfm(Dn)i

⇒tout dépend de n→E

hRP bfm(Dn)i

Attention !Dnbfm(Dn) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(35)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais

E h

Rbvc bfm;Dn; (Ej)16j6Vi= 1 V

V

X

j=1

E

RbE

c

nj

bfm DnEj

= 1 V

V

X

j=1

E

RPbfm DEnj

(Ind)

=E

hRP bfm(Dne)i (Reg) Biais pour l’estimation du risque :

E

hRP bfm(Dne)i−E

hRP bfm(Dn)i

h i

Attention !Dnbfm(Dn) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(36)

16/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais

E h

Rbvc bfm;Dn; (Ej)16j6Vi= 1 V

V

X

j=1

E

RbE

c

nj

bfm DnEj

= 1 V

V

X

j=1

E

RPbfm DEnj

(Ind)

=E

hRP bfm(Dne)i (Reg) Biais pour l’estimation du risque :

E

hRP bfm(Dne)i−E

hRP bfm(Dn)i

⇒tout dépend de n→E

hRP bfm(Dn)i

Attention !Dnbfm(Dn) doit être fixéeavant d’avoir vu une seule observation; sinon, on a un biais encore plus fort.

(37)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais de la validation croisée : exemple générique

Hypothèse : E

hRP fbm(Dn)i=α(m) +β(m) n

(e.g., moindres carrés/ridge/k-ppv en régression, moindres carrés/noyaux en estimation de densité).

⇒ E h

Rbvc bfm;Dn; (Ej)16j6Vi=α(m) + n ne

β(m) n

⇒Biais :

fonction décroissante dene, minimal pourne=n−1, négligeable si nen.

V-fold : le biais diminue quandV augmente, disparaît quand V →+∞.

(38)

17/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais de la validation croisée : exemple générique

Hypothèse : E

hRP fbm(Dn)i=α(m) +β(m) n

(e.g., moindres carrés/ridge/k-ppv en régression, moindres carrés/noyaux en estimation de densité).

⇒ E h

Rbvc bfm;Dn; (Ej)16j6Vi=α(m) + n ne

β(m) n

⇒Biais :

fonction décroissante dene, minimal pourne=n−1, négligeable si nen.

V-fold : le biais diminue quandV augmente, disparaît quand V →+∞.

(39)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais de la validation croisée : exemple générique

Hypothèse : E

hRP fbm(Dn)i=α(m) +β(m) n

(e.g., moindres carrés/ridge/k-ppv en régression, moindres carrés/noyaux en estimation de densité).

⇒ E h

Rbvc bfm;Dn; (Ej)16j6Vi=α(m) + n ne

β(m) n

⇒Biais :

fonction décroissante dene, minimal pourne=n−1,

V-fold : le biais diminue quandV augmente, disparaît quand V →+∞.

(40)

17/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Biais de la validation croisée : exemple générique

Hypothèse : E

hRP fbm(Dn)i=α(m) +β(m) n

(e.g., moindres carrés/ridge/k-ppv en régression, moindres carrés/noyaux en estimation de densité).

⇒ E h

Rbvc bfm;Dn; (Ej)16j6Vi=α(m) + n ne

β(m) n

⇒Biais :

fonction décroissante dene, minimal pourne=n−1, négligeable si nen.

V-fold : le biais diminue quandV augmente, disparaît quand V →+∞.

(41)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Correction du biais

Définition (Burman, 1989) :

Rbvc−cor bfm;Dn; (Ej)16j6V=Rbvc bfm;Dn; (Ej)16j6V +Rbn fbm(Dn)− 1

V

V

X

j=1

Rbn bfm(DnEj)

Proposition (3.1)

Hypothèses : (Ind) et ∃γ(m),∀n>1, E

hRP bfm(Dn)−Rbn bfm(Dn)i= γ(m) n Alors :

E h

Rbvc−cor bfm;Dn; (Ej)16j6Vi=E

hRP bfm(Dn)i

(42)

18/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Correction du biais

Définition (Burman, 1989) :

Rbvc−cor bfm;Dn; (Ej)16j6V=Rbvc bfm;Dn; (Ej)16j6V +Rbn fbm(Dn)− 1

V

V

X

j=1

Rbn bfm(DnEj)

Proposition (3.1)

Hypothèses : (Ind) et ∃γ(m),∀n>1, E

hRP bfm(Dn)−Rbn bfm(Dn)i= γ(m) n Alors :

E h

Rbvc−cor bfm;Dn; (Ej)16j6Vi

=E

hRP bfm(Dn)i

(43)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Variance

Proposition (3.2)

On suppose (Ind) et (Reg). Alors :

var Rbval bfm;Dn;E0)>varRbvc bfm;Dn; (Ej)16j6V

>var Rblpo(bfm;Dn;nne)

Proposition (3.3)

On suppose (Ind) et (Reg).

Pour la VC Monte-Carlo (Ej iid uniformes), on a :

varRbvc bfm;Dn; (Ej)16j6V=var Rblpo(bfm;Dn;nne) +1

V

hvar Rbval(bfm;Dn;E1)−var Rblpo(bfm;Dn;nne)

| {z }

variance de permutation

i

(44)

19/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Variance

Proposition (3.2)

On suppose (Ind) et (Reg). Alors :

var Rbval bfm;Dn;E0)>varRbvc bfm;Dn; (Ej)16j6V

>var Rblpo(bfm;Dn;nne) Proposition (3.3)

On suppose (Ind) et (Reg).

Pour la VC Monte-Carlo (Ej iid uniformes), on a :

varRbvc bfm;Dn; (Ej)16j6V=var Rblpo(fbm;Dn;nne) +1

V

hvar Rbval(bfm;Dn;E1)−var Rblpo(bfm;Dn;nne)

| {z }

variance de permutation

i

(45)

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Variance : estimation de densité L

2

(A. & Lerasle 2012)

Histogramme régulier de pashm >0 : var Rbvc(bfm)= C1(n,V,ne)

n2 W1(hm,P) +C2(n,V,ne)

n W2(hm,P)

Sin→+∞, au premier ordre :

C1(n,V,ne) C2(n,V,ne)

V-fold,V → ∞ 1+ 4

V 1

hold-out,ne 1

τ2 + 2

τ(1−τ) >11 1 1−τ

leave-p-out,ne 1 1

Monte-Carlo ne = n(VV−1)

V-fold >1 siV >3 2− 1

V

(46)

20/41

Problèmes Définition Estimation du risque Sélection d’estimateurs Conclusion

Variance : estimation de densité L

2

(A. & Lerasle 2012)

Histogramme régulier de pashm >0 : var Rbvc(bfm)= C1(n,V,ne)

n2 W1(hm,P) +C2(n,V,ne)

n W2(hm,P) Sin→+∞, au premier ordre :

C1(n,V,ne) C2(n,V,ne)

V-fold,V → ∞ 1+ 4

V 1

hold-out,ne 1

τ2 + 2

τ(1−τ) >11 1 1−τ

leave-p-out,ne 1 1

Monte-Carlo ne = n(VV−1)

V-fold >1 siV >3 2− 1

V

Références

Documents relatifs

Finalement on voit un th´ eor` eme ‘no free lunch’ qui dit en gros que sans faire des suppositions sur la loi qui g´ en` ere les donn´ ees, on ne peut apprendre de mani` ere

(1996) dans le cadre des données complètes, lorsque la fonction de survie est estimée à l’aide d’un noyau.. Le but de cet article est d’étendre cette dernière

De nombreux critères ont été proposés dans la littérature pour guider le choix de la dimension en Analyse en Composantes Principales (ACP).. Un développement de

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Keywords: change-point detection, model selection, cross-validation, heteroscedastic data, CGH prole segmentation..

High complexity model may contains a good ideal target but the estimation error (“variance”) can be large (Over-fit) Bias-variance trade-off ⇐⇒ avoid overfitting

Each time, use K K −1 n observations to train and K 1 n to verify The error estimation is averaged over all K trials to get total effectiveness of our model. Most

partition d'un ensemble s'interprète en termes de modèle par la connaissance des composants d'un échantillon, et nous venons de montrer par les deux applications faites ci-dessus que