• Aucun résultat trouvé

Comparaison de proc´ edures de validation crois´ ee (

N/A
N/A
Protected

Academic year: 2022

Partager "Comparaison de proc´ edures de validation crois´ ee ("

Copied!
74
0
0

Texte intégral

(1)

1/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Comparaison de proc´ edures de validation crois´ ee (

V -fold

)

Sylvain Arlot (collaboration avec Matthieu Lerasle)

1

Cnrs

2

Ecole Normale Sup´ ´ erieure (Paris), DI/ENS, ´ Equipe Sierra

Nice, 20 f´ evrier 2015

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(2)

2/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Plan

1 S´ election de mod` eles par validation crois´ ee

2 Analyse au premier ordre : biais

3 Analyse au deuxi` eme ordre : variance

4 Conclusion

(3)

3/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Estimation de densit´ e : donn´ ees ξ 1 , . . . , ξ n

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(4)

4/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

But : estimer la densit´ e s ? des observations ξ i

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(5)

5/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Probl` eme : estimation de densit´ e

Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)

Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L

2

(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P

γ(t; ξ)

=: P γ(t) est minimale.

P γ(t) = Z

t 2 dµ − 2 Z

ts ? dµ = Z

(t − s ? ) 2 dµ − ks ? k 2 L

2

(µ)

⇒ densit´ e s ? ∈ argmin t∈ S P γ (t) et la perte relative vaut

` (s ? , t ) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L

2

(µ) . Cas particulier d’un cadre g´ en´ eral incluant aussi :

pr´ ediction (r´ egression/classification) contraste log-vraisemblance en densit´ e

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(6)

5/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Probl` eme : estimation de densit´ e

Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)

Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L

2

(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P

γ(t; ξ)

=: P γ(t) est minimale.

P γ(t ) = Z

t 2 dµ − 2 Z

ts ? dµ = Z

(t − s ? ) 2 dµ − ks ? k 2 L

2

(µ)

⇒ densit´ e s ? ∈ argmin t∈ S P γ(t) et la perte relative vaut

` (s ? , t) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L

2

(µ) .

Cas particulier d’un cadre g´ en´ eral incluant aussi : pr´ ediction (r´ egression/classification)

contraste log-vraisemblance en densit´ e

(7)

5/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Probl` eme : estimation de densit´ e

Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)

Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L

2

(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P

γ(t; ξ)

=: P γ(t) est minimale.

P γ(t ) = Z

t 2 dµ − 2 Z

ts ? dµ = Z

(t − s ? ) 2 dµ − ks ? k 2 L

2

(µ)

⇒ densit´ e s ? ∈ argmin t∈ S P γ(t) et la perte relative vaut

` (s ? , t) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L

2

(µ) . Cas particulier d’un cadre g´ en´ eral incluant aussi :

pr´ ediction (r´ egression/classification) contraste log-vraisemblance en densit´ e

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(8)

6/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Un estimateur par histogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(9)

7/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

S´ election de mod` eles : histogrammes r´ eguliers

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(10)

8/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

S´ election de mod` eles

Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin

t∈S

m

P n γ(t) o` u P n γ(t) := 1 n

X

ξ∈D

n

γ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).

Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ? Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :

` (s ? , b s m b ) 6 C inf

m∈M

` (s ? , b s m ) + R n

(11)

8/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

S´ election de mod` eles

Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin

t∈S

m

P n γ(t) o` u P n γ(t) := 1 n

X

ξ∈D

n

γ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).

Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ?

Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :

` (s ? , b s m b ) 6 C inf

m∈M

` (s ? , b s m ) + R n

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(12)

8/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

S´ election de mod` eles

Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin

t∈S

m

P n γ(t) o` u P n γ(t) := 1 n

X

ξ∈D

n

γ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).

Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ? Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :

` (s ? , b s m b ) 6 C inf

m∈M

` (s ? , b s m ) + R n

(13)

9/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Compromis biais-variance

E

` (s ? , b s m )

= Biais + Variance Biais ou Erreur d’approximation

` (s ? , S m ) = inf

t∈S

m

` (s ? , t) Variance ou Erreur d’estimation

histogrammes r´ eguliers sur R de pas d m −1 : d m − ks m ? k 2 L

2

(µ)

n ≈ d m n

Compromis biais-variance

⇔ ´ eviter le sur-apprentissage et le sous-apprentissage

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(14)

9/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Compromis biais-variance

E

` (s ? , b s m )

= Biais + Variance Biais ou Erreur d’approximation

` (s ? , S m ) = inf

t∈S

m

` (s ? , t) Variance ou Erreur d’estimation

histogrammes r´ eguliers sur R de pas d m −1 : d m − ks m ? k 2 L

2

(µ)

n ≈ d m n

Compromis biais-variance

⇔ ´ eviter le sur-apprentissage et le sous-apprentissage

(15)

10/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Principe de la validation simple

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(16)

10/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(17)

10/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(18)

10/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Principe de la validation : ´ echantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(19)

10/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Principe de la validation : ´ echantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(20)

11/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

ξ 1 , . . . , ξ n

e

| {z }

Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)

ξ n

e

+1 , . . . , ξ n

| {z }

Validation D n (v ) ⇒ ´ evaluer le risque

Estimateur

Hold-out

du risque : P n (v) γ

b s m (e)

= 1 n v

X

ξ∈D

n(v)

γ b s m (e) ; ξ

n

v

=|D

(vn)

|=n−n

e

Validation crois´ ee : moyenne d’estimateurs

hold-out

R b vc

b s m ; D n ; (I j (e) ) 16j 6B

= 1 B

B

X

j=1

P n (v,j ) γ b s m (e,j )

D

n(e,j)

=(ξ

i

)

i∈I(e) j

S´ election de mod` eles : m b ∈ argmin

m∈M

n

R b vc ( b s m ; D n ) o

.

(21)

11/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

ξ 1 , . . . , ξ n

e

| {z }

Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)

ξ n

e

+1 , . . . , ξ n

| {z }

Validation D n (v ) ⇒ ´ evaluer le risque

Estimateur

Hold-out

du risque : P n (v) γ

b s m (e)

= 1 n v

X

ξ∈D

n(v)

γ b s m (e) ; ξ

n

v

=|D

(v)n

|=n−n

e

Validation crois´ ee : moyenne d’estimateurs

hold-out

R b vc

b s m ; D n ; (I j (e) ) 16j 6B

= 1 B

B

X

j=1

P n (v,j ) γ b s m (e,j )

D

(e,j)n

=(ξ

i

)

i∈I(e) j

S´ election de mod` eles : m b ∈ argmin

m∈M

n

R b vc ( b s m ; D n ) o .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(22)

11/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

ξ 1 , . . . , ξ n

e

| {z }

Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)

ξ n

e

+1 , . . . , ξ n

| {z }

Validation D n (v ) ⇒ ´ evaluer le risque Estimateur

Hold-out

du risque :

P n (v) γ b s m (e)

= 1 n v

X

ξ∈D

n(v)

γ b s m (e) ; ξ

n

v

=|D

(v)n

|=n−n

e

Validation crois´ ee : moyenne d’estimateurs

hold-out

R b vc

b s m ; D n ; (I j (e) ) 16j 6B

= 1 B

B

X

j=1

P n (v ,j ) γ b s m (e,j)

D

(e,j)n

=(ξ

i

)

i∈I(e) j

S´ election de mod` eles : m b ∈ argmin

m∈M

n

R b vc ( b s m ; D n ) o

.

(23)

11/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

ξ 1 , . . . , ξ n

e

| {z }

Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)

ξ n

e

+1 , . . . , ξ n

| {z }

Validation D n (v ) ⇒ ´ evaluer le risque Estimateur

Hold-out

du risque :

P n (v) γ b s m (e)

= 1 n v

X

ξ∈D

n(v)

γ b s m (e) ; ξ

n

v

=|D

(v)n

|=n−n

e

Validation crois´ ee : moyenne d’estimateurs

hold-out

R b vc

b s m ; D n ; (I j (e) ) 16j 6B

= 1 B

B

X

j=1

P n (v ,j ) γ b s m (e,j)

D

(e,j)n

=(ξ

i

)

i∈I(e) j

S´ election de mod` eles : m b ∈ argmin

m∈M

n

R b vc ( b s m ; D n ) o .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(24)

12/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

V -fold

B = (B j ) 16j 6V partition de {1, . . . , n}

(ξ i ) i∈B

1

| {z } validation

, (ξ i ) i ∈B

2

, . . . , (ξ i ) i ∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (1) γ b s m (−1)

i ) i∈B

1

| {z } entraˆın.

, (ξ i ) i∈B

2

| {z } validation

, . . . , (ξ i ) i∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (2) γ b s m (−2) .. .

(ξ i ) i∈B

1

, (ξ i ) i∈B

2

, . . . , (ξ i ) i∈B

V−1

| {z }

entraˆınement

, (ξ i ) i∈B

V

| {z } validation

⇒ P n (V ) γ b s m (−V )

⇒ R b vf ( b s m ; D n ; B) = 1 V

V

X

j=1

P n (j ) γ b s m (−j)

m b ∈ arg min

m∈M

n

R b vf ( b s m )

o

(25)

12/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

V -fold

B = (B j ) 16j 6V partition de {1, . . . , n}

(ξ i ) i∈B

1

| {z } validation

, (ξ i ) i ∈B

2

, . . . , (ξ i ) i ∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (1) γ b s m (−1)

i ) i∈B

1

| {z } entraˆın.

, (ξ i ) i∈B

2

| {z } validation

, . . . , (ξ i ) i∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (2) γ b s m (−2)

.. .

(ξ i ) i∈B

1

, (ξ i ) i∈B

2

, . . . , (ξ i ) i∈B

V−1

| {z }

entraˆınement

, (ξ i ) i∈B

V

| {z } validation

⇒ P n (V ) γ b s m (−V )

⇒ R b vf ( b s m ; D n ; B) = 1 V

V

X

j=1

P n (j ) γ b s m (−j)

m b ∈ arg min

m∈M

n

R b vf ( b s m ) o

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(26)

12/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

V -fold

B = (B j ) 16j 6V partition de {1, . . . , n}

(ξ i ) i∈B

1

| {z } validation

, (ξ i ) i ∈B

2

, . . . , (ξ i ) i ∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (1) γ b s m (−1)

i ) i∈B

1

| {z } entraˆın.

, (ξ i ) i∈B

2

| {z } validation

, . . . , (ξ i ) i∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (2) γ b s m (−2) .. .

(ξ i ) i∈B

1

, (ξ i ) i∈B

2

, . . . , (ξ i ) i∈B

V−1

| {z }

entraˆınement

, (ξ i ) i∈B

V

| {z } validation

⇒ P n (V ) γ b s m (−V )

⇒ R b vf ( b s m ; D n ; B) = 1 V

V

X

j=1

P n (j ) γ b s m (−j)

m b ∈ arg min

m∈M

n

R b vf ( b s m )

o

(27)

12/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Validation crois´ ee

V -fold

B = (B j ) 16j 6V partition de {1, . . . , n}

(ξ i ) i∈B

1

| {z } validation

, (ξ i ) i ∈B

2

, . . . , (ξ i ) i ∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (1) γ b s m (−1)

i ) i∈B

1

| {z } entraˆın.

, (ξ i ) i∈B

2

| {z } validation

, . . . , (ξ i ) i∈B

V−1

, (ξ i ) i∈B

V

| {z }

entraˆınement

⇒ P n (2) γ b s m (−2) .. .

(ξ i ) i∈B

1

, (ξ i ) i∈B

2

, . . . , (ξ i ) i∈B

V−1

| {z }

entraˆınement

, (ξ i ) i∈B

V

| {z } validation

⇒ P n (V ) γ b s m (−V )

⇒ R b vf ( b s m ; D n ; B) = 1 V

V

X

j=1

P n (j ) γ b s m (−j)

m b ∈ arg min

m∈M

n

R b vf ( b s m ) o

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(28)

13/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au premier ordre : lemme

Objectif :

minimiser R(m) = P b s m (D n )

sur m ∈ M

M´ ethode :

minimiser C(m) = R b vf ( b s m ; D n ; B) sur m ∈ M

⇒ m b C ∈ argmin

m∈M

C(m)

Lemme

Si ∀m ∈ M, −B(m) 6 C(m) − R(m) 6 A(m) , alors, ∀ m b C ∈ argmin

m∈M

C(m) ,

R( m b C ) − B( m b C ) 6 inf

m∈M

R(m) + A(m) .

(29)

13/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au premier ordre : lemme

Objectif :

minimiser R(m) = P b s m (D n )

sur m ∈ M M´ ethode :

minimiser C(m) = R b vf ( b s m ; D n ; B) sur m ∈ M

⇒ m b C ∈ argmin

m∈M

C(m)

Lemme

Si ∀m ∈ M, −B(m) 6 C(m) − R(m) 6 A(m) , alors, ∀ m b C ∈ argmin

m∈M

C(m) ,

R( m b C ) − B( m b C ) 6 inf

m∈M

R(m) + A(m) .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(30)

14/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m ∈ M, E C(m)

= E R(m)

.

Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,

∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .

⇒ d’apr` es le lemme,

∀ m b C ∈ argmin

m∈M

C(m) , R( m b C ) 6 1 + δ n 1 − δ n

m∈M inf

R(m) .

Optimal au premier ordre si δ n → 0.

(31)

14/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m ∈ M, E C(m)

= E R(m)

. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,

∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .

⇒ d’apr` es le lemme,

∀ m b C ∈ argmin

m∈M

C(m) , R( m b C ) 6 1 + δ n 1 − δ n

m∈M inf

R(m) .

Optimal au premier ordre si δ n → 0.

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(32)

14/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m ∈ M, E C(m)

= E R(m)

. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,

∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .

⇒ d’apr` es le lemme,

∀ m b C ∈ argmin

m∈M

C(m) , R( m b C ) 6 1 + δ n 1 − δ n

m∈M inf

R(m) .

Optimal au premier ordre si δ n → 0.

(33)

14/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m ∈ M, E C(m)

= E R(m)

. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,

∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .

⇒ d’apr` es le lemme,

∀ m b C ∈ argmin

m∈M

C(m) , R( m b C ) 6 1 + δ n 1 − δ n

m∈M inf

R(m) .

Optimal au premier ordre si δ n → 0.

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(34)

15/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth` ese : Card(B j ) = n/V pour tout j .

Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E

P γ b s m (D n )

≈ α(m) + β (m)

n

⇒ E h

R b vf ( b s m ; D n ; B) i

= E h

P n (j) γ

b s m (−j )

i

= E h

P γ

b s m (−j)

i

≈ α(m) + V

V − 1 β(m)

n

⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞

⇒ sous-optimalit´ e de la validation crois´ ee

V -fold

` a V fix´ e

(A. 2008, r´ egressogrammes ; valable plus largement)

(35)

15/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth` ese : Card(B j ) = n/V pour tout j .

Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E

P γ b s m (D n )

≈ α(m) + β (m)

n

⇒ E h

R b vf ( b s m ; D n ; B) i

= E h

P n (j) γ

b s m (−j )

i

= E h

P γ

b s m (−j)

i

≈ α(m) + V

V − 1 β(m)

n

⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞

⇒ sous-optimalit´ e de la validation crois´ ee

V -fold

` a V fix´ e (A. 2008, r´ egressogrammes ; valable plus largement)

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(36)

15/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth` ese : Card(B j ) = n/V pour tout j .

Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E

P γ b s m (D n )

≈ α(m) + β (m)

n

⇒ E h

R b vf ( b s m ; D n ; B) i

= E h

P n (j) γ

b s m (−j )

i

= E h

P γ

b s m (−j)

i

≈ α(m) + V

V − 1 β(m)

n

⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞

⇒ sous-optimalit´ e de la validation crois´ ee

V -fold

` a V fix´ e

(A. 2008, r´ egressogrammes ; valable plus largement)

(37)

16/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´ ee

V -fold

corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1

V

V

X

j=1

P n γ

b s m (−j )

= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)

| {z } p´ enalit´ e V -fold (A. 2008)

Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )

+

1 + 1

2(V − 1)

| {z }

surp´ enalisation

pen VF ( b s m ; D n ; B)

R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +

z }| {

1 + 1 2

n p − 1

 pen VF ( b s m ; D n ; B loo )

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(38)

16/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´ ee

V -fold

corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1

V

V

X

j=1

P n γ

b s m (−j )

= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)

| {z }

p´ enalit´ e V -fold (A. 2008)

Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )

+

1 + 1

2(V − 1)

| {z }

surp´ enalisation

pen VF ( b s m ; D n ; B)

R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +

z }| {

1 + 1 2

n p − 1

 pen VF ( b s m ; D n ; B loo )

(39)

16/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´ ee

V -fold

corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1

V

V

X

j=1

P n γ

b s m (−j )

= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)

| {z } p´ enalit´ e V -fold (A. 2008)

Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )

+

1 + 1

2(V − 1)

| {z }

surp´ enalisation

pen VF ( b s m ; D n ; B)

R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +

z }| {

1 + 1 2

n p − 1

 pen VF ( b s m ; D n ; B loo )

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(40)

17/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´ eor` eme

Avec probabilit´ e 1 − n −2 , ∀δ > 0,

∀ m b ∈ argmin

m∈M

P n γ b s m (D n )

+ pen VF ( b s m ; D n ; B) ,

` (s ? , b s

m b ) 6 1 + δ

m∈M inf

` (s ? , b s m ) + L

log Card(M)

∨ log(n) α

δ β n

⇒ Optimal au premier ordre si Card(M) 6 an b

Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A. 2008, 2009)

L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)

+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee

V-fold

(constante 1 + V 1 −1 ).

(41)

17/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´ eor` eme

Avec probabilit´ e 1 − n −2 , ∀δ > 0,

∀ m b ∈ argmin

m∈M

P n γ b s m (D n )

+ pen VF ( b s m ; D n ; B) ,

` (s ? , b s

m b ) 6 1 + δ

m∈M inf

` (s ? , b s m ) + L

log Card(M)

∨ log(n) α

δ β n

⇒ Optimal au premier ordre si Card(M) 6 an b

Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A.

2008, 2009)

L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)

+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee

V-fold

(constante 1 + V 1 −1 ).

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(42)

17/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´ eor` eme

Avec probabilit´ e 1 − n −2 , ∀δ > 0,

∀ m b ∈ argmin

m∈M

P n γ b s m (D n )

+ pen VF ( b s m ; D n ; B) ,

` (s ? , b s

m b ) 6 1 + δ

m∈M inf

` (s ? , b s m ) + L

log Card(M)

∨ log(n) α

δ β n

⇒ Optimal au premier ordre si Card(M) 6 an b

Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A.

2008, 2009)

L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)

+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee

V-fold

(constante 1 + V 1 −1 ).

(43)

18/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au second ordre ?

Comment comparer m b C

1

et m b C

2

lorsque

∀m ∈ M, E C 1 (m)

= E C 2 (m)

?

Tenir compte de la variance var C i (m)

? Variance de quelle quantit´ e ?

Pour toute variable Z , m b

C

∈ argmin

m∈M

C(m) + Z mais var C(m) + Z

d´ epend de Z ... Ce qui compte :

∀m, m 0 ∈ M, sign C(m) − C(m 0 )

= sign R(m) − R(m 0 )

⇒ variance des incr´ ements

var C(m) − C(m 0 ) .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(44)

18/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au second ordre ?

Comment comparer m b C

1

et m b C

2

lorsque

∀m ∈ M, E C 1 (m)

= E C 2 (m)

? Tenir compte de la variance var C i (m)

?

Variance de quelle quantit´ e ?

Pour toute variable Z , m b

C

∈ argmin

m∈M

C(m) + Z mais var C(m) + Z

d´ epend de Z ... Ce qui compte :

∀m, m 0 ∈ M, sign C(m) − C(m 0 )

= sign R(m) − R(m 0 )

⇒ variance des incr´ ements

var C(m) − C(m 0 )

.

(45)

18/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au second ordre ?

Comment comparer m b C

1

et m b C

2

lorsque

∀m ∈ M, E C 1 (m)

= E C 2 (m)

? Tenir compte de la variance var C i (m)

? Variance de quelle quantit´ e ?

Pour toute variable Z , m b

C

∈ argmin

m∈M

C(m) + Z mais var C(m) + Z

d´ epend de Z ...

Ce qui compte :

∀m, m 0 ∈ M, sign C(m) − C(m 0 )

= sign R(m) − R(m 0 )

⇒ variance des incr´ ements

var C(m) − C(m 0 ) .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(46)

18/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au second ordre ?

Comment comparer m b C

1

et m b C

2

lorsque

∀m ∈ M, E C 1 (m)

= E C 2 (m)

? Tenir compte de la variance var C i (m)

? Variance de quelle quantit´ e ?

Pour toute variable Z , m b

C

∈ argmin

m∈M

C(m) + Z mais var C(m) + Z

d´ epend de Z ...

Ce qui compte :

∀m, m 0 ∈ M, sign C(m) − C(m 0 )

= sign R(m) − R(m 0 )

⇒ variance des incr´ ements

var C(m) − C(m 0 )

.

(47)

18/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Analyse au second ordre ?

Comment comparer m b C

1

et m b C

2

lorsque

∀m ∈ M, E C 1 (m)

= E C 2 (m)

? Tenir compte de la variance var C i (m)

? Variance de quelle quantit´ e ?

Pour toute variable Z , m b

C

∈ argmin

m∈M

C(m) + Z mais var C(m) + Z

d´ epend de Z ...

Ce qui compte :

∀m, m 0 ∈ M, sign C(m) − C(m 0 )

= sign R(m) − R(m 0 )

⇒ variance des incr´ ements

var C(m) − C(m 0 ) .

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(48)

19/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles : heuristique

∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m)

= P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0 6 min

m

0

6=m P C(m) − C(m 0 ) < 0

≈ min

m

0

6=m P

E

C(m) − C(m 0 )

− N q

var C(m) − C(m 0 )

< 0

= Φ

 max

m

0

6=m

E [C(m) − C(m 0 )] q

var C(m) − C(m 0 )

 o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et

∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]

⇒ on veut minimiser var C i (m) − C i (m 0 )

(49)

19/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles : heuristique

∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0

6 min

m

0

6=m P C(m) − C(m 0 ) < 0

≈ min

m

0

6=m P

E

C(m) − C(m 0 )

− N q

var C(m) − C(m 0 )

< 0

= Φ

 max

m

0

6=m

E [C(m) − C(m 0 )] q

var C(m) − C(m 0 )

 o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et

∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]

⇒ on veut minimiser var C i (m) − C i (m 0 )

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(50)

19/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles : heuristique

∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0

6 min

m

0

6=m P C(m) − C(m 0 ) < 0

≈ min

m

0

6=m P

E

C(m) − C(m 0 )

− N q

var C(m) − C(m 0 )

< 0

= Φ

 max

m

0

6=m

E [C(m) − C(m 0 )] q

var C(m) − C(m 0 )

 o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et

∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]

⇒ on veut minimiser var C i (m) − C i (m 0 )

(51)

19/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles : heuristique

∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0

6 min

m

0

6=m P C(m) − C(m 0 ) < 0

≈ min

m

0

6=m P

E

C(m) − C(m 0 )

− N q

var C(m) − C(m 0 )

< 0

= Φ

 max

m

0

6=m

E [C(m) − C(m 0 )]

q

var C(m) − C(m 0 )

 o` u Φ(t) = P (N > t)

Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et

∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]

⇒ on veut minimiser var C i (m) − C i (m 0 )

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(52)

19/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles : heuristique

∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0

6 min

m

0

6=m P C(m) − C(m 0 ) < 0

≈ min

m

0

6=m P

E

C(m) − C(m 0 )

− N q

var C(m) − C(m 0 )

< 0

= Φ

 max

m

0

6=m

E [C(m) − C(m 0 )]

q

var C(m) − C(m 0 )

 o` u Φ(t) = P (N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et

∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]

⇒ on veut minimiser var C i (m) − C i (m 0 )

(53)

20/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance et s´ election de mod` eles (densit´ e, moindres carr´ es)

∆(m, m 0 , V ) = R b vf,corr ( b s m ) − R b vf,corr ( b s m

0

) Th´ eor` eme (A. & Lerasle, 2014)

var ∆(m, m 0 , V )

= 4

1 + 2 n + 1

n 2

var P (s m ? − s m ?

0

) n + 2

1 + 4 V − 1 − 1

n

B(m, m 0 ) n 2

| {z }

>0

Si de plus S m ⊂ S m

0

sont deux mod` eles d’histogrammes r´ eguliers de pas d m −1 , d m −1

0

, alors

B(m, m 0 ) ∝ ks m ? − s m ?

0

k d m . Les deux termes sont du mˆ eme ordre si

s m ? − s m ?

0

≈ d m /n.

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(54)

21/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Variance de R b vf,corr ( b s m ) − R b vf ,corr ( b s m

?

) vs. (d m , V )

0 20 40 60 80 100

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18

dimension LOO

10−Fold 5−Fold 2−Fold E[penid]

var(∆(m, m 0 , V )) ≈ n −2

29 1 + V 0.8 −1

+ 3.7 1 + V 3.8 −1

(d m − d m

?

)

(55)

22/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Φ(max m

0

6=m E [C (m) − C(m 0 )]/ p

var(C(m) − C(m 0 )))

0 20 40 60 80 100

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7

dimension

LOO 10−Fold 5−Fold 2−Fold E[penid]

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(56)

23/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Evaluation de l’heuristique : ´ P ( m b C = m)

0 20 40 60 80 100

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

dimension

P(m is selected)

LOO

10−Fold

5−Fold

2−Fold

E[penid]

(57)

24/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Evaluation de l’heuristique (2) ´

0 0.02 0.04 0.06 0.08

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

Heuristic estimation of P(m is selected)

P(m is selected)

LOO 10−Fold 5−Fold 2−Fold E[penid]

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(58)

25/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : validation crois´ ee

V -fold

1 1.2 1.4 1.6 1.8 2

2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18

Risk Ratio (Cor)

overpenalization factor C

V=n (LOO)

V=10

V=5

V=2

(59)

25/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : validation crois´ ee

V -fold

1 1.2 1.4 1.6 1.8 2

2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18

Risk Ratio (Cor)

overpenalization factor C V=n (LOO) V=10 V=5 V=2

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(60)

25/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : validation crois´ ee

V -fold

1 1.2 1.4 1.6 1.8 2

2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18

Risk Ratio (Cor)

overpenalization factor C

V=n (LOO)

V=10

V=5

V=2

(61)

25/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : validation crois´ ee

V -fold

1 1.2 1.4 1.6 1.8 2

2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18

Risk Ratio (Cor)

overpenalization factor C V=n (LOO) V=10 V=5 V=2

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(62)

26/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : p´ enalisation

V -fold

1 1.2 1.4 1.6 1.8 2

2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18

Risk Ratio (Cor)

overpenalization factor C

V=n (LOO)

V=10

V=5

V=2

(63)

26/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : p´ enalisation

V -fold

1 1.2 1.4 1.6 1.8 2

1.9 2 2.1 2.2 2.3 2.4 2.5

Risk Ratio (Cor)

overpenalization factor C V=n (LOO) V=10 V=5 V=2

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(64)

27/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : surp´ enalisation

1 1.2 1.4 1.6 1.8 2

1.9 2 2.1 2.2 2.3 2.4 2.5

Risk Ratio (Cor)

overpenalization factor C

V=n (LOO)

V=10

V=5

V=2

(65)

28/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : conclusion

0 1 2 3 4 5

2 2.5 3 3.5 4 4.5

Risk Ratio (Cor)

overpenalization factor C V=n (LOO) V=10 V=5 V=2

LOO 10FCV 5FCV 2FCV

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(66)

29/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

Simulations : cadre

pratiquement param´ etrique

1 2 3 4 5 6

3.5 4 4.5 5 5.5 6 6.5 7 7.5 8

Risk Ratio (Cor)

overpenalization factor C V=n (LOO) V=10 V=5 V=2

LOO

10FCV

5FCV

2FCV

(67)

30/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

V -fold

et s´ election de mod` eles : conclusion

Temps de calcul : O(V ) en g´ en´ eral

Validation crois´ ee

V -fold

:

Biais : diminue avec V / peut ˆ etre supprim´ e

Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]

⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...

... si le facteur de surp´ enalisation optimal C

?

≈ 1 (nombreux cas possibles).

P´ enalisation

V -fold

:

D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.

Biais : choisi directement ` a travers C , sans contrainte. Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(68)

30/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

V -fold

et s´ election de mod` eles : conclusion

Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee

V -fold

:

Biais : diminue avec V / peut ˆ etre supprim´ e

Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]

⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...

... si le facteur de surp´ enalisation optimal C

?

≈ 1 (nombreux cas possibles).

P´ enalisation

V -fold

:

D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.

Biais : choisi directement ` a travers C , sans contrainte.

Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].

(69)

30/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

V -fold

et s´ election de mod` eles : conclusion

Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee

V -fold

:

Biais : diminue avec V / peut ˆ etre supprim´ e

Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]

⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...

... si le facteur de surp´ enalisation optimal C

?

≈ 1 (nombreux cas possibles).

P´ enalisation

V -fold

:

D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.

Biais : choisi directement ` a travers C , sans contrainte. Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(70)

30/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

V -fold

et s´ election de mod` eles : conclusion

Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee

V -fold

:

Biais : diminue avec V / peut ˆ etre supprim´ e

Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]

⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...

... si le facteur de surp´ enalisation optimal C

?

≈ 1 (nombreux cas possibles).

P´ enalisation

V -fold

:

D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.

Biais : choisi directement ` a travers C , sans contrainte.

Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].

(71)

31/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

G´ en´ eralit´ e de ces r´ esultats

Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).

Correction du biais / p´ enalisation

V -fold

: valable lorsque E

h

(P − P n )γ b s m

i

≈ γ(m) n .

Sinon :

V -fold

r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.

Variance : d’autres comportements sont possibles (exp´ erimentalement).

Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E

h

P γ b s m (D n ) i

et m → var

R b vc ( b s m ) − R b vc ( b s m

?

)

.

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

(72)

31/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

G´ en´ eralit´ e de ces r´ esultats

Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).

Correction du biais / p´ enalisation

V -fold

: valable lorsque

E h

(P − P n )γ b s m

i

≈ γ(m) n .

Sinon :

V -fold

r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.

Variance : d’autres comportements sont possibles (exp´ erimentalement).

Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E

h

P γ b s m (D n ) i

et m → var

R b vc ( b s m ) − R b vc ( b s m

?

)

.

(73)

31/31

S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion

G´ en´ eralit´ e de ces r´ esultats

Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).

Correction du biais / p´ enalisation

V -fold

: valable lorsque E

h

(P − P n )γ b s m

i

≈ γ(m) n .

Sinon :

V -fold

r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.

Variance : d’autres comportements sont possibles (exp´ erimentalement).

Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E

h

P γ b s m (D n ) i

et m → var

R b vc ( b s m ) − R b vc ( b s m

?

)

.

Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)

Références

Documents relatifs

Le temps de vol d’un certain type d’avion sur un trajet fix´ e poss` ede une moyenne de 16,25 heures depuis la mise en service de ces avions. La distribution du temps de vol a un

large signal-to-noise ratio ⇒ possible to stay unbiased with a small V (for computational reasons). flexibility improves V -fold cross-validation (according to both theoretical

Nous proposons dans cette pr´ esentation, apr` es avoir lib´ er´ e son iPod Touch de l’emprise de Cupertino, d’exploiter une chaˆıne de compilation crois´ ee libre exploitant

D´esormais, on utilisera les commandes Maple rassembl´ees dans la biblioth`eque linalg pour op´erer sur les vecteurs et plus les versions ≪ my_ ≫ construites auparavant.. 4

C'est beaucoup plus large, donc on peut trouver des emplois pour un Français, un jeune, qui, s'il voyage, complétera sa formation dans un autre pays ; pour d'autres gens en

[r]

Pour le choix du nombre de variables latentes `a inclure dans le mod`ele de discrimination, nous pouvons effectuer une proc´edure de validation crois´ee du type Jackknife en

Les proc´ edures SURVEYMEANS, SURVEYFREQ, SURVEYREG, SURVEYLOGISTIC, qui seront pr´ esent´ ees dans l’atelier, permettent de mettre en oeuvre les m´ ethodes classiques d’analyse