1/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Comparaison de proc´ edures de validation crois´ ee (
V -fold
)
Sylvain Arlot (collaboration avec Matthieu Lerasle)
1
Cnrs
2
Ecole Normale Sup´ ´ erieure (Paris), DI/ENS, ´ Equipe Sierra
Nice, 20 f´ evrier 2015
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
2/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Plan
1 S´ election de mod` eles par validation crois´ ee
2 Analyse au premier ordre : biais
3 Analyse au deuxi` eme ordre : variance
4 Conclusion
3/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Estimation de densit´ e : donn´ ees ξ 1 , . . . , ξ n
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
4/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
But : estimer la densit´ e s ? des observations ξ i
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
5/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Probl` eme : estimation de densit´ e
Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)
Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L
2(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P
γ(t; ξ)
=: P γ(t) est minimale.
P γ(t) = Z
t 2 dµ − 2 Z
ts ? dµ = Z
(t − s ? ) 2 dµ − ks ? k 2 L
2(µ)
⇒ densit´ e s ? ∈ argmin t∈ S P γ (t) et la perte relative vaut
` (s ? , t ) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L
2(µ) . Cas particulier d’un cadre g´ en´ eral incluant aussi :
pr´ ediction (r´ egression/classification) contraste log-vraisemblance en densit´ e
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
5/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Probl` eme : estimation de densit´ e
Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)
Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L
2(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P
γ(t; ξ)
=: P γ(t) est minimale.
P γ(t ) = Z
t 2 dµ − 2 Z
ts ? dµ = Z
(t − s ? ) 2 dµ − ks ? k 2 L
2(µ)
⇒ densit´ e s ? ∈ argmin t∈ S P γ(t) et la perte relative vaut
` (s ? , t) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L
2(µ) .
Cas particulier d’un cadre g´ en´ eral incluant aussi : pr´ ediction (r´ egression/classification)
contraste log-vraisemblance en densit´ e
5/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Probl` eme : estimation de densit´ e
Donn´ ees D n : ξ 1 , . . . , ξ n ∈ Ξ (i.i.d. ∼ P , densit´ e s ? par rapport ` a µ)
Contraste des moindres carr´ es γ(t, ξ ) = ktk 2 L
2(µ) − 2t(ξ) Objectif : apprendre t ∈ S = {fonctions mesurables Ξ → R } t.q. E ξ∼P
γ(t; ξ)
=: P γ(t) est minimale.
P γ(t ) = Z
t 2 dµ − 2 Z
ts ? dµ = Z
(t − s ? ) 2 dµ − ks ? k 2 L
2(µ)
⇒ densit´ e s ? ∈ argmin t∈ S P γ(t) et la perte relative vaut
` (s ? , t) := P γ(t) − P γ(s ? ) = kt − s ? k 2 L
2(µ) . Cas particulier d’un cadre g´ en´ eral incluant aussi :
pr´ ediction (r´ egression/classification) contraste log-vraisemblance en densit´ e
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
6/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Un estimateur par histogramme
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
7/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
S´ election de mod` eles : histogrammes r´ eguliers
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
8/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
S´ election de mod` eles
Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin
t∈S
mP n γ(t) o` u P n γ(t) := 1 n
X
ξ∈D
nγ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).
Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ? Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :
` (s ? , b s m b ) 6 C inf
m∈M
` (s ? , b s m ) + R n
8/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
S´ election de mod` eles
Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin
t∈S
mP n γ(t) o` u P n γ(t) := 1 n
X
ξ∈D
nγ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).
Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ?
Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :
` (s ? , b s m b ) 6 C inf
m∈M
` (s ? , b s m ) + R n
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
8/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
S´ election de mod` eles
Estimateur des moindres carr´ es sur un mod` ele S m ⊂ S b s m ∈ argmin
t∈S
mP n γ(t) o` u P n γ(t) := 1 n
X
ξ∈D
nγ (t; ξ) Exemples de mod` eles : histogrammes, base tronqu´ ee (Fourier, ondelettes, etc.).
Collection de mod` eles ( b s m ) m∈M ⇒ choisir m b = m(D b n ) ? Objectif : minimiser le risque de l’estimateur final, i.e., In´ egalit´ e oracle (en esp´ erance ou avec grande probabilit´ e) :
` (s ? , b s m b ) 6 C inf
m∈M
` (s ? , b s m ) + R n
9/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Compromis biais-variance
E
` (s ? , b s m )
= Biais + Variance Biais ou Erreur d’approximation
` (s ? , S m ) = inf
t∈S
m` (s ? , t) Variance ou Erreur d’estimation
histogrammes r´ eguliers sur R de pas d m −1 : d m − ks m ? k 2 L
2(µ)
n ≈ d m n
Compromis biais-variance
⇔ ´ eviter le sur-apprentissage et le sous-apprentissage
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
9/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Compromis biais-variance
E
` (s ? , b s m )
= Biais + Variance Biais ou Erreur d’approximation
` (s ? , S m ) = inf
t∈S
m` (s ? , t) Variance ou Erreur d’estimation
histogrammes r´ eguliers sur R de pas d m −1 : d m − ks m ? k 2 L
2(µ)
n ≈ d m n
Compromis biais-variance
⇔ ´ eviter le sur-apprentissage et le sous-apprentissage
10/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Principe de la validation simple
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
10/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Principe de la validation : ´ echantillon d’entraˆınement
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
10/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Principe de la validation : ´ echantillon d’entraˆınement
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
10/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Principe de la validation : ´ echantillon de validation
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
10/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Principe de la validation : ´ echantillon de validation
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
11/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
ξ 1 , . . . , ξ n
e| {z }
Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)
ξ n
e+1 , . . . , ξ n
| {z }
Validation D n (v ) ⇒ ´ evaluer le risque
Estimateur
Hold-out
du risque : P n (v) γ
b s m (e)
= 1 n v
X
ξ∈D
n(v)γ b s m (e) ; ξ
n
v=|D
(vn)|=n−n
eValidation crois´ ee : moyenne d’estimateurs
hold-out
R b vc
b s m ; D n ; (I j (e) ) 16j 6B
= 1 B
B
X
j=1
P n (v,j ) γ b s m (e,j )
D
n(e,j)=(ξ
i)
i∈I(e) j
S´ election de mod` eles : m b ∈ argmin
m∈M
n
R b vc ( b s m ; D n ) o
.
11/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
ξ 1 , . . . , ξ n
e| {z }
Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)
ξ n
e+1 , . . . , ξ n
| {z }
Validation D n (v ) ⇒ ´ evaluer le risque
Estimateur
Hold-out
du risque : P n (v) γ
b s m (e)
= 1 n v
X
ξ∈D
n(v)γ b s m (e) ; ξ
n
v=|D
(v)n|=n−n
eValidation crois´ ee : moyenne d’estimateurs
hold-out
R b vc
b s m ; D n ; (I j (e) ) 16j 6B
= 1 B
B
X
j=1
P n (v,j ) γ b s m (e,j )
D
(e,j)n=(ξ
i)
i∈I(e) j
S´ election de mod` eles : m b ∈ argmin
m∈M
n
R b vc ( b s m ; D n ) o .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
11/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
ξ 1 , . . . , ξ n
e| {z }
Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)
ξ n
e+1 , . . . , ξ n
| {z }
Validation D n (v ) ⇒ ´ evaluer le risque Estimateur
Hold-out
du risque :
P n (v) γ b s m (e)
= 1 n v
X
ξ∈D
n(v)γ b s m (e) ; ξ
n
v=|D
(v)n|=n−n
eValidation crois´ ee : moyenne d’estimateurs
hold-out
R b vc
b s m ; D n ; (I j (e) ) 16j 6B
= 1 B
B
X
j=1
P n (v ,j ) γ b s m (e,j)
D
(e,j)n=(ξ
i)
i∈I(e) j
S´ election de mod` eles : m b ∈ argmin
m∈M
n
R b vc ( b s m ; D n ) o
.
11/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
ξ 1 , . . . , ξ n
e| {z }
Entraˆınement D n (e) ⇒ b s m (e) = b s m D n (e)
ξ n
e+1 , . . . , ξ n
| {z }
Validation D n (v ) ⇒ ´ evaluer le risque Estimateur
Hold-out
du risque :
P n (v) γ b s m (e)
= 1 n v
X
ξ∈D
n(v)γ b s m (e) ; ξ
n
v=|D
(v)n|=n−n
eValidation crois´ ee : moyenne d’estimateurs
hold-out
R b vc
b s m ; D n ; (I j (e) ) 16j 6B
= 1 B
B
X
j=1
P n (v ,j ) γ b s m (e,j)
D
(e,j)n=(ξ
i)
i∈I(e) j
S´ election de mod` eles : m b ∈ argmin
m∈M
n
R b vc ( b s m ; D n ) o .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
12/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
V -fold
B = (B j ) 16j 6V partition de {1, . . . , n}
(ξ i ) i∈B
1| {z } validation
, (ξ i ) i ∈B
2, . . . , (ξ i ) i ∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (1) γ b s m (−1)
(ξ i ) i∈B
1| {z } entraˆın.
, (ξ i ) i∈B
2| {z } validation
, . . . , (ξ i ) i∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (2) γ b s m (−2) .. .
(ξ i ) i∈B
1, (ξ i ) i∈B
2, . . . , (ξ i ) i∈B
V−1| {z }
entraˆınement
, (ξ i ) i∈B
V| {z } validation
⇒ P n (V ) γ b s m (−V )
⇒ R b vf ( b s m ; D n ; B) = 1 V
V
X
j=1
P n (j ) γ b s m (−j)
m b ∈ arg min
m∈M
n
R b vf ( b s m )
o
12/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
V -fold
B = (B j ) 16j 6V partition de {1, . . . , n}
(ξ i ) i∈B
1| {z } validation
, (ξ i ) i ∈B
2, . . . , (ξ i ) i ∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (1) γ b s m (−1)
(ξ i ) i∈B
1| {z } entraˆın.
, (ξ i ) i∈B
2| {z } validation
, . . . , (ξ i ) i∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (2) γ b s m (−2)
.. .
(ξ i ) i∈B
1, (ξ i ) i∈B
2, . . . , (ξ i ) i∈B
V−1| {z }
entraˆınement
, (ξ i ) i∈B
V| {z } validation
⇒ P n (V ) γ b s m (−V )
⇒ R b vf ( b s m ; D n ; B) = 1 V
V
X
j=1
P n (j ) γ b s m (−j)
m b ∈ arg min
m∈M
n
R b vf ( b s m ) o
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
12/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
V -fold
B = (B j ) 16j 6V partition de {1, . . . , n}
(ξ i ) i∈B
1| {z } validation
, (ξ i ) i ∈B
2, . . . , (ξ i ) i ∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (1) γ b s m (−1)
(ξ i ) i∈B
1| {z } entraˆın.
, (ξ i ) i∈B
2| {z } validation
, . . . , (ξ i ) i∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (2) γ b s m (−2) .. .
(ξ i ) i∈B
1, (ξ i ) i∈B
2, . . . , (ξ i ) i∈B
V−1| {z }
entraˆınement
, (ξ i ) i∈B
V| {z } validation
⇒ P n (V ) γ b s m (−V )
⇒ R b vf ( b s m ; D n ; B) = 1 V
V
X
j=1
P n (j ) γ b s m (−j)
m b ∈ arg min
m∈M
n
R b vf ( b s m )
o
12/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Validation crois´ ee
V -fold
B = (B j ) 16j 6V partition de {1, . . . , n}
(ξ i ) i∈B
1| {z } validation
, (ξ i ) i ∈B
2, . . . , (ξ i ) i ∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (1) γ b s m (−1)
(ξ i ) i∈B
1| {z } entraˆın.
, (ξ i ) i∈B
2| {z } validation
, . . . , (ξ i ) i∈B
V−1, (ξ i ) i∈B
V| {z }
entraˆınement
⇒ P n (2) γ b s m (−2) .. .
(ξ i ) i∈B
1, (ξ i ) i∈B
2, . . . , (ξ i ) i∈B
V−1| {z }
entraˆınement
, (ξ i ) i∈B
V| {z } validation
⇒ P n (V ) γ b s m (−V )
⇒ R b vf ( b s m ; D n ; B) = 1 V
V
X
j=1
P n (j ) γ b s m (−j)
m b ∈ arg min
m∈M
n
R b vf ( b s m ) o
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
13/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au premier ordre : lemme
Objectif :
minimiser R(m) = P b s m (D n )
sur m ∈ M
M´ ethode :
minimiser C(m) = R b vf ( b s m ; D n ; B) sur m ∈ M
⇒ m b C ∈ argmin
m∈M
C(m)
Lemme
Si ∀m ∈ M, −B(m) 6 C(m) − R(m) 6 A(m) , alors, ∀ m b C ∈ argmin
m∈M
C(m) ,
R( m b C ) − B( m b C ) 6 inf
m∈M
R(m) + A(m) .
13/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au premier ordre : lemme
Objectif :
minimiser R(m) = P b s m (D n )
sur m ∈ M M´ ethode :
minimiser C(m) = R b vf ( b s m ; D n ; B) sur m ∈ M
⇒ m b C ∈ argmin
m∈M
C(m)
Lemme
Si ∀m ∈ M, −B(m) 6 C(m) − R(m) 6 A(m) , alors, ∀ m b C ∈ argmin
m∈M
C(m) ,
R( m b C ) − B( m b C ) 6 inf
m∈M
R(m) + A(m) .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
14/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m ∈ M, E C(m)
= E R(m)
.
Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,
∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .
⇒ d’apr` es le lemme,
∀ m b C ∈ argmin
m∈M
C(m) , R( m b C ) 6 1 + δ n 1 − δ n
m∈M inf
R(m) .
Optimal au premier ordre si δ n → 0.
14/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m ∈ M, E C(m)
= E R(m)
. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,
∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .
⇒ d’apr` es le lemme,
∀ m b C ∈ argmin
m∈M
C(m) , R( m b C ) 6 1 + δ n 1 − δ n
m∈M inf
R(m) .
Optimal au premier ordre si δ n → 0.
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
14/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m ∈ M, E C(m)
= E R(m)
. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,
∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .
⇒ d’apr` es le lemme,
∀ m b C ∈ argmin
m∈M
C(m) , R( m b C ) 6 1 + δ n 1 − δ n
m∈M inf
R(m) .
Optimal au premier ordre si δ n → 0.
14/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m ∈ M, E C(m)
= E R(m)
. Sous r´ eserve d’in´ egalit´ es de concentration (uniformes sur m ∈ M), avec grande probabilit´ e,
∀m ∈ M, −δ n R(m) 6 C(m) − R(m) 6 δ n R(m) avec δ n ∈ ]0, 1[ .
⇒ d’apr` es le lemme,
∀ m b C ∈ argmin
m∈M
C(m) , R( m b C ) 6 1 + δ n 1 − δ n
m∈M inf
R(m) .
Optimal au premier ordre si δ n → 0.
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
15/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth` ese : Card(B j ) = n/V pour tout j .
Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E
P γ b s m (D n )
≈ α(m) + β (m)
n
⇒ E h
R b vf ( b s m ; D n ; B) i
= E h
P n (j) γ
b s m (−j )
i
= E h
P γ
b s m (−j)
i
≈ α(m) + V
V − 1 β(m)
n
⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞
⇒ sous-optimalit´ e de la validation crois´ ee
V -fold
` a V fix´ e
(A. 2008, r´ egressogrammes ; valable plus largement)
15/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth` ese : Card(B j ) = n/V pour tout j .
Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E
P γ b s m (D n )
≈ α(m) + β (m)
n
⇒ E h
R b vf ( b s m ; D n ; B) i
= E h
P n (j) γ
b s m (−j )
i
= E h
P γ
b s m (−j)
i
≈ α(m) + V
V − 1 β(m)
n
⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞
⇒ sous-optimalit´ e de la validation crois´ ee
V -fold
` a V fix´ e (A. 2008, r´ egressogrammes ; valable plus largement)
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
15/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth` ese : Card(B j ) = n/V pour tout j .
Calcul d’esp´ erances (moindres carr´ es, densit´ e ou r´ egression) : E
P γ b s m (D n )
≈ α(m) + β (m)
n
⇒ E h
R b vf ( b s m ; D n ; B) i
= E h
P n (j) γ
b s m (−j )
i
= E h
P γ
b s m (−j)
i
≈ α(m) + V
V − 1 β(m)
n
⇒ biais, d´ ecroissant avec V , tend vers z´ ero quand V → +∞
⇒ sous-optimalit´ e de la validation crois´ ee
V -fold
` a V fix´ e
(A. 2008, r´ egressogrammes ; valable plus largement)
16/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´ ee
V -fold
corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1
V
V
X
j=1
P n γ
b s m (−j )
= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)
| {z } p´ enalit´ e V -fold (A. 2008)
Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )
+
1 + 1
2(V − 1)
| {z }
surp´ enalisation
pen VF ( b s m ; D n ; B)
R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +
z }| {
1 + 1 2
n p − 1
pen VF ( b s m ; D n ; B loo )
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
16/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´ ee
V -fold
corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1
V
V
X
j=1
P n γ
b s m (−j )
= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)
| {z }
p´ enalit´ e V -fold (A. 2008)
Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )
+
1 + 1
2(V − 1)
| {z }
surp´ enalisation
pen VF ( b s m ; D n ; B)
R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +
z }| {
1 + 1 2
n p − 1
pen VF ( b s m ; D n ; B loo )
16/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´ ee
V -fold
corrig´ ee (Burman, 1989) : R b vf,corr ( b s m ; D n ; B) := R b vf ( b s m ; D n ; B) + P n γ ( b s m ) − 1
V
V
X
j=1
P n γ
b s m (−j )
= P n γ ( b s m ) + pen VF ( b s m ; D n ; B)
| {z } p´ enalit´ e V -fold (A. 2008)
Estimation de densit´ e, moindres carr´ es (A. & Lerasle, 2014) : R b vf ( b s m ; D n ; B) = P n γ b s m (D n )
+
1 + 1
2(V − 1)
| {z }
surp´ enalisation
pen VF ( b s m ; D n ; B)
R b `po ( b s m ; D n ; B) = P n γ b s m (D n ) +
z }| {
1 + 1 2
n p − 1
pen VF ( b s m ; D n ; B loo )
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
17/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
In´ egalit´ es oracle optimales pour la p´ enalisation
V -fold
Th´ eor` eme
Avec probabilit´ e 1 − n −2 , ∀δ > 0,
∀ m b ∈ argmin
m∈M
P n γ b s m (D n )
+ pen VF ( b s m ; D n ; B) ,
` (s ? , b s
m b ) 6 1 + δ
m∈M inf
` (s ? , b s m ) + L
log Card(M)
∨ log(n) α
δ β n
⇒ Optimal au premier ordre si Card(M) 6 an b
Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A. 2008, 2009)
L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)
+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee
V-fold
(constante 1 + V 1 −1 ).
17/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
In´ egalit´ es oracle optimales pour la p´ enalisation
V -fold
Th´ eor` eme
Avec probabilit´ e 1 − n −2 , ∀δ > 0,
∀ m b ∈ argmin
m∈M
P n γ b s m (D n )
+ pen VF ( b s m ; D n ; B) ,
` (s ? , b s
m b ) 6 1 + δ
m∈M inf
` (s ? , b s m ) + L
log Card(M)
∨ log(n) α
δ β n
⇒ Optimal au premier ordre si Card(M) 6 an b
Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A.
2008, 2009)
L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)
+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee
V-fold
(constante 1 + V 1 −1 ).
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
17/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
In´ egalit´ es oracle optimales pour la p´ enalisation
V -fold
Th´ eor` eme
Avec probabilit´ e 1 − n −2 , ∀δ > 0,
∀ m b ∈ argmin
m∈M
P n γ b s m (D n )
+ pen VF ( b s m ; D n ; B) ,
` (s ? , b s
m b ) 6 1 + δ
m∈M inf
` (s ? , b s m ) + L
log Card(M)
∨ log(n) α
δ β n
⇒ Optimal au premier ordre si Card(M) 6 an b
Valable sous des hypoth` eses raisonnablement faibles pour : Les r´ egressogrammes en r´ egression h´ et´ erosc´ edastique (A.
2008, 2009)
L’estimation de densit´ e par moindres carr´ es (A. & Lerasle, 2014 ; Celisse, 2014)
+ In´ egalit´ e-oracle sous-optimale pour la validation crois´ ee
V-fold
(constante 1 + V 1 −1 ).
18/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au second ordre ?
Comment comparer m b C
1et m b C
2lorsque
∀m ∈ M, E C 1 (m)
= E C 2 (m)
?
Tenir compte de la variance var C i (m)
? Variance de quelle quantit´ e ?
Pour toute variable Z , m b
C∈ argmin
m∈MC(m) + Z mais var C(m) + Z
d´ epend de Z ... Ce qui compte :
∀m, m 0 ∈ M, sign C(m) − C(m 0 )
= sign R(m) − R(m 0 )
⇒ variance des incr´ ements
var C(m) − C(m 0 ) .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
18/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au second ordre ?
Comment comparer m b C
1et m b C
2lorsque
∀m ∈ M, E C 1 (m)
= E C 2 (m)
? Tenir compte de la variance var C i (m)
?
Variance de quelle quantit´ e ?
Pour toute variable Z , m b
C∈ argmin
m∈MC(m) + Z mais var C(m) + Z
d´ epend de Z ... Ce qui compte :
∀m, m 0 ∈ M, sign C(m) − C(m 0 )
= sign R(m) − R(m 0 )
⇒ variance des incr´ ements
var C(m) − C(m 0 )
.
18/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au second ordre ?
Comment comparer m b C
1et m b C
2lorsque
∀m ∈ M, E C 1 (m)
= E C 2 (m)
? Tenir compte de la variance var C i (m)
? Variance de quelle quantit´ e ?
Pour toute variable Z , m b
C∈ argmin
m∈MC(m) + Z mais var C(m) + Z
d´ epend de Z ...
Ce qui compte :
∀m, m 0 ∈ M, sign C(m) − C(m 0 )
= sign R(m) − R(m 0 )
⇒ variance des incr´ ements
var C(m) − C(m 0 ) .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
18/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au second ordre ?
Comment comparer m b C
1et m b C
2lorsque
∀m ∈ M, E C 1 (m)
= E C 2 (m)
? Tenir compte de la variance var C i (m)
? Variance de quelle quantit´ e ?
Pour toute variable Z , m b
C∈ argmin
m∈MC(m) + Z mais var C(m) + Z
d´ epend de Z ...
Ce qui compte :
∀m, m 0 ∈ M, sign C(m) − C(m 0 )
= sign R(m) − R(m 0 )
⇒ variance des incr´ ements
var C(m) − C(m 0 )
.
18/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Analyse au second ordre ?
Comment comparer m b C
1et m b C
2lorsque
∀m ∈ M, E C 1 (m)
= E C 2 (m)
? Tenir compte de la variance var C i (m)
? Variance de quelle quantit´ e ?
Pour toute variable Z , m b
C∈ argmin
m∈MC(m) + Z mais var C(m) + Z
d´ epend de Z ...
Ce qui compte :
∀m, m 0 ∈ M, sign C(m) − C(m 0 )
= sign R(m) − R(m 0 )
⇒ variance des incr´ ements
var C(m) − C(m 0 ) .
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
19/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles : heuristique
∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m)
= P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0 6 min
m
06=m P C(m) − C(m 0 ) < 0
≈ min
m
06=m P
E
C(m) − C(m 0 )
− N q
var C(m) − C(m 0 )
< 0
= Φ
max
m
06=m
E [C(m) − C(m 0 )] q
var C(m) − C(m 0 )
o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et
∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]
⇒ on veut minimiser var C i (m) − C i (m 0 )
19/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles : heuristique
∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0
6 min
m
06=m P C(m) − C(m 0 ) < 0
≈ min
m
06=m P
E
C(m) − C(m 0 )
− N q
var C(m) − C(m 0 )
< 0
= Φ
max
m
06=m
E [C(m) − C(m 0 )] q
var C(m) − C(m 0 )
o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et
∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]
⇒ on veut minimiser var C i (m) − C i (m 0 )
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
19/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles : heuristique
∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0
6 min
m
06=m P C(m) − C(m 0 ) < 0
≈ min
m
06=m P
E
C(m) − C(m 0 )
− N q
var C(m) − C(m 0 )
< 0
= Φ
max
m
06=m
E [C(m) − C(m 0 )] q
var C(m) − C(m 0 )
o` u Φ(t) = P(N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et
∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]
⇒ on veut minimiser var C i (m) − C i (m 0 )
19/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles : heuristique
∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0
6 min
m
06=m P C(m) − C(m 0 ) < 0
≈ min
m
06=m P
E
C(m) − C(m 0 )
− N q
var C(m) − C(m 0 )
< 0
= Φ
max
m
06=m
E [C(m) − C(m 0 )]
q
var C(m) − C(m 0 )
o` u Φ(t) = P (N > t)
Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et
∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]
⇒ on veut minimiser var C i (m) − C i (m 0 )
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
19/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles : heuristique
∀m ∈ / argmin m∈M E [` (s ? , b s m )], on veut minimiser P ( m b C = m) = P ∀m 0 ∈ M, C(m) − C(m 0 ) < 0
6 min
m
06=m P C(m) − C(m 0 ) < 0
≈ min
m
06=m P
E
C(m) − C(m 0 )
− N q
var C(m) − C(m 0 )
< 0
= Φ
max
m
06=m
E [C(m) − C(m 0 )]
q
var C(m) − C(m 0 )
o` u Φ(t) = P (N > t) Hypoth` eses : ∀m ∈ M, E[C 1 (m)] = E[C 2 (m)] et
∀i , argmin m∈M E [C i (m)] = argmin m∈M E [R(m)]
⇒ on veut minimiser var C i (m) − C i (m 0 )
20/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance et s´ election de mod` eles (densit´ e, moindres carr´ es)
∆(m, m 0 , V ) = R b vf,corr ( b s m ) − R b vf,corr ( b s m
0) Th´ eor` eme (A. & Lerasle, 2014)
var ∆(m, m 0 , V )
= 4
1 + 2 n + 1
n 2
var P (s m ? − s m ?
0) n + 2
1 + 4 V − 1 − 1
n
B(m, m 0 ) n 2
| {z }
>0
Si de plus S m ⊂ S m
0sont deux mod` eles d’histogrammes r´ eguliers de pas d m −1 , d m −1
0, alors
B(m, m 0 ) ∝ ks m ? − s m ?
0k d m . Les deux termes sont du mˆ eme ordre si
s m ? − s m ?
0≈ d m /n.
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
21/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Variance de R b vf,corr ( b s m ) − R b vf ,corr ( b s m?) vs. (d m , V )
0 20 40 60 80 100
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18
dimension LOO
10−Fold 5−Fold 2−Fold E[penid]
var(∆(m, m 0 , V )) ≈ n −2
29 1 + V 0.8 −1
+ 3.7 1 + V 3.8 −1
(d m − d m
?)
22/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Φ(max m06=m E [C (m) − C(m 0 )]/ p
var(C(m) − C(m 0 )))
0 20 40 60 80 100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
dimension
LOO 10−Fold 5−Fold 2−Fold E[penid]
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
23/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Evaluation de l’heuristique : ´ P ( m b C = m)
0 20 40 60 80 100
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
dimension
P(m is selected)
LOO
10−Fold
5−Fold
2−Fold
E[penid]
24/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Evaluation de l’heuristique (2) ´
0 0.02 0.04 0.06 0.08
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
Heuristic estimation of P(m is selected)
P(m is selected)
LOO 10−Fold 5−Fold 2−Fold E[penid]
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
25/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : validation crois´ ee
V -fold
1 1.2 1.4 1.6 1.8 2
2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Risk Ratio (Cor)
overpenalization factor C
V=n (LOO)
V=10
V=5
V=2
25/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : validation crois´ ee
V -fold
1 1.2 1.4 1.6 1.8 2
2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Risk Ratio (Cor)
overpenalization factor C V=n (LOO) V=10 V=5 V=2
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
25/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : validation crois´ ee
V -fold
1 1.2 1.4 1.6 1.8 2
2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Risk Ratio (Cor)
overpenalization factor C
V=n (LOO)
V=10
V=5
V=2
25/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : validation crois´ ee
V -fold
1 1.2 1.4 1.6 1.8 2
2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Risk Ratio (Cor)
overpenalization factor C V=n (LOO) V=10 V=5 V=2
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
26/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : p´ enalisation
V -fold
1 1.2 1.4 1.6 1.8 2
2.04 2.06 2.08 2.1 2.12 2.14 2.16 2.18
Risk Ratio (Cor)
overpenalization factor C
V=n (LOO)
V=10
V=5
V=2
26/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : p´ enalisation
V -fold
1 1.2 1.4 1.6 1.8 2
1.9 2 2.1 2.2 2.3 2.4 2.5
Risk Ratio (Cor)
overpenalization factor C V=n (LOO) V=10 V=5 V=2
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
27/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : surp´ enalisation
1 1.2 1.4 1.6 1.8 2
1.9 2 2.1 2.2 2.3 2.4 2.5
Risk Ratio (Cor)
overpenalization factor C
V=n (LOO)
V=10
V=5
V=2
28/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : conclusion
0 1 2 3 4 5
2 2.5 3 3.5 4 4.5
Risk Ratio (Cor)
overpenalization factor C V=n (LOO) V=10 V=5 V=2
LOO 10FCV 5FCV 2FCV
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
29/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
Simulations : cadre
pratiquement param´ etrique
1 2 3 4 5 6
3.5 4 4.5 5 5.5 6 6.5 7 7.5 8
Risk Ratio (Cor)
overpenalization factor C V=n (LOO) V=10 V=5 V=2
LOO
10FCV
5FCV
2FCV
30/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
V -fold
et s´ election de mod` eles : conclusion
Temps de calcul : O(V ) en g´ en´ eral
Validation crois´ ee
V -fold
:
Biais : diminue avec V / peut ˆ etre supprim´ e
Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]
⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...
... si le facteur de surp´ enalisation optimal C
?≈ 1 (nombreux cas possibles).
P´ enalisation
V -fold
:
D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.
Biais : choisi directement ` a travers C , sans contrainte. Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
30/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
V -fold
et s´ election de mod` eles : conclusion
Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee
V -fold
:
Biais : diminue avec V / peut ˆ etre supprim´ e
Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]
⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...
... si le facteur de surp´ enalisation optimal C
?≈ 1 (nombreux cas possibles).
P´ enalisation
V -fold
:
D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.
Biais : choisi directement ` a travers C , sans contrainte.
Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].
30/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
V -fold
et s´ election de mod` eles : conclusion
Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee
V -fold
:
Biais : diminue avec V / peut ˆ etre supprim´ e
Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]
⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...
... si le facteur de surp´ enalisation optimal C
?≈ 1 (nombreux cas possibles).
P´ enalisation
V -fold
:
D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.
Biais : choisi directement ` a travers C , sans contrainte. Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
30/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
V -fold
et s´ election de mod` eles : conclusion
Temps de calcul : O(V ) en g´ en´ eral Validation crois´ ee
V -fold
:
Biais : diminue avec V / peut ˆ etre supprim´ e
Variance : diminue avec V / quasi minimal pour V ∈ [5, 10]
⇒ performace optimale lorsque V est maximal, quasi optimale pour V = 10...
... si le facteur de surp´ enalisation optimal C
?≈ 1 (nombreux cas possibles).
P´ enalisation
V -fold
:
D´ ecouplage entre biais et variance ⇒ plus simple ` a comprendre et utiliser.
Biais : choisi directement ` a travers C , sans contrainte.
Variance : diminue avec V / quasi minimale pour V ∈ [5, 10].
31/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
G´ en´ eralit´ e de ces r´ esultats
Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).
Correction du biais / p´ enalisation
V -fold
: valable lorsque E
h
(P − P n )γ b s m
i
≈ γ(m) n .
Sinon :
V -fold
r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.
Variance : d’autres comportements sont possibles (exp´ erimentalement).
Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E
h
P γ b s m (D n ) i
et m → var
R b vc ( b s m ) − R b vc ( b s m
?)
.
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)
31/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
G´ en´ eralit´ e de ces r´ esultats
Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).
Correction du biais / p´ enalisation
V -fold
: valable lorsque
E h
(P − P n )γ b s m
i
≈ γ(m) n .
Sinon :
V -fold
r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.
Variance : d’autres comportements sont possibles (exp´ erimentalement).
Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E
h
P γ b s m (D n ) i
et m → var
R b vc ( b s m ) − R b vc ( b s m
?)
.
31/31
S´election de mod`eles par validation crois´ee Premier ordre Deuxi`eme ordre Conclusion
G´ en´ eralit´ e de ces r´ esultats
Valable en r´ egression par moindres carr´ es et en estimation de densit´ e par moindres carr´ es ou noyaux (travail en cours avec M. Lerasle et N. Magalh˜ aes).
Correction du biais / p´ enalisation
V -fold
: valable lorsque E
h
(P − P n )γ b s m
i
≈ γ(m) n .
Sinon :
V -fold
r´ ep´ et´ e ou VC Monte-Carlo avec n e bien choisi.
Variance : d’autres comportements sont possibles (exp´ erimentalement).
Tout peut se tester sur des donn´ ees synth´ etiques : tracer n → E
h
P γ b s m (D n ) i
et m → var
R b vc ( b s m ) − R b vc ( b s m
?)
.
Comparaison de proc´edures de validation crois´ee (V-fold) Sylvain Arlot (collaboration avec Matthieu Lerasle)