1/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Contributions ` a la th´ eorie statistique de l’apprentissage:
s´ election d’estimateurs et d´ etection de ruptures
Sylvain Arlot
1Cnrs
2Ecole Normale Sup´´ erieure (Paris),DI/ENS, ´EquipeSierra
Soutenance d’habilitation `a diriger des recherches, 3 d´ecembre 2014
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Parcours
Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) S´ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)
Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure
Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)
2/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Parcours
Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) S´ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)
Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure
Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Pour une th´ eorie utile en pratique
Comprendre pourquoi certaines proc´edures sont performantes
Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?
Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)
3/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Pour une th´ eorie utile en pratique
Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?
Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Pour une th´ eorie utile en pratique
Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?
Corriger les d´efauts de m´ethodes couramment utilis´ees
Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)
3/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Pour une th´ eorie utile en pratique
Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?
Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Plan
1 S´election d’estimateurs
2 Validation crois´ee
3 P´enalit´es minimales
4 D´etection de ruptures
5 Conclusion
5/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
R´ egression : donn´ ees (X
1, Y
1), . . . , (X
n, Y
n)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
But : reconstruire le signal
−3
−2
−1 0 1 2 3 4
7/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Estimation de densit´ e : donn´ ees ξ
1, . . . , ξ
n0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
But : estimer la densit´ e s
?des observations ξ
i9/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Cadre g´ en´ eral
Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y
But : estimer une caract´eristiques?∈Sde P
densit´e, fonction de r´egression, meilleur pr´edicteur, etc. Fonction de contrasteγ :S×Ξ→Rtelle que
s?∈argmin
t∈S
Pγ(t) avec Pγ(t) :=Eξ∼P
γ(t;ξ) Perte relative
`(s?,t) :=Pγ(t)−Pγ(s?)≥0
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Cadre g´ en´ eral
Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y
But : estimer une caract´eristiques?∈SdeP
densit´e, fonction de r´egression, meilleur pr´edicteur, etc.
Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin
t∈S
Pγ(t) avec Pγ(t) :=Eξ∼P
γ(t;ξ) Perte relative
`(s?,t) :=Pγ(t)−Pγ(s?)≥0
9/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Cadre g´ en´ eral
Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y
But : estimer une caract´eristiques?∈SdeP
densit´e, fonction de r´egression, meilleur pr´edicteur, etc.
Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin
t∈S
Pγ(t) avec Pγ(t) :=Eξ∼P
γ(t;ξ)
Perte relative
`(s?,t) :=Pγ(t)−Pγ(s?)≥0
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Cadre g´ en´ eral
Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y
But : estimer une caract´eristiques?∈SdeP
densit´e, fonction de r´egression, meilleur pr´edicteur, etc.
Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin
t∈S
Pγ(t) avec Pγ(t) :=Eξ∼P
γ(t;ξ) Perte relative
`(s?,t) :=Pγ(t)−Pγ(s?)≥0
10/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Exemples
Pr´ediction : ξi = (Xi,Yi)
Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)
mesure la distanceentret(x) ety
R´egression (Y =R), moindres carr´es : γ t; (x,y)
= t(x)−y2
s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :
γ t; (x,y)
=1t(x)6=y
Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)−2t(ξ) log-vraisemblance :γ(t;ξ) =−log t(ξ)
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Exemples
Pr´ediction : ξi = (Xi,Yi)
Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)
mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :
γ t; (x,y)
= t(x)−y2
s?(X) =E[Y|X]
Classification binaire (Y ={0,1}), perte 0–1 : γ t; (x,y)
=1t(x)6=y
Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)−2t(ξ) log-vraisemblance :γ(t;ξ) =−log t(ξ)
10/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Exemples
Pr´ediction : ξi = (Xi,Yi)
Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)
mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :
γ t; (x,y)
= t(x)−y2
s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :
γ t; (x,y)
=1t(x)6=y
Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)−2t(ξ) log-vraisemblance :γ(t;ξ) =−log t(ξ)
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Exemples
Pr´ediction : ξi = (Xi,Yi)
Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)
mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :
γ t; (x,y)
= t(x)−y2
s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :
γ t; (x,y)
=1t(x)6=y
Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)−2t(ξ) log-vraisemblance :γ(t;ξ) =−log t(ξ)
11/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Estimateurs : un r´ egressogramme
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs : r´ egressogrammes r´ eguliers
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
−2
−1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
−2
−1 0 1 2 3 4
13/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs : r´ egression ridge ` a noyau
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs : k plus proches voisins
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
−2
−1 0 1 2 3 4
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
−2
−1 0 1 2 3 4
15/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs
Estimateur/Algorithme d’apprentissage:bs :Dn 7→bs(Dn)∈S
Exemple : estimateur des moindres carr´es sur unmod`ele Sm ⊂S
bsm ∈argmin
t∈Sm
Pnγ(t) o`u Pnγ(t) := 1 n
X
ξ∈Dn
γ(t;ξ) Exemple de mod`ele : histogrammes
Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es
Objectif : minimiser le risque,i.e.,
In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :
`(s?,bs
mb)≤C inf
m∈M
`(s?,bsm) +Rn
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs
Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´essur un mod`ele Sm ⊂S
bsm ∈argmin
t∈Sm
Pnγ(t) o`u Pnγ(t) := 1 n
X
ξ∈Dn
γ(t;ξ) Exemple de mod`ele : histogrammes
Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es
Objectif : minimiser le risque,i.e.,
In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :
`(s?,bs
mb)≤C inf
m∈M
`(s?,bsm) +Rn
15/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs
Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S
bsm ∈argmin
t∈Sm
Pnγ(t) o`u Pnγ(t) := 1 n
X
ξ∈Dn
γ(t;ξ) Exemple de mod`ele : histogrammes
Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es
Objectif : minimiser le risque,i.e.,
In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :
`(s?,bs
mb)≤C inf
m∈M
`(s?,bsm) +Rn
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
S´ election d’estimateurs
Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S
bsm ∈argmin
t∈Sm
Pnγ(t) o`u Pnγ(t) := 1 n
X
ξ∈Dn
γ(t;ξ) Exemple de mod`ele : histogrammes
Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es
Objectif : minimiser le risque,i.e.,
In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :
`(s?,s )≤C inf
`(s?,s ) +R
16/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Compromis biais-variance
E
`(s?,bsm)
= Biais + Variance Biais ou Erreur d’approximation
`(s?,Sm) = inf
t∈Sm
`(s?,t) Variance ou Erreur d’estimation
R´egression, moindres carr´es : σ2dim(Sm) n
Compromis biais-variance
⇔´eviter le sur-apprentissage et lesous-apprentissage
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Compromis biais-variance
E
`(s?,bsm)
= Biais + Variance Biais ou Erreur d’approximation
`(s?,Sm) = inf
t∈Sm
`(s?,t) Variance ou Erreur d’estimation
R´egression, moindres carr´es : σ2dim(Sm) n
Compromis biais-variance
17/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Un probl` eme g´ en´ eral
Objectif :
minimiser R(m) surm∈ M
M´ethode :
minimiserC(m) surm∈ M ⇒ mbC
Exemples :
s´election d’estimateurs :
R(m) =`(s?,bsm) estimateur par minimum de contraste surS :
M=S ⊂S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Un probl` eme g´ en´ eral
Objectif :
minimiser R(m) surm∈ M M´ethode :
minimiserC(m) surm∈ M ⇒ mbC
Exemples :
s´election d’estimateurs :
R(m) =`(s?,bsm) estimateur par minimum de contraste surS :
M=S ⊂S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation
17/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Un probl` eme g´ en´ eral
Objectif :
minimiser R(m) surm∈ M M´ethode :
minimiserC(m) surm∈ M ⇒ mbC
Exemples :
s´election d’estimateurs :
R(m) =`(s?,bsm)
estimateur par minimum de contraste surS :
M=S ⊂S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Un probl` eme g´ en´ eral
Objectif :
minimiser R(m) surm∈ M M´ethode :
minimiserC(m) surm∈ M ⇒ mbC
Exemples :
s´election d’estimateurs :
R(m) =`(s?,bsm) estimateur par minimum de contraste surS :
M=S ⊂S R(t) =`(s?,t) C(t) =Pnγ(t)
relaxations (convexes) en optimisation
17/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Un probl` eme g´ en´ eral
Objectif :
minimiser R(m) surm∈ M M´ethode :
minimiserC(m) surm∈ M ⇒ mbC
Exemples :
s´election d’estimateurs :
R(m) =`(s?,bsm) estimateur par minimum de contraste surS :
M=S ⊂S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse du probl` eme : un lemme
Lemme Si
∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,
∀mbC ∈argmin
m∈M
C(m) ,
R(mbC)−B(mbC)≤ inf
m∈M
R(m) +A(m) . (1)
En fait,(1)a lieu d`es que
∀m,m0 ∈ M, C(m)− R(m)
− C(m0)− R(m0)
≤A(m) +B(m0) .
18/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse du probl` eme : un lemme
Lemme Si
∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,
∀mbC ∈argmin
m∈M
C(m) ,
R(mbC)−B(mbC)≤ inf
m∈M
R(m) +A(m) . (1) En fait,(1)a lieu d`es que
∀m,m0 ∈ M, C(m)− R(m)
− C(m0)− R(m0)
≤A(m) +B(m0) .
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m∈ M, E C(m)
=E R(m)
.
Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,
∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .
⇒ d’apr`es le lemme,
∀mbC ∈argmin
m∈M
C(m) , R(mbC)≤ 1 +δn 1−δn
m∈Minf
R(m) .
Optimal au premier ordre siδn→0.
19/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m∈ M, E C(m)
=E R(m)
. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,
∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .
⇒ d’apr`es le lemme,
∀mbC ∈argmin
m∈M
C(m) , R(mbC)≤ 1 +δn 1−δn
m∈Minf
R(m) .
Optimal au premier ordre siδn→0.
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m∈ M, E C(m)
=E R(m)
. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,
∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .
⇒ d’apr`es le lemme,
∀mbC ∈argmin
m∈M
C(m) , R(mbC)≤ 1 +δn 1−δn
m∈Minf
R(m) .
Optimal au premier ordre siδn→0.
19/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Optimalit´ e au premier ordre
Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que
∀m∈ M, E C(m)
=E R(m)
. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,
∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .
⇒ d’apr`es le lemme,
∀mbC ∈argmin
m∈M
C(m) , R(mbC)≤ 1 +δn 1−δn
m∈Minf
R(m) .
Optimal au premier ordre siδn→0.
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Une autre utilisation du lemme
ChoisirC qui est une borne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que
∀m∈ M, C(m)≥ R(m) .
⇒ d’apr`es le lemme,
∀mbC∈argmin
m∈M
C(m) , R(mbC)≤ inf
m∈M
C(m) .
Exemples :
grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)
minimisation du risque structurel (Vapnik) relaxations en optimisation
20/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Une autre utilisation du lemme
ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que
∀m∈ M, C(m)≥ R(m) .
⇒ d’apr`es le lemme,
∀mbC∈argmin
m∈M
C(m) , R(mbC)≤ inf
m∈M
C(m) .
Exemples :
grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)
minimisation du risque structurel (Vapnik) relaxations en optimisation
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Une autre utilisation du lemme
ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que
∀m∈ M, C(m)≥ R(m) .
⇒ d’apr`es le lemme,
∀mbC∈argmin
m∈M
C(m) , R(mbC)≤ inf
m∈M
C(m) .
Exemples :
grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)
minimisation du risque structurel (Vapnik) relaxations en optimisation
20/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Une autre utilisation du lemme
ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que
∀m∈ M, C(m)≥ R(m) .
⇒ d’apr`es le lemme,
∀mbC∈argmin
m∈M
C(m) , R(mbC)≤ inf
m∈M
C(m) .
Exemples :
grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)
minimisation du risque structurel (Vapnik)
relaxations en optimisation
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Une autre utilisation du lemme
ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que
∀m∈ M, C(m)≥ R(m) .
⇒ d’apr`es le lemme,
∀mbC∈argmin
m∈M
C(m) , R(mbC)≤ inf
m∈M
C(m) .
Exemples :
grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)
minimisation du risque structurel (Vapnik) relaxations en optimisation
21/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse au second ordre ?
Comment comparerC1 et C2 tels que
∀m∈ M, E C1(m)
=E C2(m)
?
Tenir compte de la variance var Ci(m)
? Variance de quelle quantit´e ?
Pour toute variable Z,mbC∈argminm∈M
C(m) +Z mais var C(m) +Z
d´epend deZ...
⇒ variance des incr´ements
var C(m)− C(m0) .
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse au second ordre ?
Comment comparerC1 et C2 tels que
∀m∈ M, E C1(m)
=E C2(m)
? Tenir compte de la variance var Ci(m)
?
Variance de quelle quantit´e ?
Pour toute variable Z,mbC∈argminm∈M
C(m) +Z mais var C(m) +Z
d´epend deZ...
⇒ variance des incr´ements
var C(m)− C(m0) .
21/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse au second ordre ?
Comment comparerC1 et C2 tels que
∀m∈ M, E C1(m)
=E C2(m)
? Tenir compte de la variance var Ci(m)
? Variance de quelle quantit´e ?
Pour toute variable Z,mbC∈argminm∈M
C(m) +Z mais var C(m) +Z
d´epend deZ...
⇒ variance des incr´ements
var C(m)− C(m0) .
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Analyse au second ordre ?
Comment comparerC1 et C2 tels que
∀m∈ M, E C1(m)
=E C2(m)
? Tenir compte de la variance var Ci(m)
? Variance de quelle quantit´e ?
Pour toute variable Z,mbC∈argminm∈M
C(m) +Z mais var C(m) +Z
d´epend deZ...
⇒ variance des incr´ements
var C(m)− C(m0) .
22/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Plan
1 S´election d’estimateurs
2 Validation crois´ee
3 P´enalit´es minimales
4 D´etection de ruptures
5 Conclusion
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Principe de la validation simple
−3
−2
−1 0 1 2 3 4
23/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Principe de la validation : ´ echantillon d’entraˆınement
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Principe de la validation : ´ echantillon d’entraˆınement
−3
−2
−1 0 1 2 3 4
23/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Principe de la validation : ´ echantillon de validation
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−3
−2
−1 0 1 2 3 4
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Principe de la validation : ´ echantillon de validation
−3
−2
−1 0 1 2 3 4
24/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Validation crois´ ee
V -fold
ξ1, . . . , ξq
| {z }
, ξq+1, . . . , ξn
| {z }
Entraˆınement Validation
Validation crois´eeV-fold :
B= (Bj)1≤j≤V partition de{1, . . . ,n}
⇒ Rbvf(bsm;Dn;B) = 1 V
V
X
j=1
Pnjγ bsm(−j)
mb ∈arg min
m∈M
n
Rbvf(bsm) o
A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :
E
Pγ bsm(Dn) ≈α(m) +β(m) n
⇒ E h
Rbvf(bsm;Dn;B)i
=E h
Pn(j)γ
bsm(−j)
i
=E h
Pγ
bsm(−j)
i
≈α(m) + V
V −1 β(m)
n
⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞
⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
25/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :
E
Pγ bsm(Dn) ≈α(m) +β(m) n
⇒ E h
Rbvf(bsm;Dn;B)i
=E h
Pn(j)γ
bsm(−j)
i
=E h
Pγ
bsm(−j)
i
≈α(m) + V
V −1 β(m)
n
⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞
⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Au premier ordre : biais de la validation crois´ ee
Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :
E
Pγ bsm(Dn) ≈α(m) +β(m) n
⇒ E h
Rbvf(bsm;Dn;B)i
=E h
Pn(j)γ
bsm(−j)
i
=E h
Pγ
bsm(−j)
i
≈α(m) + V
V −1 β(m)
n
⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞
⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)
26/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´eeV-foldcorrig´ee(Burman, 1989) :
Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V
V
X
j=1
Pnγ bsm(−j)
Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation
⇒ p´enalit´e V-fold
penVF(bsm;Dn;B) := V −1 V
V
X
j=1
Pn−Pn(−j)
γ
bsm(−j)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
Rbvf,corr bsm;Dn;B
=Pnγ bsm(Dn)
+ penVF(bsm;Dn;B) Sans biaissi E
(P−Pn) bsm(Dn)
=γ(m)/n
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´eeV-foldcorrig´ee(Burman, 1989) :
Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V
V
X
j=1
Pnγ bsm(−j)
Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation
⇒ p´enalit´e V-fold
penVF(bsm;Dn;B) := V −1 V
V
X
j=1
Pn−Pn(−j)
γ
bsm(−j)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
Rbvf,corr bsm;Dn;B
=Pnγ bsm(Dn)
+ penVF(bsm;Dn;B) Sans biaissi E
(P−Pn) bsm(Dn)
=γ(m)/n
26/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´eeV-foldcorrig´ee(Burman, 1989) :
Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V
V
X
j=1
Pnγ bsm(−j)
Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation
⇒ p´enalit´e V-fold
penVF(bsm;Dn;B) := V −1 V
V
X
j=1
Pn−Pn(−j)
γ
bsm(−j)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
Rbvf,corr bsm;Dn;B
=Pnγ bsm(Dn)
+ penVF(bsm;Dn;B)
Sans biaissi E
(P−Pn) bsm(Dn)
=γ(m)/n
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
Correction du biais et p´ enalisation
V -fold
Validation crois´eeV-foldcorrig´ee(Burman, 1989) :
Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V
V
X
j=1
Pnγ bsm(−j)
Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation
⇒ p´enalit´e V-fold
penVF(bsm;Dn;B) := V −1 V
V
X
j=1
Pn−Pn(−j)
γ
bsm(−j)
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2
Rbvf,corr bsm;Dn;B
=Pnγ bsm(Dn)
+ penVF(bsm;Dn;B)
27/68
S´election d’estimateurs Validation crois´ee P´enalit´es minimales D´etection de ruptures Conclusion
In´ egalit´ es oracle optimales pour la p´ enalisation
V -fold
Th´eor`eme
Avec probabilit´e 1−n−2,∀δ >0,
∀mb ∈argmin
m∈M
Pnγ bsm(Dn)
+ penVF(bsm;Dn;B) ,
`(s?,bs
mb)≤ 1 +δ
m∈Minf
`(s?,bsm) +L
log Card(M)
∨log(n)α
δβn
⇒Optimal au premier ordre si Card(M)≤anb
Valable sous des hypoth`eses raisonnablement faibles pour : Les r´egressogrammesen r´egression h´et´erosc´edastique
A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2 A. Model selection by resampling penalization.Electronic Journal of Statistics, 3:557–624, 2009.
L’estimation de densit´e par moindres carr´es
A. & Lerasle. WhyV= 5 is enough inV-fold cross-validation, 2014. arXiv:1210.5830v2. A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.