1/39
R´ e´ echantillonnage et S´ election de mod` eles
Sylvain Arlot
Universit´e Paris-Sud XI, Orsay th`ese dirig´ee par Pascal Massart
13 d´ecembre 2007
2/39
Pr´ esentation g´ en´ erale
1 S´election de mod`eles Validation crois´ee P´enalisation
Estimation de la forme de la p´enalit´e Calibration optimale
2 R´egions de confiance
Probl`emes complexes Situation non-asymptotique
Buts : r´esultats th´eoriques, calibration “optimale” en pratique
3/39
Donn´ ees : (X
1, Y
1), . . . , (X
n, Y
n)
4/39
But : reconstruire le signal
5/39
Quel mod` ele choisir ?
D = 1
D = 9
D= 3
D= 36
5/39
Quel mod` ele choisir ?
D = 1
D = 9
D= 3
D= 36
6/39
L’oracle
7/39
R´ egression
(X1,Y1), . . . ,(Xn,Yn)∈ X × Y i.i.d. (Xi,Yi)∼P inconnue
Y =s(X) +σ(X) X ∈ X ⊂Rd, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[2|X] = 1
intensit´e du bruit :σ(X)
pr´edicteur t :X 7→ Y ?
7/39
R´ egression
(X1,Y1), . . . ,(Xn,Yn)∈ X × Y i.i.d. (Xi,Yi)∼P inconnue
Y =s(X) +σ(X) X ∈ X ⊂Rd, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[2|X] = 1
intensit´e du bruit :σ(X)
pr´edicteur t :X 7→ Y ?
8/39
Fonction de perte, estimateur des moindre carr´ es
Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E
(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2
Minimiseur du risque empirique sur Sm (= mod`ele) :
bsm ∈arg min
t∈SmPnγ(t,·) = arg min
t∈Sm
1 n
n
X
i=1
(t(Xi)−Yi)2 . Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.
bsm= X
λ∈Λm
βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}
X
Xi∈Iλ
Yi.
8/39
Fonction de perte, estimateur des moindre carr´ es
Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E
(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2
Minimiseur du risque empirique sur Sm (= mod`ele) :
bsm ∈arg min
t∈Sm
Pnγ(t,·) = arg min
t∈Sm
1 n
n
X
i=1
(t(Xi)−Yi)2 .
Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.
bsm= X
λ∈Λm
βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}
X
Xi∈Iλ
Yi.
8/39
Fonction de perte, estimateur des moindre carr´ es
Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E
(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2
Minimiseur du risque empirique sur Sm (= mod`ele) :
bsm ∈arg min
t∈Sm
Pnγ(t,·) = arg min
t∈Sm
1 n
n
X
i=1
(t(Xi)−Yi)2 . Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.
bsm= X
λ∈Λm
βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}
X
Xi∈Iλ
Yi.
9/39
S´ election de mod` eles
(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???
Objectifs :
In´egalit´e-oracle :
E[l(s,bsmb)]≤CE
m∈Minf {l(s,bsm) +R(m,n)}
P
l(s,bsmb)≤C inf
m∈M{l(s,bsm) +R(m,n)}
≥1−C0n−2
Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)
9/39
S´ election de mod` eles
(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???
Objectifs :
In´egalit´e-oracle :
E[l(s,bsmb)]≤CE
m∈Minf {l(s,bsm) +R(m,n)}
P
l(s,bsmb)≤C inf
m∈M{l(s,bsm) +R(m,n)}
≥1−C0n−2 Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)
9/39
S´ election de mod` eles
(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???
Objectifs :
In´egalit´e-oracle :
E[l(s,bsmb)]≤CE
m∈Minf {l(s,bsm) +R(m,n)}
P
l(s,bsmb)≤C inf
m∈M{l(s,bsm) +R(m,n)}
≥1−C0n−2 Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)
10/39
Validation
10/39
Validation
11/39
Validation : l’´ echantillon d’entraˆınement
11/39
Validation : l’´ echantillon d’entraˆınement
12/39
Validation : l’´ echantillon de validation
12/39
Validation : l’´ echantillon de validation
13/39
Validation, validation crois´ ee
(X1,Y1), . . . ,(Xq,Yq)
| {z }
,(Xq+1,Yq+1), . . . ,(Xn,Yn)
| {z }
Entraˆınement Validation
bsm(e)∈arg min
t∈Sm
( q X
i=1
γ(t,(Xi,Yi)) )
Pn(v)= 1 n−q
n
X
i=q+1
δ(Xi,Yi) ⇒Pn(v)γ
bsm(e)
Validation crois´ee “V-fold”: (Bj)1≤j≤V partition de{1, . . . ,n}
⇒mb ∈arg min
m∈M
1 V
V
X
j=1
Pnjγ
bsm(−j)
es =bsmb
13/39
Validation, validation crois´ ee
(X1,Y1), . . . ,(Xq,Yq)
| {z }
,(Xq+1,Yq+1), . . . ,(Xn,Yn)
| {z }
Entraˆınement Validation
bsm(e)∈arg min
t∈Sm
( q X
i=1
γ(t,(Xi,Yi)) )
Pn(v)= 1 n−q
n
X
i=q+1
δ(Xi,Yi) ⇒Pn(v)γ
bsm(e)
Validation crois´ee “V-fold”: (Bj)1≤j≤V partition de{1, . . . ,n}
⇒mb ∈arg min
m∈M
1 V
V
X
j=1
Pnjγ
bsm(−j)
es =bsmb
14/39
Biais de la validation crois´ ee V -fold
Crit`ere id´eal :Pγ(bsm) R´egression sur un mod`ele d’histogrammes :
E[Pγ(bsm)]≈Pγ(sm) +1 n
X
λ∈Λm
σλ2
E h
Pn(j)γ bsm(−j)
i
=E h
Pγ bsm(−j)
i≈Pγ(sm) + V V −1
1 n
X
λ∈Λm
σλ2
⇒biais si V fixe (“surp´enalisation”)
⇒s´election de mod`elessous-optimale
14/39
Biais de la validation crois´ ee V -fold
Crit`ere id´eal : Pγ(bsm) R´egression sur un mod`ele d’histogrammes :
E[Pγ(bsm)]≈Pγ(sm) +1 n
X
λ∈Λm
σλ2
E h
Pn(j)γ bsm(−j)
i
=E h
Pγ bsm(−j)
i≈Pγ(sm) + V V −1
1 n
X
λ∈Λm
σλ2
⇒biais si V fixe (“surp´enalisation”)
⇒s´election de mod`elessous-optimale
14/39
Biais de la validation crois´ ee V -fold
Crit`ere id´eal : Pγ(bsm) R´egression sur un mod`ele d’histogrammes :
E[Pγ(bsm)]≈Pγ(sm) +1 n
X
λ∈Λm
σλ2
E h
Pn(j)γ bsm(−j)
i
=E h
Pγ bsm(−j)
i≈Pγ(sm) + V V −1
1 n
X
λ∈Λm
σλ2
⇒biais si V fixe (“surp´enalisation”)
⇒s´election de mod`elessous-optimale
15/39
Choix de V
Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)
Temps de calcul : complexit´e proportionnelle `aV
⇒compromis `a trouver
“V = 5 ouV = 10 pour la pr´ediction”
“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)
Ce n’est plus vrai si le rapport signal sur bruit est faible...
15/39
Choix de V
Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)
Temps de calcul : complexit´e proportionnelle `aV
⇒compromis `a trouver
“V = 5 ouV = 10 pour la pr´ediction”
“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)
Ce n’est plus vrai si le rapport signal sur bruit est faible...
15/39
Choix de V
Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)
Temps de calcul : complexit´e proportionnelle `aV
⇒compromis `a trouver
“V = 5 ouV = 10 pour la pr´ediction”
“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)
Ce n’est plus vrai si le rapport signal sur bruit est faible...
16/39
Simulations : HeaviSine, n = 2048, σ ≡ 1
0 0.5 1
−8 0 8
Cclassique = E[l(s,bsmb)]
E[infm∈Ml(s,bsm)]
2-fold 1.002±0.003 5-fold 1.014±0.003 10-fold 1.021±0.003 20-fold 1.029±0.004 leave-one-out 1.034±0.004
17/39
P´ enalisation
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
pen(m) = 2σ2Dm
n (Mallows 1973) pen(m) = 2bσ2Dm
n ou K Db m
Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours : r´egression h´et´erosc´edastique, classification, etc.
⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
17/39
P´ enalisation
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
pen(m) = 2σ2Dm
n (Mallows 1973) pen(m) = 2bσ2Dm
n ou K Db m
Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours : r´egression h´et´erosc´edastique, classification, etc.
⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
17/39
P´ enalisation
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
pen(m) = 2σ2Dm
n (Mallows 1973) pen(m) = 2bσ2Dm
n ou K Db m
Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours: r´egression h´et´erosc´edastique, classification, etc.
⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
18/39
Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)
Monde r´eel: P ´echantillonnage //Pn +3bsm
penid(m) = (P−Pn)γ(bsm) =F(P,Pn)
V-fold : PnW = 1 n−Card(BJ)
X
i∈B/ J
δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)
18/39
Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)
Monde r´eel:
OOOOOOO P ´echantillonnage //Pn +3bsm
Monde bootstrap: Pn
penid(m) = (P−Pn)γ(bsm) =F(P,Pn)
V-fold : PnW = 1 n−Card(BJ)
X
i∈B/ J
δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)
18/39
Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)
Monde r´eel:
OOOOOOO P ´echantillonnage //Pn +3bsm
Monde bootstrap: Pn r´e´echantillonnage //PnW +3bsmW
(P −Pn)γ(bsm) =F(P,Pn) /o /o /o //F(Pn,PnW) = (Pn−PnW)γ bsmW
V-fold : PnW = 1 n−Card(BJ)
X
i∈B/ J
δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)
18/39
Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)
Monde r´eel:
OOOOOOO P ´echantillonnage //Pn +3bsm
Monde bootstrap: Pn sous-´echantillonnage//PnW +3bsmW
(P −Pn)γ(bsm) =F(P,Pn) /o /o /o //F(Pn,PnW) = (Pn−PnW)γ bsmW
V-fold : PnW = 1 n−Card(BJ)
X
i∈B/ J
δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)
19/39
P´ enalisations par r´ e´ echantillonnage
Estimer penid avec lebootstrap: Efron (1983), Shibata (1997) Estimer penid avec lebootstrap “m out of n” : Shao (1996)
⇒ identification . . .
P´enalit´esglobales en classification: poids Rademacher (Koltchinskii, Panchenko 2001 ; Bartlett, Boucheron, Lugosi 2002), poids ´echangeables (Fromont 2004), . . .
P´enalit´e locales :complexit´es de Rademacher locales
(Bartlett, Bousquet, Mendelson 2004 ; Koltchinskii 2006, etc.)
20/39
P´ enalisation V -fold
P´enalit´e id´eale :
(P−Pn)(γ(bsm)) P´enalit´e V-fold :
pen(m) = C V
V
X
j=1
h
(Pn−Pn(−j))
γ
bsm(−j)
i
bsm(−j)∈arg min
t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir
(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
20/39
P´ enalisation V -fold
P´enalit´e id´eale :
(P−Pn)(γ(bsm)) P´enalit´e V-fold :
pen(m) = C V
V
X
j=1
h
(Pn−Pn(−j))
γ
bsm(−j)
i
bsm(−j)∈arg min
t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir
(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
20/39
P´ enalisation V -fold
P´enalit´e id´eale :
(P−Pn)(γ(bsm)) P´enalit´e V-fold :
pen(m) = C V
V
X
j=1
h
(Pn−Pn(−j))
γ
bsm(−j)
i
bsm(−j)∈arg min
t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir
(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :
mb ∈arg min
m∈M{Pnγ(bsm) + pen(m)}
21/39
In´ egalit´ e-oracle “trajectorielle” non-asymptotique
R´egression sur des histogrammes, plan d’exp´erience al´eatoire Petit nombre de mod`eles (au plus ♦nα)
V fixe ouV =n (et plusieurs r´e´echantillonnages
´
echangeables, dont le bootstrap) C ≈V −1 (ouC ≈CW,∞)
Des hypoth`eses “raisonnables” surP,e.g.donn´ees born´ees, bruit minor´e et s r´eguli`ere non-constante
+ quelques restrictions techniques Th´eor`eme
Avec probabilit´e au moins 1−♦n−2, l(s,bsmb)≤
1 + ln(n)−1/5
m∈Minf {l(s,bsm)}
22/39
Corollaires
In´egalit´e-oracle classique : E[l(s,bsmb)]≤
1 + ln(n)−1/5
E
m∈Minf {l(s,bsm)}
+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :
l(s,bsmb) infm∈M{l(s,bsm)}
−−−−→p.s.
n→+∞ 1
Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre
h´et´erosc´edastique.
22/39
Corollaires
In´egalit´e-oracle classique : E[l(s,bsmb)]≤
1 + ln(n)−1/5
E
m∈Minf {l(s,bsm)}
+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :
l(s,bsmb) infm∈M{l(s,bsm)}
−−−−→p.s.
n→+∞ 1
Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre
h´et´erosc´edastique.
22/39
Corollaires
In´egalit´e-oracle classique : E[l(s,bsmb)]≤
1 + ln(n)−1/5
E
m∈Minf {l(s,bsm)}
+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :
l(s,bsmb) infm∈M{l(s,bsm)}
−−−−→p.s.
n→+∞ 1
Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre
h´et´erosc´edastique.
23/39
Sch´ ema de la preuve
On montre, pour toutm∈ M,
penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :
Calculs explicites de penid et de pen
Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)
In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)
⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)
23/39
Sch´ ema de la preuve
On montre, pour toutm∈ M,
penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :
Calculs explicites de penid et de pen
Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)
In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)
⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)
23/39
Sch´ ema de la preuve
On montre, pour toutm∈ M,
penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :
Calculs explicites de penid et de pen
Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)
In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)
⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)
23/39
Sch´ ema de la preuve
On montre, pour toutm∈ M,
penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :
Calculs explicites de penid et de pen
Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)
In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)
⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)
23/39
Sch´ ema de la preuve
On montre, pour toutm∈ M,
penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :
Calculs explicites de penid et de pen
Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)
In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)
⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)
24/39
Simulations : sin, n = 200, σ(x) = x, 2 pas
0 0.5 1
−4 0 4
0 0.5 1
−4 0 4
Mallows 3.86±0.02
2-fold 2.54±0.05
5-fold 2.58±0.06
10-fold 2.60±0.06 leave-one-out 2.59±0.06 pen 2-f 3.06±0.07 pen 5-f 2.75±0.06 pen 10-f 2.65±0.06 pen 20-f 2.64±0.06 pen Loo 2.59±0.06 Mallows×1.25 4.05±0.02 pen 2-f×1.25 2.75±0.06 pen 5-f×1.25 2.38±0.06 pen 10-f×1.25 2.28±0.05 pen 20-f×1.25 2.25±0.06 pen Loo×1.25 2.21±0.05
24/39
Simulations : sin, n = 200, σ(x) = x, 2 pas
0 0.5 1
−4 0 4
0 0.5 1
−4 0 4
Mallows 3.86±0.02
2-fold 2.54±0.05
5-fold 2.58±0.06
10-fold 2.60±0.06 leave-one-out 2.59±0.06 pen 2-f 3.06±0.07 pen 5-f 2.75±0.06 pen 10-f 2.65±0.06 pen 20-f 2.64±0.06 pen Loo 2.59±0.06 Mallows×1.25 4.05±0.02 pen 2-f×1.25 2.75±0.06 pen 5-f×1.25 2.38±0.06 pen 10-f×1.25 2.28±0.05 pen 20-f×1.25 2.25±0.06 pen Loo×1.25 2.21±0.05
25/39
Calibration optimale de la p´ enalit´ e
m(Kb )∈arg min
m∈Mn{Pnγ(bsm) +Kpen0(m)}
⇒comment choisir K?
But : optimalit´e en termes de s´election de mod`eles
Optimalit´e “asymptotique” : Kbopt = 2Kbmin (heuristique de pente, Birg´e et Massart 2006).
⇒ encore valable dans un cadre h´et´erosc´edastique (histogrammes).
Optimalit´e “non-asymptotique” : il fautsurp´enaliserun peu
26/39
Calibration asymptotique : heuristique de pente
27/39
Calibration non-asymptotique : surp´ enalisation
28/39
Bilan
Probl`eme difficile (h´et´erosc´edastique, etc.)
⇒ estimation de la forme id´eale,
par r´e´echantillonnage V-fold ou ´echangeable (preuve : histogrammes)
Calibration de la constante multiplicative : heuristique de pente
(preuve : cadre non-gaussien h´et´erosc´edastique, histogrammes)
Constante optimale en pratique : il fautsurp´enaliser. De combien ?
29/39
R´ egions de confiance et tests multiples
(collaboration avec G. Blanchard, E. Roquain ; version courte publi´ee aux actes de Colt 2007)
Probl´ematique : donn´ees degrande dimension, avec des corr´elations g´en´erales inconnues, mais peu de r´ep´etitions
⇒ non-asymptotique
Approches par r´e´echantillonnage
Application pratique en imagerie c´er´ebrale : collaboration en cours avec Sylvain Baillet (Piti´e-Salpˆetri`ere)
30/39
(Neuro-)images. K = 16384 n, bruit corr´ el´ e.
20 40 60 80 100 120
20
40
60
80
100
120
20 40 60 80 100 120
20
40
60
80
100
120
20 40 60 80 100 120
20
40
60
80
100
120
20 40 60 80 100 120
20
40
60
80
100
120
31/39
Mod` ele
Observations : Y= (Y1, . . . ,Yn) =
Y11 . . . Y1n ... ... ... ... YK1 . . . YKn
Y1, . . . ,Yn∈RK i.i.d. sym´etrique Moyenne inconnue µ= (µk)k
Matrice de covariance inconnue Σ
Majoration de la variance connue (ou `a estimer s´epar´ement) : maxkvar(Yk1)≤σ2
n K.
Buts : R´egion de confiance pourµ; Test multiple : {k/µk 6= 0}=?
31/39
Mod` ele
Observations : Y= (Y1, . . . ,Yn) =
Y11 . . . Y1n ... ... ... ... YK1 . . . YKn
Y1, . . . ,Yn∈RK i.i.d. sym´etrique Moyenne inconnue µ= (µk)k
Matrice de covariance inconnue Σ
Majoration de la variance connue (ou `a estimer s´epar´ement) : maxkvar(Yk1)≤σ2
n K.
Buts : R´egion de confiance pourµ; Test multiple : {k/µk 6= 0}=?
32/39
R´ egions de confiance et tests multiples
Boule de confiance B(Y) =
µ∈RK/sup
k
Yk −µk ≤t
,
o`u
Y= n1Pn
i=1Yi moyenne empirique
t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).
⇒test multiple : on rejette “µk = 0” pour tout k ∈R(Y) =
k/
Yk
>tα(Y) . FWER(R) = P(∃k / µk = 0 and√
n|Yk|>t)
≤ P(∃k / √
n|Yk −µk|>t)
= P
kY−µk∞>tn−1/2
⇒r´egion de confiance etcontrˆole du FWER
32/39
R´ egions de confiance et tests multiples
Boule de confiance B(Y) =
µ∈RK/sup
k
Yk −µk ≤t
,
o`u
Y= n1Pn
i=1Yi moyenne empirique
t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).
⇒test multiple : on rejette “µk = 0” pour tout k ∈R(Y) =
k/
Yk
>tα(Y) . FWER(R) = P(∃k / µk = 0 and√
n|Yk|>t)
≤ P(∃k / √
n|Yk −µk|>t)
= P
kY−µk∞>tn−1/2
⇒r´egion de confiance etcontrˆole du FWER
33/39
Seuil de Bonferroni, cas Gaussien
Borne d’union :
FWER(R) ≤ Ksup
k
P(√
n|Yk −µk|>t)
≤ 2KΦ(t/σ), o`u Φ est la queue gaussienne standard.
Seuil de Bonferroni :tαBonf=σΦ−1(α/(2K)).
trop conservatif s’il y a de fortes corr´elations entre les coordonn´ees
(Y1=· · ·=YK revient `aK = 1)
⇒comment faire mieux ?
34/39
But
Trouver un seuiltα(Y) tel que
∀µ∈RK P
√nkY−µk∞>tα(Y)
≤α .
⇒FWER(R)≤α + boule de confiance de niveauα pour µ.
Non-asymptotique : ∀K,n
Hypoth`eses :Yi sym´etrique, corr´elations g´en´erales Seuil id´eal :t =qα?, quantile d’ordre (1−α) deD √
nkY−µk∞ qα? d´epend deD(Y) inconnue⇒ estim´e parr´e´echantillonnage.
34/39
But
Trouver un seuiltα(Y) tel que
∀µ∈RK P
√nkY−µk∞>tα(Y)
≤α .
⇒FWER(R)≤α + boule de confiance de niveauα pour µ.
Non-asymptotique : ∀K,n
Hypoth`eses :Yi sym´etrique, corr´elations g´en´erales Seuil id´eal :t =qα?, quantile d’ordre (1−α) deD √
nkY−µk∞ qα? d´epend deD(Y) inconnue⇒ estim´e parr´e´echantillonnage.
35/39
Deux m´ ethodes pour estimer q
α?Concentration :
kY−µk∞ se concentre autour de son esp´erance (´ecart-type
≤σn−1/2), on estimeE
kY−µk∞
par r´e´echantillonnage
⇒qconcα (Y) =cst×√ nE
kYW −W Yk∞|Y
+ reste(σ, α,n)
Quantiles :
estimation directe de qα? par r´e´echantillonnage : qquantα (Y) =quantile d’ordre (1−α) de
D √
nkn−1Pn
i=1Wi Yi−Y k∞|Y
35/39
Deux m´ ethodes pour estimer q
α?Concentration :
kY−µk∞ se concentre autour de son esp´erance (´ecart-type
≤σn−1/2), on estimeE
kY−µk∞
par r´e´echantillonnage
⇒qconcα (Y) =cst×√ nE
kYW −W Yk∞|Y
+ reste(σ, α,n)
Quantiles :
estimation directe de qα? par r´e´echantillonnage : qquantα (Y) =quantile d’ordre (1−α) de
D √
nkn−1Pn
i=1Wi Yi−Y k∞|Y
36/39
R´ esultats th´ eoriques
Concentration : poidsW ´echangeables g´en´eraux(ou V-fold), Yi gaussiens (ou sym´etriques born´es)
⇒ contrˆole non-asymptotique du niveau.
Quantiles : poids Rademacher i.i.d.,Yi sym´etriques
⇒ besoin d’un terme suppl´ementaire pour contrˆoler le niveau Dans les deux cas : corr´elationsg´en´erales et inconnues, et K n est possible.
37/39
Simulations : n = 1000, K = 16384, σ = 1
38/39
Pourquoi r´ e´ echantillonner ?
Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.
et pour la surp´enalisation ?
Une m´ethode s’adaptant naturellement :
h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])
corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)
vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.
38/39
Pourquoi r´ e´ echantillonner ?
Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.
et pour la surp´enalisation ?
Une m´ethode s’adaptant naturellement :
h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])
corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)
vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.
38/39
Pourquoi r´ e´ echantillonner ?
Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.
et pour la surp´enalisation ?
Une m´ethode s’adaptant naturellement :
h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])
corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)
vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.
38/39
Pourquoi r´ e´ echantillonner ?
Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.
et pour la surp´enalisation ?
Une m´ethode s’adaptant naturellement :
h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])
corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)
vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.
39/39
Comment r´ e´ echantillonner ?
R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).
en s´election de mod`eles : bootstrap “m out of n” consistant
⇔ mn (Shao 1996)
⇒ Consistance pour l’identification avec des poids
´
echangeables quelconques ?
r´esultats non-asymptotiques, histogrammes : poids
´
echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.
Validation-crois´eeV-fold : choix de V, pas si simple (cf.
Celisse et Robin 2007)
Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?
39/39
Comment r´ e´ echantillonner ?
R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).
ens´election de mod`eles: bootstrap “m out of n” consistant
⇔ mn (Shao 1996)
⇒ Consistance pour l’identification avec des poids
´
echangeables quelconques ?
r´esultats non-asymptotiques, histogrammes : poids
´
echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.
Validation-crois´eeV-fold : choix de V, pas si simple (cf.
Celisse et Robin 2007)
Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?
39/39
Comment r´ e´ echantillonner ?
R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).
en s´election de mod`eles : bootstrap “m out of n” consistant
⇔ mn (Shao 1996)
⇒ Consistance pour l’identification avec des poids
´
echangeables quelconques ?
r´esultats non-asymptotiques, histogrammes : poids
´
echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.
Validation-crois´eeV-fold : choix de V, pas si simple (cf.
Celisse et Robin 2007)
Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?
39/39
Comment r´ e´ echantillonner ?
R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).
en s´election de mod`eles : bootstrap “m out of n” consistant
⇔ mn (Shao 1996)
⇒ Consistance pour l’identification avec des poids
´
echangeables quelconques ?
r´esultats non-asymptotiques, histogrammes : poids
´
echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.
Validation-crois´eeV-fold : choix deV, pas si simple (cf.
Celisse et Robin 2007)
Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?
39/39
Comment r´ e´ echantillonner ?
R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).
en s´election de mod`eles : bootstrap “m out of n” consistant
⇔ mn (Shao 1996)
⇒ Consistance pour l’identification avec des poids
´
echangeables quelconques ?
r´esultats non-asymptotiques, histogrammes : poids
´
echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.
Validation-crois´eeV-fold : choix de V, pas si simple (cf.
Celisse et Robin 2007)
Question ouverte : tenir compte de lavariabilit´e des estimateurs par r´e´echantillonnage ?
40/39
41/39
Annexes
3 Surp´enalisation
4 Heuristique de pente
5 Limites d’une p´enalit´e lin´eaire
6 P´enalit´es par r´e´echantillonnage
7 Simulations
Validation-crois´ee V-fold P´enalisation V-fold
P´enalisation par r´e´echantillonnage ´echangeable
8 R´egions de confiance et tests multiples Th´eorie
R´egions de confiance Simulations
42/39
Surp´ enalisation (s = sin, σ ≡ 1, n = 200, Mallows)
43/39
Surp´ enalisation (s = sin, σ(x ) = x, n = 200, pen
Rademacher)
44/39
Surp´ enalisation (HeaviSine, n = 2048, σ(x) = x , pen 10-f)
45/39
Premier pas vers l’oracle
P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
Pour toutm∈ M,
Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)
l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]
⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M
45/39
Premier pas vers l’oracle
P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
Pour toutm∈ M,
Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)
l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]
⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M
45/39
Premier pas vers l’oracle
P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))
Pour toutm∈ M,
Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)
l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]
⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M
46/39
Bienfaits de la surp´ enalisation
n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)
Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles
(plus important que pen(m)≤(1 +) penid(m))
⇒Explique pourquoi V = 2 peut ˆetre “optimal”
⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1
46/39
Bienfaits de la surp´ enalisation
n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)
Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles
(plus important que pen(m)≤(1 +) penid(m))
⇒Explique pourquoi V = 2 peut ˆetre “optimal”
⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1
46/39
Bienfaits de la surp´ enalisation
n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)
Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles
(plus important que pen(m)≤(1 +) penid(m))
⇒Explique pourquoi V = 2 peut ˆetre “optimal”
⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1
46/39
Bienfaits de la surp´ enalisation
n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)
Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles
(plus important que pen(m)≤(1 +) penid(m))
⇒Explique pourquoi V = 2 peut ˆetre “optimal”
⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1
47/39
Calibration asymptotique : heuristique de pente
48/39
Calibration asymptotique : heuristique de pente
49/39
Limites d’une p´ enalit´ e lin´ eaire
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1 0 1 2 3 4
Y =X +σ(X) σ(X) =1X≥1
2 ∼ N(0,1)
Histogrammes r´eguliers sur 0;12
(Dm,1 morceaux) puis sur 1
2; 1
(Dm,2 morceaux).
⇒ penid(m) n’est pas lin´eaire enDm.
49/39
Limites d’une p´ enalit´ e lin´ eaire
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−2
−1 0 1 2 3 4
0 5 10 15 20 25 30 35 40
0 0.05 0.1 0.15 0.2 0.25
Model dimension
Ideal penalty
Y =X +σ(X) σ(X) =1X≥1
2 ∼ N(0,1)
Histogrammes r´eguliers sur 0;12
(Dm,1 morceaux) puis sur 1
2; 1
(Dm,2 morceaux).
⇒ penid(m) n’est pas lin´eaire enDm.
50/39
Limites d’une p´ enalit´ e lin´ eaire : m(K b ) 6= m
?0 5 10 15 20
0 2 4 6 8 10 12 14 16 18
Dm 1 Dm2
51/39
In´ egalit´ e-oracle “trajectorielle” non-asymptotique
R´egression sur des histogrammes, plan d’exp´erience al´eatoire Petit nombre de mod`eles (au plus ♦nα)
Pr´es´election de mod`eles :
∀m∈ M, min
λ∈Λm
{Card{Xi ∈Iλ}} ≥2 V fixe ouV =n (et plusieurs r´e´echantillonnages
´
echangeables, dont le bootstrap) C ≈V −1 (ouC ≈CW,∞) Th´eor`eme
Sous des hypoth`eses “raisonnables” sur P, avec probabilit´e au moins1−♦n−2,
l(s,bsmb)≤
1 + ln(n)−1/5
m∈Minf {l(s,bsm)}
52/39
Hypoth` eses “raisonnables” sur P
Donn´ees born´ees :kYk∞≤A<∞ Niveau de bruit minor´e :
0< σmin≤σ(X)
Cible s r´eguli`ere (α-h¨olderienne) non-constante R´egularit´e de la partition : minλP(X ∈Iλ)≥♦Dm−1
et ce n’est qu’un exemple de jeu d’hypoth`eses valide...
52/39
Hypoth` eses “raisonnables” sur P
Donn´ees born´ees :kYk∞≤A<∞ Niveau de bruit minor´e :
0< σmin≤σ(X)
Cible s r´eguli`ere (α-h¨olderienne) non-constante R´egularit´e de la partition : minλP(X ∈Iλ)≥♦Dm−1
et ce n’est qu’un exemple de jeu d’hypoth`eses valide...
53/39
Simulations : cadre
Yi =s(Xi) +σ(Xi)i
(Xi)1≤i≤n∼i.i.d.U([0; 1]) (i)1≤i≤n∼i.i.d.N(0,1) Mn=
n
Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min
λ∈Λm
Card{Xi ∈Iλ} ≥2 o
⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]
E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons
53/39
Simulations : cadre
Yi =s(Xi) +σ(Xi)i
(Xi)1≤i≤n∼i.i.d.U([0; 1]) (i)1≤i≤n∼i.i.d.N(0,1) Mn=
n
Histogrammes r´eguliers`aD morceaux, 1≤D≤ n log(n) et tels que min
λ∈Λm
Card{Xi ∈Iλ} ≥2 o
⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]
E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons
53/39
Simulations : cadre
Yi =s(Xi) +σ(Xi)i
(Xi)1≤i≤n∼i.i.d.U([0; 1]) (i)1≤i≤n∼i.i.d.N(0,1) Mn=
n
Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min
λ∈Λm
Card{Xi ∈Iλ} ≥2 o
⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]
E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons
54/39
Simulations : proc´ edures consid´ er´ ees
V-fold “classique” (V ∈ {2,5,10,20}) :
mb ∈arg min
m∈M
1 V
V
X
j=1
Pnjγ
bsm(−j)
es =bsmb
Leave-one-out = n-fold “classique”
54/39
Simulations : proc´ edures consid´ er´ ees
V-fold “classique” (V ∈ {2,5,10,20}) :
mb ∈arg min
m∈M
1 V
V
X
j=1
Pnjγ
bsm(−j)
es =bsmb
Leave-one-out = n-fold “classique”
55/39
Choix de V pour VFCV : sin, n = 200, σ ≡ 1
0 0.5 1
−4 0 4
0 0.5 1
−4 0 4
2-fold 2.08±0.04 5-fold 2.14±0.04 10-fold 2.10±0.05 20-fold 2.09±0.04 leave-one-out 2.08±0.04
56/39
Simulations : sin, n = 200, σ ≡ 1
0 0.5 1
−4 0 4
0 0.5 1
−4 0 4
Mallows 1.93±0.04
2-fold 2.08±0.04
5-fold 2.14±0.04
10-fold 2.10±0.05 leave-one-out 2.08±0.04 pen 2-f 2.58±0.06 pen 5-f 2.22±0.05 pen 10-f 2.12±0.05 pen 20-f 2.09±0.04 pen Loo 2.08±0.05 Mallows×1.25 1.80±0.03 pen 2-f×1.25 2.17±0.05 pen 5-f×1.25 1.91±0.05 pen 10-f×1.25 1.87±0.03 pen 20-f×1.25 1.90±0.05 pen Loo×1.25 1.84±0.03
56/39
Simulations : sin, n = 200, σ ≡ 1
0 0.5 1
−4 0 4
0 0.5 1
−4 0 4
Mallows 1.93±0.04
2-fold 2.08±0.04
5-fold 2.14±0.04
10-fold 2.10±0.05 leave-one-out 2.08±0.04 pen 2-f 2.58±0.06 pen 5-f 2.22±0.05 pen 10-f 2.12±0.05 pen 20-f 2.09±0.04 pen Loo 2.08±0.05 Mallows×1.25 1.80±0.03 pen 2-f×1.25 2.17±0.05 pen 5-f×1.25 1.91±0.05 pen 10-f×1.25 1.87±0.03 pen 20-f×1.25 1.90±0.05 pen Loo×1.25 1.84±0.03