R´ e´ echantillonnage et S´ election de mod` eles

(1)

1/39

R´ e´ echantillonnage et S´ election de mod` eles

Sylvain Arlot

Université Paris-Sud XI, Orsay thèse dirigée par Pascal Massart

13 d´ecembre 2007

(2)

2/39

Pr´ esentation g´ en´ erale

1 Sélection de modèles Validation croisée Pénalisation

Estimation de la forme de la p´enalit´e Calibration optimale

2 R´egions de confiance

Probl`emes complexes Situation non-asymptotique

Buts : r´esultats th´eoriques, calibration “optimale” en pratique

(3)

3/39

Donn´ ees : (X

₁

, Y

₁

), . . . , (X

_n

, Y

_n

)

(4)

4/39

But : reconstruire le signal

(5)

5/39

Quel mod` ele choisir ?

D = 1

D = 9

D= 3

D= 36

(6)

5/39

Quel mod` ele choisir ?

D = 1

D = 9

D= 3

D= 36

(7)

6/39

L’oracle

(8)

7/39

R´ egression

(X₁,Y₁), . . . ,(X_n,Y_n)∈ X × Y i.i.d. (X_i,Y_i)∼P inconnue

Y =s(X) +σ(X) X ∈ X ⊂R^d, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[²|X] = 1

intensit´e du bruit :σ(X)

pr´edicteur t :X 7→ Y ?

(9)

7/39

R´ egression

(X1,Y1), . . . ,(Xn,Yn)∈ X × Y i.i.d. (Xi,Yi)∼P inconnue

Y =s(X) +σ(X) X ∈ X ⊂R^d, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[²|X] = 1

intensit´e du bruit :σ(X)

pr´edicteur t :X 7→ Y ?

(10)

8/39

Fonction de perte, estimateur des moindre carr´ es

Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E

(t(X)−s(X))² avec γ(t,(x,y)) = (t(x)−y)²

Minimiseur du risque empirique sur S_m (= mod`ele) :

bsm ∈arg min

t∈S_mPnγ(t,·) = arg min

t∈S_m

1 n

n

X

i=1

(t(X_i)−Y_i)² . Exemple jouet : histogrammes sur une partition (I_λ)λ∈Λm de X.

bsm= X

λ∈Λm

βbλ1I_λ βbλ= 1 Card{X_i ∈I_λ}

X

Xi∈I_λ

Yi.

(11)

8/39

Fonction de perte, estimateur des moindre carr´ es

bsm ∈arg min

t∈Sm

Pnγ(t,·) = arg min

t∈Sm

1 n

n

X

i=1

(t(Xi)−Yi)² .

Exemple jouet : histogrammes sur une partition (I_λ)λ∈Λm de X.

bs_m= X

λ∈Λm

βb_λ1Iλ βb_λ= 1 Card{X_i ∈I_λ}

X

Xi∈Iλ

Y_i.

(12)

8/39

Fonction de perte, estimateur des moindre carr´ es

bs_m ∈arg min

t∈Sm

P_nγ(t,·) = arg min

t∈Sm

1 n

n

X

i=1

(t(X_i)−Y_i)² . Exemple jouet : histogrammes sur une partition (I_λ)λ∈Λm de X.

bsm= X

λ∈Λm

βbλ1I_λ βbλ= 1 Card{X_i ∈I_λ}

X

Xi∈I_λ

Yi.

(13)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bs_m_b ???

Objectifs :

In´egalit´e-oracle :

E[l(s,bs_m_b)]≤CE

m∈Minf {l(s,bsm) +R(m,n)}

P

l(s,bs_m_b)≤C inf

m∈M{l(s,bs_m) +R(m,n)}

≥1−C⁰n⁻²

Adaptativité (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas hétéroscédastique)

(14)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bs_m_b ???

Objectifs :

E[l(s,bs_m_b)]≤CE

P

l(s,bs_m_b)≤C inf

≥1−C⁰n⁻² Adaptativité (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas hétéroscédastique)

(15)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bs_m_b ???

Objectifs :

E[l(s,bs_m_b)]≤CE

P

l(s,bs_m_b)≤C inf

≥1−C⁰n⁻² Adaptativité (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas hétéroscédastique)

(16)

10/39

Validation

(17)

10/39

Validation

(18)

11/39

Validation : l’´ echantillon d’entraˆınement

(19)

11/39

Validation : l’´ echantillon d’entraˆınement

(20)

12/39

Validation : l’´ echantillon de validation

(21)

12/39

Validation : l’´ echantillon de validation

(22)

13/39

Validation, validation crois´ ee

(X₁,Y₁), . . . ,(X_q,Y_q)

| {z }

,(X_q+1,Y_q+1), . . . ,(X_n,Y_n)

| {z }

Entraˆınement Validation

bsm^(e)∈arg min

t∈S_m

( _q X

i=1

γ(t,(Xi,Yi)) )

Pn^(v)= 1 n−q

n

X

i=q+1

δ_(X_i_,Y_i₎ ⇒Pn^(v)γ

bsm^(e)

Validation crois´ee “V-fold”: (B_j)1≤j≤V partition de{1, . . . ,n}

⇒mb ∈arg min

m∈M





 1 V

V

X

j=1

P_n^jγ

bsm^(−j)







es =bs_m_b

(23)

13/39

Validation, validation crois´ ee

(X₁,Y₁), . . . ,(X_q,Y_q)

| {z }

,(X_q+1,Y_q+1), . . . ,(X_n,Y_n)

| {z }

Entraˆınement Validation

bsm^(e)∈arg min

t∈S_m

( _q X

i=1

γ(t,(Xi,Yi)) )

Pn^(v)= 1 n−q

n

X

i=q+1

δ_(X_i_,Y_i₎ ⇒Pn^(v)γ

bsm^(e)

Validation crois´ee “V-fold”: (B_j)1≤j≤V partition de{1, . . . ,n}

⇒mb ∈arg min

m∈M





 1 V

V

X

j=1

P_n^jγ

bsm^(−j)







es =bs_m_b

(24)

14/39

Biais de la validation crois´ ee V -fold

Critère idéal :Pγ(bs_m) Régression sur un modèle d’histogrammes :

E[Pγ(bsm)]≈Pγ(sm) +1 n

X

λ∈Λm

σ_λ²

E h

Pn^(j)γ bsm^(−j⁾

i

=E h

Pγ bsm^(−j⁾

i≈Pγ(s_m) + V V −1

1 n

X

λ∈Λ_m

σ_λ²

⇒biais si V fixe (“surp´enalisation”)

⇒s´election de mod`elessous-optimale

(25)

14/39

Biais de la validation crois´ ee V -fold

Critère idéal : Pγ(bs_m) Régression sur un modèle d’histogrammes :

X

λ∈Λm

σ_λ²

E h

i

=E h

Pγ bsm^(−j⁾

i≈Pγ(s_m) + V V −1

1 n

X

λ∈Λ_m

σ_λ²

(26)

14/39

Biais de la validation crois´ ee V -fold

Critère idéal : Pγ(bs_m) Régression sur un modèle d’histogrammes :

X

λ∈Λm

σ_λ²

E h

i

=E h

Pγ bsm^(−j⁾

i≈Pγ(s_m) + V V −1

1 n

X

λ∈Λ_m

σ_λ²

(27)

15/39

Choix de V

Biais : décroˆıt avecV (peut être corrigé, Burman 1989) Variance : éviterV trop petit (V = 2), et parfois V =n (algorithmes instables)

Temps de calcul : complexit´e proportionnelle `aV

⇒compromis `a trouver

“V = 5 ouV = 10 pour la pr´ediction”

“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)

Ce n’est plus vrai si le rapport signal sur bruit est faible...

(28)

15/39

Choix de V

(29)

15/39

Choix de V

(30)

16/39

Simulations : HeaviSine, n = 2048, σ ≡ 1

0 0.5 1

−8 0 8

C_classique = E[l(s,bs_m_b)]

E[infm∈Ml(s,bs_m)]

2-fold 1.002±0.003 5-fold 1.014±0.003 10-fold 1.021±0.003 20-fold 1.029±0.004 leave-one-out 1.034±0.004

(31)

17/39

P´ enalisation

mb ∈arg min

m∈M{P_nγ(bs_m) + pen(m)}

pen(m) = 2σ²D_m

n (Mallows 1973) pen(m) = 2bσ²Dm

n ou K Db m

Mais des pénalités linéaires en D ne fonctionnent pas toujours : régression hétéroscédastique, classification, etc.

⇒ Pénalité idéale : pen_id(m) = (P −Pn)(γ(bsm,·))

(32)

17/39

P´ enalisation

mb ∈arg min

pen(m) = 2σ²D_m

n ou K Db m

Mais des pénalités linéaires en D ne fonctionnent pas toujours : régression hétéroscédastique, classification, etc.

(33)

17/39

P´ enalisation

mb ∈arg min

pen(m) = 2σ²D_m

n ou K Db m

Mais des pénalités linéaires en D ne fonctionnent pas toujours: régression hétéroscédastique, classification, etc.

(34)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel: P ^´echantillonnage //P_n ⁺³bsm

pen_id(m) = (P−Pn)γ(bsm) =F(P,Pn)

V-fold : P_n^W = 1 n−Card(BJ)

X

i∈B/ J

δ_(X_i_,Y_i₎ avecJ ∼ U(1, . . . ,V)

(35)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

OOOOOOO P ^´echantillonnage //P_n ⁺³bsm

Monde bootstrap: Pn

pen_id(m) = (P−P_n)γ(bs_m) =F(P,P_n)

V-fold : P_n^W = 1 n−Card(B_J)

X

i∈B/ _J

δ_(X_i_,Y_i₎ avecJ ∼ U(1, . . . ,V)

(36)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

Monde bootstrap: P_n ^r´^e´echantillonnage //P_n^W ⁺³bs_m^W

(P −P_n)γ(bs_m) =F(P,P_n) ^/o ^/o ^/o ^//F(Pn,P_n^W) = (Pn−P_n^W)γ bs_m^W

X

i∈B/ _J

δ_(X_i_,Y_i₎ avecJ ∼ U(1, . . . ,V)

(37)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

Monde bootstrap: P_n ^sous-´echantillonnage//P_n^W ⁺³bs_m^W

(P −P_n)γ(bs_m) =F(P,P_n) ^/o ^/o ^/o ^//F(Pn,P_n^W) = (Pn−P_n^W)γ bs_m^W

X

i∈B/ _J

δ_(X_i_,Y_i₎ avecJ ∼ U(1, . . . ,V)

(38)

19/39

P´ enalisations par r´ e´ echantillonnage

Estimer pen_id avec lebootstrap: Efron (1983), Shibata (1997) Estimer pen_id avec lebootstrap “m out of n” : Shao (1996)

⇒ identification . . .

Pénalitésglobales en classification: poids Rademacher (Koltchinskii, Panchenko 2001 ; Bartlett, Boucheron, Lugosi 2002), poids échangeables (Fromont 2004), . . .

Pénalité locales :complexités de Rademacher locales

(Bartlett, Bousquet, Mendelson 2004 ; Koltchinskii 2006, etc.)

(39)

20/39

P´ enalisation V -fold

Pénalité idéale :

(P−Pn)(γ(bsm)) P´enalit´e V-fold :

pen(m) = C V

V

X

j=1

h

(Pn−Pn^(−j))

γ

bsm^(−j⁾

i

bsm^(−j⁾∈arg min

t∈S_mPn^(−j)γ(t) avec C ≥V −1 `a choisir

(C =V −1 ⇒ on retrouve Burman, 1989) Modèle sélectionné :

mb ∈arg min

m∈M{P_nγ(bsm) + pen(m)}

(40)

20/39

P´ enalisation V -fold

pen(m) = C V

V

X

j=1

h

(Pn−Pn^(−j))

γ

bsm^(−j⁾

i

mb ∈arg min

(41)

20/39

P´ enalisation V -fold

pen(m) = C V

V

X

j=1

h

(Pn−Pn^(−j))

γ

bsm^(−j⁾

i

mb ∈arg min

(42)

21/39

In´ egalit´ e-oracle “trajectorielle” non-asymptotique

Régression sur des histogrammes, plan d’expérience aléatoire Petit nombre de modèles (au plus ♦n^α)

V fixe ouV =n (et plusieurs r´e´echantillonnages

´

echangeables, dont le bootstrap) C ≈V −1 (ouC ≈C_W,∞)

Des hypothèses “raisonnables” surP,e.g.données bornées, bruit minoré et s régulière non-constante

+ quelques restrictions techniques Th´eor`eme

Avec probabilit´e au moins 1−♦n⁻², l(s,bs_m_b)≤

1 + ln(n)^−1/5

m∈Minf {l(s,bs_m)}

(43)

22/39

Corollaires

In´egalit´e-oracle classique : E[l(s,bs_m_b)]≤

1 + ln(n)^−1/5

E

m∈Minf {l(s,bsm)}

+♦n⁻² Optimalit´e asymptotique siC ∼_n→+∞V −1 :

l(s,bs_m_b) infm∈M{l(s,bs_m)}

−−−−→p.s.

n→+∞ 1

Adaptativité à la régularité hölder (histogrammes réguliers, sup_X s−infXs ≥ >0),même dans un cadre

hétéroscédastique.

(44)

22/39

Corollaires

1 + ln(n)^−1/5

E

m∈Minf {l(s,bsm)}

−−−−→p.s.

n→+∞ 1

(45)

22/39

Corollaires

1 + ln(n)^−1/5

E

m∈Minf {l(s,bsm)}

−−−−→p.s.

n→+∞ 1

(46)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

pen_id(m)≈E[pen_id(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bs_m) quandD_m →+∞ :

Calculs explicites de pen_id et de pen

Comparaison des esp´erances :E(pen_id)∝E(pen) (si minλ∈Λm{nP(X ∈I_λ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ inégalités de concentration (pour pen_id et pen) Hypothèses⇒ contrôle des restes en termes del(s,bs_m)

(47)

23/39

Sch´ ema de la preuve

(48)

23/39

Sch´ ema de la preuve

(49)

23/39

Sch´ ema de la preuve

(50)

23/39

Sch´ ema de la preuve

(51)

24/39

Simulations : sin, n = 200, σ(x) = x, 2 pas

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 3.86±0.02

2-fold 2.54±0.05

5-fold 2.58±0.06

10-fold 2.60±0.06 leave-one-out 2.59±0.06 pen 2-f 3.06±0.07 pen 5-f 2.75±0.06 pen 10-f 2.65±0.06 pen 20-f 2.64±0.06 pen Loo 2.59±0.06 Mallows×1.25 4.05±0.02 pen 2-f×1.25 2.75±0.06 pen 5-f×1.25 2.38±0.06 pen 10-f×1.25 2.28±0.05 pen 20-f×1.25 2.25±0.06 pen Loo×1.25 2.21±0.05

(52)

24/39

Simulations : sin, n = 200, σ(x) = x, 2 pas

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 3.86±0.02

2-fold 2.54±0.05

5-fold 2.58±0.06

(53)

25/39

Calibration optimale de la p´ enalit´ e

m(Kb )∈arg min

m∈M_n{P_nγ(bs_m) +Kpen₀(m)}

⇒comment choisir K?

But : optimalité en termes de sélection de modèles

Optimalit´e “asymptotique” : Kbopt = 2Kb_min (heuristique de pente, Birg´e et Massart 2006).

⇒ encore valable dans un cadre hétéroscédastique (histogrammes).

Optimalit´e “non-asymptotique” : il fautsurp´enaliserun peu

(54)

26/39

Calibration asymptotique : heuristique de pente

(55)

27/39

Calibration non-asymptotique : surp´ enalisation

(56)

28/39

Bilan

Problème difficile (hétéroscédastique, etc.)

⇒ estimation de la forme id´eale,

par rééchantillonnage V-fold ou échangeable (preuve : histogrammes)

Calibration de la constante multiplicative : heuristique de pente

(preuve : cadre non-gaussien hétéroscédastique, histogrammes)

Constante optimale en pratique : il fautsurp´enaliser. De combien ?

(57)

29/39

R´ egions de confiance et tests multiples

(collaboration avec G. Blanchard, E. Roquain ; version courte publi´ee aux actes de Colt 2007)

Problématique : données degrande dimension, avec des corrélations générales inconnues, mais peu de répétitions

⇒ non-asymptotique

Approches par r´e´echantillonnage

Application pratique en imagerie cérébrale : collaboration en cours avec Sylvain Baillet (Pitié-Salpêtrière)

(58)

30/39

(Neuro-)images. K = 16384 n, bruit corr´ el´ e.

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

(59)

31/39

Mod` ele

Observations : Y= (Y¹, . . . ,Yⁿ) =







Y₁¹ . . . Y₁ⁿ ... ... ... ... Y_K¹ . . . Y_Kⁿ







Y¹, . . . ,Yⁿ∈R^K i.i.d. sym´etrique Moyenne inconnue µ= (µ_k)_k

Matrice de covariance inconnue Σ

Majoration de la variance connue (ou à estimer séparément) : max_kvar(Y_k¹)≤σ²

n K.

Buts : R´egion de confiance pourµ; Test multiple : {k/µ_k 6= 0}=?

(60)

31/39

Mod` ele

Observations : Y= (Y¹, . . . ,Yⁿ) =







Y₁¹ . . . Y₁ⁿ ... ... ... ... Y_K¹ . . . Y_Kⁿ







Y¹, . . . ,Yⁿ∈R^K i.i.d. sym´etrique Moyenne inconnue µ= (µ_k)_k

Matrice de covariance inconnue Σ

Majoration de la variance connue (ou à estimer séparément) : max_kvar(Y_k¹)≤σ²

n K.

Buts : R´egion de confiance pourµ; Test multiple : {k/µ_k 6= 0}=?

(61)

32/39

R´ egions de confiance et tests multiples

Boule de confiance B(Y) =

µ∈R^K/sup

k

Y_k −µ_k ≤t

,

o`u

Y= _n¹Pn

i=1Yⁱ moyenne empirique

t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).

⇒test multiple : on rejette “µ_k = 0” pour tout k ∈R(Y) =

k/

Y_k

>t_α(Y) . FWER(R) = P(∃k / µk = 0 and√

n|Y_k|>t)

≤ P(∃k / √

n|Y_k −µ_k|>t)

= P

kY−µk_∞>tn^−1/2

⇒r´egion de confiance etcontrˆole du FWER

(62)

32/39

R´ egions de confiance et tests multiples

Boule de confiance B(Y) =

µ∈R^K/sup

k

Y_k −µ_k ≤t

,

o`u

Y= _n¹Pn

i=1Yⁱ moyenne empirique

t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).

⇒test multiple : on rejette “µ_k = 0” pour tout k ∈R(Y) =

k/

Y_k

>t_α(Y) . FWER(R) = P(∃k / µk = 0 and√

n|Y_k|>t)

≤ P(∃k / √

n|Y_k −µ_k|>t)

= P

kY−µk_∞>tn^−1/2

⇒r´egion de confiance etcontrˆole du FWER

(63)

33/39

Seuil de Bonferroni, cas Gaussien

Borne d’union :

FWER(R) ≤ Ksup

k

P(√

n|Y_k −µk|>t)

≤ 2KΦ(t/σ), o`u Φ est la queue gaussienne standard.

Seuil de Bonferroni :t_α^Bonf=σΦ⁻¹(α/(2K)).

trop conservatif s’il y a de fortes corr´elations entre les coordonn´ees

(Y1=· · ·=YK revient `aK = 1)

⇒comment faire mieux ?

(64)

34/39

But

Trouver un seuilt_α(Y) tel que

∀µ∈R^K P

√nkY−µk_∞>tα(Y)

≤α .

⇒FWER(R)≤α + boule de confiance de niveauα pour µ.

Non-asymptotique : ∀K,n

Hypothèses :Yⁱ symétrique, corrélations générales Seuil idéal :t =q_α^?, quantile d’ordre (1−α) deD √

nkY−µk_∞ q_α^? dépend deD(Y) inconnue⇒ estimé parrééchantillonnage.

(65)

34/39

But

Trouver un seuilt_α(Y) tel que

∀µ∈R^K P

√nkY−µk_∞>tα(Y)

≤α .

⇒FWER(R)≤α + boule de confiance de niveauα pour µ.

Non-asymptotique : ∀K,n

Hypothèses :Yⁱ symétrique, corrélations générales Seuil idéal :t =q_α^?, quantile d’ordre (1−α) deD √

nkY−µk_∞ q_α^? dépend deD(Y) inconnue⇒ estimé parrééchantillonnage.

(66)

35/39

Deux m´ ethodes pour estimer q

_α^?

Concentration :

kY−µk_∞ se concentre autour de son esp´erance (´ecart-type

≤σn^−1/2), on estimeE

kY−µk_∞

par r´e´echantillonnage

⇒q^conc_α (Y) =cst×√ nE

kY_W −W Yk_∞|Y

+ reste(σ, α,n)

Quantiles :

estimation directe de q_α^? par r´e´echantillonnage : q^quant_α (Y) =quantile d’ordre (1−α) de

D √

nkn⁻¹Pn

i=1Wi Yⁱ−Y k_∞|Y

(67)

35/39

Deux m´ ethodes pour estimer q

_α^?

Concentration :

kY−µk_∞ se concentre autour de son esp´erance (´ecart-type

≤σn^−1/2), on estimeE

kY−µk_∞

par r´e´echantillonnage

⇒q^conc_α (Y) =cst×√ nE

kY_W −W Yk_∞|Y

+ reste(σ, α,n)

Quantiles :

estimation directe de q_α^? par r´e´echantillonnage : q^quant_α (Y) =quantile d’ordre (1−α) de

D √

nkn⁻¹Pn

i=1Wi Yⁱ−Y k_∞|Y

(68)

36/39

R´ esultats th´ eoriques

Concentration : poidsW échangeables généraux(ou V-fold), Yⁱ gaussiens (ou symétriques bornés)

⇒ contrˆole non-asymptotique du niveau.

Quantiles : poids Rademacher i.i.d.,Yⁱ sym´etriques

⇒ besoin d’un terme supplémentaire pour contrôler le niveau Dans les deux cas : corrélationsgénérales et inconnues, et K n est possible.

(69)

37/39

Simulations : n = 1000, K = 16384, σ = 1

(70)

38/39

Pourquoi r´ e´ echantillonner ?

Une méthode très générale : pénalisation, régions de confiance, etc.

et pour la surp´enalisation ?

Une m´ethode s’adaptant naturellement :

hétéroscédasticité (en régression, lorsque s ∈ H(α,R), α∈(0,1])

corrélations (régions de confiance ; non prouvé mais observé numériquement)

vitesses rapides en classification ? (résultats préliminaires uniquement). But : faire mieux que les complexités de Rademacher locales, la validation, l’agrégation.

(71)

38/39

Pourquoi r´ e´ echantillonner ?

(72)

38/39

Pourquoi r´ e´ echantillonner ?

(73)

38/39

Pourquoi r´ e´ echantillonner ?

(74)

39/39

Comment r´ e´ echantillonner ?

Rééchantillonnages échangeables : résultats précédents essentiellement asymptotiques (Barbe et Bertail 1995).

en s´election de mod`eles : bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-pénaliser légèrement.

Validation-crois´eeV-fold : choix de V, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de la variabilité des estimateurs par rééchantillonnage ?

(75)

39/39

Comment r´ e´ echantillonner ?

ens´election de mod`eles: bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

´

(76)

39/39

Comment r´ e´ echantillonner ?

⇔ mn (Shao 1996)

´

(77)

39/39

Comment r´ e´ echantillonner ?

⇔ mn (Shao 1996)

´

Validation-crois´eeV-fold : choix deV, pas si simple (cf.

(78)

39/39

Comment r´ e´ echantillonner ?

⇔ mn (Shao 1996)

´

Question ouverte : tenir compte de lavariabilité des estimateurs par rééchantillonnage ?

(79)

40/39

(80)

41/39

Annexes

3 Surp´enalisation

4 Heuristique de pente

5 Limites d’une pénalité linéaire

6 Pénalités par rééchantillonnage

7 Simulations

Validation-crois´ee V-fold P´enalisation V-fold

Pénalisation par rééchantillonnage échangeable

8 R´egions de confiance et tests multiples Th´eorie

R´egions de confiance Simulations

(81)

42/39

Surp´ enalisation (s = sin, σ ≡ 1, n = 200, Mallows)

(82)

43/39

Surp´ enalisation (s = sin, σ(x ) = x, n = 200, pen

Rademacher)

(83)

44/39

Surp´ enalisation (HeaviSine, n = 2048, σ(x) = x , pen 10-f)

(84)

45/39

Premier pas vers l’oracle

Pénalité idéale : pen_id(m) = (P −Pn)(γ(bsm,·))

Pour toutm∈ M,

Pnγ(bs_m_b,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)

l(s,bs_m_b) + [pen(m)b −pen_id(m)]b ≤l(s,bs_m) + [pen(m)−pen_id(m)]

⇒il suffit d’avoir pen(m⁰)≥pen_id(m⁰) = (P−Pn)γ(bsm⁰,·) pour toutm⁰∈ M

(85)

45/39

Premier pas vers l’oracle

Pour toutm∈ M,

(86)

45/39

Premier pas vers l’oracle

Pour toutm∈ M,

(87)

46/39

Bienfaits de la surp´ enalisation

n petit, σ grand⇒ surpénaliser peut être bénéfique (simulations)

Optimalité asymptotique 6= Optimalité non-asymptotique pen(m)≥pen_id(m) doit être assuré avec grande probabilité pour tous les modèles

(plus important que pen(m)≤(1 +) pen_id(m))

⇒Explique pourquoi V = 2 peut ˆetre “optimal”

⇒Facile de surp´enaliser : pen(m) estime Cpen_id(m) avecC >1

(88)

46/39

Bienfaits de la surp´ enalisation

(89)

46/39

Bienfaits de la surp´ enalisation

(90)

46/39

Bienfaits de la surp´ enalisation

(91)

47/39

Calibration asymptotique : heuristique de pente

(92)

48/39

Calibration asymptotique : heuristique de pente

(93)

49/39

Limites d’une p´ enalit´ e lin´ eaire

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2

−1 0 1 2 3 4

Y =X +σ(X) σ(X) =1_X≥¹

2 ∼ N(0,1)

Histogrammes r´eguliers sur 0;¹₂

(D_m,1 morceaux) puis sur ₁

2; 1

(D_m,2 morceaux).

⇒ pen_id(m) n’est pas lin´eaire enDm.

(94)

49/39

Limites d’une p´ enalit´ e lin´ eaire

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2

−1 0 1 2 3 4

0 5 10 15 20 25 30 35 40

0 0.05 0.1 0.15 0.2 0.25

Model dimension

Ideal penalty

Y =X +σ(X) σ(X) =1_X≥¹

2 ∼ N(0,1)

Histogrammes r´eguliers sur 0;¹₂

(Dm,1 morceaux) puis sur ₁

2; 1

(D_m,2 morceaux).

⇒ pen_id(m) n’est pas lin´eaire enD_m.

(95)

50/39

Limites d’une p´ enalit´ e lin´ eaire : m(K b ) 6= m

^?

0 5 10 15 20

0 2 4 6 8 10 12 14 16 18

Dm 1 Dm2

(96)

51/39

In´ egalit´ e-oracle “trajectorielle” non-asymptotique

Régression sur des histogrammes, plan d’expérience aléatoire Petit nombre de modèles (au plus ♦n^α)

Présélection de modèles :

∀m∈ M, min

λ∈Λm

{Card{X_i ∈I_λ}} ≥2 V fixe ouV =n (et plusieurs r´e´echantillonnages

´

echangeables, dont le bootstrap) C ≈V −1 (ouC ≈CW,∞) Th´eor`eme

Sous des hypoth`eses “raisonnables” sur P, avec probabilit´e au moins1−♦n⁻²,

l(s,bs_m_b)≤

1 + ln(n)^−1/5

m∈Minf {l(s,bs_m)}

(97)

52/39

Hypoth` eses “raisonnables” sur P

Données bornées :kYk∞≤A<∞ Niveau de bruit minoré :

0< σ_min≤σ(X)

Cible s régulière (α-hölderienne) non-constante Régularité de la partition : minλP(X ∈Iλ)≥♦D_m⁻¹

et ce n’est qu’un exemple de jeu d’hypoth`eses valide...

(98)

52/39

Hypoth` eses “raisonnables” sur P

Données bornées :kYk∞≤A<∞ Niveau de bruit minoré :

0< σ_min≤σ(X)

Cible s régulière (α-hölderienne) non-constante Régularité de la partition : minλP(X ∈Iλ)≥♦D_m⁻¹

et ce n’est qu’un exemple de jeu d’hypoth`eses valide...

(99)

53/39

Simulations : cadre

Y_i =s(X_i) +σ(X_i)_i

(X_i)1≤i≤n∼^i.i.d.U([0; 1]) (_i)1≤i≤n∼^i.i.d.N(0,1) M_n=

n

Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

Card{X_i ∈Iλ} ≥2 o

⇒Qualit´e des proc´edures : C_classique = E[l(s,bs_m_b)]

E[infm∈Ml(s,bs_m)] calcul´e avecN = 1000 ´echantillons

(100)

53/39

Simulations : cadre

n

Histogrammes r´eguliers`aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

(101)

53/39

Simulations : cadre

n

Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

(102)

54/39

Simulations : proc´ edures consid´ er´ ees

V-fold “classique” (V ∈ {2,5,10,20}) :

mb ∈arg min

m∈M





 1 V

V

X

j=1

P_n^jγ

bsm^(−j)







es =bs_m_b

Leave-one-out = n-fold “classique”

(103)

54/39

Simulations : proc´ edures consid´ er´ ees

V-fold “classique” (V ∈ {2,5,10,20}) :

mb ∈arg min

m∈M





 1 V

V

X

j=1

P_n^jγ

bsm^(−j)







es =bs_m_b

Leave-one-out = n-fold “classique”

(104)

55/39

Choix de V pour VFCV : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

2-fold 2.08±0.04 5-fold 2.14±0.04 10-fold 2.10±0.05 20-fold 2.09±0.04 leave-one-out 2.08±0.04

(105)

56/39

Simulations : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 1.93±0.04

2-fold 2.08±0.04

5-fold 2.14±0.04

(106)

56/39

Simulations : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 1.93±0.04

2-fold 2.08±0.04

5-fold 2.14±0.04