• Aucun résultat trouvé

R´ e´ echantillonnage et S´ election de mod` eles

N/A
N/A
Protected

Academic year: 2022

Partager "R´ e´ echantillonnage et S´ election de mod` eles"

Copied!
128
0
0

Texte intégral

(1)

1/39

R´ e´ echantillonnage et S´ election de mod` eles

Sylvain Arlot

Universit´e Paris-Sud XI, Orsay th`ese dirig´ee par Pascal Massart

13 d´ecembre 2007

(2)

2/39

Pr´ esentation g´ en´ erale

1 S´election de mod`eles Validation crois´ee P´enalisation

Estimation de la forme de la p´enalit´e Calibration optimale

2 R´egions de confiance

Probl`emes complexes Situation non-asymptotique

Buts : r´esultats th´eoriques, calibration “optimale” en pratique

(3)

3/39

Donn´ ees : (X

1

, Y

1

), . . . , (X

n

, Y

n

)

(4)

4/39

But : reconstruire le signal

(5)

5/39

Quel mod` ele choisir ?

D = 1

D = 9

D= 3

D= 36

(6)

5/39

Quel mod` ele choisir ?

D = 1

D = 9

D= 3

D= 36

(7)

6/39

L’oracle

(8)

7/39

R´ egression

(X1,Y1), . . . ,(Xn,Yn)∈ X × Y i.i.d. (Xi,Yi)∼P inconnue

Y =s(X) +σ(X) X ∈ X ⊂Rd, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[2|X] = 1

intensit´e du bruit :σ(X)

pr´edicteur t :X 7→ Y ?

(9)

7/39

R´ egression

(X1,Y1), . . . ,(Xn,Yn)∈ X × Y i.i.d. (Xi,Yi)∼P inconnue

Y =s(X) +σ(X) X ∈ X ⊂Rd, Y ∈ Y = [0; 1] ouR bruit : E[|X] = 0 E[2|X] = 1

intensit´e du bruit :σ(X)

pr´edicteur t :X 7→ Y ?

(10)

8/39

Fonction de perte, estimateur des moindre carr´ es

Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E

(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2

Minimiseur du risque empirique sur Sm (= mod`ele) :

bsm ∈arg min

t∈SmPnγ(t,·) = arg min

t∈Sm

1 n

n

X

i=1

(t(Xi)−Yi)2 . Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.

bsm= X

λ∈Λm

βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}

X

Xi∈Iλ

Yi.

(11)

8/39

Fonction de perte, estimateur des moindre carr´ es

Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E

(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2

Minimiseur du risque empirique sur Sm (= mod`ele) :

bsm ∈arg min

t∈Sm

Pnγ(t,·) = arg min

t∈Sm

1 n

n

X

i=1

(t(Xi)−Yi)2 .

Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.

bsm= X

λ∈Λm

βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}

X

Xi∈Iλ

Yi.

(12)

8/39

Fonction de perte, estimateur des moindre carr´ es

Fonction de perte des moindre carr´es : l(s,t) =Pγ(t,·)−Pγ(s,·) =E

(t(X)−s(X))2 avec γ(t,(x,y)) = (t(x)−y)2

Minimiseur du risque empirique sur Sm (= mod`ele) :

bsm ∈arg min

t∈Sm

Pnγ(t,·) = arg min

t∈Sm

1 n

n

X

i=1

(t(Xi)−Yi)2 . Exemple jouet : histogrammes sur une partition (Iλ)λ∈Λm de X.

bsm= X

λ∈Λm

βbλ1Iλ βbλ= 1 Card{Xi ∈Iλ}

X

Xi∈Iλ

Yi.

(13)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???

Objectifs :

In´egalit´e-oracle :

E[l(s,bsmb)]≤CE

m∈Minf {l(s,bsm) +R(m,n)}

P

l(s,bsmb)≤C inf

m∈M{l(s,bsm) +R(m,n)}

≥1−C0n−2

Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)

(14)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???

Objectifs :

In´egalit´e-oracle :

E[l(s,bsmb)]≤CE

m∈Minf {l(s,bsm) +R(m,n)}

P

l(s,bsmb)≤C inf

m∈M{l(s,bsm) +R(m,n)}

≥1−C0n−2 Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)

(15)

9/39

S´ election de mod` eles

(Sm)m∈M −→ (bsm)m∈M −→ bsmb ???

Objectifs :

In´egalit´e-oracle :

E[l(s,bsmb)]≤CE

m∈Minf {l(s,bsm) +R(m,n)}

P

l(s,bsmb)≤C inf

m∈M{l(s,bsm) +R(m,n)}

≥1−C0n−2 Adaptativit´e (e.g., (α,R) sis ∈ H(α,R) ;σ(X) dans le cas h´et´erosc´edastique)

(16)

10/39

Validation

(17)

10/39

Validation

(18)

11/39

Validation : l’´ echantillon d’entraˆınement

(19)

11/39

Validation : l’´ echantillon d’entraˆınement

(20)

12/39

Validation : l’´ echantillon de validation

(21)

12/39

Validation : l’´ echantillon de validation

(22)

13/39

Validation, validation crois´ ee

(X1,Y1), . . . ,(Xq,Yq)

| {z }

,(Xq+1,Yq+1), . . . ,(Xn,Yn)

| {z }

Entraˆınement Validation

bsm(e)∈arg min

t∈Sm

( q X

i=1

γ(t,(Xi,Yi)) )

Pn(v)= 1 n−q

n

X

i=q+1

δ(Xi,Yi) ⇒Pn(v)γ

bsm(e)

Validation crois´ee “V-fold”: (Bj)1≤j≤V partition de{1, . . . ,n}

⇒mb ∈arg min

m∈M

 1 V

V

X

j=1

Pnjγ

bsm(−j)

es =bsmb

(23)

13/39

Validation, validation crois´ ee

(X1,Y1), . . . ,(Xq,Yq)

| {z }

,(Xq+1,Yq+1), . . . ,(Xn,Yn)

| {z }

Entraˆınement Validation

bsm(e)∈arg min

t∈Sm

( q X

i=1

γ(t,(Xi,Yi)) )

Pn(v)= 1 n−q

n

X

i=q+1

δ(Xi,Yi) ⇒Pn(v)γ

bsm(e)

Validation crois´ee “V-fold”: (Bj)1≤j≤V partition de{1, . . . ,n}

⇒mb ∈arg min

m∈M

 1 V

V

X

j=1

Pnjγ

bsm(−j)

es =bsmb

(24)

14/39

Biais de la validation crois´ ee V -fold

Crit`ere id´eal :Pγ(bsm) R´egression sur un mod`ele d’histogrammes :

E[Pγ(bsm)]≈Pγ(sm) +1 n

X

λ∈Λm

σλ2

E h

Pn(j)γ bsm(−j)

i

=E h

Pγ bsm(−j)

i≈Pγ(sm) + V V −1

1 n

X

λ∈Λm

σλ2

⇒biais si V fixe (“surp´enalisation”)

⇒s´election de mod`elessous-optimale

(25)

14/39

Biais de la validation crois´ ee V -fold

Crit`ere id´eal : Pγ(bsm) R´egression sur un mod`ele d’histogrammes :

E[Pγ(bsm)]≈Pγ(sm) +1 n

X

λ∈Λm

σλ2

E h

Pn(j)γ bsm(−j)

i

=E h

Pγ bsm(−j)

i≈Pγ(sm) + V V −1

1 n

X

λ∈Λm

σλ2

⇒biais si V fixe (“surp´enalisation”)

⇒s´election de mod`elessous-optimale

(26)

14/39

Biais de la validation crois´ ee V -fold

Crit`ere id´eal : Pγ(bsm) R´egression sur un mod`ele d’histogrammes :

E[Pγ(bsm)]≈Pγ(sm) +1 n

X

λ∈Λm

σλ2

E h

Pn(j)γ bsm(−j)

i

=E h

Pγ bsm(−j)

i≈Pγ(sm) + V V −1

1 n

X

λ∈Λm

σλ2

⇒biais si V fixe (“surp´enalisation”)

⇒s´election de mod`elessous-optimale

(27)

15/39

Choix de V

Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)

Temps de calcul : complexit´e proportionnelle `aV

⇒compromis `a trouver

“V = 5 ouV = 10 pour la pr´ediction”

“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)

Ce n’est plus vrai si le rapport signal sur bruit est faible...

(28)

15/39

Choix de V

Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)

Temps de calcul : complexit´e proportionnelle `aV

⇒compromis `a trouver

“V = 5 ouV = 10 pour la pr´ediction”

“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)

Ce n’est plus vrai si le rapport signal sur bruit est faible...

(29)

15/39

Choix de V

Biais : d´ecroˆıt avecV (peut ˆetre corrig´e, Burman 1989) Variance : ´eviterV trop petit (V = 2), et parfois V =n (algorithmes instables)

Temps de calcul : complexit´e proportionnelle `aV

⇒compromis `a trouver

“V = 5 ouV = 10 pour la pr´ediction”

“V = 2 pour l’identification ou les tests” (Zhang, 1993 ; Dietterich, 1998)

Ce n’est plus vrai si le rapport signal sur bruit est faible...

(30)

16/39

Simulations : HeaviSine, n = 2048, σ ≡ 1

0 0.5 1

−8 0 8

Cclassique = E[l(s,bsmb)]

E[infm∈Ml(s,bsm)]

2-fold 1.002±0.003 5-fold 1.014±0.003 10-fold 1.021±0.003 20-fold 1.029±0.004 leave-one-out 1.034±0.004

(31)

17/39

P´ enalisation

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

pen(m) = 2σ2Dm

n (Mallows 1973) pen(m) = 2bσ2Dm

n ou K Db m

Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours : r´egression h´et´erosc´edastique, classification, etc.

⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

(32)

17/39

P´ enalisation

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

pen(m) = 2σ2Dm

n (Mallows 1973) pen(m) = 2bσ2Dm

n ou K Db m

Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours : r´egression h´et´erosc´edastique, classification, etc.

⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

(33)

17/39

P´ enalisation

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

pen(m) = 2σ2Dm

n (Mallows 1973) pen(m) = 2bσ2Dm

n ou K Db m

Mais des p´enalit´es lin´eaires en D ne fonctionnent pas toujours: r´egression h´et´erosc´edastique, classification, etc.

⇒ P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

(34)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel: P ´echantillonnage //Pn +3bsm

penid(m) = (P−Pn)γ(bsm) =F(P,Pn)

V-fold : PnW = 1 n−Card(BJ)

X

i∈B/ J

δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)

(35)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

OOOOOOO P ´echantillonnage //Pn +3bsm

Monde bootstrap: Pn

penid(m) = (P−Pn)γ(bsm) =F(P,Pn)

V-fold : PnW = 1 n−Card(BJ)

X

i∈B/ J

δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)

(36)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

OOOOOOO P ´echantillonnage //Pn +3bsm

Monde bootstrap: Pn echantillonnage //PnW +3bsmW

(P −Pn)γ(bsm) =F(P,Pn) /o /o /o //F(Pn,PnW) = (Pn−PnW)γ bsmW

V-fold : PnW = 1 n−Card(BJ)

X

i∈B/ J

δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)

(37)

18/39

Heuristique de r´ e´ echantillonnage (bootstrap, Efron 1979)

Monde r´eel:

OOOOOOO P ´echantillonnage //Pn +3bsm

Monde bootstrap: Pn sous-´echantillonnage//PnW +3bsmW

(P −Pn)γ(bsm) =F(P,Pn) /o /o /o //F(Pn,PnW) = (Pn−PnW)γ bsmW

V-fold : PnW = 1 n−Card(BJ)

X

i∈B/ J

δ(Xi,Yi) avecJ ∼ U(1, . . . ,V)

(38)

19/39

P´ enalisations par r´ e´ echantillonnage

Estimer penid avec lebootstrap: Efron (1983), Shibata (1997) Estimer penid avec lebootstrap “m out of n” : Shao (1996)

⇒ identification . . .

P´enalit´esglobales en classification: poids Rademacher (Koltchinskii, Panchenko 2001 ; Bartlett, Boucheron, Lugosi 2002), poids ´echangeables (Fromont 2004), . . .

P´enalit´e locales :complexit´es de Rademacher locales

(Bartlett, Bousquet, Mendelson 2004 ; Koltchinskii 2006, etc.)

(39)

20/39

P´ enalisation V -fold

P´enalit´e id´eale :

(P−Pn)(γ(bsm)) P´enalit´e V-fold :

pen(m) = C V

V

X

j=1

h

(Pn−Pn(−j))

γ

bsm(−j)

i

bsm(−j)∈arg min

t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir

(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

(40)

20/39

P´ enalisation V -fold

P´enalit´e id´eale :

(P−Pn)(γ(bsm)) P´enalit´e V-fold :

pen(m) = C V

V

X

j=1

h

(Pn−Pn(−j))

γ

bsm(−j)

i

bsm(−j)∈arg min

t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir

(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

(41)

20/39

P´ enalisation V -fold

P´enalit´e id´eale :

(P−Pn)(γ(bsm)) P´enalit´e V-fold :

pen(m) = C V

V

X

j=1

h

(Pn−Pn(−j))

γ

bsm(−j)

i

bsm(−j)∈arg min

t∈SmPn(−j)γ(t) avec C ≥V −1 `a choisir

(C =V −1 ⇒ on retrouve Burman, 1989) Mod`ele s´electionn´e :

mb ∈arg min

m∈M{Pnγ(bsm) + pen(m)}

(42)

21/39

In´ egalit´ e-oracle “trajectorielle” non-asymptotique

R´egression sur des histogrammes, plan d’exp´erience al´eatoire Petit nombre de mod`eles (au plus ♦nα)

V fixe ouV =n (et plusieurs r´e´echantillonnages

´

echangeables, dont le bootstrap) C ≈V −1 (ouC ≈CW,∞)

Des hypoth`eses “raisonnables” surP,e.g.donn´ees born´ees, bruit minor´e et s r´eguli`ere non-constante

+ quelques restrictions techniques Th´eor`eme

Avec probabilit´e au moins 1−♦n−2, l(s,bsmb)≤

1 + ln(n)−1/5

m∈Minf {l(s,bsm)}

(43)

22/39

Corollaires

In´egalit´e-oracle classique : E[l(s,bsmb)]≤

1 + ln(n)−1/5

E

m∈Minf {l(s,bsm)}

+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :

l(s,bsmb) infm∈M{l(s,bsm)}

−−−−→p.s.

n→+∞ 1

Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre

h´et´erosc´edastique.

(44)

22/39

Corollaires

In´egalit´e-oracle classique : E[l(s,bsmb)]≤

1 + ln(n)−1/5

E

m∈Minf {l(s,bsm)}

+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :

l(s,bsmb) infm∈M{l(s,bsm)}

−−−−→p.s.

n→+∞ 1

Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre

h´et´erosc´edastique.

(45)

22/39

Corollaires

In´egalit´e-oracle classique : E[l(s,bsmb)]≤

1 + ln(n)−1/5

E

m∈Minf {l(s,bsm)}

+♦n−2 Optimalit´e asymptotique siC ∼n→+∞V −1 :

l(s,bsmb) infm∈M{l(s,bsm)}

−−−−→p.s.

n→+∞ 1

Adaptativit´e `a la r´egularit´e h¨older (histogrammes r´eguliers, supX s−infXs ≥ >0),mˆeme dans un cadre

h´et´erosc´edastique.

(46)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :

Calculs explicites de penid et de pen

Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)

(47)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :

Calculs explicites de penid et de pen

Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)

(48)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :

Calculs explicites de penid et de pen

Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)

(49)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :

Calculs explicites de penid et de pen

Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)

(50)

23/39

Sch´ ema de la preuve

On montre, pour toutm∈ M,

penid(m)≈E[penid(m)]∝E[pen(m)]≈pen(m) avec des restesl(s,bsm) quandDm →+∞ :

Calculs explicites de penid et de pen

Comparaison des esp´erances :E(penid)∝E(pen) (si minλ∈Λm{nP(X ∈Iλ)} →+∞)

In´egalit´es de moments (Boucheron, Bousquet, Lugosi, Massart 2005)

⇒ in´egalit´es de concentration (pour penid et pen) Hypoth`eses⇒ contrˆole des restes en termes del(s,bsm)

(51)

24/39

Simulations : sin, n = 200, σ(x) = x, 2 pas

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 3.86±0.02

2-fold 2.54±0.05

5-fold 2.58±0.06

10-fold 2.60±0.06 leave-one-out 2.59±0.06 pen 2-f 3.06±0.07 pen 5-f 2.75±0.06 pen 10-f 2.65±0.06 pen 20-f 2.64±0.06 pen Loo 2.59±0.06 Mallows×1.25 4.05±0.02 pen 2-f×1.25 2.75±0.06 pen 5-f×1.25 2.38±0.06 pen 10-f×1.25 2.28±0.05 pen 20-f×1.25 2.25±0.06 pen Loo×1.25 2.21±0.05

(52)

24/39

Simulations : sin, n = 200, σ(x) = x, 2 pas

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 3.86±0.02

2-fold 2.54±0.05

5-fold 2.58±0.06

10-fold 2.60±0.06 leave-one-out 2.59±0.06 pen 2-f 3.06±0.07 pen 5-f 2.75±0.06 pen 10-f 2.65±0.06 pen 20-f 2.64±0.06 pen Loo 2.59±0.06 Mallows×1.25 4.05±0.02 pen 2-f×1.25 2.75±0.06 pen 5-f×1.25 2.38±0.06 pen 10-f×1.25 2.28±0.05 pen 20-f×1.25 2.25±0.06 pen Loo×1.25 2.21±0.05

(53)

25/39

Calibration optimale de la p´ enalit´ e

m(Kb )∈arg min

m∈Mn{Pnγ(bsm) +Kpen0(m)}

⇒comment choisir K?

But : optimalit´e en termes de s´election de mod`eles

Optimalit´e “asymptotique” : Kbopt = 2Kbmin (heuristique de pente, Birg´e et Massart 2006).

⇒ encore valable dans un cadre h´et´erosc´edastique (histogrammes).

Optimalit´e “non-asymptotique” : il fautsurp´enaliserun peu

(54)

26/39

Calibration asymptotique : heuristique de pente

(55)

27/39

Calibration non-asymptotique : surp´ enalisation

(56)

28/39

Bilan

Probl`eme difficile (h´et´erosc´edastique, etc.)

⇒ estimation de la forme id´eale,

par r´e´echantillonnage V-fold ou ´echangeable (preuve : histogrammes)

Calibration de la constante multiplicative : heuristique de pente

(preuve : cadre non-gaussien h´et´erosc´edastique, histogrammes)

Constante optimale en pratique : il fautsurp´enaliser. De combien ?

(57)

29/39

R´ egions de confiance et tests multiples

(collaboration avec G. Blanchard, E. Roquain ; version courte publi´ee aux actes de Colt 2007)

Probl´ematique : donn´ees degrande dimension, avec des corr´elations g´en´erales inconnues, mais peu de r´ep´etitions

⇒ non-asymptotique

Approches par r´e´echantillonnage

Application pratique en imagerie c´er´ebrale : collaboration en cours avec Sylvain Baillet (Piti´e-Salpˆetri`ere)

(58)

30/39

(Neuro-)images. K = 16384 n, bruit corr´ el´ e.

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

20 40 60 80 100 120

20

40

60

80

100

120

(59)

31/39

Mod` ele

Observations : Y= (Y1, . . . ,Yn) =

Y11 . . . Y1n ... ... ... ... YK1 . . . YKn

Y1, . . . ,Yn∈RK i.i.d. sym´etrique Moyenne inconnue µ= (µk)k

Matrice de covariance inconnue Σ

Majoration de la variance connue (ou `a estimer s´epar´ement) : maxkvar(Yk1)≤σ2

n K.

Buts : R´egion de confiance pourµ; Test multiple : {k/µk 6= 0}=?

(60)

31/39

Mod` ele

Observations : Y= (Y1, . . . ,Yn) =

Y11 . . . Y1n ... ... ... ... YK1 . . . YKn

Y1, . . . ,Yn∈RK i.i.d. sym´etrique Moyenne inconnue µ= (µk)k

Matrice de covariance inconnue Σ

Majoration de la variance connue (ou `a estimer s´epar´ement) : maxkvar(Yk1)≤σ2

n K.

Buts : R´egion de confiance pourµ; Test multiple : {k/µk 6= 0}=?

(61)

32/39

R´ egions de confiance et tests multiples

Boule de confiance B(Y) =

µ∈RK/sup

k

Yk −µk ≤t

,

o`u

Y= n1Pn

i=1Yi moyenne empirique

t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).

⇒test multiple : on rejette “µk = 0” pour tout k ∈R(Y) =

k/

Yk

>tα(Y) . FWER(R) = P(∃k / µk = 0 and√

n|Yk|>t)

≤ P(∃k / √

n|Yk −µk|>t)

= P

kY−µk>tn−1/2

⇒r´egion de confiance etcontrˆole du FWER

(62)

32/39

R´ egions de confiance et tests multiples

Boule de confiance B(Y) =

µ∈RK/sup

k

Yk −µk ≤t

,

o`u

Y= n1Pn

i=1Yi moyenne empirique

t =tα(Y) seuil (ind´ependant dek ∈ {1, . . . ,K}).

⇒test multiple : on rejette “µk = 0” pour tout k ∈R(Y) =

k/

Yk

>tα(Y) . FWER(R) = P(∃k / µk = 0 and√

n|Yk|>t)

≤ P(∃k / √

n|Yk −µk|>t)

= P

kY−µk>tn−1/2

⇒r´egion de confiance etcontrˆole du FWER

(63)

33/39

Seuil de Bonferroni, cas Gaussien

Borne d’union :

FWER(R) ≤ Ksup

k

P(√

n|Yk −µk|>t)

≤ 2KΦ(t/σ), o`u Φ est la queue gaussienne standard.

Seuil de Bonferroni :tαBonf=σΦ−1(α/(2K)).

trop conservatif s’il y a de fortes corr´elations entre les coordonn´ees

(Y1=· · ·=YK revient `aK = 1)

⇒comment faire mieux ?

(64)

34/39

But

Trouver un seuiltα(Y) tel que

∀µ∈RK P

√nkY−µk>tα(Y)

≤α .

⇒FWER(R)≤α + boule de confiance de niveauα pour µ.

Non-asymptotique : ∀K,n

Hypoth`eses :Yi sym´etrique, corr´elations g´en´erales Seuil id´eal :t =qα?, quantile d’ordre (1−α) deD √

nkY−µk qα? d´epend deD(Y) inconnue⇒ estim´e parr´e´echantillonnage.

(65)

34/39

But

Trouver un seuiltα(Y) tel que

∀µ∈RK P

√nkY−µk>tα(Y)

≤α .

⇒FWER(R)≤α + boule de confiance de niveauα pour µ.

Non-asymptotique : ∀K,n

Hypoth`eses :Yi sym´etrique, corr´elations g´en´erales Seuil id´eal :t =qα?, quantile d’ordre (1−α) deD √

nkY−µk qα? d´epend deD(Y) inconnue⇒ estim´e parr´e´echantillonnage.

(66)

35/39

Deux m´ ethodes pour estimer q

α?

Concentration :

kY−µk se concentre autour de son esp´erance (´ecart-type

≤σn−1/2), on estimeE

kY−µk

par r´e´echantillonnage

⇒qconcα (Y) =cst×√ nE

kYW −W Yk|Y

+ reste(σ, α,n)

Quantiles :

estimation directe de qα? par r´e´echantillonnage : qquantα (Y) =quantile d’ordre (1−α) de

D √

nkn−1Pn

i=1Wi Yi−Y k|Y

(67)

35/39

Deux m´ ethodes pour estimer q

α?

Concentration :

kY−µk se concentre autour de son esp´erance (´ecart-type

≤σn−1/2), on estimeE

kY−µk

par r´e´echantillonnage

⇒qconcα (Y) =cst×√ nE

kYW −W Yk|Y

+ reste(σ, α,n)

Quantiles :

estimation directe de qα? par r´e´echantillonnage : qquantα (Y) =quantile d’ordre (1−α) de

D √

nkn−1Pn

i=1Wi Yi−Y k|Y

(68)

36/39

R´ esultats th´ eoriques

Concentration : poidsW ´echangeables g´en´eraux(ou V-fold), Yi gaussiens (ou sym´etriques born´es)

⇒ contrˆole non-asymptotique du niveau.

Quantiles : poids Rademacher i.i.d.,Yi sym´etriques

⇒ besoin d’un terme suppl´ementaire pour contrˆoler le niveau Dans les deux cas : corr´elationsg´en´erales et inconnues, et K n est possible.

(69)

37/39

Simulations : n = 1000, K = 16384, σ = 1

(70)

38/39

Pourquoi r´ e´ echantillonner ?

Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.

et pour la surp´enalisation ?

Une m´ethode s’adaptant naturellement :

h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])

corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)

vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.

(71)

38/39

Pourquoi r´ e´ echantillonner ?

Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.

et pour la surp´enalisation ?

Une m´ethode s’adaptant naturellement :

h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])

corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)

vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.

(72)

38/39

Pourquoi r´ e´ echantillonner ?

Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.

et pour la surp´enalisation ?

Une m´ethode s’adaptant naturellement :

h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])

corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)

vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.

(73)

38/39

Pourquoi r´ e´ echantillonner ?

Une m´ethode tr`es g´en´erale : p´enalisation, r´egions de confiance, etc.

et pour la surp´enalisation ?

Une m´ethode s’adaptant naturellement :

h´et´erosc´edasticit´e (en r´egression, lorsque s ∈ H(α,R), α∈(0,1])

corr´elations (r´egions de confiance ; non prouv´e mais observ´e num´eriquement)

vitesses rapides en classification ? (r´esultats pr´eliminaires uniquement). But : faire mieux que les complexit´es de Rademacher locales, la validation, l’agr´egation.

(74)

39/39

Comment r´ e´ echantillonner ?

R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).

en s´election de mod`eles : bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.

Validation-crois´eeV-fold : choix de V, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?

(75)

39/39

Comment r´ e´ echantillonner ?

R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).

ens´election de mod`eles: bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.

Validation-crois´eeV-fold : choix de V, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?

(76)

39/39

Comment r´ e´ echantillonner ?

R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).

en s´election de mod`eles : bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.

Validation-crois´eeV-fold : choix de V, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?

(77)

39/39

Comment r´ e´ echantillonner ?

R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).

en s´election de mod`eles : bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.

Validation-crois´eeV-fold : choix deV, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de la variabilit´e des estimateurs par r´e´echantillonnage ?

(78)

39/39

Comment r´ e´ echantillonner ?

R´e´echantillonnages ´echangeables : r´esultats pr´ec´edents essentiellement asymptotiques (Barbe et Bertail 1995).

en s´election de mod`eles : bootstrap “m out of n” consistant

⇔ mn (Shao 1996)

⇒ Consistance pour l’identification avec des poids

´

echangeables quelconques ?

r´esultats non-asymptotiques, histogrammes : poids

´

echangeables un peu meilleurs queV-fold ; le bootstrap semble sous-p´enaliser l´eg`erement.

Validation-crois´eeV-fold : choix de V, pas si simple (cf.

Celisse et Robin 2007)

Question ouverte : tenir compte de lavariabilit´e des estimateurs par r´e´echantillonnage ?

(79)

40/39

(80)

41/39

Annexes

3 Surp´enalisation

4 Heuristique de pente

5 Limites d’une p´enalit´e lin´eaire

6 P´enalit´es par r´e´echantillonnage

7 Simulations

Validation-crois´ee V-fold P´enalisation V-fold

P´enalisation par r´e´echantillonnage ´echangeable

8 R´egions de confiance et tests multiples Th´eorie

R´egions de confiance Simulations

(81)

42/39

Surp´ enalisation (s = sin, σ ≡ 1, n = 200, Mallows)

(82)

43/39

Surp´ enalisation (s = sin, σ(x ) = x, n = 200, pen

Rademacher)

(83)

44/39

Surp´ enalisation (HeaviSine, n = 2048, σ(x) = x , pen 10-f)

(84)

45/39

Premier pas vers l’oracle

P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

Pour toutm∈ M,

Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)

l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]

⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M

(85)

45/39

Premier pas vers l’oracle

P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

Pour toutm∈ M,

Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)

l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]

⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M

(86)

45/39

Premier pas vers l’oracle

P´enalit´e id´eale : penid(m) = (P −Pn)(γ(bsm,·))

Pour toutm∈ M,

Pnγ(bsmb,·) + pen(m)b ≤Pnγ(bsm,·) + pen(m)

l(s,bsmb) + [pen(m)b −penid(m)]b ≤l(s,bsm) + [pen(m)−penid(m)]

⇒il suffit d’avoir pen(m0)≥penid(m0) = (P−Pn)γ(bsm0,·) pour toutm0∈ M

(87)

46/39

Bienfaits de la surp´ enalisation

n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)

Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles

(plus important que pen(m)≤(1 +) penid(m))

⇒Explique pourquoi V = 2 peut ˆetre “optimal”

⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1

(88)

46/39

Bienfaits de la surp´ enalisation

n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)

Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles

(plus important que pen(m)≤(1 +) penid(m))

⇒Explique pourquoi V = 2 peut ˆetre “optimal”

⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1

(89)

46/39

Bienfaits de la surp´ enalisation

n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)

Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles

(plus important que pen(m)≤(1 +) penid(m))

⇒Explique pourquoi V = 2 peut ˆetre “optimal”

⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1

(90)

46/39

Bienfaits de la surp´ enalisation

n petit, σ grand⇒ surp´enaliser peut ˆetre b´en´efique (simulations)

Optimalit´e asymptotique 6= Optimalit´e non-asymptotique pen(m)≥penid(m) doit ˆetre assur´e avec grande probabilit´e pour tous les mod`eles

(plus important que pen(m)≤(1 +) penid(m))

⇒Explique pourquoi V = 2 peut ˆetre “optimal”

⇒Facile de surp´enaliser : pen(m) estime Cpenid(m) avecC >1

(91)

47/39

Calibration asymptotique : heuristique de pente

(92)

48/39

Calibration asymptotique : heuristique de pente

(93)

49/39

Limites d’une p´ enalit´ e lin´ eaire

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2

−1 0 1 2 3 4

Y =X +σ(X) σ(X) =1X1

2 ∼ N(0,1)

Histogrammes r´eguliers sur 0;12

(Dm,1 morceaux) puis sur 1

2; 1

(Dm,2 morceaux).

⇒ penid(m) n’est pas lin´eaire enDm.

(94)

49/39

Limites d’une p´ enalit´ e lin´ eaire

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−2

−1 0 1 2 3 4

0 5 10 15 20 25 30 35 40

0 0.05 0.1 0.15 0.2 0.25

Model dimension

Ideal penalty

Y =X +σ(X) σ(X) =1X1

2 ∼ N(0,1)

Histogrammes r´eguliers sur 0;12

(Dm,1 morceaux) puis sur 1

2; 1

(Dm,2 morceaux).

⇒ penid(m) n’est pas lin´eaire enDm.

(95)

50/39

Limites d’une p´ enalit´ e lin´ eaire : m(K b ) 6= m

?

0 5 10 15 20

0 2 4 6 8 10 12 14 16 18

Dm 1 Dm2

(96)

51/39

In´ egalit´ e-oracle “trajectorielle” non-asymptotique

R´egression sur des histogrammes, plan d’exp´erience al´eatoire Petit nombre de mod`eles (au plus ♦nα)

Pr´es´election de mod`eles :

∀m∈ M, min

λ∈Λm

{Card{Xi ∈Iλ}} ≥2 V fixe ouV =n (et plusieurs r´e´echantillonnages

´

echangeables, dont le bootstrap) C ≈V −1 (ouC ≈CW,∞) Th´eor`eme

Sous des hypoth`eses “raisonnables” sur P, avec probabilit´e au moins1−♦n−2,

l(s,bsmb)≤

1 + ln(n)−1/5

m∈Minf {l(s,bsm)}

(97)

52/39

Hypoth` eses “raisonnables” sur P

Donn´ees born´ees :kYk≤A<∞ Niveau de bruit minor´e :

0< σmin≤σ(X)

Cible s r´eguli`ere (α-h¨olderienne) non-constante R´egularit´e de la partition : minλP(X ∈Iλ)≥♦Dm−1

et ce n’est qu’un exemple de jeu d’hypoth`eses valide...

(98)

52/39

Hypoth` eses “raisonnables” sur P

Donn´ees born´ees :kYk≤A<∞ Niveau de bruit minor´e :

0< σmin≤σ(X)

Cible s r´eguli`ere (α-h¨olderienne) non-constante R´egularit´e de la partition : minλP(X ∈Iλ)≥♦Dm−1

et ce n’est qu’un exemple de jeu d’hypoth`eses valide...

(99)

53/39

Simulations : cadre

Yi =s(Xi) +σ(Xi)i

(Xi)1≤i≤ni.i.d.U([0; 1]) (i)1≤i≤ni.i.d.N(0,1) Mn=

n

Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

Card{Xi ∈Iλ} ≥2 o

⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]

E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons

(100)

53/39

Simulations : cadre

Yi =s(Xi) +σ(Xi)i

(Xi)1≤i≤ni.i.d.U([0; 1]) (i)1≤i≤ni.i.d.N(0,1) Mn=

n

Histogrammes r´eguliers`aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

Card{Xi ∈Iλ} ≥2 o

⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]

E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons

(101)

53/39

Simulations : cadre

Yi =s(Xi) +σ(Xi)i

(Xi)1≤i≤ni.i.d.U([0; 1]) (i)1≤i≤ni.i.d.N(0,1) Mn=

n

Histogrammes r´eguliers `aD morceaux, 1≤D≤ n log(n) et tels que min

λ∈Λm

Card{Xi ∈Iλ} ≥2 o

⇒Qualit´e des proc´edures : Cclassique = E[l(s,bsmb)]

E[infm∈Ml(s,bsm)] calcul´e avecN = 1000 ´echantillons

(102)

54/39

Simulations : proc´ edures consid´ er´ ees

V-fold “classique” (V ∈ {2,5,10,20}) :

mb ∈arg min

m∈M

 1 V

V

X

j=1

Pnjγ

bsm(−j)

es =bsmb

Leave-one-out = n-fold “classique”

(103)

54/39

Simulations : proc´ edures consid´ er´ ees

V-fold “classique” (V ∈ {2,5,10,20}) :

mb ∈arg min

m∈M

 1 V

V

X

j=1

Pnjγ

bsm(−j)

es =bsmb

Leave-one-out = n-fold “classique”

(104)

55/39

Choix de V pour VFCV : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

2-fold 2.08±0.04 5-fold 2.14±0.04 10-fold 2.10±0.05 20-fold 2.09±0.04 leave-one-out 2.08±0.04

(105)

56/39

Simulations : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 1.93±0.04

2-fold 2.08±0.04

5-fold 2.14±0.04

10-fold 2.10±0.05 leave-one-out 2.08±0.04 pen 2-f 2.58±0.06 pen 5-f 2.22±0.05 pen 10-f 2.12±0.05 pen 20-f 2.09±0.04 pen Loo 2.08±0.05 Mallows×1.25 1.80±0.03 pen 2-f×1.25 2.17±0.05 pen 5-f×1.25 1.91±0.05 pen 10-f×1.25 1.87±0.03 pen 20-f×1.25 1.90±0.05 pen Loo×1.25 1.84±0.03

(106)

56/39

Simulations : sin, n = 200, σ ≡ 1

0 0.5 1

−4 0 4

0 0.5 1

−4 0 4

Mallows 1.93±0.04

2-fold 2.08±0.04

5-fold 2.14±0.04

10-fold 2.10±0.05 leave-one-out 2.08±0.04 pen 2-f 2.58±0.06 pen 5-f 2.22±0.05 pen 10-f 2.12±0.05 pen 20-f 2.09±0.04 pen Loo 2.08±0.05 Mallows×1.25 1.80±0.03 pen 2-f×1.25 2.17±0.05 pen 5-f×1.25 1.91±0.05 pen 10-f×1.25 1.87±0.03 pen 20-f×1.25 1.90±0.05 pen Loo×1.25 1.84±0.03

Références

Documents relatifs

´ecossais sur le lien entre consommation de panse de brebis farcie aux anchois (PBFA) et intelligence, on a r´ecolt´e les donn´ees suivantes sur 10 individus s´electionn´es au

La deuxi` eme partie qui d´ emontre le th´ eor` eme de Cantor-Bernstein est facultative, moins dans l’esprit du programme ECS (mais bien dans l’esprit d’une ´ epreuve maths 2

Autrement dit, on consid` ere des tirages de p ´ el´ ements de E avec remise, mais sans tenir compte de l’ordre.. Le nombre de r´ esultats possible est

Dans le cas pr´ esent, la part du cuisinier serait de trois pi` eces, mais les pirates se querellent et six d’entre eux sont tu´ es, ce qui porte la part du cuisinier ` a quatre

Th`emes d’analyse pour l’agr´egation, St´ephane GONNORD &amp; Nicolas TOSEL, page

Une m´ ethode classique pour obtenir des r´ esultats sur une int´ egrale d´ ependant d’un param` etre est de sortir, par tous les moyens possibles, le param` etre de

Comme f est continue sur [0, 1] (compact) elle est born´ee et atteint

[r]