Estimation adaptative par sélection de partitions en rectangles dyadiques

(1)

HAL Id: tel-00448753

https://tel.archives-ouvertes.fr/tel-00448753

Submitted on 20 Jan 2010

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

rectangles dyadiques

Nathalie Akakpo

To cite this version:

Nathalie Akakpo. Estimation adaptative par sélection de partitions en rectangles dyadiques.

Mathé-matiques [math]. Université Paris Sud - Paris XI, 2009. Français. �tel-00448753�

(2)

N d'ordre:9674

THÈSE

Présentée pour obtenir

LEGRADE DE DOCTEUR EN SCIENCES DE

L'UNIVERSITÉ PARIS-SUD XI

Spé ialité :Mathématiques

par

Nathalie Akakpo

Estimation adaptative par séle tion de partitions

en re tangles dyadiques

Soutenue le Lundi 7dé embre 2009 devant la Commission d'examen:

Mme FabienneComte

Mme Cé ileDurot (Dire tri e de thèse)

Mme Béatri eLaurent-Bonneau (Présidentedu jury)

M. Oleg Lepski

M. Pas alMassart

Rapporteurs:

Mme FabienneComte

(3)

LaboratoiredeMathématiques(UMR8628),Bât.425

(4)

(5)

(6)

Mespremiersremer iementss'adressentàCé ileDurot,toutd'abord pouravoirbienvoulu

se lan er il y a un peu plus de trois ans dans l'aventure de la dire tion de thèse. Ce travail

n'aurait pu ainsi aboutir sans sa patien e, sa sérénité, son exigen e de rigueur et de larté.

Pour m'avoir onvertie auxstatistiques, je remer ie etféli ite non seulement Cé ile,mais

aussiPas al Massart, pour son ours deM2 enthousiasmant surlaséle tion de modèles.

Je suis très re onnaissante envers mes rapporteurs Fabienne Comte et Enno Mammen

d'avoir onsa ré de leur temps à la le ture de e manus rit. Je remer ie également Fabienne

Comte, Béatri e Laurent etOleg Lepski d'avoir a ompli e petit périple jusqu'à Orsaypour

fairepartie de monjury.

Cette dernière année de thèse a été é lairée par la ollaboration ave Claire La our, que

je remer ie aussi pour ses onseils de jeune ex-do torante. Mer i également à Anne-Sophie

To quet pour son aide dans la réalisation de la monstrueuse gure 5.6 du Chapitre II et à

Vin ent Rivoirard pour sarele ture à lafoisrapide eta tive demon introdu tion.

De es dernières années à Orsay, je garderai un heureux souvenir grâ e aux do torants

traversant ette périodededur labeurave humour ethumilité,ave une pensée enparti ulier

pourmes ompagnonsdeM2,debureau,deCESFOoudepause-thé:Merlin,Mahendra,Pierre,

Ni olas,Wilson,Dominique, Benoît,Robin,Pierre,Camille,Sébastien,CathyetJean-Patri k,

pour ne iterqu'eux.

(7)

(8)

I Introdu tion 11

I.1 Cadre général etexemples deréféren e . . . 11

I.2 Adaptation au sensminimax, adaptation spatiale . . . 13

I.2.1 Estimation baséesur unmodèle et ompromisbiais-varian e . . . 13

I.2.2 Estimation minimax . . . 14

I.2.3 Adaptation au sensminimax etinégalité d'ora le . . . 15

I.2.4 Adaptation spatiale etnon-linéarité. . . 16

I.3 Quelques lassesde régularitéusuelles . . . 17

I.4 Séle tion de modèle. . . 19

I.4.1 Prin ipe etobje tif . . . 19

I.4.2 Choix de lafamille demodèles . . . 21

I.4.3 Colle tions demodèlesusuelles . . . 21

I.5 Colle tions de modèles basés surdes partitionsen intervalles, ubes, re tangles dyadiques . . . 24

I.5.1 Des ription des olle tions . . . 24

I.5.2 Résultats existants . . . 25

I.6 Autrespro édures spatialement adaptatives ausens minimax . . . 29

I.7 Présentation desrésultats delathèse . . . 31

II Estimating a dis rete distribution via dyadi histogram sele tion 37 II.1 Introdu tion . . . 39

II.2 Framework andnotation . . . 40

II.2.1 Framework . . . 40

II.2.2 Notation. . . 40

II.3 The

d

-estimator . . . 41

II.3.1 Denition of the

d

-estimator. . . 41

(9)

II.4 Hybridpro edure . . . 47

II.5 Simulationstudy . . . 50

II.5.1 Choosing the penalty onstant for the

d

-estimator . . . 50

II.5.2 Comparing the

d

-estimator withthe

neH

-estimator . . . 53

II.5.3 Choosing thepenaltyfor thehybrid pro edure . . . 54

II.5.4 Appli ation to the segmentation ofa DNAsequen e . . . 55

II.6 Proofof the approximationresultoverBesovbodies . . . 58

II.6.1 Approximationalgorithm . . . 58

II.6.2 Proofof Theorem5: themain lines . . . 59

II.6.3 Proofof Proposition5 . . . 61

II.7 Lower bound for theminimaxriskover

V P

(α, R)

. . . 66

Appendix : Some useful inequalities . . . 69

IIIHistogram sele tion based on possibly ensored data 71 III.1 Introdu tion . . . 73

III.2 Estimationpro edure. . . 74

III.2.1 Generalframeworkand notation . . . 75

III.2.2 Examples . . . 76

III.3 Ageneral histogram sele tion theorem . . . 79

III.3.1 Theora le-type inequality . . . 79

III.3.2 Examples ( ontinued) . . . 81

III.4 Dyadi histogram sele tion. . . 84

III.4.1 Presentation. . . 84

III.4.2 Performan e. . . 85

III.4.3 Examples (end) . . . 87

III.5 Proofs . . . 88

III.5.1 Auseful lemma . . . 88

III.5.2 Proofof Proposition12 . . . 89

III.5.5 Proofof Theorem6. . . 93

(10)

IVConditional density estimation based on dependent data 103

IV.1 Introdu tion . . . 105

IV.2 General framework and estimationpro edure . . . 106

IV.3 Measuresof dependen e . . . 109

IV.4 Upper-boundsfor the riskonone model . . . 110

IV.5 Choi e ofthe penalty . . . 115

IV.6 Sele tion among partitionsinto dyadi ubes . . . 117

IV.7 Sele tion amongpartitions into dyadi re tangles . . . 119

IV.7.1 Theoreti al properties ofthepenalizedestimator basedon

M

rect

. . . . 119

IV.7.2 Computing the penalizedestimator basedon

M

rect

. . . 122

IV.8 Proofs . . . 122

IV.8.1 Notation andpreliminary lemma . . . 122

IV.8.2 Proof of Proposition 18 . . . 124

IV.8.3 Proof of Theorem10 . . . 128

IV.8.4 Proof of Proposition 19 . . . 131

Appendix : Tools for stationary

α

-mixing pro esses . . . 143

Perspe tives 147

(11)

(12)

Introdu tion

Dans ette thèse, nous nous intéressonsà divers problèmes d'estimation fon tionnelle par

séle tion de modèles onstruits sur des partitions en intervalles ou re tangles dyadiques. La

pro édurestatistiqueque nousétudionss'ins rit plus généralement parmi lespro édures

non-paramétriques possédant des propriétés d'adaptation spatiale au sens minimax, notions que

nousrappelonsen débutd'introdu tion.Puisnousexposonsleprin ipedeséle tion demodèle

sous-ja ent à notre pro édure etrappelons les prin ipales olle tions de modèles utilisées

jus-qu'i i.Nousdé rivons alors les olle tions de modèles surlesquellessont basés lestravauxdes

hapitressuivants,enindiquantlesquelquesrésultatsdéjàétablisàleursujet.Nouspoursuivons

par un état de l'art des diverses pro édures spatialement adaptatives. Enn, nousprésentons

notre ontribution, au regarddes diérentespro édures existantes.

I.1 Cadre général et exemples de référen e

Dans ette introdu tion, nous nous pla erons dans le adre général suivant. Etant donné

unentier

n

≥ 1

xé, on observe

n

variables aléatoires

Y

1 , . . . , Y

n

dénies sur un même espa e

de probabilité

(Ω,

A, P)

, àvaleurs dansun borélien

Y

de

R

d

, où

d

∈ N

⋆

.La loi de probabilité

duve teur

Y

= (Y

1 , . . . , Y

n

)

estin onnue, maisappartient à unefamillede lois

{P

s

}

s∈S

qu'on

appelle modèle.Onsupposedeplusquepour

(s, t)

∈ S

2

,

P

s

= P

t

sietseulement si

s = t

.Sous

ette hypothèse d'identiabilité, il existe un unique élément

s

dans

S

tel que

P

s

soit la loi de

Y

,etonutiliseraindiéremmentletermedemodèlepour désigner

{P

s

}

s∈S

ou

S

.Par ailleurs,

le modèle est supposé non-paramétrique, au sens où

S

n'est pas une partie d'un sous-espa e

ve toriel de dimension nie etindépendante de

n

.Notre obje tif est alors d'estimer l'élément

s

de

S

tel que

P

s

soit laloide

Y

, 'est-à-direde onstruire àpartir de l'observation de

Y

une

bonne approximation de

s

.Pluspré isément, ils'agitde déterminer

ˆ

s

,fon tion mesurable

de

Y

dénie sur

(Ω,

A, P)

et à valeurs dans

S

. Une telle fon tion est appelée estimateur de

s

. Nous onsidèrerons en fait des estimateurs de

s

à valeurs dansun sous-ensemble

M

de

S

,

sans pour autant supposer a priori que

s

appartienne à

M

: e sous-ensemble est un modèle

appro hé pour

s

,quenousappellerons en ore,pour simplier, modèle, etqui lui aussipourra

êtrenon-paramétrique.

Dé rivons deux problèmes fréquemment étudiés en estimation non-paramétrique, et

per-mettant de e fait de omparer les performan es de diérentes pro édures statistiques. Dans

ha un de es deux problèmes, il s'agit d'estimer une fon tion

s

à valeurs réelles dénie sur

[0, 1]

.Etantdonnéeunepartition

m

de

[0, 1]

enunnombrenid'intervalles,onpeut onsidérer

ommemodèleappro hépour

s

l'espa e

S

m

desfon tionsà valeursréelles,déniessur

[0, 1]

et

(13)

nide paramètres.Bienque

S

m

soitdedimensionnie, emodèlepeutêtrenon-paramétrique

danslamesure où

m

peutdépendrede

n

,notamment via lenombre oula longueur des

inter-valles qui la omposent. Un estimateur usuel à valeurs dans le modèle appro hé

S

m

, auquel

nousferons régulièrement référen e dansla suite, est l'histogramme onstruit sur lapartition

m

.Nousen rappelons ladénitionpour ha un desproblèmes suivants.

Problème

1

: Estimation de densité.

Soit

S

l'ensemble des densités de probabilité par rapport à la mesure de Lebesgue

µ

sur

[0, 1]

.

Onobserve

Y

1 , . . . , Y

n

variablesaléatoiresindépendantesetdemême loi,admettantunedensité

s

∈ S

in onnue,que l'onsouhaiteestimer.L'histogramme onstruit surla partition

m

estdéni

par

ˆ

s

m

=

X

I∈m

1 nµ(I)

n

X

i=1

1I

I

(Y

i

)

!

1I

I

,

età valeurs dans le modèle appro hé

S ∩ S

m

.

L'histogramme

ˆ

s

m

esten fait une versionempirique de laproje tion orthogonale de

s

sur

S

m

pour lanorme

L

2

.

Problème

2

: Estimation de la fon tion de régression.

Soient

S

l'ensemble des fon tions dénies sur

[0, 1]

à valeurs réelles et

(x

1 , . . . , x

n

)

un

ve -teur déterministe de

[0, 1]

n

donné. On observe un ve teur aléatoire

Y

= (Y

1 , . . . , Y

n

)

de

R

n

à

oordonnées indépendantes telque, pour une ertainefon tion

s

∈ S

,

Y

i

= s(x

i

) + σε

i

, i = 1, . . . , n,

(I.1.1)

ave

σ

≥ 0

supposé onnu et

(ε

i

)

1≤i≤n

variables aléatoires non observables,supposées

indépen-dantes et de loi normale entrée réduite. Il s'agit alors d'estimer la fon tion de régression

s

.

L'analogue dans e adre de l'histogramme est le régressogramme onstruit sur la partition

m

déni par

ˆ

s

m

=

X

I∈m

1 P

n

i=1

1I

I

(x

i

)

n

X

i=1

Y

i

1I

I

(x

i

)

!

1I

I

.

An de pouvoir juger de la qualité d'un estimateur de

s

, il est d'usage de se donner une

fon tiondeperte

ℓ

, 'est-à-direunefon tiondéniesur

S ×S

àvaleursdans

R

+

.Généralement,

S

estmunid'unesemi-distan e

d

eton onsidèreunefon tiondepertedelaforme

d

p

,où

p

est

unentier naturel non nul. Lorsque

Y

suitlaloi

P

s

,on note

P

s

laloide probabilité sur

(Ω,

A)

telleque, pour tout borélien

B

de

Y

,

P

s

(B) = P

s

{ω ∈ Ω

t.q.

Y

(ω)

∈ B}

.

Onutilisealors omme ritèrede qualitéd'unestimateur

s

ˆ

de

s

sonrisquepour lafon tionde

perte

ℓ

,déni omme

s

∈ S 7→ E

s

[ℓ(s, ˆ

s)] ,

où

E

s

désigne l'espéran e sous la loi

P

s

.Par ommodité, sous l'hypothèse que

S ⊂ L

2 ([0, 1])

,

on onsidère souvent lerisque quadratiqueintégré

s

_{∈ S 7→ E}

s

ks − ˆsk

2 ,

où

k.k

désigne la norme usuelle sur

L

2 ([0, 1]).

De manière générale, pour

q

≥ 1

, on dénit le

risque

L

q

intégré par

s

_{∈ S 7→ E}

s

ks − ˆsk

q

,

(14)

où

k.k

q

désigne lanorme usuelle sur

L

q

([0, 1]).

Dans l'ensemble de ette thèse, la lettre

C

désigne un réel positif non nul, dont la valeur

peut hangerd'uneligneàl'autre.Lanotation

C(θ)

indiqueque eréeldépendéventuellement

d'unparamètre

θ

.

I.2 Adaptation au sens minimax, adaptation spatiale

Cettepartie est onsa réeaupoint devueminimaxenestimation non-paramétrique.Nous

évoquonsen parti ulierquelquespointsfondamentauxtelsqueladé ompositionbiais-varian e

du risque d'un estimateur basé sur un modèle, les limites de l'estimation basée sur un seul

modèle, la notion d'ora le, et soulignons les liens étroits entre estimation minimax etthéorie

del'approximation.

I.2.1 Estimation basée sur un modèle et ompromis biais-varian e

Plaçons-noustoutd'aborddansle adred'estimationdedensitéintroduitauparagrapheI.1,

en supposant de plus les éléments de

S

de arré intégrable. Fixons une partition

m

de

[0, 1]

,

notons

D

m

la dimension de l'espa e ve toriel

S

m

déni au paragraphe pré édent (qui n'est

autreque lenombre d'intervalles de

m

) et

s

m

laproje tion orthogonale de

s

sur

S

m

.D'après

le théorème de Pythagore, le arré de la distan e entre

s

et l'histogramme

s

ˆ

m

est la somme

d'uneerreur déterministe etd'uneerreur sto hastique :

ks − ˆs

m

k

2 =

ks − s

m

k

2 +

kˆs

m

− s

m

k

2 .

Etant donnéel'expression de

s

ˆ

m

etpuisque les

(Y

i

)

1≤i≤n

sont indépendantes, onen déduitla

dé omposition durisque

E

_s

_{ks − ˆs}

_m

_k

2 ₌

_{ks − s}

_m

_k

2 ₊

1 n

X

I∈m

Var

s

(1I

I

(Y

1 ))

µ(I)

=

_{ks − s}

m

k

2 +

1 n

X

I∈m

R

I

s 1

−

R

I

s

µ(I)

.

Lepremierterme,appelétermedebiais, orrespondàuneerreurd'approximationparlemodèle

S

m

,et lese ond, appelé termede varian e, à une erreur d'estimation au sein du modèle

S

m

.

Sous ertaines hypothèsessur

s

,letermedevarian e estexa tementdel'ordre de

D

m

/n

.Plus

pré isément,on peutmontrer que

ks − s

m

k

2 +

inf

[0,1]

s

D

m

− 1

n

≤ E

s

ks − ˆs

m

k

2 ≤ ks − s

m

k

2 +

N (s)

D

m

− 1

n

,

(I.2.2)

où

N (s) = 1

si la partition est régulière (par un argument de onvexité) et

N (s) = ksk

∞

sinon.L'en adrement i-dessusdonnelieu àplusieurs ommentaires. Anqueletermedebiais

soit faible, il est tentant de onsidérer

S

m

de grande dimension, d'où un terme de varian e

élevé. En revan he, si

S

m

est de petite dimension, 'est le terme de biais qui est sus eptible

d'êtregrand. Aussi, hoisir un modèle

S

m

pour lequel le risque est faible né essitede réaliser

unbon ompromis entre es deuxerreurs, qui, typiquement, varient en sens ontraire lorsque

ladimension de

S

m

roît.Soulignonsquelanaturedumodèle

S

m

a également sonimportan e

pour ontrler letermede biais.Eneet,àdimension xée,unmodèleasso iéàune partition

irrégulière, 'est-à-dire en intervalles de longueurs diérentes, peut présenter une meilleure

(15)

mêmesi

s

appartient àunmodèle

S

m

′

,auquel aslerisque

E

s

ks − ˆs

m

′

k

2

seréduit àl'erreur

d'estimationdel'ordrede

D

m

′

/n

,ilestparfoispréférablede onsidérerunmodèleappro hé

S

m

ne ontenant pas

s

.En eet,quitte à introduire une erreur d'approximation, on peut espérer

gagner en terme de risque en onsidérant un modèle

S

m

pour lequel l'erreur d'estimation est

signi ativement plus faibleque danslevraimodèle

S

m

′

.

L'exemple pré édent est en fait tout à fait représentatif d'une situation ourante. Etant

donné un modèle

M

in lus dans

S

, un estimateur

s

ˆ

M

à valeurs dans

M

, et une fon tion de

perte

ℓ

, il est fréquent d'obtenir, sinon une dé omposition exa te du risque en une erreur

d'approximationetuneerreur d'estimation proportionnelleàladimension de

M

,dumoinsun

en adrement du type

C

1 inf

t∈M

ℓ(s, t) +

dim(M )

n

≤ E

s

[ℓ(s, ˆ

s

M

)]

≤ C

2 inf

t∈M

ℓ(s, t) +

dim(M )

n

.

(I.2.3)

Diérentes notions de dimension sont envisageables selon la nature de

M

, qui, toutes,

per-mettent de mesurer la di ulté à estimer au sein de e modèle. Des majorations du risque

omme dans l'inégalité de droite sont démontrées par exemple pour les estimateurs linéaires

par ondelettes [HKPT98 ℄, les estimateurs par minimum de ontraste [BM93 ; BM98a℄, les

T-estimateurs introduits par Birgé [Bir06a ℄. De même que (I.2.2) , les bornes de risque (I.2.3)

onduisent à her herun modèle

M

réalisant un bon ompromisentreladélitéau vrai

para-mètre

s

etladi ulté àestimer ausein de e modèle.

I.2.2 Estimation minimax

Pour juger de la performan e d'un estimateur

˜

s

de

s

, nous adopterons le point de vue

minimax, qui onsiste à pro éder de la manière suivante. On hoisit tout d'abord un

sous-ensemble

F

de

S

. Typiquement, si

S

est un espa e fon tionnel,

F

est un sous-ensemble de

fon tions de

S

présentant la même régularité. Ondénit alors le risque maximal de

s

˜

pour

s

appartenant à

F

, i.e.

sup

s∈F

E

s

[ℓ(s, ˜

s)]

,quel'on ompare aurisque minimaxsur

F

inf

ˆ

s

sup

_s∈F

E

_s

_{[ℓ(s, ˆ}

_s)]

où l'inmum est pris sur l'ensemble des estimateurs

s

ˆ

de

s

. Comme et inmum n'est pas

né essairementatteint etqu'onnediposegénéralement quedebornespour lerisqueminimax,

nous nousxerons pour obje tif de trouver un estimateur

s

˜

approximativement minimax sur

F

, 'est-à-diretel que

sup

s∈F

E

_s

[ℓ(s, ˜

s)]

_{≤ C(F) inf}

ˆ

s

sup

_s∈F

E

_s

[ℓ(s, ˆ

s)] ,

où

C(

F)

estunréelpositifquipeutdépendrede

F

maispasde

n

.Nousren ontreronségalement

desestimateurs minimaxsur

F

à unfa teur logarithmiqueprès, 'est-à-diretels que

sup

s∈F

E

_s

_{[ℓ(s, ˜}

_s)]

_{≤ C(F) ln}

δ

_{(n) inf}

ˆ

s

sup

_s∈F

E

_s

_{[ℓ(s, ˆ}

_{s)] ,}

pour un ertain

δ > 0

.

Pourvuquelarégularité deséléments de

F

soit susante,la onstru tion d'unestimateur

˜

s

approximativement minimax sur

F

repose essentiellement surle hoix d'un modèle linéaire

adaptéà

F

.Donnons-enunexemple enrevenant auproblème d'estimation dedensité. Fixons

0 < α

≤ 1, p ≥ 2, R ≥ 0

et

ρ > 0

,et notons

L(α, p, R, ρ)

le sous-ensemble de

S

omposé des

densités

t

tellesque

t

≥ ρ,

t

_{∈ L}

p

([0, 1])

et,pour tout

0 < h < 1,

Z

1−h

0 |t(x + h) − t(x)|

p

_µ(dx)

1/p

(16)

Ainsi,lesélémentsde

L(α, p, R, ρ)

présentent unerégularitélips hitzienne, d'ordre

α

,mesurée

dans la norme

L

p

.Pour

D

∈ N

⋆

, notons

m

D

la partition régulière de

[0, 1]

en

D

intervalles,

'est-à-direlapartitionde

[0, 1]

en

D

intervallesdemêmelongueur.D'après[DeV98 ℄(inégalité

(3.12)),on disposesur

L(α, p, R, ρ)

d'unemajoration uniformedu termedebiais:

sup

s∈L(α,p,R,ρ)

ks − s

m

D

k

2 _{≤ CR}

2 _D

−2α

_.

(I.2.5)

Ildé oule alors de lamajoration donnéeen(I.2.2) que

sup

s∈L(α,p,R,ρ)

E

_s

_{ks − ˆs}

_m

_k

2 _{≤ C}

R

2 D

−2α

+

D

n

.

Pour réaliser approximativement lemeilleur ompromis entre le terme de biais

R

2 _D

−2α

etle

terme de varian e, il sut de hoisir

D

le plus grand possible tel que

D/n

≤ R

2 _D

−2α

. Si

nR

2 _{≥ 1}

, on peut dénir

D

♦

plus grand entier non nul inférieur ou égal à

(nR

2 ₎

1/(1+2α)

et

hoisir lapartition régulière

m

♦

en

D

♦

intervalles. Onobtient alors

sup

s∈L(α,p,R,ρ)

E

_s

_{ks − ˆs}

_m

♦

k

2 ≤ C(α)(Rn

−α

)

2/(1+2α)

.

Or on dispose de la minoration suivante du risque minimax sur

L(α, p, R, ρ)

, déduite par

exemplede [Mas07℄(Proposition7.16),

inf

ˆ

s

_{s∈L(α,p,R,ρ)}

sup

E

_s

_{ks − ˆsk}

2 _{≥ C(α, p, ρ)(Rn}

−α

₎

2/(1+2α)

_,

(I.2.6) pourvu que

n

−1/2

_{≤ R ≤ n}

α

.Aussi, pour

n

−1/2

_{≤ R ≤ n}

α

,l'histogramme

ˆ

s

m

♦

estun exemple

d'estimateur approximativement minimaxsur

L(α, p, R, ρ)

.

I.2.3 Adaptation au sens minimax et inégalité d'ora le

Unin onvénient de l'estimateur

s

ˆ

m

♦

pré édemment déniestquele hoixde

m

♦

né essite

la onnaissan e d'un paramètre

(α, R)

tel que pour un ertain

p

≥ 2

et un ertain

ρ > 0

,

s

_{∈ L(α, p, R, ρ)}

.Ils'agitlàd'une onditionassezrestri tiveetpeuréaliste.Deplus,quandbien

même untel paramètre serait onnu, ilest possibleque

s

appartienne également à l'ensemble

L(α

′

_{, p}

′

_{, R, ρ)}

ave

α

′

_{> α}

,

p

′

_{≥ 2}

.Autrement dit,

s

peut présenterune régularitéplus grande,

éventuellement mesurée dans une norme

L

p

′

plus faible que la norme

L

p

au sens où

p

′

_{≤ p}

( f. paragraphe I.3 i-dessous). Si l'histogramme onstruit sur la partition

m

♦

(α

′

_{, R)}

atteint

bienapproximativement lerisqueminimaxsur

L(α

′

_{, p}

′

_{, R, ρ)}

,del'ordrede

(Rn

−α

′

)

2/(1+2α

′

)

,la

partition

m

♦

(α, R)

n'estquantàelleplusadaptéed'unpointdevueminimax.Eneet,pourvu

que

R

≥ 2

(α+1/2)

_n

−1/2

,ilrésultede laminoration donnée en(I.2.2) que

sup

s∈L(α

′

_,p

′

_,R,ρ)

E

_s

_{ks − ˆs}

_m

♦

(α,R)

k

2 _{≥ ρ}

D

♦

− 1

n

≥ C(α, ρ)(Rn

−α

₎

2/(1+2α)

_,

desorteque

sup

s∈L(α

′

_,p

′

_,R,ρ)

E

_s

ks − ˆs

m

♦

(α,R)

k

2 _{/ inf}

ˆ

s

sup

s∈L(α

′

_,p

′

_,R,ρ)

E

_s

ks − ˆsk

2

estminoré

parunefon tionnonbornéede

n

.Ilseraitdon souhaitablede onstruireunestimateurde

s

qui

soit approximativement minimax sur ha un des ensembles

L(α, p, R, ρ)

pour un large hoix

de valeurs de

(α, p, R, ρ)

. Aussi, nous nous intéresserons essentiellement dans la suite à des

estimateurs dits adaptatifs au sens minimax, 'est-à-dire simultanément approximativement

minimax sur ha un des éléments d'une famille

{F

θ

, θ

∈ Θ}

de sous-ensembles de

S

hoisie

a priori. De tels estimateurs ont l'avantage d'être presque aussi performants que si tous les

(17)

estimateuradaptatif ausensminimaxreposesurunepro édure deséle tion parmiune famille

d'estimateurs approximativement minimax sur diérentes lasses de fon tions. Etant donnée

une telle famille d'estimateurs

{ˆs

m

}

m∈M

, il sut de onstruire un estimateur

s

˜

vériant une

inégalité dela forme

E

_s

_{[ℓ(s, ˜}

_s)]

_{≤ C inf}

m∈M

E

_s

_{[ℓ(s, ˆ}

_s

_m

_{)] .}

(I.2.7)

Cetype d'inégalitéestappelé inégalité d'ora le, pour reprendrelaterminologie introduite par

DonohoetJohnstone[DJ94b ℄.Pourvuqu'ondisposedemajorationsdutype(I.2.3)pour haque

estimateurde la olle tion, unetelle inégalité sut àassurerque

˜

s

réaliseapproximativement

lemeilleur ompromisbiais-varian e parmiles estimateurs dela olle tion, d'oùses propriétés

d'adaptation ausens minimax.

I.2.4 Adaptation spatiale et non-linéarité

Le le teur attentif auranoté que, dansl'exemple desparagraphes I.2.2 etI.2.3,nous nous

sommes limités à

p

≥ 2

. Supposons maintenant

1 ≤ p < 2

, et

α > 1/p

− 1/2

de telle sorte

que l'ensemble

L(α, p, R)

des fon tions vériant la ondition (I.2.4) est un sous-ensemble de

L

₂

_{([0, 1])}

.Pour

s

∈ L

2 ([0, 1])

et

M

sous-espa eve toriel de

L

2 ([0, 1])

, notons

s

M

la proje tion

orthogonalede

s

sur

M

.D'après[LGM96 ℄ (Chapitre 14, Théorème 1.1),pour tout

D

∈ N

⋆

et

toutsous-espa eve toriel

M

de

L

2 ([0, 1])

de dimension

D

,

sup

s∈L(α,p,R)

ks − s

M

k

2 _{≥ C(α, p)R}

2 _D

−2(α+1/2−1/p)

_,

(I.2.8) de sorteque

sup

s∈L(α,p,R)

ks − s

M

k

2 ₊

D

n

≥ C(α, p)

Rn

−(α+1/2−1/p)

1/(α+1−1/p)

,

(I.2.9)

où la se onde inégalité est obtenue par minimisation sur

D

. Compte tenu de la

minora-tion(I.2.2), on ne peutguère espérer onstruire unseul histogramme,ni même unestimateur

basésurunseul modèlelinéairededimension nie,dontlerisquequadratiqueintégréatteigne

approximativement sur

L(α, p, R, ρ)

lavitesse

(Rn

−α

₎

1/(1+2α)

.Comme suggérépar la

minora-tion (I.2.8) i-dessus, ela tient essentiellement aux limites de l'approximation par un modèle

linéaire.Lafon tiondeperte onsidéréeétantlaperte

L

2

,onditdesfon tionsdontlarégularité

est mesurée dans une norme

L

p

ave

p < 2

qu'elles présentent une régularité non homogène.

Cette dénition vaut également pour un risque mesuré dans une norme

L

q

et une régularité

mesurée dansune norme

L

p

ave

p < q

.Nous donnerons dansle paragraphe I.3desexemples

illustrant la pertinen e de e terme. Dans divers adres statistiques, des résultats établissent

rigoureusement sur de telles lasses de fon tions la sous-optimalité des estimateurs linéaires,

dontfontpartielesestimateursbaséssurunmodèlelinéaireusuelstelsquel'histogramme(voir

par exemple [DJKP96℄en densité ou [DJ98 ℄ en régression pour une borneinférieure similaire

à (I.2.9) ).Nous dirons d'un estimateur qu'il s'adapte spatialement s'il s'adapteau sens

mini-max surune famille de sous-ensembles de

S

ontenant notamment desfon tions derégularité

non homogène. De manière générale, la onstru tion d'un estimateur spatialement adaptatif

repose essentiellement sur deux ingrédients : une inégalité d'ora le telleque (I.2.7) et un peu

de non-linéarité.Par non-linéarité, nousentendons typiquement la possibilité de hoisir, à

di-mensionxée,entreplusieursmodèleslinéairesdemême dimension.Nousverrons parexemple

auparagrapheI.5qu'àdimension

D

xée,onsait onstruireunefamillenie

M

D

departitions

de

[0, 1]

en

D

intervalles, éventuellement irrégulières, possédant les qualités d'approximation

adéquates.Eneet, haquefamille

M

D

permetderetrouverunemajorationuniformedubiais

surla lasse

L(α, p, R, ρ)

,de laforme

sup

s∈L(α,p,R,ρ)

inf

m∈M

D

ks − s

(18)

pour

p < 2

et

α > 1/p

− 1/2

ommepour

p

≥ 2

et

α > 0

.Contrairement à (I.2.5) , quirepose

uniquement surlemodèlelinéaire

S

m

D

, ette majoration faitintervenir lemodèlenon-linéaire

∪

m∈M

D

S

m

.Puis en hoisissant

D

♦

(α, R)

omme au paragraphe I.2.2,on endéduit que

sup

s∈L(α,p,R,ρ)

inf

m∈M

_D♦

E

_s

_{ks − ˆs}

_m

_k

2 _{≤ C(α, p)(Rn}

−α

₎

2/(1+2α)

pourvuque

R

≥ n

−1/2

.Par onséquent,sil'onsait onstruireunestimateur

s

˜

vériant

l'inéga-lité d'ora le

E

_s

_{ks − ˜sk}

2 _{≤ C inf}

m∈M

E

_s

_{ks − ˆs}

_m

_k

2

où

M = ∪

D∈N

⋆

M

D

,alors

˜

s

vérie également, pour tout

(α, p)

tel que

p < 2

et

α > 1/p

− 1/2

ou

p

≥ 2

et

α > 0

,ettout

n

−1/2

_{≤ R ≤ n}

α

,

sup

s∈L(α,p,R,ρ)

E

_s

_{ks − ˜sk}

2 _{≤ C}

_sup

s∈L(α,p,R,ρ)

inf

m∈M

_{D♦ (α,R)}

E

_s

_{ks − ˆs}

_m

_k

2 ≤ C(α, p)(Rn

−α

)

2/(1+2α)

.

La minoration (I.2.6) étant toujours valable pour les valeurs de

α, p, R

onsidérées i i, et

estimateur

s

˜

s'adaptedon spatialement.

I.3 Quelques lasses de régularité usuelles

Rappelons tout d'abord ladénition des espa es de Besov etdes fon tions à

α

-variations

bornées.Soient

α > 0

,

0 < p, q

≤ ∞

et

r =

⌊α⌋ + 1

,où

⌊α⌋

estleplus petit entier inférieur ou

égalà

α

.Pour

t

∈ L

p

([0, 1])

,on dénitles diéren esd'ordre

r

∆

r

_h

(t, x) =

r

X

k=0

r

k

(

₋₁₎

r−k

t(x + kh),

pour

h

≥ 0

et

0 ≤ x ≤ 1 − rh

etlemodulede ontinuité d'ordre

r

ω

r

(t, y)

p

=







sup

_0<h≤y

R

₀

1−rh

_|∆

r

_h

(t, x)

_|

p

µ(dx)

1/p

si

0 < p <

∞

sup

_0<h≤y

sup

_{0≤x≤1−rh}

|∆

r

h

(t, x)

|

si

p =

∞

ensupposantde plus

t

ontinue sur

[0, 1]

lorsque

p =

∞.

L'espa e deBesov

B

α

q

(L

p

([0, 1]))

est

l'ensemble desfon tions

t

∈ L

p

([0, 1])

telles que

|t|

B

α

q

(L

p

([0,1]))

=







R

∞

0 (y

−α

ω

r

(t, y)

p

)

q µ(dy)

y

1/q

si

0 < q <

∞

sup

_y>0

y

−α

ω

r

(t, y)

p

si

q =

∞

estnie, etl'onpose

ktk

B

α

q

(L

p

([0,1]))

=

ktk

p

+

|t|

B

α

q

(L

p

([0,1]))

.

On notera que, pour

0 < α < 1

,

B

α

∞

(L

p

([0, 1]))

n'est autre que l'ensemble des fon tions

vériant la ondition de Lips hitz (I.2.4) . Lespropriétés de es espa es qui nousseront utiles

sontregroupéesdanslaproposition i-dessous,etdémontréespar exempledans[DeV98 ;Tri83 ℄.

Proposition 1 Soient

α > 0

,

0 < p, q

≤ ∞

et

r =

⌊α⌋ + 1.

i)

Si

1 ≤ p, q ≤ ∞

,

k.k

B

α

q

(L

p

([0,1]))

est une norme, et une quasi-norme sinon, l'inégalité

(19)

ii)

En remplaçant

ω

r

par

ω

k

ave

k > r

, on obtient une (quasi-)norme équivalente sur

B

α

_q

(L

p

([0, 1]))

.

iii)

Si

α

1 < α

2

, alors quels que soient

0 < q

1 , q

2 ≤ ∞,

ktk

B

α1

_q1

(L

p

([0,1]))

≤ C(α

1 , α

2 , q

1 , q

2 )

ktk

B

α2

_q2

(L

p

([0,1]))

.

iv)

À

α

et

p

xés,et pourtout

q > 0,

|t|

B

α

∞

(L

p

([0,1]))

≤ C(α, p, q)|t|

B

α

_q

(L

p

([0,1]))

.

v)

Si

α > max

{1/p − 1/2, 0}

, alors

B

α

q

(L

p

([0, 1]))

est in lus dans

L

2 ([0, 1])

et

ktk ≤ C(α, p, q)ktk

B

α

q

(L

p

([0,1]))

.

vi)

Si

α > 1/p

, les fon tions de

B

α

q

(L

p

([0, 1]))

sont ontinues, et

ktk

∞

≤ C(α, p, q)ktk

B

α

q

(L

p

([0,1]))

.

Lesfon tionsde

B

α

q

(L

p

([0, 1]))

présentent unerégularité d'ordre

α

,mesuréedanslanorme

L

p

.

Le paramètre

q

n'est qu'un paramètre se ondaire,d'après les points

iii)

et

iv)

i-dessus, etla

propriété

iv)

justiel'intérêt portéà l'espa e

B

α

q

(L

p

([0, 1]))

pour

q =

∞

.Il existe

essentielle-ment deuxmanières degénéraliser ladénitiondesespa esde Besovàdesfon tions àvaleurs

réelles dénies sur

[0, 1]

d

,

d

≥ 2

,selon que l'on autorise la régularité de lafon tion à hanger

selon la dire tion (espa e de Besov anisotrope) ou non (espa e de Besov isotrope). Ainsi, en

adoptant par exemple la dénition de [Tri06 ℄, un espa e de Besov anisotrope est ara térisé

parladonnéed'un

d

-upletde réelsstri tementpositifs

α

= (α

1 , . . . , α

d

)

,

α

i

indiquant ledegré

de régularité dans la

i

e

dire tion, d'un paramètre

p

indiquant la norme

L

p

dans laquelle la

régularité est mesurée, etd'un paramètre se ondaire

q

. Pour

0 < α

≤ 1

,l'espa e

BV (α)

des

fon tionsà

α

-variations bornéesest l'ensembledesfon tions

t : [0, 1]

→ R

tellesque

V

α

(t) = sup

i≥1

sup

0≤x

0 <...<x

i

≤1





i

X

j=1

|t(x

j

)

− t(x

j−1

)

|

1/α





α

est nie. Cette é helle de régularité est liée à l'é helle des espa es de Besov par la propriété

suivante( f.[Pee76 ℄, Théorème 7).

Proposition 2 Pour tout

0 < α

≤ 1

,

C

1 (α)

|.|

B

α

∞

(L

1/α

([0,1]))

≤ V

α

(.)

≤ C

2 (α)

|.|

B

α

1 (L

1/α

([0,1]))

.

L'é helle desespa es de Besov et des fon tionsà

α

-variations bornées ontient la plupart

desé hellesde régularité lassiques.Ainsi, pour

α

∈ N

⋆

,

B

α

p

(L

p

([0, 1]))

ontient l'espa ede Sobolev

W

α

_(L

p

([0, 1]))

desfon tionsadmettant

α

dérivées dans

L

p

.L'espa edesfon tions

α

-hölderiennes n'est autreque

B

α

∞

(L

∞

([0, 1]))

. Par ailleurs, pour tout

0 < α

≤ 1

,toute fon tion

onstante par mor eauxettoute fon tion

α

-höldérienne appartiennent à

BV (α)

.

Supposons maintenant que l'on mesure la qualité d'approximation d'une fon tion via la

norme

L

2

.Parmi les espa esde fon tionspré édemment ités,les espa esde Hölder dé rivent

une régularité homogène, de même que les espa es de de Besov

B

α

q

(L

p

([0, 1]))

ave

p

≥ 2

ou

BV (α)

ave

α

≤ 1/2

( ompte-tenudelaProposition2).Enrevan he,lesespa es

B

α

q

(L

p

([0, 1]))

ave

p < 2

ou

BV (α)

ave

1/2 < α

≤ 1

dé rivent unerégularité non-homogène.Donnons deux

(20)

présentant unnombrenide dis ontinuités ethöldérienne d'ordre

σ > 0

entre es

dis ontinui-tés,appartient àtous lesespa es

B

α

q

(L

p

([0, 1]))

, pourvuque

α < min

{σ, 1/p}

et

1 ≤ p, q ≤ ∞

( f. [Ren99 ℄ Lemme 2.2 ou [Mal98℄ Proposition 9.4). En parti ulier, l'indi e de régularité

α

peut prendre des valeurs d'autant plus grandes que le paramètre

p

est petit. Par ailleurs, en

pratique,l'espa e

BV (1)

desfon tions à variations bornées, ou son analogue en dimension 2,

est ouramment utiliséen théoriedu signaletde l'image.

I.4 Séle tion de modèle

Présentons maintenant le prin ipe de séle tion de modèle introduit par Birgé et

Mas-sart [BM97 ℄, qui sera utilisé pour onstruire les estimateurs étudiés dans ette thèse. Nous

abordonségalementdans ettepartie laquestiondu hoixde la olle tiondemodèleset

dé ri-vonsles olle tions de modèles usuelles.

I.4.1 Prin ipe et obje tif

La pro édure de séle tion de modèle de [BM97℄ peut être dé rite de la manière suivante.

On sedonne une famille nie de modèles appro hés

{S

m

}

m∈M

in lus dans

S

, où

M

dépend

éventuellement de

n

,et l'on hoisit un ontraste

γ

, 'est-à-dire une fon tion mesurable de

Y

telle que

t

7→ E

s

[γ(t)]

admette un minimum sur

S

en

s

. La perte onsidérée est la fon tion

ℓ :

_{S × S −→ R}

+

telle que

ℓ(s, t) = E

s

[γ(t)

− γ(s)]

. Puis on dénit sur haque modèle un

estimateur

s

ˆ

m

obtenu par minimisation du ontraste

γ

sur

S

m

.L'idéal seraitalors de hoisir,

parmilafamille

{S

m

, m

∈ M}

,lemodèle

S

m

or

pourlequel lerisquede l'estimateurasso iéest

minimal, 'est-à-dire telque

E

_s

_{[ℓ(s, ˆ}

_s

_m

_or

_{)] = min}

m∈M

E

_s

_{[ℓ(s, ˆ}

_s

_m

_{)] .}

Cemodèleidéal

S

m

or

,malheureusementimpossibleàdéterminerpuisqu'ildépendduparamètre

s

in onnu, sera baptisé ora le. L'idée onsiste alors à hoisir un modèle en se basant sur les

données.Pour ela,onsedonne unefon tionpen

:

M → R

+

,appelée pénalité,eton onsidère

lapro édurede séle tion aléatoire,dépendant de

Y

,

ˆ

m =

argmin

m∈M

{γ(ˆs

m

) +

pen

(m)

} .

Puison dénit

˜

s = ˆ

s

m

ˆ

,

(I.4.11)

appelé estimateur pénalisé, qui n'est plus un estimateurde la olle tion

{ˆs

m

}

m∈M

puisquele

modèle

m

ˆ

séle tionnépeut hangerselonlesdonnées.L'obje tifestdedéterminerune pénalité

tellequelerisque de

˜

s

soitpro he durisque de l'ora le, 'est-à-dire vériel'inégalité d'ora le

E

_s

_{[ℓ(s, ˜}

_s)]

_{≤ C inf}

m∈M

E

_s

_{[ℓ(s, ˆ}

_s

_m

_{)] ,}

qualiéedenonasymptotiquepuisque

n

estxéetquel onque.Soulignonsqu'unetelleinégalité

assure sans au une hypothèse de régularité sur la fon tion

s

que l'estimateur pénalisé

s

˜

est

presqueaussi bon que le meilleur estimateur de

s

parmi la olle tion

{ˆs

m

}

m∈M

.Par ailleurs,

ommeexpliquéauparagrapheI.2,uneinégalitéd'ora leestunoutilfortutilepourdémontrer

que, sous ertaines hypothèses de régularité et pourvu que la olle tion de modèles soit bien

hoisie, l'estimateur

˜

s

s'adapteégalement au sens minimax.

Envuedeprouveruneinégalitéd'ora le,ondémontretoutd'abordunthéorèmedeséle tion

(21)

meilleur ompromis biais-varian e parmi les estimateurs de la olle tion. Typiquement, une

pénalité onvenable est telle que pen

(m)

se omporte omme une erreur d'estimation au sein

du modèle

S

m

, 'est-à-dire roît ave la dimension du modèle. Ce genre de théorème repose

essentiellementsurdesinégalitésde on entrationpourlesupremumd'unpro essusempirique

inspiréesdel'inégalité de Talagrand [Tal96℄.Donnons unexemple dethéorème deséle tion de

modèlesdansle adrederégressiondé ritauparagrapheI.1. Soit

S

l'ensembledesfon tionsà

valeurs réellesdénies sur

[0, 1]

,munide lasemi-norme

k.k

n

déniepar

ktk

2 n

=

1 n

n

X

i=1

t

2 (x

i

).

On onsidèrele ontraste

γ(t) =

1 n

n

X

i=1

(Y

i

− t(x

i

))

2

(I.4.12)

asso ié àlafontionde perte

ℓ(s, t) =

ks − tk

2 n

.

Etant donnéeune famille nie

{S

m

, m

∈ M}

de sous-espa esve toriels de

S

,on dénit,pour

tout

m

∈ M

,

ˆ

s

m

=

argmin

t∈S

m

γ(t)

où

γ

estdonné par (I.4.12) ,puis

˜

s

omme en (I.4.11). Le

théorèmesuivant estune versionextrêmement simpliéedu Théorème 2de[BM01 ℄, démontré

dansun adre gaussienbeau oupplusgénéral.

Théorème 1 On onsidère le adre derégression déniauparagraphe I.1.Soit

{S

m

, m

∈ M}

unefamilleniedesous-espa esve torielsde

S

dedimensionnie.Soit

{L

m

}

m∈M

unefamille

deréels positifs tels que

Σ :=

X

m∈M

exp(

−D

m

L

m

)

≤ 1,

(I.4.13)

où

D

m

= dim(S

m

)

. Si la pénalité est de la forme pen

(m) = σ

2 _(k

1 + k

2 L

m

)

D

m

n

,

où

k

1 , k

2

sontdes réels positifssusamment grands, alors l'estimateurpénalisé

˜

s

vérie

E

_s

_{ks − ˜sk}

2 _n

_{≤ C(k}

₁

_{, k}

₂

₎

min

m∈M

d

2 _n

(s, S

m

) + σ

2 (1 + L

m

)

D

m

n

+

1 n

,

où

d

n

(s, S

m

) = inf

t∈S

m

ks − tk

n

.

Par ailleurs, sur haquemodèle, lerisque quadratiqueasso iéàlaperte

k.k

n

admet la

dé om-position biais-varian e

E

_s

_{ks − ˆs}

_m

_k

2 _n

_{= d}

2 _n

_{(s, S}

_m

_{) + σ}

2 D

m

n

.

Sousleshypothèsesdu Théorème 1,onobtient don l'inégalité

E

_s

_{ks − ˜sk}

2 _n

_{≤ C}

₁

_(k

₁

_{, k}

₂

₎

1 + max

m∈M

L

m

min

m∈M

E

_s

_{ks − ˆs}

_m

_k

2 _n

₊

C

2 (k

1 , k

2 )

n

.

(I.4.14)

Il s'agit bien là d'une inégalité d'ora le, à un reste près

C

2 (k

1 , k

2 )/n

qui devient négligeable

dèsque

n

est susamment grand, etàun fa teurprès :

1 + max

m∈M

L

m

.

Il existe d'autres pro édures de séle tion de modèle, dont l'obje tif est toujours d'établir

uneinégalité detype ora le,maisave unerègle deséle tion diérente. Birgé[Bir06a ℄propose

par exemple de séle tionner lemeilleur modèle par une pro édure de testsmultiples entre les

(22)

I.4.2 Choix de la famille de modèles

Le hoix d'une famille de modèles doit notamment prendre en ompte les éléments

sui-vants. Reprenons l'exemple delarégression i-dessus.An d'interpréter la ontrainte (I.4.13) ,

dé omposons lafamille demodèles ensous-familles de modèles demême dimension

M

D

=

{m ∈ M

t.q.

D

m

= D

},

pour

D

∈ N

⋆

_.

Choisissonsdespoids

{L

m

}

m∈M

quine dépendentdu modèlequevia sadimension etnotons,

pour tout

D

∈ N

⋆

et

m

∈ M

D

, L

m

= L(D)

. Nouspouvonsalors réé rire

Σ

ommela somme,

niepar hypothèse sur

M

,

Σ =

X

D∈N

⋆

exp

− D

L(D)

_{− D}

−1

ln

+

(

|M

D

|)

,

où

ln

+

(x) = ln(x)

pour

x

≥ 1

et

ln

+

(0) = 0

.Pourquela ondition(I.4.13)soitréalisée,ilsut

que,pour tout

D

∈ N

⋆

_,

L(D)

≥ D

−1

ln

+

(

|M

D

|) + ln 2.

Aussi,pourobteniruneinégalitéd'ora le, ilsutquelenombredemodèlespar dimensionsoit

sous-exponentiel, autrement dit qu'il existe une onstante absolue

κ > 0

telle que, pour tout

D

_{∈ N}

⋆

,

|M

D

| ≤ κ

D

.

(I.4.15)

Eneet,un hoixde poids onvenable estalors

L(D) = ln(2κ),

pour tout

D

∈ N

⋆

_.

Demanièregénérale,laquantité

sup

D∈N

⋆

D

−1

ln

₊

(

|M

_D

|)

peutêtre onsidérée ommeunindi e

de omplexitédela olle tiondemodèles,pourreprendreuntermedéjàemployédans[BBM99℄

ou [Bir06b ℄ par exemple. Plus et indi e est élevé, et plus la olle tion est omplexe. Nous

dirons d'une olle tion de modèles qu'elle présente une omplexité sous-exponentielle si la

ondition(I.4.15)estvériée.Con ernant maintenant laqualitéd'estimation de

s

˜

surun

sous-ensemble

F

donné de

S

,on déduitde lamajoration (I.4.14)que

sup

s∈F

E

_s

_{ks − ˜sk}

2 _n

_{≤ C}

₁

_(k

₁

_{, k}

₂

_{) inf}

D∈N

⋆

sup

s∈F

inf

m∈M

D

d

2 _n

(s, S

m

) + σ

2 (1 + L(D))

D

n

+

C

2 (k

1 , k

2 )

n

.

Cettebornesupérieurenousinvitedon à onsidérer une famillede modèlesà lafois

susam-ment ri he, 'est-à-dire ontenant susamment de représentants de haque dimension pour

bien ontrler, à

D

xé, les erreurs d'approximation, maispas trop omplexe, an de ne pas

trop inuer sur la taille des poids. C'est le rle de la théorie de l'approximation de proposer

desfamillesde modèles réalisant unbon ompromisentre omplexité etqualité

d'approxima-tion. Nousreviendronssur es questionsauxparagraphesI.4.3 etI.5.Enn, soulignons quela

omplexité algorithmique liée au al ul des estimateurs de la olle tion impose également en

pratiquedeslimites surlenombre de modèles.

I.4.3 Colle tions de modèles usuelles

Dé rivonsles olle tionsdemodèlesusuellespermettantd'obtenirdesrésultatsd'adaptation

enestimationfon tionnelle. Ellessont liéesàdeuxtypesd'approximation :approximation par

des polynmes par mor eaux ou approximation de ertains termes de la dé omposition dans

unebaseorthonormée de

L

2 ([0, 1])

.Toutes es olle tionssont desfamillesnies

{S

m

}

m∈M

de

(23)

plus

n

ontenanttouslesautres modèles delafamille.Ondésigne par

D

m

ladimension de

S

m

et, ommedansleparagraphe pré édent,par

M

D

lasous-familledesmodèlesdedimension

D

.

Colle tions demodèles réguliers. Ces olle tions vérient aumoins

une hypothèse sur le nombre de modèles de même dimension, satisfaite typiquement

lorsque elui- iestaupluspolynomial, 'est-à-direlorsqu'ilexiste une onstanteabsolue

κ

telle que

|M

D

| ≤ D

κ

;

une hypothèse liant les normes

L

2

et

L

∞

sur es modèles, qui assure l'existen e d'une

onstante absolue

Φ > 0

tellequepour tout

m

∈ M

ettout

t

∈ S

m

,

ktk

∞

≤ Φ

p

D

m

ktk.

Les modèles de polynmes par mor eaux onstruits sur les partitions régulières de

[0, 1]

,

no-tamment, sont des modèles réguliers. La omplexité de es olle tions est a fortiori

sous-exponentielle.Cependant,touslesexemples onnusnepossèdentdebonnesqualités

d'approxi-mationquepour desfon tionsderégularitéhomogène. Par ailleurs, ommeil n'yaen général

qu'un seul modèle par dimension, déterminer tous les estimateurs de la olle tion puis

l'esti-mateurpénalisénerequiertqu'une omplexitéalgorithmiquelinéaireen

n

.Nousrenvoyonspar

exempleàBaraud[Bar00 ℄,Castellan[Cas00 ;Cas03 ℄,[BM97 ;Mas07℄,ainsiqu'àlabibliographie

de FabienneComte pour desrésultatsde séle tion parmi desmodèles réguliersgénéraux dans

diérents adres statistiques.

Colle tion de polynmes par mor eaux onstruits sur une grilledyadique. On sexe deux

entiersnaturels

r

et

J

⋆

,ave

2 J

⋆

_{≤ n}

.Ondénit

M

ommel'ensembledespartitions onstruites

sur la partition régulière de

[0, 1]

en

2 J

⋆

intervalles, 'est-à-dire l'ensemble des partitions en

intervalles de laforme

[k2

−J

⋆

_{, l2}

−J

⋆

_]

,où

k, l

sont desentiers,

0 ≤ k < l ≤ 2

J

⋆

_.

Chaquemodèle

S

m

est alors dé rit omme l'espa e des fon tionspolynomiales de degré au plus

r

sur haque

intervalle de lapartition

m

.Construireune partition de

m

en

D

intervalles équivaut à hoisir

D

_{− 1}

pointssur lagrille

{k2

−J

⋆

_{; k = 1, . . . , 2}

J

⋆

_{− 1}}

,de sorte que

|M

D

| =

2 J

⋆

_{− 1}

D

− 1

≤

e2

J

⋆

D

≤ (en)

D

,

où la majoration résulte par exemple de [Mas07 ℄ (Proposition 2.5). La omplexité de ette

olle tionn'est plussous-exponentielle au sensutilisé dansleparagraphe pré édent puisquela

onstante

κ

est i i rempla ée par

en

, e qui in ite par exemple à hoisir des poids onstants

égaux

ln(2en)

. Onn'obtient don ave ette olle tion que des inégalités de type ora le à un

fa teur

ln(n)

près. Onpourra pour ela onsulter par exemple [BM97;BBM99;Cas00 ;Cas03 ;

RB03;Sau02 ℄. Cependant, à

D

xé, lesmodèles dedimension

D

possèdent debonnes qualités

d'approximationrelativementà ertainesfon tionsderégularitééventuellementnonhomogène,

telles que les fon tions à

α

-variations bornées ( f. [BBM99 ℄, Corollaire 1). Cette olle tion

permet don d'obtenir unestimateur spatialement adaptatif, souvent à un fa teur

ln(n)

près.

Un estimateurpénalisébasésur ette olle tion etun ontraste detype moindres arrésaété

implémenté par E. Lebarbier [Leb02 ℄ dans le adre de régression dé ritau paragraphe I.1. Il

né essite

O(n

3 ₎

al ulspar un algorithmede programmation dynamiqueet pour une pénalité

bien hoisie.

Colle tiondepolynmesparmor eaux onstruitssurdespartitionsobtenuesparl'algorithme

CART. Lapro édureClassi ationAndRegressionTrees(CART)deBreimanetal.[BFOS84℄

peut êtreprésentée ommeune pro édurede séle tion de modèleen adoptant lepoint de vue

de Gey et Lebarbier [GL08 ℄ ou Lebarbier et Nédéle [LN07 ℄. Nous dirons dans la suite d'un

(24)

toutessesfeuillessontàlamêmedistan edelara ine.Plaçons-nouspar exempledansle adre

derégressionduProblème2,ave

0 = x

1 < . . . < x

n

= 1

.LapremièreétapedeCART onsiste

à onstruire un arbre binaire parfait de ra ine

{x

1 , . . . , x

n

}

, dont haque noeud est ensuite

obtenu par partitionnement ré ursif, en minimisant un ritère lo al basé sur les données. On

onsidèrealors la olle tionde toutes les partitionsde

{x

1 , . . . , x

n

}

orrespondant aux feuilles

d'unquel onquesous-arbre binaire ompletobtenuparélagage de etarbrebinaireparfait.La

deuxièmeétapedeCART orrespondenfaitàlaséle tiond'unemeilleurepartitionparmi ette

olle tionen utilisantun ritère pénalisé. Commelerappellent parexemple [GL08 ℄,lenombre

d'arbresbinaires omplets à

D

feuilles,

D

∈ N

⋆

,ainsi onstruits n'est autre que lenombre de

Catalan

1 D

2(D

_{− 1)}

D

− 1

≤ 4

D

.

Aussi, la omplexité de ette olle tion de partitions est sous-exponentielle. Par ailleurs, la

omplexitéalgorithmiquedelapro éduredeséle tiond'unemeilleurepartitionpeut,seréduit

à

O(n ln(n))

al ulsdanslemeilleurdes as( f.[GL08 ℄).Cependant,lefaitque ette olle tion

departitionsdépende,par onstru tion,desdonnées, rendsonétudedi iled'unpointdevue

théorique.Enpartageantl'é hantillon,demanièreàutiliserunepartiedesdonnéespourl'étape

de onstru tion, etl'autre pour l'étape de séle tion, il est possible d'obtenir des inégalités de

typeora le, mais onditionnellement au premier é hantillon. Nous renvoyons à[GN05; Sau02 ℄

enrégressionetà[LN07 ℄enestimationdeloidis rètepour etypederésultats.Cependant,les

qualitésd'approximation de ette olle tion departitionsaléatoire demeurent in onnues,d'où

l'absen ede résultat d'adaptation.

Colle tion exhaustive des espa es engendrés par les sous-ensembles d'un système

ortho-normé.Etant donnéeunefamille orthonormale

{φ

λ

}

λ∈Λ

de

L

2 ([0, 1])

,ave

|Λ|

auplusd'ordre

n

, on onsidère la famille

M

de tous les sous-ensembles de

Λ

. Chaque modèle

S

m

est alors

déni omme l'espa e ve toriel engendré par les

{φ

λ

}

λ∈m

. On vérie aisément que ette

ol-le tiona lamême omplexité quela olle tionde polynmespar mor eaux onstruitssur une

grille dyadique. Les qualités d'approximation et don d'adaptation dépendent du hoix de la

base.Nous renvoyons par exemple à [BM97 ;BM01 ; Mas07 ℄pour desrésultats danslemodèle

gaussienou lemodèlede densité.

Colle tiondemodèlesd'ondelettesinspiréedel'algorithmede ompressiondeBirgéet

Mas-sart[BM00℄.Nousemploieronspar lasuite l'expressionstratégie Birgé-Massart pour faire

référen e au hoix de ette olle tion. Soit

{φ

λ

}

λ∈Λ

une base d'ondelettes orthonormale de

L

₂

_{([0, 1])}

.Dans ette base, ilest d'usage d'é rire ladé omposition de

s

par blo s

s =

X

j≥−1

X

λ∈Λ(j)

β

λ

φ

λ

,

où

Λ =

∪

j≥−1

Λ(j)

, ave

Λ(

−1)

ensemble ni et, pour

j

≥ 0

,

|Λ(j)|

de l'ordre de

2 j

. Pour

J

≥ −1

,les

J + 1

premiers blo s

J−1

X

j=−1

X

λ∈Λ(j)

β

λ

φ

λ

donnentuneapproximationde

s

àlarésolution

2 −J

.Pourvuque

J

soitassezgrand,unefon tion

s

globalement régulière ave quelques singularités isolées peut être dèlement re onstruite en

rajoutantà etteapproximationgrossière ertainsdétails perçusgrâ eauxrésolutionsplus

nes, 'est-à-direquelques termes

β

λ

φ

λ

orrespondant aux niveaux de résolution

Λ(j), j

≥ J

.

Notonsdenouveau

J

⋆

unentier naturel xéa priori telque

2 J

⋆

_{≤ n}

.La olle tionde modèles

(25)

M

despartiesde

Λ

de laforme

m =

"

_J−1

[

j=−1

Λ(j)

#

∪

"

_J

_⋆

_−J−1

[

k=0

Λ

′

(J + k)

#

où

Λ

′

_{(J + k)}

est un sous-ensemble quel onque de

Λ(J + k)

de ardinal

⌊2

J

_{/(k + 1)}

3 _⌋

,

l'en-tier

J

étant autorisé à varier entre

0

et

J

⋆

− 1

. Chaque

S

m

est alors déni omme l'espa e

ve toriel engendré par les

{φ

λ

}

λ∈m

. Non seulement ette olle tion ne ompte qu'un nombre

sous-exponentieldemodèlesdemêmedimension(voirparexemple[Mas07 ℄,paragraphe4.3.5),

maisenplus elle disposedesqualités d'approximations adéquates ennorme

L

q

pour des

fon -tionsprésentantunerégularitédetypeBesov,homogèneounon, ommedémontrépar Birgéet

Massart[BM00 ℄.Parailleurs,l'implémentationdel'estimateurpénalisébasésur ette olle tion

etun ontrastedetypemoindres arréspénalisénené essiteque

O(n ln n)

opérations(voirpar

exemple [DLT09℄). Des inégalités de type ora le ainsi que des résultats d'adaptation ont été

obtenuesgrâ e à e type de olle tiondans diérents adres statistiques :densité[BM97 ℄,

ré-gressionàpasaléatoireave erreurssous-gaussiennes[Bar02 ;BCV01 ℄,intensitéd'unpro essus

de Poisson[RB03℄, modèle gaussiengénéral [Mas07℄, loidis rète [DLT09℄.

I.5 Colle tions de modèles basés sur des partitions en

inter-valles, ubes, re tangles dyadiques

Présentons maintenant les olle tions de modèles auxquelles nous nous intéressons dans

ette thèse. Comme dans le paragraphe pré édent, nous en donnons les prin ipales

ara té-ristiques,fournissant ainsiles premiers élémentsde omparaison ave les autres olle tions de

modèles. Par ailleurs, nous dé rivons les résultats déjà existants à leur sujet en estimation

fon tionnelle, pour la plupart très ré ents, puisqu'obtenus parallèlement à la préparation de

ette thèse.Nousexposeronsdansla partie I.7notre ontribution.

I.5.1 Des ription des olle tions

Soit

J

⋆

un entier xé a priori, dont la valeur dépend du adre statistique. Pour

l'estima-tion de fon tions à valeurs réelles dénies sur

[0, 1]

,nous utiliserons des modèles de fon tions

onstantes,voirepolynomiales,parmor eauxsurlespartitionsde

[0, 1]

enintervallesdyadiques

de longueurau moins

2 −J

⋆

.Ce sonttoutes les partitionsen intervalles de laforme

I

_(j,0)

= [0, 2

−j

]

où

j

∈ {0, . . . , J

⋆

}

,ou

I

_(j,k)

=]k2

−j

, (k + 1)2

−j

],

où

j

∈ {1, . . . , J

⋆

}

,

k

∈ {0, . . . , 2

j

_{− 1}}

,

j

pouvant varier d'un intervalle àun autre au sein de

lamême partition. L'ensemble de es partitions peut également être dé rità l'aide de l'arbre