HAL Id: tel-00448753
https://tel.archives-ouvertes.fr/tel-00448753
Submitted on 20 Jan 2010
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
rectangles dyadiques
Nathalie Akakpo
To cite this version:
Nathalie Akakpo. Estimation adaptative par sélection de partitions en rectangles dyadiques.
Mathé-matiques [math]. Université Paris Sud - Paris XI, 2009. Français. �tel-00448753�
N d'ordre:9674
THÈSE
Présentée pour obtenir
LEGRADE DE DOCTEUR EN SCIENCES DE
L'UNIVERSITÉ PARIS-SUD XI
Spé ialité :Mathématiques
par
Nathalie Akakpo
Estimation adaptative par séle tion de partitions
en re tangles dyadiques
Soutenue le Lundi 7dé embre 2009 devant la Commission d'examen:
Mme FabienneComte
Mme Cé ileDurot (Dire tri e de thèse)
Mme Béatri eLaurent-Bonneau (Présidentedu jury)
M. Oleg Lepski
M. Pas alMassart
Rapporteurs:
Mme FabienneComte
LaboratoiredeMathématiques(UMR8628),Bât.425
Mespremiersremer iementss'adressentàCé ileDurot,toutd'abord pouravoirbienvoulu
se lan er il y a un peu plus de trois ans dans l'aventure de la dire tion de thèse. Ce travail
n'aurait pu ainsi aboutir sans sa patien e, sa sérénité, son exigen e de rigueur et de larté.
Pour m'avoir onvertie auxstatistiques, je remer ie etféli ite non seulement Cé ile,mais
aussiPas al Massart, pour son ours deM2 enthousiasmant surlaséle tion de modèles.
Je suis très re onnaissante envers mes rapporteurs Fabienne Comte et Enno Mammen
d'avoir onsa ré de leur temps à la le ture de e manus rit. Je remer ie également Fabienne
Comte, Béatri e Laurent etOleg Lepski d'avoir a ompli e petit périple jusqu'à Orsaypour
fairepartie de monjury.
Cette dernière année de thèse a été é lairée par la ollaboration ave Claire La our, que
je remer ie aussi pour ses onseils de jeune ex-do torante. Mer i également à Anne-Sophie
To quet pour son aide dans la réalisation de la monstrueuse gure 5.6 du Chapitre II et à
Vin ent Rivoirard pour sarele ture à lafoisrapide eta tive demon introdu tion.
De es dernières années à Orsay, je garderai un heureux souvenir grâ e aux do torants
traversant ette périodededur labeurave humour ethumilité,ave une pensée enparti ulier
pourmes ompagnonsdeM2,debureau,deCESFOoudepause-thé:Merlin,Mahendra,Pierre,
Ni olas,Wilson,Dominique, Benoît,Robin,Pierre,Camille,Sébastien,CathyetJean-Patri k,
pour ne iterqu'eux.
I Introdu tion 11
I.1 Cadre général etexemples deréféren e . . . 11
I.2 Adaptation au sensminimax, adaptation spatiale . . . 13
I.2.1 Estimation baséesur unmodèle et ompromisbiais-varian e . . . 13
I.2.2 Estimation minimax . . . 14
I.2.3 Adaptation au sensminimax etinégalité d'ora le . . . 15
I.2.4 Adaptation spatiale etnon-linéarité. . . 16
I.3 Quelques lassesde régularitéusuelles . . . 17
I.4 Séle tion de modèle. . . 19
I.4.1 Prin ipe etobje tif . . . 19
I.4.2 Choix de lafamille demodèles . . . 21
I.4.3 Colle tions demodèlesusuelles . . . 21
I.5 Colle tions de modèles basés surdes partitionsen intervalles, ubes, re tangles dyadiques . . . 24
I.5.1 Des ription des olle tions . . . 24
I.5.2 Résultats existants . . . 25
I.6 Autrespro édures spatialement adaptatives ausens minimax . . . 29
I.7 Présentation desrésultats delathèse . . . 31
II Estimating a dis rete distribution via dyadi histogram sele tion 37 II.1 Introdu tion . . . 39
II.2 Framework andnotation . . . 40
II.2.1 Framework . . . 40
II.2.2 Notation. . . 40
II.3 The
d
-estimator . . . 41II.3.1 Denition of the
d
-estimator. . . 41II.4 Hybridpro edure . . . 47
II.5 Simulationstudy . . . 50
II.5.1 Choosing the penalty onstant for the
d
-estimator . . . 50II.5.2 Comparing the
d
-estimator withtheneH
-estimator . . . 53II.5.3 Choosing thepenaltyfor thehybrid pro edure . . . 54
II.5.4 Appli ation to the segmentation ofa DNAsequen e . . . 55
II.6 Proofof the approximationresultoverBesovbodies . . . 58
II.6.1 Approximationalgorithm . . . 58
II.6.2 Proofof Theorem5: themain lines . . . 59
II.6.3 Proofof Proposition5 . . . 61
II.6.4 Proofof Proposition6 . . . 64
II.6.5 Proofof Proposition7 . . . 65
II.7 Lower bound for theminimaxriskover
V P
(α, R)
. . . 66Appendix : Some useful inequalities . . . 69
IIIHistogram sele tion based on possibly ensored data 71 III.1 Introdu tion . . . 73
III.2 Estimationpro edure. . . 74
III.2.1 Generalframeworkand notation . . . 75
III.2.2 Examples . . . 76
III.3 Ageneral histogram sele tion theorem . . . 79
III.3.1 Theora le-type inequality . . . 79
III.3.2 Examples ( ontinued) . . . 81
III.4 Dyadi histogram sele tion. . . 84
III.4.1 Presentation. . . 84
III.4.2 Performan e. . . 85
III.4.3 Examples (end) . . . 87
III.5 Proofs . . . 88
III.5.1 Auseful lemma . . . 88
III.5.2 Proofof Proposition12 . . . 89
III.5.3 Proofof Proposition13 . . . 90
III.5.4 Proofof Proposition14 . . . 91
III.5.5 Proofof Theorem6. . . 93
IVConditional density estimation based on dependent data 103
IV.1 Introdu tion . . . 105
IV.2 General framework and estimationpro edure . . . 106
IV.3 Measuresof dependen e . . . 109
IV.4 Upper-boundsfor the riskonone model . . . 110
IV.5 Choi e ofthe penalty . . . 115
IV.6 Sele tion among partitionsinto dyadi ubes . . . 117
IV.7 Sele tion amongpartitions into dyadi re tangles . . . 119
IV.7.1 Theoreti al properties ofthepenalizedestimator basedon
M
rect
. . . . 119IV.7.2 Computing the penalizedestimator basedon
M
rect
. . . 122IV.8 Proofs . . . 122
IV.8.1 Notation andpreliminary lemma . . . 122
IV.8.2 Proof of Proposition 18 . . . 124
IV.8.3 Proof of Theorem10 . . . 128
IV.8.4 Proof of Proposition 19 . . . 131
IV.8.5 Proof of Theorem12 . . . 134
IV.8.6 Proof of Theorem14 . . . 136
Appendix : Tools for stationary
α
-mixing pro esses . . . 143Perspe tives 147
Introdu tion
Dans ette thèse, nous nous intéressonsà divers problèmes d'estimation fon tionnelle par
séle tion de modèles onstruits sur des partitions en intervalles ou re tangles dyadiques. La
pro édurestatistiqueque nousétudionss'ins rit plus généralement parmi lespro édures
non-paramétriques possédant des propriétés d'adaptation spatiale au sens minimax, notions que
nousrappelonsen débutd'introdu tion.Puisnousexposonsleprin ipedeséle tion demodèle
sous-ja ent à notre pro édure etrappelons les prin ipales olle tions de modèles utilisées
jus-qu'i i.Nousdé rivons alors les olle tions de modèles surlesquellessont basés lestravauxdes
hapitressuivants,enindiquantlesquelquesrésultatsdéjàétablisàleursujet.Nouspoursuivons
par un état de l'art des diverses pro édures spatialement adaptatives. Enn, nousprésentons
notre ontribution, au regarddes diérentespro édures existantes.
I.1 Cadre général et exemples de référen e
Dans ette introdu tion, nous nous pla erons dans le adre général suivant. Etant donné
unentier
n
≥ 1
xé, on observen
variables aléatoiresY
1
, . . . , Y
n
dénies sur un même espa ede probabilité
(Ω,
A, P)
, àvaleurs dansun borélienY
deR
d
, où
d
∈ N
⋆
.La loi de probabilité
duve teur
Y
= (Y
1
, . . . , Y
n
)
estin onnue, maisappartient à unefamillede lois{P
s
}
s∈S
qu'onappelle modèle.Onsupposedeplusquepour
(s, t)
∈ S
2
,
P
s
= P
t
sietseulement sis = t
.Sousette hypothèse d'identiabilité, il existe un unique élément
s
dansS
tel queP
s
soit la loi deY
,etonutiliseraindiéremmentletermedemodèlepour désigner{P
s
}
s∈S
ouS
.Par ailleurs,le modèle est supposé non-paramétrique, au sens où
S
n'est pas une partie d'un sous-espa eve toriel de dimension nie etindépendante de
n
.Notre obje tif est alors d'estimer l'éléments
deS
tel queP
s
soit laloideY
, 'est-à-direde onstruire àpartir de l'observation deY
unebonne approximation de
s
.Pluspré isément, ils'agitde déterminerˆ
s
,fon tion mesurablede
Y
dénie sur(Ω,
A, P)
et à valeurs dansS
. Une telle fon tion est appelée estimateur des
. Nous onsidèrerons en fait des estimateurs des
à valeurs dansun sous-ensembleM
deS
,sans pour autant supposer a priori que
s
appartienne àM
: e sous-ensemble est un modèleappro hé pour
s
,quenousappellerons en ore,pour simplier, modèle, etqui lui aussipourraêtrenon-paramétrique.
Dé rivons deux problèmes fréquemment étudiés en estimation non-paramétrique, et
per-mettant de e fait de omparer les performan es de diérentes pro édures statistiques. Dans
ha un de es deux problèmes, il s'agit d'estimer une fon tion
s
à valeurs réelles dénie sur[0, 1]
.Etantdonnéeunepartitionm
de[0, 1]
enunnombrenid'intervalles,onpeut onsidérerommemodèleappro hépour
s
l'espa eS
m
desfon tionsà valeursréelles,déniessur[0, 1]
etnide paramètres.Bienque
S
m
soitdedimensionnie, emodèlepeutêtrenon-paramétriquedanslamesure où
m
peutdépendreden
,notamment via lenombre oula longueur desinter-valles qui la omposent. Un estimateur usuel à valeurs dans le modèle appro hé
S
m
, auquelnousferons régulièrement référen e dansla suite, est l'histogramme onstruit sur lapartition
m
.Nousen rappelons ladénitionpour ha un desproblèmes suivants.Problème
1
: Estimation de densité.Soit
S
l'ensemble des densités de probabilité par rapport à la mesure de Lebesgueµ
sur[0, 1]
.Onobserve
Y
1
, . . . , Y
n
variablesaléatoiresindépendantesetdemême loi,admettantunedensités
∈ S
in onnue,que l'onsouhaiteestimer.L'histogramme onstruit surla partitionm
estdénipar
ˆ
s
m
=
X
I∈m
1
nµ(I)
n
X
i=1
1I
I
(Y
i
)
!
1I
I
,
età valeurs dans le modèle appro hé
S ∩ S
m
.L'histogramme
ˆ
s
m
esten fait une versionempirique de laproje tion orthogonale des
surS
m
pour lanorme
L
2
.Problème
2
: Estimation de la fon tion de régression.Soient
S
l'ensemble des fon tions dénies sur[0, 1]
à valeurs réelles et(x
1
, . . . , x
n
)
unve -teur déterministe de
[0, 1]
n
donné. On observe un ve teur aléatoire
Y
= (Y
1
, . . . , Y
n
)
deR
n
àoordonnées indépendantes telque, pour une ertainefon tion
s
∈ S
,Y
i
= s(x
i
) + σε
i
, i = 1, . . . , n,
(I.1.1)ave
σ
≥ 0
supposé onnu et(ε
i
)
1≤i≤n
variables aléatoires non observables,supposéesindépen-dantes et de loi normale entrée réduite. Il s'agit alors d'estimer la fon tion de régression
s
.L'analogue dans e adre de l'histogramme est le régressogramme onstruit sur la partition
m
déni par
ˆ
s
m
=
X
I∈m
1
P
n
i=1
1I
I
(x
i
)
n
X
i=1
Y
i
1I
I
(x
i
)
!
1I
I
.
An de pouvoir juger de la qualité d'un estimateur de
s
, il est d'usage de se donner unefon tiondeperte
ℓ
, 'est-à-direunefon tiondéniesurS ×S
àvaleursdansR
+
.Généralement,S
estmunid'unesemi-distan ed
eton onsidèreunefon tiondepertedelaformed
p
,où
p
estunentier naturel non nul. Lorsque
Y
suitlaloiP
s
,on noteP
s
laloide probabilité sur(Ω,
A)
telleque, pour tout borélien
B
deY
,P
s
(B) = P
s
{ω ∈ Ω
t.q.Y
(ω)
∈ B}
.
Onutilisealors omme ritèrede qualitéd'unestimateur
s
ˆ
des
sonrisquepour lafon tiondeperte
ℓ
,déni ommes
∈ S 7→ E
s
[ℓ(s, ˆ
s)] ,
où
E
s
désigne l'espéran e sous la loiP
s
.Par ommodité, sous l'hypothèse queS ⊂ L
2
([0, 1])
,on onsidère souvent lerisque quadratiqueintégré
s
∈ S 7→ E
s
ks − ˆsk
2
,
où
k.k
désigne la norme usuelle surL
2
([0, 1]).
De manière générale, pourq
≥ 1
, on dénit lerisque
L
q
intégré pars
∈ S 7→ E
s
ks − ˆsk
q
q
,
où
k.k
q
désigne lanorme usuelle surL
q
([0, 1]).
Dans l'ensemble de ette thèse, la lettre
C
désigne un réel positif non nul, dont la valeurpeut hangerd'uneligneàl'autre.Lanotation
C(θ)
indiqueque eréeldépendéventuellementd'unparamètre
θ
.I.2 Adaptation au sens minimax, adaptation spatiale
Cettepartie est onsa réeaupoint devueminimaxenestimation non-paramétrique.Nous
évoquonsen parti ulierquelquespointsfondamentauxtelsqueladé ompositionbiais-varian e
du risque d'un estimateur basé sur un modèle, les limites de l'estimation basée sur un seul
modèle, la notion d'ora le, et soulignons les liens étroits entre estimation minimax etthéorie
del'approximation.
I.2.1 Estimation basée sur un modèle et ompromis biais-varian e
Plaçons-noustoutd'aborddansle adred'estimationdedensitéintroduitauparagrapheI.1,
en supposant de plus les éléments de
S
de arré intégrable. Fixons une partitionm
de[0, 1]
,notons
D
m
la dimension de l'espa e ve torielS
m
déni au paragraphe pré édent (qui n'estautreque lenombre d'intervalles de
m
) ets
m
laproje tion orthogonale des
surS
m
.D'aprèsle théorème de Pythagore, le arré de la distan e entre
s
et l'histogrammes
ˆ
m
est la sommed'uneerreur déterministe etd'uneerreur sto hastique :
ks − ˆs
m
k
2
=
ks − s
m
k
2
+
kˆs
m
− s
m
k
2
.
Etant donnéel'expression de
s
ˆ
m
etpuisque les(Y
i
)
1≤i≤n
sont indépendantes, onen déduitladé omposition durisque
E
s
ks − ˆs
m
k
2
=
ks − s
m
k
2
+
1
n
X
I∈m
Vars
(1I
I
(Y
1
))
µ(I)
=
ks − s
m
k
2
+
1
n
X
I∈m
R
I
s 1
−
R
I
s
µ(I)
.
Lepremierterme,appelétermedebiais, orrespondàuneerreurd'approximationparlemodèle
S
m
,et lese ond, appelé termede varian e, à une erreur d'estimation au sein du modèleS
m
.Sous ertaines hypothèsessur
s
,letermedevarian e estexa tementdel'ordre deD
m
/n
.Pluspré isément,on peutmontrer que
ks − s
m
k
2
+
inf
[0,1]
s
D
m
− 1
n
≤ E
s
ks − ˆs
m
k
2
≤ ks − s
m
k
2
+
N (s)
D
m
− 1
n
,
(I.2.2)où
N (s) = 1
si la partition est régulière (par un argument de onvexité) etN (s) = ksk
∞
sinon.L'en adrement i-dessusdonnelieu àplusieurs ommentaires. Anqueletermedebiais
soit faible, il est tentant de onsidérer
S
m
de grande dimension, d'où un terme de varian eélevé. En revan he, si
S
m
est de petite dimension, 'est le terme de biais qui est sus eptibled'êtregrand. Aussi, hoisir un modèle
S
m
pour lequel le risque est faible né essitede réaliserunbon ompromis entre es deuxerreurs, qui, typiquement, varient en sens ontraire lorsque
ladimension de
S
m
roît.SoulignonsquelanaturedumodèleS
m
a également sonimportan epour ontrler letermede biais.Eneet,àdimension xée,unmodèleasso iéàune partition
irrégulière, 'est-à-dire en intervalles de longueurs diérentes, peut présenter une meilleure
mêmesi
s
appartient àunmodèleS
m
′
,auquel aslerisque
E
s
ks − ˆs
m
′
k
2
seréduit àl'erreur
d'estimationdel'ordrede
D
m
′
/n
,ilestparfoispréférablede onsidérerunmodèleappro héS
m
ne ontenant pas
s
.En eet,quitte à introduire une erreur d'approximation, on peut espérergagner en terme de risque en onsidérant un modèle
S
m
pour lequel l'erreur d'estimation estsigni ativement plus faibleque danslevraimodèle
S
m
′
.L'exemple pré édent est en fait tout à fait représentatif d'une situation ourante. Etant
donné un modèle
M
in lus dansS
, un estimateurs
ˆ
M
à valeurs dansM
, et une fon tion deperte
ℓ
, il est fréquent d'obtenir, sinon une dé omposition exa te du risque en une erreurd'approximationetuneerreur d'estimation proportionnelleàladimension de
M
,dumoinsunen adrement du type
C
1
inf
t∈M
ℓ(s, t) +
dim(M )
n
≤ E
s
[ℓ(s, ˆ
s
M
)]
≤ C
2
inf
t∈M
ℓ(s, t) +
dim(M )
n
.
(I.2.3)Diérentes notions de dimension sont envisageables selon la nature de
M
, qui, toutes,per-mettent de mesurer la di ulté à estimer au sein de e modèle. Des majorations du risque
omme dans l'inégalité de droite sont démontrées par exemple pour les estimateurs linéaires
par ondelettes [HKPT98 ℄, les estimateurs par minimum de ontraste [BM93 ; BM98a℄, les
T-estimateurs introduits par Birgé [Bir06a ℄. De même que (I.2.2) , les bornes de risque (I.2.3)
onduisent à her herun modèle
M
réalisant un bon ompromisentreladélitéau vraipara-mètre
s
etladi ulté àestimer ausein de e modèle.I.2.2 Estimation minimax
Pour juger de la performan e d'un estimateur
˜
s
des
, nous adopterons le point de vueminimax, qui onsiste à pro éder de la manière suivante. On hoisit tout d'abord un
sous-ensemble
F
deS
. Typiquement, siS
est un espa e fon tionnel,F
est un sous-ensemble defon tions de
S
présentant la même régularité. Ondénit alors le risque maximal des
˜
pours
appartenant à
F
, i.e.sup
s∈F
E
s
[ℓ(s, ˜
s)]
,quel'on ompare aurisque minimaxsurF
inf
ˆ
s
sup
s∈F
E
s
[ℓ(s, ˆ
s)]
où l'inmum est pris sur l'ensemble des estimateurs
s
ˆ
des
. Comme et inmum n'est pasné essairementatteint etqu'onnediposegénéralement quedebornespour lerisqueminimax,
nous nousxerons pour obje tif de trouver un estimateur
s
˜
approximativement minimax surF
, 'est-à-diretel quesup
s∈F
E
s
[ℓ(s, ˜
s)]
≤ C(F) inf
ˆ
s
sup
s∈F
E
s
[ℓ(s, ˆ
s)] ,
où
C(
F)
estunréelpositifquipeutdépendredeF
maispasden
.Nousren ontreronségalementdesestimateurs minimaxsur
F
à unfa teur logarithmiqueprès, 'est-à-diretels quesup
s∈F
E
s
[ℓ(s, ˜
s)]
≤ C(F) ln
δ
(n) inf
ˆ
s
sup
s∈F
E
s
[ℓ(s, ˆ
s)] ,
pour un ertainδ > 0
.Pourvuquelarégularité deséléments de
F
soit susante,la onstru tion d'unestimateur˜
s
approximativement minimax surF
repose essentiellement surle hoix d'un modèle linéaireadaptéà
F
.Donnons-enunexemple enrevenant auproblème d'estimation dedensité. Fixons0 < α
≤ 1, p ≥ 2, R ≥ 0
etρ > 0
,et notonsL(α, p, R, ρ)
le sous-ensemble deS
omposé desdensités
t
tellesquet
≥ ρ,
t
∈ L
p
([0, 1])
et,pour tout0 < h < 1,
Z
1−h
0
|t(x + h) − t(x)|
p
µ(dx)
1/p
Ainsi,lesélémentsde
L(α, p, R, ρ)
présentent unerégularitélips hitzienne, d'ordreα
,mesuréedans la norme
L
p
.PourD
∈ N
⋆
, notons
m
D
la partition régulière de[0, 1]
enD
intervalles,'est-à-direlapartitionde
[0, 1]
enD
intervallesdemêmelongueur.D'après[DeV98 ℄(inégalité(3.12)),on disposesur
L(α, p, R, ρ)
d'unemajoration uniformedu termedebiais:sup
s∈L(α,p,R,ρ)
ks − s
m
D
k
2
≤ CR
2
D
−2α
.
(I.2.5)
Ildé oule alors de lamajoration donnéeen(I.2.2) que
sup
s∈L(α,p,R,ρ)
E
s
ks − ˆs
m
k
2
≤ C
R
2
D
−2α
+
D
n
.
Pour réaliser approximativement lemeilleur ompromis entre le terme de biais
R
2
D
−2α
etle
terme de varian e, il sut de hoisir
D
le plus grand possible tel queD/n
≤ R
2
D
−2α
. Si
nR
2
≥ 1
, on peut dénir
D
♦
plus grand entier non nul inférieur ou égal à(nR
2
)
1/(1+2α)
ethoisir lapartition régulière
m
♦
enD
♦
intervalles. Onobtient alorssup
s∈L(α,p,R,ρ)
E
s
ks − ˆs
m
♦
k
2
≤ C(α)(Rn
−α
)
2/(1+2α)
.
Or on dispose de la minoration suivante du risque minimax sur
L(α, p, R, ρ)
, déduite parexemplede [Mas07℄(Proposition7.16),
inf
ˆ
s
s∈L(α,p,R,ρ)
sup
E
s
ks − ˆsk
2
≥ C(α, p, ρ)(Rn
−α
)
2/(1+2α)
,
(I.2.6) pourvu quen
−1/2
≤ R ≤ n
α
.Aussi, pourn
−1/2
≤ R ≤ n
α
,l'histogrammeˆ
s
m
♦
estun exempled'estimateur approximativement minimaxsur
L(α, p, R, ρ)
.I.2.3 Adaptation au sens minimax et inégalité d'ora le
Unin onvénient de l'estimateur
s
ˆ
m
♦
pré édemment déniestquele hoixdem
♦
né essitela onnaissan e d'un paramètre
(α, R)
tel que pour un ertainp
≥ 2
et un ertainρ > 0
,s
∈ L(α, p, R, ρ)
.Ils'agitlàd'une onditionassezrestri tiveetpeuréaliste.Deplus,quandbienmême untel paramètre serait onnu, ilest possibleque
s
appartienne également à l'ensembleL(α
′
, p
′
, R, ρ)
ave
α
′
> α
,
p
′
≥ 2
.Autrement dit,
s
peut présenterune régularitéplus grande,éventuellement mesurée dans une norme
L
p
′
plus faible que la normeL
p
au sens oùp
′
≤ p
( f. paragraphe I.3 i-dessous). Si l'histogramme onstruit sur la partition
m
♦
(α
′
, R)
atteint
bienapproximativement lerisqueminimaxsur
L(α
′
, p
′
, R, ρ)
,del'ordrede
(Rn
−α
′
)
2/(1+2α
′
)
,lapartition
m
♦
(α, R)
n'estquantàelleplusadaptéed'unpointdevueminimax.Eneet,pourvuque
R
≥ 2
(α+1/2)
n
−1/2
,ilrésultede laminoration donnée en(I.2.2) que
sup
s∈L(α
′
,p
′
,R,ρ)
E
s
ks − ˆs
m
♦
(α,R)
k
2
≥ ρ
D
♦
− 1
n
≥ C(α, ρ)(Rn
−α
)
2/(1+2α)
,
desorteque
sup
s∈L(α
′
,p
′
,R,ρ)
E
s
ks − ˆs
m
♦
(α,R)
k
2
/ inf
ˆ
s
sup
s∈L(α
′
,p
′
,R,ρ)
E
s
ks − ˆsk
2
estminoréparunefon tionnonbornéede
n
.Ilseraitdon souhaitablede onstruireunestimateurdes
quisoit approximativement minimax sur ha un des ensembles
L(α, p, R, ρ)
pour un large hoixde valeurs de
(α, p, R, ρ)
. Aussi, nous nous intéresserons essentiellement dans la suite à desestimateurs dits adaptatifs au sens minimax, 'est-à-dire simultanément approximativement
minimax sur ha un des éléments d'une famille
{F
θ
, θ
∈ Θ}
de sous-ensembles deS
hoisiea priori. De tels estimateurs ont l'avantage d'être presque aussi performants que si tous les
estimateuradaptatif ausensminimaxreposesurunepro édure deséle tion parmiune famille
d'estimateurs approximativement minimax sur diérentes lasses de fon tions. Etant donnée
une telle famille d'estimateurs
{ˆs
m
}
m∈M
, il sut de onstruire un estimateurs
˜
vériant uneinégalité dela forme
E
s
[ℓ(s, ˜
s)]
≤ C inf
m∈M
E
s
[ℓ(s, ˆ
s
m
)] .
(I.2.7)Cetype d'inégalitéestappelé inégalité d'ora le, pour reprendrelaterminologie introduite par
DonohoetJohnstone[DJ94b ℄.Pourvuqu'ondisposedemajorationsdutype(I.2.3)pour haque
estimateurde la olle tion, unetelle inégalité sut àassurerque
˜
s
réaliseapproximativementlemeilleur ompromisbiais-varian e parmiles estimateurs dela olle tion, d'oùses propriétés
d'adaptation ausens minimax.
I.2.4 Adaptation spatiale et non-linéarité
Le le teur attentif auranoté que, dansl'exemple desparagraphes I.2.2 etI.2.3,nous nous
sommes limités à
p
≥ 2
. Supposons maintenant1
≤ p < 2
, etα > 1/p
− 1/2
de telle sorteque l'ensemble
L(α, p, R)
des fon tions vériant la ondition (I.2.4) est un sous-ensemble deL
2
([0, 1])
.Pours
∈ L
2
([0, 1])
etM
sous-espa eve toriel deL
2
([0, 1])
, notonss
M
la proje tionorthogonalede
s
surM
.D'après[LGM96 ℄ (Chapitre 14, Théorème 1.1),pour toutD
∈ N
⋆
ettoutsous-espa eve toriel
M
deL
2
([0, 1])
de dimensionD
,sup
s∈L(α,p,R)
ks − s
M
k
2
≥ C(α, p)R
2
D
−2(α+1/2−1/p)
,
(I.2.8) de sortequesup
s∈L(α,p,R)
ks − s
M
k
2
+
D
n
≥ C(α, p)
Rn
−(α+1/2−1/p)
1/(α+1−1/p)
,
(I.2.9)où la se onde inégalité est obtenue par minimisation sur
D
. Compte tenu de laminora-tion(I.2.2), on ne peutguère espérer onstruire unseul histogramme,ni même unestimateur
basésurunseul modèlelinéairededimension nie,dontlerisquequadratiqueintégréatteigne
approximativement sur
L(α, p, R, ρ)
lavitesse(Rn
−α
)
1/(1+2α)
.Comme suggérépar la
minora-tion (I.2.8) i-dessus, ela tient essentiellement aux limites de l'approximation par un modèle
linéaire.Lafon tiondeperte onsidéréeétantlaperte
L
2
,onditdesfon tionsdontlarégularitéest mesurée dans une norme
L
p
avep < 2
qu'elles présentent une régularité non homogène.Cette dénition vaut également pour un risque mesuré dans une norme
L
q
et une régularitémesurée dansune norme
L
p
avep < q
.Nous donnerons dansle paragraphe I.3desexemplesillustrant la pertinen e de e terme. Dans divers adres statistiques, des résultats établissent
rigoureusement sur de telles lasses de fon tions la sous-optimalité des estimateurs linéaires,
dontfontpartielesestimateursbaséssurunmodèlelinéaireusuelstelsquel'histogramme(voir
par exemple [DJKP96℄en densité ou [DJ98 ℄ en régression pour une borneinférieure similaire
à (I.2.9) ).Nous dirons d'un estimateur qu'il s'adapte spatialement s'il s'adapteau sens
mini-max surune famille de sous-ensembles de
S
ontenant notamment desfon tions derégulariténon homogène. De manière générale, la onstru tion d'un estimateur spatialement adaptatif
repose essentiellement sur deux ingrédients : une inégalité d'ora le telleque (I.2.7) et un peu
de non-linéarité.Par non-linéarité, nousentendons typiquement la possibilité de hoisir, à
di-mensionxée,entreplusieursmodèleslinéairesdemême dimension.Nousverrons parexemple
auparagrapheI.5qu'àdimension
D
xée,onsait onstruireunefamillenieM
D
departitionsde
[0, 1]
enD
intervalles, éventuellement irrégulières, possédant les qualités d'approximationadéquates.Eneet, haquefamille
M
D
permetderetrouverunemajorationuniformedubiaissurla lasse
L(α, p, R, ρ)
,de laformesup
s∈L(α,p,R,ρ)
inf
m∈M
D
ks − s
pour
p < 2
etα > 1/p
− 1/2
ommepourp
≥ 2
etα > 0
.Contrairement à (I.2.5) , quireposeuniquement surlemodèlelinéaire
S
m
D
, ette majoration faitintervenir lemodèlenon-linéaire∪
m∈M
D
S
m
.Puis en hoisissantD
♦
(α, R)
omme au paragraphe I.2.2,on endéduit quesup
s∈L(α,p,R,ρ)
inf
m∈M
D♦
E
s
ks − ˆs
m
k
2
≤ C(α, p)(Rn
−α
)
2/(1+2α)
pourvuqueR
≥ n
−1/2
.Par onséquent,sil'onsait onstruireunestimateur
s
˜
vériantl'inéga-lité d'ora le
E
s
ks − ˜sk
2
≤ C inf
m∈M
E
s
ks − ˆs
m
k
2
où
M = ∪
D∈N
⋆
M
D
,alors˜
s
vérie également, pour tout(α, p)
tel quep < 2
etα > 1/p
− 1/2
oup
≥ 2
etα > 0
,ettoutn
−1/2
≤ R ≤ n
α
,sup
s∈L(α,p,R,ρ)
E
s
ks − ˜sk
2
≤ C
sup
s∈L(α,p,R,ρ)
inf
m∈M
D♦ (α,R)
E
s
ks − ˆs
m
k
2
≤ C(α, p)(Rn
−α
)
2/(1+2α)
.
La minoration (I.2.6) étant toujours valable pour les valeurs de
α, p, R
onsidérées i i, etestimateur
s
˜
s'adaptedon spatialement.I.3 Quelques lasses de régularité usuelles
Rappelons tout d'abord ladénition des espa es de Besov etdes fon tions à
α
-variationsbornées.Soient
α > 0
,0 < p, q
≤ ∞
etr =
⌊α⌋ + 1
,où⌊α⌋
estleplus petit entier inférieur ouégalà
α
.Pourt
∈ L
p
([0, 1])
,on dénitles diéren esd'ordrer
∆
r
h
(t, x) =
r
X
k=0
r
k
(
−1)
r−k
t(x + kh),
pourh
≥ 0
et0
≤ x ≤ 1 − rh
etlemodulede ontinuité d'ordre
r
ω
r
(t, y)
p
=
sup
0<h≤y
R
0
1−rh
|∆
r
h
(t, x)
|
p
µ(dx)
1/p
si0 < p <
∞
sup
0<h≤y
sup
0≤x≤1−rh
|∆
r
h
(t, x)
|
sip =
∞
ensupposantde plus
t
ontinue sur[0, 1]
lorsquep =
∞.
L'espa e deBesovB
α
q
(L
p
([0, 1]))
estl'ensemble desfon tions
t
∈ L
p
([0, 1])
telles que|t|
B
α
q
(L
p
([0,1]))
=
R
∞
0
(y
−α
ω
r
(t, y)
p
)
q µ(dy)
y
1/q
si0 < q <
∞
sup
y>0
y
−α
ω
r
(t, y)
p
siq =
∞
estnie, etl'onpose
ktk
B
α
q
(L
p
([0,1]))
=
ktk
p
+
|t|
B
α
q
(L
p
([0,1]))
.
On notera que, pour
0 < α < 1
,B
α
∞
(L
p
([0, 1]))
n'est autre que l'ensemble des fon tionsvériant la ondition de Lips hitz (I.2.4) . Lespropriétés de es espa es qui nousseront utiles
sontregroupéesdanslaproposition i-dessous,etdémontréespar exempledans[DeV98 ;Tri83 ℄.
Proposition 1 Soient
α > 0
,0 < p, q
≤ ∞
etr =
⌊α⌋ + 1.
i)
Si1
≤ p, q ≤ ∞
,k.k
B
α
q
(L
p
([0,1]))
est une norme, et une quasi-norme sinon, l'inégalitéii)
En remplaçantω
r
parω
k
avek > r
, on obtient une (quasi-)norme équivalente surB
α
q
(L
p
([0, 1]))
.iii)
Siα
1
< α
2
, alors quels que soient0 < q
1
, q
2
≤ ∞,
ktk
B
α1
q1
(L
p
([0,1]))
≤ C(α
1
, α
2
, q
1
, q
2
)
ktk
B
α2
q2
(L
p
([0,1]))
.
iv)
Àα
etp
xés,et pourtoutq > 0,
|t|
B
α
∞
(L
p
([0,1]))
≤ C(α, p, q)|t|
B
α
q
(L
p
([0,1]))
.
v)
Siα > max
{1/p − 1/2, 0}
, alorsB
α
q
(L
p
([0, 1]))
est in lus dansL
2
([0, 1])
etktk ≤ C(α, p, q)ktk
B
α
q
(L
p
([0,1]))
.
vi)
Siα > 1/p
, les fon tions deB
α
q
(L
p
([0, 1]))
sont ontinues, etktk
∞
≤ C(α, p, q)ktk
B
α
q
(L
p
([0,1]))
.
Lesfon tionsdeB
α
q
(L
p
([0, 1]))
présentent unerégularité d'ordreα
,mesuréedanslanormeL
p
.Le paramètre
q
n'est qu'un paramètre se ondaire,d'après les pointsiii)
etiv)
i-dessus, etlapropriété
iv)
justiel'intérêt portéà l'espa eB
α
q
(L
p
([0, 1]))
pourq =
∞
.Il existeessentielle-ment deuxmanières degénéraliser ladénitiondesespa esde Besovàdesfon tions àvaleurs
réelles dénies sur
[0, 1]
d
,
d
≥ 2
,selon que l'on autorise la régularité de lafon tion à hangerselon la dire tion (espa e de Besov anisotrope) ou non (espa e de Besov isotrope). Ainsi, en
adoptant par exemple la dénition de [Tri06 ℄, un espa e de Besov anisotrope est ara térisé
parladonnéed'un
d
-upletde réelsstri tementpositifsα
= (α
1
, . . . , α
d
)
,α
i
indiquant ledegréde régularité dans la
i
e
dire tion, d'un paramètre
p
indiquant la normeL
p
dans laquelle larégularité est mesurée, etd'un paramètre se ondaire
q
. Pour0 < α
≤ 1
,l'espa eBV (α)
desfon tionsà
α
-variations bornéesest l'ensembledesfon tionst : [0, 1]
→ R
tellesqueV
α
(t) = sup
i≥1
sup
0≤x
0
<...<x
i
≤1
i
X
j=1
|t(x
j
)
− t(x
j−1
)
|
1/α
α
est nie. Cette é helle de régularité est liée à l'é helle des espa es de Besov par la propriété
suivante( f.[Pee76 ℄, Théorème 7).
Proposition 2 Pour tout
0 < α
≤ 1
,C
1
(α)
|.|
B
α
∞
(L
1/α
([0,1]))
≤ V
α
(.)
≤ C
2
(α)
|.|
B
α
1
(L
1/α
([0,1]))
.
L'é helle desespa es de Besov et des fon tionsà
α
-variations bornées ontient la plupartdesé hellesde régularité lassiques.Ainsi, pour
α
∈ N
⋆
,B
α
p
(L
p
([0, 1]))
ontient l'espa ede SobolevW
α
(L
p
([0, 1]))
desfon tionsadmettantα
dérivées dansL
p
.L'espa edesfon tionsα
-hölderiennes n'est autreque
B
α
∞
(L
∞
([0, 1]))
. Par ailleurs, pour tout0 < α
≤ 1
,toute fon tiononstante par mor eauxettoute fon tion
α
-höldérienne appartiennent àBV (α)
.Supposons maintenant que l'on mesure la qualité d'approximation d'une fon tion via la
norme
L
2
.Parmi les espa esde fon tionspré édemment ités,les espa esde Hölder dé riventune régularité homogène, de même que les espa es de de Besov
B
α
q
(L
p
([0, 1]))
avep
≥ 2
ouBV (α)
aveα
≤ 1/2
( ompte-tenudelaProposition2).Enrevan he,lesespa esB
α
q
(L
p
([0, 1]))
avep < 2
ouBV (α)
ave1/2 < α
≤ 1
dé rivent unerégularité non-homogène.Donnons deuxprésentant unnombrenide dis ontinuités ethöldérienne d'ordre
σ > 0
entre esdis ontinui-tés,appartient àtous lesespa es
B
α
q
(L
p
([0, 1]))
, pourvuqueα < min
{σ, 1/p}
et1
≤ p, q ≤ ∞
( f. [Ren99 ℄ Lemme 2.2 ou [Mal98℄ Proposition 9.4). En parti ulier, l'indi e de régularité
α
peut prendre des valeurs d'autant plus grandes que le paramètre
p
est petit. Par ailleurs, enpratique,l'espa e
BV (1)
desfon tions à variations bornées, ou son analogue en dimension 2,est ouramment utiliséen théoriedu signaletde l'image.
I.4 Séle tion de modèle
Présentons maintenant le prin ipe de séle tion de modèle introduit par Birgé et
Mas-sart [BM97 ℄, qui sera utilisé pour onstruire les estimateurs étudiés dans ette thèse. Nous
abordonségalementdans ettepartie laquestiondu hoixde la olle tiondemodèleset
dé ri-vonsles olle tions de modèles usuelles.
I.4.1 Prin ipe et obje tif
La pro édure de séle tion de modèle de [BM97℄ peut être dé rite de la manière suivante.
On sedonne une famille nie de modèles appro hés
{S
m
}
m∈M
in lus dansS
, oùM
dépendéventuellement de
n
,et l'on hoisit un ontrasteγ
, 'est-à-dire une fon tion mesurable deY
telle que
t
7→ E
s
[γ(t)]
admette un minimum surS
ens
. La perte onsidérée est la fon tionℓ :
S × S −→ R
+
telle que
ℓ(s, t) = E
s
[γ(t)
− γ(s)]
. Puis on dénit sur haque modèle unestimateur
s
ˆ
m
obtenu par minimisation du ontrasteγ
surS
m
.L'idéal seraitalors de hoisir,parmilafamille
{S
m
, m
∈ M}
,lemodèleS
m
or
pourlequel lerisquede l'estimateurasso iéestminimal, 'est-à-dire telque
E
s
[ℓ(s, ˆ
s
m
or
)] = min
m∈M
E
s
[ℓ(s, ˆ
s
m
)] .
Cemodèleidéal
S
m
or
,malheureusementimpossibleàdéterminerpuisqu'ildépendduparamètres
in onnu, sera baptisé ora le. L'idée onsiste alors à hoisir un modèle en se basant sur lesdonnées.Pour ela,onsedonne unefon tionpen
:
M → R
+
,appelée pénalité,eton onsidère
lapro édurede séle tion aléatoire,dépendant de
Y
,ˆ
m =
argminm∈M
{γ(ˆs
m
) +
pen(m)
} .
Puison dénit˜
s = ˆ
s
m
ˆ
,
(I.4.11)appelé estimateur pénalisé, qui n'est plus un estimateurde la olle tion
{ˆs
m
}
m∈M
puisquelemodèle
m
ˆ
séle tionnépeut hangerselonlesdonnées.L'obje tifestdedéterminerune pénalitétellequelerisque de
˜
s
soitpro he durisque de l'ora le, 'est-à-dire vériel'inégalité d'ora leE
s
[ℓ(s, ˜
s)]
≤ C inf
m∈M
E
s
[ℓ(s, ˆ
s
m
)] ,
qualiéedenonasymptotiquepuisque
n
estxéetquel onque.Soulignonsqu'unetelleinégalitéassure sans au une hypothèse de régularité sur la fon tion
s
que l'estimateur pénalisés
˜
estpresqueaussi bon que le meilleur estimateur de
s
parmi la olle tion{ˆs
m
}
m∈M
.Par ailleurs,ommeexpliquéauparagrapheI.2,uneinégalitéd'ora leestunoutilfortutilepourdémontrer
que, sous ertaines hypothèses de régularité et pourvu que la olle tion de modèles soit bien
hoisie, l'estimateur
˜
s
s'adapteégalement au sens minimax.Envuedeprouveruneinégalitéd'ora le,ondémontretoutd'abordunthéorèmedeséle tion
meilleur ompromis biais-varian e parmi les estimateurs de la olle tion. Typiquement, une
pénalité onvenable est telle que pen
(m)
se omporte omme une erreur d'estimation au seindu modèle
S
m
, 'est-à-dire roît ave la dimension du modèle. Ce genre de théorème reposeessentiellementsurdesinégalitésde on entrationpourlesupremumd'unpro essusempirique
inspiréesdel'inégalité de Talagrand [Tal96℄.Donnons unexemple dethéorème deséle tion de
modèlesdansle adrederégressiondé ritauparagrapheI.1. Soit
S
l'ensembledesfon tionsàvaleurs réellesdénies sur
[0, 1]
,munide lasemi-normek.k
n
dénieparktk
2
n
=
1
n
n
X
i=1
t
2
(x
i
).
On onsidèrele ontrasteγ(t) =
1
n
n
X
i=1
(Y
i
− t(x
i
))
2
(I.4.12)asso ié àlafontionde perte
ℓ(s, t) =
ks − tk
2
n
.
Etant donnéeune famille nie
{S
m
, m
∈ M}
de sous-espa esve toriels deS
,on dénit,pourtout
m
∈ M
,ˆ
s
m
=
argmint∈S
m
γ(t)
oùγ
estdonné par (I.4.12) ,puis˜
s
omme en (I.4.11). Lethéorèmesuivant estune versionextrêmement simpliéedu Théorème 2de[BM01 ℄, démontré
dansun adre gaussienbeau oupplusgénéral.
Théorème 1 On onsidère le adre derégression déniauparagraphe I.1.Soit
{S
m
, m
∈ M}
unefamilleniedesous-espa esve torielsde
S
dedimensionnie.Soit{L
m
}
m∈M
unefamillederéels positifs tels que
Σ :=
X
m∈M
exp(
−D
m
L
m
)
≤ 1,
(I.4.13)où
D
m
= dim(S
m
)
. Si la pénalité est de la forme pen(m) = σ
2
(k
1
+ k
2
L
m
)
D
m
n
,
où
k
1
, k
2
sontdes réels positifssusamment grands, alors l'estimateurpénalisé˜
s
vérieE
s
ks − ˜sk
2
n
≤ C(k
1
, k
2
)
min
m∈M
d
2
n
(s, S
m
) + σ
2
(1 + L
m
)
D
m
n
+
1
n
,
oùd
n
(s, S
m
) = inf
t∈S
m
ks − tk
n
.
Par ailleurs, sur haquemodèle, lerisque quadratiqueasso iéàlaperte
k.k
n
admet ladé om-position biais-varian e
E
s
ks − ˆs
m
k
2
n
= d
2
n
(s, S
m
) + σ
2
D
m
n
.
Sousleshypothèsesdu Théorème 1,onobtient don l'inégalité
E
s
ks − ˜sk
2
n
≤ C
1
(k
1
, k
2
)
1 + max
m∈M
L
m
min
m∈M
E
s
ks − ˆs
m
k
2
n
+
C
2
(k
1
, k
2
)
n
.
(I.4.14)Il s'agit bien là d'une inégalité d'ora le, à un reste près
C
2
(k
1
, k
2
)/n
qui devient négligeabledèsque
n
est susamment grand, etàun fa teurprès :1 + max
m∈M
L
m
.Il existe d'autres pro édures de séle tion de modèle, dont l'obje tif est toujours d'établir
uneinégalité detype ora le,maisave unerègle deséle tion diérente. Birgé[Bir06a ℄propose
par exemple de séle tionner lemeilleur modèle par une pro édure de testsmultiples entre les
I.4.2 Choix de la famille de modèles
Le hoix d'une famille de modèles doit notamment prendre en ompte les éléments
sui-vants. Reprenons l'exemple delarégression i-dessus.An d'interpréter la ontrainte (I.4.13) ,
dé omposons lafamille demodèles ensous-familles de modèles demême dimension
M
D
=
{m ∈ M
t.q.D
m
= D
},
pourD
∈ N
⋆
.
Choisissonsdespoids
{L
m
}
m∈M
quine dépendentdu modèlequevia sadimension etnotons,pour tout
D
∈ N
⋆
et
m
∈ M
D
, L
m
= L(D)
. Nouspouvonsalors réé rireΣ
ommela somme,niepar hypothèse sur
M
,Σ =
X
D∈N
⋆
exp
− D
L(D)
− D
−1
ln
+
(
|M
D
|)
,
où
ln
+
(x) = ln(x)
pourx
≥ 1
etln
+
(0) = 0
.Pourquela ondition(I.4.13)soitréalisée,ilsutque,pour tout
D
∈ N
⋆
,
L(D)
≥ D
−1
ln
+
(
|M
D
|) + ln 2.
Aussi,pourobteniruneinégalitéd'ora le, ilsutquelenombredemodèlespar dimensionsoit
sous-exponentiel, autrement dit qu'il existe une onstante absolue
κ > 0
telle que, pour toutD
∈ N
⋆
,|M
D
| ≤ κ
D
.
(I.4.15)Eneet,un hoixde poids onvenable estalors
L(D) = ln(2κ),
pour toutD
∈ N
⋆
.
Demanièregénérale,laquantité
sup
D∈N
⋆
D
−1
ln
+
(
|M
D
|)
peutêtre onsidérée ommeunindi ede omplexitédela olle tiondemodèles,pourreprendreuntermedéjàemployédans[BBM99℄
ou [Bir06b ℄ par exemple. Plus et indi e est élevé, et plus la olle tion est omplexe. Nous
dirons d'une olle tion de modèles qu'elle présente une omplexité sous-exponentielle si la
ondition(I.4.15)estvériée.Con ernant maintenant laqualitéd'estimation de
s
˜
surunsous-ensemble
F
donné deS
,on déduitde lamajoration (I.4.14)quesup
s∈F
E
s
ks − ˜sk
2
n
≤ C
1
(k
1
, k
2
) inf
D∈N
⋆
sup
s∈F
inf
m∈M
D
d
2
n
(s, S
m
) + σ
2
(1 + L(D))
D
n
+
C
2
(k
1
, k
2
)
n
.
Cettebornesupérieurenousinvitedon à onsidérer une famillede modèlesà lafois
susam-ment ri he, 'est-à-dire ontenant susamment de représentants de haque dimension pour
bien ontrler, à
D
xé, les erreurs d'approximation, maispas trop omplexe, an de ne pastrop inuer sur la taille des poids. C'est le rle de la théorie de l'approximation de proposer
desfamillesde modèles réalisant unbon ompromisentre omplexité etqualité
d'approxima-tion. Nousreviendronssur es questionsauxparagraphesI.4.3 etI.5.Enn, soulignons quela
omplexité algorithmique liée au al ul des estimateurs de la olle tion impose également en
pratiquedeslimites surlenombre de modèles.
I.4.3 Colle tions de modèles usuelles
Dé rivonsles olle tionsdemodèlesusuellespermettantd'obtenirdesrésultatsd'adaptation
enestimationfon tionnelle. Ellessont liéesàdeuxtypesd'approximation :approximation par
des polynmes par mor eaux ou approximation de ertains termes de la dé omposition dans
unebaseorthonormée de
L
2
([0, 1])
.Toutes es olle tionssont desfamillesnies{S
m
}
m∈M
deplus
n
ontenanttouslesautres modèles delafamille.Ondésigne parD
m
ladimension deS
m
et, ommedansleparagraphe pré édent,par
M
D
lasous-familledesmodèlesdedimensionD
.Colle tions demodèles réguliers. Ces olle tions vérient aumoins
une hypothèse sur le nombre de modèles de même dimension, satisfaite typiquement
lorsque elui- iestaupluspolynomial, 'est-à-direlorsqu'ilexiste une onstanteabsolue
κ
telle que|M
D
| ≤ D
κ
;
une hypothèse liant les normes
L
2
etL
∞
sur es modèles, qui assure l'existen e d'uneonstante absolue
Φ > 0
tellequepour toutm
∈ M
ettoutt
∈ S
m
,ktk
∞
≤ Φ
p
D
m
ktk.
Les modèles de polynmes par mor eaux onstruits sur les partitions régulières de
[0, 1]
,no-tamment, sont des modèles réguliers. La omplexité de es olle tions est a fortiori
sous-exponentielle.Cependant,touslesexemples onnusnepossèdentdebonnesqualités
d'approxi-mationquepour desfon tionsderégularitéhomogène. Par ailleurs, ommeil n'yaen général
qu'un seul modèle par dimension, déterminer tous les estimateurs de la olle tion puis
l'esti-mateurpénalisénerequiertqu'une omplexitéalgorithmiquelinéaireen
n
.NousrenvoyonsparexempleàBaraud[Bar00 ℄,Castellan[Cas00 ;Cas03 ℄,[BM97 ;Mas07℄,ainsiqu'àlabibliographie
de FabienneComte pour desrésultatsde séle tion parmi desmodèles réguliersgénéraux dans
diérents adres statistiques.
Colle tion de polynmes par mor eaux onstruits sur une grilledyadique. On sexe deux
entiersnaturels
r
etJ
⋆
,ave2
J
⋆
≤ n
.Ondénit
M
ommel'ensembledespartitions onstruitessur la partition régulière de
[0, 1]
en2
J
⋆
intervalles, 'est-à-dire l'ensemble des partitions en
intervalles de laforme
[k2
−J
⋆
, l2
−J
⋆
]
,où
k, l
sont desentiers,0
≤ k < l ≤ 2
J
⋆
.
Chaquemodèle
S
m
est alors dé rit omme l'espa e des fon tionspolynomiales de degré au plusr
sur haqueintervalle de lapartition
m
.Construireune partition dem
enD
intervalles équivaut à hoisirD
− 1
pointssur lagrille{k2
−J
⋆
; k = 1, . . . , 2
J
⋆
− 1}
,de sorte que|M
D
| =
2
J
⋆
− 1
D
− 1
≤
e2
J
⋆
D
D
≤ (en)
D
,
où la majoration résulte par exemple de [Mas07 ℄ (Proposition 2.5). La omplexité de ette
olle tionn'est plussous-exponentielle au sensutilisé dansleparagraphe pré édent puisquela
onstante
κ
est i i rempla ée paren
, e qui in ite par exemple à hoisir des poids onstantségaux
ln(2en)
. Onn'obtient don ave ette olle tion que des inégalités de type ora le à unfa teur
ln(n)
près. Onpourra pour ela onsulter par exemple [BM97;BBM99;Cas00 ;Cas03 ;RB03;Sau02 ℄. Cependant, à
D
xé, lesmodèles dedimensionD
possèdent debonnes qualitésd'approximationrelativementà ertainesfon tionsderégularitééventuellementnonhomogène,
telles que les fon tions à
α
-variations bornées ( f. [BBM99 ℄, Corollaire 1). Cette olle tionpermet don d'obtenir unestimateur spatialement adaptatif, souvent à un fa teur
ln(n)
près.Un estimateurpénalisébasésur ette olle tion etun ontraste detype moindres arrésaété
implémenté par E. Lebarbier [Leb02 ℄ dans le adre de régression dé ritau paragraphe I.1. Il
né essite
O(n
3
)
al ulspar un algorithmede programmation dynamiqueet pour une pénalité
bien hoisie.
Colle tiondepolynmesparmor eaux onstruitssurdespartitionsobtenuesparl'algorithme
CART. Lapro édureClassi ationAndRegressionTrees(CART)deBreimanetal.[BFOS84℄
peut êtreprésentée ommeune pro édurede séle tion de modèleen adoptant lepoint de vue
de Gey et Lebarbier [GL08 ℄ ou Lebarbier et Nédéle [LN07 ℄. Nous dirons dans la suite d'un
toutessesfeuillessontàlamêmedistan edelara ine.Plaçons-nouspar exempledansle adre
derégressionduProblème2,ave
0 = x
1
< . . . < x
n
= 1
.LapremièreétapedeCART onsisteà onstruire un arbre binaire parfait de ra ine
{x
1
, . . . , x
n
}
, dont haque noeud est ensuiteobtenu par partitionnement ré ursif, en minimisant un ritère lo al basé sur les données. On
onsidèrealors la olle tionde toutes les partitionsde
{x
1
, . . . , x
n
}
orrespondant aux feuillesd'unquel onquesous-arbre binaire ompletobtenuparélagage de etarbrebinaireparfait.La
deuxièmeétapedeCART orrespondenfaitàlaséle tiond'unemeilleurepartitionparmi ette
olle tionen utilisantun ritère pénalisé. Commelerappellent parexemple [GL08 ℄,lenombre
d'arbresbinaires omplets à
D
feuilles,D
∈ N
⋆
,ainsi onstruits n'est autre que lenombre de
Catalan
1
D
2(D
− 1)
D
− 1
≤ 4
D
.
Aussi, la omplexité de ette olle tion de partitions est sous-exponentielle. Par ailleurs, la
omplexitéalgorithmiquedelapro éduredeséle tiond'unemeilleurepartitionpeut,seréduit
à
O(n ln(n))
al ulsdanslemeilleurdes as( f.[GL08 ℄).Cependant,lefaitque ette olle tiondepartitionsdépende,par onstru tion,desdonnées, rendsonétudedi iled'unpointdevue
théorique.Enpartageantl'é hantillon,demanièreàutiliserunepartiedesdonnéespourl'étape
de onstru tion, etl'autre pour l'étape de séle tion, il est possible d'obtenir des inégalités de
typeora le, mais onditionnellement au premier é hantillon. Nous renvoyons à[GN05; Sau02 ℄
enrégressionetà[LN07 ℄enestimationdeloidis rètepour etypederésultats.Cependant,les
qualitésd'approximation de ette olle tion departitionsaléatoire demeurent in onnues,d'où
l'absen ede résultat d'adaptation.
Colle tion exhaustive des espa es engendrés par les sous-ensembles d'un système
ortho-normé.Etant donnéeunefamille orthonormale
{φ
λ
}
λ∈Λ
deL
2
([0, 1])
,ave|Λ|
auplusd'ordren
, on onsidère la familleM
de tous les sous-ensembles deΛ
. Chaque modèleS
m
est alorsdéni omme l'espa e ve toriel engendré par les
{φ
λ
}
λ∈m
. On vérie aisément que etteol-le tiona lamême omplexité quela olle tionde polynmespar mor eaux onstruitssur une
grille dyadique. Les qualités d'approximation et don d'adaptation dépendent du hoix de la
base.Nous renvoyons par exemple à [BM97 ;BM01 ; Mas07 ℄pour desrésultats danslemodèle
gaussienou lemodèlede densité.
Colle tiondemodèlesd'ondelettesinspiréedel'algorithmede ompressiondeBirgéet
Mas-sart[BM00℄.Nousemploieronspar lasuite l'expressionstratégie Birgé-Massart pour faire
référen e au hoix de ette olle tion. Soit
{φ
λ
}
λ∈Λ
une base d'ondelettes orthonormale deL
2
([0, 1])
.Dans ette base, ilest d'usage d'é rire ladé omposition des
par blo ss =
X
j≥−1
X
λ∈Λ(j)
β
λ
φ
λ
,
où
Λ =
∪
j≥−1
Λ(j)
, aveΛ(
−1)
ensemble ni et, pourj
≥ 0
,|Λ(j)|
de l'ordre de2
j
. Pour
J
≥ −1
,lesJ + 1
premiers blo sJ−1
X
j=−1
X
λ∈Λ(j)
β
λ
φ
λ
donnentuneapproximationde
s
àlarésolution2
−J
.Pourvuque
J
soitassezgrand,unefon tions
globalement régulière ave quelques singularités isolées peut être dèlement re onstruite enrajoutantà etteapproximationgrossière ertainsdétails perçusgrâ eauxrésolutionsplus
nes, 'est-à-direquelques termes
β
λ
φ
λ
orrespondant aux niveaux de résolutionΛ(j), j
≥ J
.Notonsdenouveau
J
⋆
unentier naturel xéa priori telque2
J
⋆
≤ n
.La olle tionde modèles
M
despartiesdeΛ
de laformem =
"
J−1
[
j=−1
Λ(j)
#
∪
"
J
⋆
−J−1
[
k=0
Λ
′
(J + k)
#
oùΛ
′
(J + k)
est un sous-ensemble quel onque de
Λ(J + k)
de ardinal⌊2
J
/(k + 1)
3
⌋
,
l'en-tier
J
étant autorisé à varier entre0
etJ
⋆
− 1
. ChaqueS
m
est alors déni omme l'espa eve toriel engendré par les
{φ
λ
}
λ∈m
. Non seulement ette olle tion ne ompte qu'un nombresous-exponentieldemodèlesdemêmedimension(voirparexemple[Mas07 ℄,paragraphe4.3.5),
maisenplus elle disposedesqualités d'approximations adéquates ennorme
L
q
pour desfon -tionsprésentantunerégularitédetypeBesov,homogèneounon, ommedémontrépar Birgéet
Massart[BM00 ℄.Parailleurs,l'implémentationdel'estimateurpénalisébasésur ette olle tion
etun ontrastedetypemoindres arréspénalisénené essiteque
O(n ln n)
opérations(voirparexemple [DLT09℄). Des inégalités de type ora le ainsi que des résultats d'adaptation ont été
obtenuesgrâ e à e type de olle tiondans diérents adres statistiques :densité[BM97 ℄,
ré-gressionàpasaléatoireave erreurssous-gaussiennes[Bar02 ;BCV01 ℄,intensitéd'unpro essus
de Poisson[RB03℄, modèle gaussiengénéral [Mas07℄, loidis rète [DLT09℄.
I.5 Colle tions de modèles basés sur des partitions en
inter-valles, ubes, re tangles dyadiques
Présentons maintenant les olle tions de modèles auxquelles nous nous intéressons dans
ette thèse. Comme dans le paragraphe pré édent, nous en donnons les prin ipales
ara té-ristiques,fournissant ainsiles premiers élémentsde omparaison ave les autres olle tions de
modèles. Par ailleurs, nous dé rivons les résultats déjà existants à leur sujet en estimation
fon tionnelle, pour la plupart très ré ents, puisqu'obtenus parallèlement à la préparation de
ette thèse.Nousexposeronsdansla partie I.7notre ontribution.
I.5.1 Des ription des olle tions
Soit
J
⋆
un entier xé a priori, dont la valeur dépend du adre statistique. Pourl'estima-tion de fon tions à valeurs réelles dénies sur
[0, 1]
,nous utiliserons des modèles de fon tionsonstantes,voirepolynomiales,parmor eauxsurlespartitionsde
[0, 1]
enintervallesdyadiquesde longueurau moins
2
−J
⋆
.Ce sonttoutes les partitionsen intervalles de laforme
I
(j,0)
= [0, 2
−j
]
où
j
∈ {0, . . . , J
⋆
}
,ouI
(j,k)
=]k2
−j
, (k + 1)2
−j
],
où
j
∈ {1, . . . , J
⋆
}
,k
∈ {0, . . . , 2
j
− 1}
,
j
pouvant varier d'un intervalle àun autre au sein delamême partition. L'ensemble de es partitions peut également être dé rità l'aide de l'arbre
binaire
A
de ra ine(0, 0)
telque pour tout
j
∈ {1, . . . , J
⋆
}
, les noeuds du niveauj
sont indexés par les éléments deΛ(j) =
{(j, k); k = 0, . . . , 2
j
− 1}
; pourtout
j
∈ {1, . . . , J
⋆
}
ettoutk
∈ {0, . . . , 2
j
− 1}
,les bran hesgau heetdroiteissues
dunoeud
(j, k)
onduisentrespe tivement auxnoeuds(j + 1, 2k)
et(j + 1, 2k + 1)
,qu'onappellera lesenfantsdu noeud
(j, k)
.L'ensemble des noeuds de