Risque avec normalisation aléatoire et test adaptatif dans le modèle additif.

(1)

HAL Id: tel-00348271

https://tel.archives-ouvertes.fr/tel-00348271

Submitted on 18 Dec 2008

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

dans le modèle additif.

Fabien Chiabrando

To cite this version:

Fabien Chiabrando. Risque avec normalisation aléatoire et test adaptatif dans le modèle additif..

Mathématiques [math]. Université de Provence - Aix-Marseille I, 2008. Français. �tel-00348271�

(2)

ECOLE DOCTORALE DE MATH´ ´ EMATIQUES ET INFORMATIQUE E.D. 184

TH` ESE

pr´ esent´ ee pour obtenir le grade de

Docteur en Sciences de l’Universit´ e de Provence Sp´ ecialit´ e : Math´ ematiques Appliqu´ ees

par Fabien CHIABRANDO sous la direction du Pr. Oleg Lepski

Titre :

Risque avec normalisation al´ eatoire et test d’additivit´ e

soutenue le 3 Juillet 2008 apr` es avis des rapporteurs : M. Evarist Gin´ e, University of Connecticut

M. Marc Hoffmann, Universit´ e Paris-Est Marne-la-Vall´ ee.

devant le jury compos´ e de : M. Laurent Cavalier, Universit´ e de Provence

M. Yuri Golubev, Universit´ e de Provence

M. Marc Hoffmann, Universit´ e Paris-Est Marne-la-Vall´ ee.

M. Anatoli Iouditski , Universit´ e Joseph Fourier de Grenoble M. Oleg Lepski, Universit´ e de Provence

Mme. Karine Tribouley, Universit´ e Paris 10 Nanterres

(3)

(4)

Je tiens tout d’abord ` a remercier le Professeur Oleg V. Lepski qui a toujours su rendre mes id´ ees plus claires et a ainsi parfaitement encadr´ e ma th` ese au cours de ces trois ann´ ees. Il a ´ egalement su m’orienter vers un sujet de recherche tr` es int´ erressant qui m’a permis d’aborder de pr` es ou de loin de nombreuses th´ ematiques statistiques. Au d´ el` a de son ´ evidente influence sur mes travaux, le cˆ otoyer a grandement ´ eclair´ e mon approche initialement assez na¨ıve de la recherche statistique. Sa grande exp´ erience du domaine, son sens de la p´ edagogie et sa gentillesse n’y sont pas ´ etrangers.

Je remercie sinc` erement les Professeurs Marc Hoffmann et Evarist Gin´ e qui ont pris de leur temps afin de juger ce travail et d’en ˆ etre les rapporteurs.

Je suis ´ egalement tr` es reconnaissant envers les Professeurs Karine Tribouley, Laurent Cavalier, Yuri Golubev et Anatoli Ioudistky pour leur participation au jury.

Mes pens´ ees vont ´ egalement aux autres membres du LATP que j’ai pu cˆ otoy´ e au cours de mon cur- sus universitaire, de mes activit´ es d’enseignements ou de recherche. Je voulais plus particuli` erement saluer Christophe Pouet, Nicolas Klutchnikoff, Amine Asselah, Marie-Th´ er` ese Aimar et Nathalie Bonnifay. Un grand merci ´ egalement ` a Amish Short et Marc Raimondo qui ont particip´ e activement

`

a la relecture de cette th` ese.

Je tenais aussi vivement ` a saluer mes compagnons d’”infortunes” du CIES tous doctorants au CMI William Delobel, Christophe Magnan, Cl´ ement Marteau et Lionel Paris. J’en profite ´ egalement pour saluer Franck Sueur, Bruno Fornet et Michael Chichignou (le Richard Virenque du labo) pour les bons moments r´ ecents ou plus lointains pass´ es ensemble.

Un salut tout particulier aux membres permananents des bureaux ”Gregory Coupet” R231 puis R113. Cette simple relation entre coll` egue de travail a laiss´ e place au fil des ann´ ees ` a une v´ eritable relation d’Amiti´ e entre nous. Je n’oublierais jamais ces moments pass´ es avec vous. Merci donc ` a

”Flodjango” Florian Bertrand , Bamba Sow et Yun Cao pour votre infinie gentillesse et vos grandes ˆ

ames.

Il serait impensable de ne pas saluer ma famille qui m’a toujours port´ e mais surtout souvent

support´ e. En premier lieu j’embrasse mes parents, mon fr` ere et Ludivine, mes grand-m` eres pour leur

soutien sans faille tout au long de ces ann´ ees...et bien plus encore. Comme une seconde ´ evidence, je

remercie l’ensemble des ”val´ eriens” issue de la Mandoule Institute, mes Amis : DD, Manue, Gratai,

Marion, Nono, Fadila et leur pitchounette, Koub, Pin’s, Zeseb, Zazou....et Alo¨ıs Alzheimer. Merci

(5)

Enfin bien plus qu’un simple merci ` a Julie...et toute sa famille.

(6)

1 Introduction 7

1.1 Objectifs - Motivations . . . . 7

1.2 Approche Minimax . . . . 8

1.3 Approche Adaptative . . . . 10

1.4 Risque avec normalisation al´ eatoire . . . . 11

1.4.1 Description math´ ematique . . . . 11

1.4.2 Philosophie de la construction de normalisation optimale . . . . 14

1.4.3 Liens avec certains r´ esultats existants . . . . 16

1.4.4 R´ egion de confiance . . . . 17

1.5 Th´ eorie minimax des tests d’hypoth` ese . . . . 19

1.5.1 Mise en place th´ eorique . . . . 19

1.5.2 Contexte statistique . . . . 20

1.6 Le mod` ele non param´ etrique additif . . . . 22

1.7 Contenu de la th` ese . . . . 23

1.7.1 Normalisation al´ eatoire adapt´ ee ` a la structure additive . . . . 23

1.7.2 Test minimax adaptatif de la structure additive . . . . 35

1.7.3 Outils probabilistes . . . . 42

2 Estimation sous RNF pour bruit blanc additif 45 2.1 Model, construction and the main result . . . . 45

2.1.1 Model . . . . 45

2.1.2 Construction . . . . 47

2.1.3 Results . . . . 48

2.2 Connection with the regression model . . . . 50

2.2.1 Introduction to the procedure in the univariate case . . . . 50

2.2.2 Multidimensional set-up . . . . 53

2.2.3 Examples. . . . 58

2.3 PROOFS . . . . 59

2.3.1 Proof of Theorem 2.1.1 . . . . 59

2.3.2 Proof of Proposition 2.2.1 . . . . 60

2.3.3 Proof of Theorem 2.2.1 . . . . 61

(7)

3.1.1 Introduction . . . . 69

3.1.2 Assumptions . . . . 70

3.1.3 Construction of the α-optimal couple . . . . 72

3.1.4 Main results . . . . 74

3.2 Adaptation to different degrees of additivity . . . . 77

3.2.1 Introduction . . . . 77

3.2.2 Construction of optimal RNF . . . . 79

3.2.3 Main results . . . . 80

3.3 Large deviation for canonical U-statistics . . . . 82

3.3.1 Introduction . . . . 82

3.3.2 Literature . . . . 83

3.3.3 General results for canonical U-statistics of order 2 . . . . 84

3.3.4 A new exponential inequality . . . . 86

3.3.5 Application : large deviation of T

_n

. . . . 90

3.4 Proofs of Theoremes . . . . 91

3.4.1 Proof of Theorem 3.1.1 - Upper Bound . . . . 91

3.4.2 Proof of Theorem 3.1.2 - Lower Bound . . . . 95

3.4.3 Proof of Theorem 3.1.3 - Confidence ball . . . 105

3.5 Appendix . . . 107

3.5.1 Proof of Proposition 3.3.4 . . . 107

3.5.2 Proof of Corollary 3.3.2 . . . 109

3.5.3 Proof of Lemma 3.3.1 . . . 114

3.5.4 Proof of Lemma 3.4.1 . . . 114

3.5.5 Proof of Lemma 3.4.6 . . . 115

4 Test minimax de la structure additive 119 4.1 Introduction . . . 119

4.2 Minimax and adaptive minimax framework . . . 121

4.2.1 Minimax testing approach . . . 121

4.2.2 Adaptive minimax testing approach . . . 122

4.2.3 Statistical motivations . . . 124

4.3 Test procedures . . . 126

4.3.1 Minimax test procedure . . . 126

4.3.2 Adaptive minimax test for additivity . . . 128

4.4 Assumptions and main results . . . 130

4.4.1 Assumptions on the model. . . . 130

4.4.2 Main results . . . 131

4.5 PROOFS . . . 135

4.5.1 Preliminary study of the asymptotic of the test statistic . . . 135

4.5.2 Proof of Theorem 4.4.1 . . . 140

4.5.3 Proof of Theorem 4.4.3 - Upper bound . . . 143

4.5.4 Proof of Theorem 4.4.4 - Lower Bound . . . 146

(8)

Introduction

1.1 Objectifs - Motivations

Cette th` ese se consacre ` a l’am´ elioration de l’estimation d’une fonction f , par le biais d’une ap- proche voisine ` a l’approche minimax. Cette d´ emarche est motiv´ ee par la construction de r´ egions de confiance, pour f , plus fines que celle obtenues via l’approche d’estimation minimax. En effet, nous nous int´ eressons ici ` a estimer des fonctions de plusieurs variables (on notera d le nombre de ces variables) pouvant ˆ etre int´ egr´ ees en pratique dans des mod` eles ´ economiques, biologiques et autres domaines pouvant mettre en jeu un nombre cons´ equent de crit` eres quantitatifs. De mani` ere g´ en´ erale et contrairement au probl` eme param´ etrique, lorsque la valeur du param` etre d est grande, l’efficacit´ e des r´ esultats minimax s’en ressent. Ce ph´ enom` ene est connu au sein de la communaut´ e statistique sous le nom de ”mal´ ediction de la dimension” (curse of dimensionality).

Afin de ne pas p´ enaliser l’estimation de fonction d´ ependant d’un grand nombre de variables ou de mani` ere g´ en´ erale dans des mod` eles o` u l’approche minimax n’est pas satisfaisante (sur des espaces fonctionnels trop massifs), Lepski a developp´ e une approche alternative. Celle-ci se base sur l’id´ ee simple d’adapter la m´ ethode d’estimation en fonction des r´ esultats de tests d’hypoth` eses

’acc´ el´ eratrices’. Cette d´ emarche utilise donc des r´ esultats issus de la th´ eorie des tests d’hypoth` ese afin d’envisager une estimation adaptative. De cette proc´ edure hybride est n´ e le concept de risque avec normalisation al´ eatoire. Ainsi nous nous consacrerons principalement ` a la r´ esoulution de deux types de probl` emes statistiques fortement reli´ es :

A) l’estimation adaptative via l’estimation avec risque minimax avec normalisation al´ eatoire B) le test d’une hypoth` eses nulle contre une alternative locale non-param´ etrique .

Plusieurs types d’hypoth` eses peuvent ˆ etre envisag´ ees afin d’am´ eliorer la pr´ ecision d’estimation et donc la finesse des intervalles de confiance correspondants. Typiquement, celles-ci sont choisies afin de r´ eduire de mani` ere significative la massivit´ e de l’espace fonctionnel localisant f . Plus pr´ ecisement, l’objet de cette th` ese est l’´ etude d’une l’hypoth` ese structurelle : l’hypoth` ese d’additivit´ e. On se pro- pose donc de savoir si une fonction f d´ ependante de d variables x = (x

₁

, . . . , x

_d

) peut se d´ ecomposer sous la forme

(1.1.1) f(x) = f

₁

(x

₁

) + . . . + f

_d

(x

_d

).

(9)

lorsque f

₁

, . . . , f

_d

sont des fonctions unidimensionnelles.

Les r´ esultats seront pr´ esent´ es dans les mod` eles de

(i) bruit blanc gaussien d´ efinit par l’´ equation diff´ erentielle stochastique (1.1.2) dY

_t

= f(t)dt + εdW (t), t ∈ D ⊂ R

^d

,

o` u f est la fonction cible a estimer ` a partir du processus observ´ e Y

_t

sur D, W

_t

´ etant le mouvement Brownien standard et ε > 0 le niveau du bruit.

(ii) de r´ egression multidimensionnelle non-param´ etrique donn´ e par (1.1.3) Y

_i

= f (X

_i

) + ε

_i

, i = 1, . . . , n,

o` u {(X

1

, Y

1

), . . . , (X

n

, Y

n

)} sont n couples d’observations ind´ ependant et identiquement dis- tribu´ e (i.i.d), avec Y

_i

∈ R ; X

_i

∈ D ⊂ R

^d

et les ε

_i

sont des variables ind´ ependantes, de moyenne nulle et de variance σ

_i²

> 0. On consid` erera dans le chapitre 2 le mod` ele dit de r´ egression ` a design fix´ e en supposant que les points d’observations X

_i

peuvent ˆ etre choisis a priori par le statisticien. L’´ etude de ce mod` ele constituera un lien naturel entre le mod` ele du bruit blanc et le mod` ele ’r´ ealiste’ de r´ egression ` a pas al´ eatoire qui fait l’objet des chapitre 3 et chapitre 4.

Le mod` ele (1.1.2) est simple ` a interpreter puisqu’il est ´ equivalent dans un cadre hilbertien ` a l’obser- vation des coefficients de Fourier θ = (θ

_k

)

k∈N

du signal f selon le mod` ele de suite gaussienne

(1.1.4) y

_k

= θ

_k

+ ε

_k

, k ∈ N

lorsque les variables ε

_k

ind´ ependantes, identiquement distribu´ ees selon la loi gaussienne standard.

Son ´ etude dans le chapitre 2 permettra d’exposer clairement les bases du concept de risque minimax avec normalisation al´ eatoire sans avoir a discuter des difficult´ ees techniques inh´ erentes au mod` ele de r´ egression. La g´ en´ eralisation de cette ´ etude au mod` ele de r´ egression sera propos´ ee et r´ esolue dans le chapitre 3. Enfin, le probl` eme de test de la structure additive sera au centre du chapitre 4.

1.2 Approche Minimax

Consid´ erons une exp´ erience statistique engendr´ ee par un vecteur d’observation X

⁽ⁿ⁾

. Le param` etre n pouvant repr´ esenter le nombre d’observations dans le mod` ele de r´ egression ou l’inverse du carr´ e du niveau du bruit n = ε

⁻²

dans le mod` ele de bruit blanc. Notons F un espace de Banach contenant la fonction observ´ ee, not´ ee f . Soit G : F → F

⁰

une fonctionnelle ` a valeurs dans un autre espace de Banach (F

⁰

, k · k). L’objectif fix´ e est l’estimation de la G(f ).

Notons E

⁽ⁿ⁾

l’ensemble des estimateurs mesurables par rapport ` a X

⁽ⁿ⁾

. L’approche minimax exige un contrˆ ole uniforme sur F de l’erreur d’estimation. aussi, la performance d’un estimateur f b ∈ E

⁽ⁿ⁾

est caract´ eris´ ee par son risque maximal sur F d´ efinit par

(1.2.1) R

_n

f , b F , sup

f∈F

E

f

h ω

k f b − G(f )k i

(10)

lorsque E

f

d´ esigne l’esp´ erance induite par la loi g´ en´ er´ ee par l’observation de f, et ω : R → R

+

est une fonction croissante, continue telle que ω(0) = 0 et ω > 0 sur R

^∗

. Cette fonction est commun´ ement appel´ ee fonction de perte.

L’id´ ee naturelle consiste ` a choisir l’estimateur de E

⁽ⁿ⁾

dont le risque maximal (1.2.1) est minimal.

On introduit ainsi le risque minimax sur F ,

(1.2.2) R

_n

(F ) , inf

f∈Eb ⁽ⁿ⁾

R

_n

f , b F

Cette quantit´ e mesure le degr´ e de pr´ ecision (au sens du risque maximal) optimal pouvant ˆ etre atteint dans l’estimation de f . Comme nous pourrons le constater sur certains exemples, cette valeur est fortement d´ ependante de l’espace F ainsi que du mod` ele statistique. Le but principal consiste ` a donner le plus pr´ ecis´ ement possible la valeur de ce risque.

La strat´ egie usuelle afin d’obtenir l’asymptotique du risque minimax, se base sur la notion de risque minimax normalis´ e. Par la suite, nous appellerons normalisation toute suite d´ eterministe de r´ eels ψ

_n

> 0 telle que lim

_n→∞

ψ

_n

= 0. Le risque minimax normalis´ e par ψ

_n

est alors d´ efini par :

R

_n

(F, ψ

_n

) = inf

fb∈E⁽ⁿ⁾

R

_n

f , b F , ψ

_n

, inf

f∈Eb ⁽ⁿ⁾

sup

f∈F

E

f

h ω

ψ

⁻¹_n

k f b − G(f )k i .

EXEMPLE 1.2.1. Tout au long de cette th` ese, nous n’aborderons qu’un seul type de probl´ eme d’estimation, celui concernant une fonctionnelle appartenant ` a un espace L

₂

(D) muni de la norme euclidienne

kf k

₂

= Z

D

f

²

(t)dt

1/2

.

On consid` erera alors le risque minimax quadratique correspondant aux choix k·k = k·k

₂

et ω(x) = x

²

. Dans ce contexte, obtenir l’ordre de grandeur exact du risque minimax sur F se r´ esume ` a expliciter une normalisation ϕ

_n

telle que :

(i) il existe une proc´ edure d’estimation atteignant la vitesse ϕ

_n

. Cette condition appel´ ee propri´ et´ e de la borne sup´ erieure se caract´ erise par :

(1.2.3) lim sup

n→∞

R

_n

f , b F , ϕ

_n

< ∞ .

(ii) il n’est pas possible de trouver un estimateur approchant f (au sens du risque maximal) ` a une pr´ ecision asymptotiquement meilleure que ϕ

_n

. Cette condition dite de la borne inf´ erieure ou condition d’optimalit´ e se caract´ erise formellement par :

(1.2.4) lim sup

n→∞

inf

f∈Eb ⁽ⁿ⁾

R

n

f , b F , ϕ

n

> 0 .

Une normalisation v´ erifiant (1.2.3) et (1.2.4) est appel´ ee vitesse de convergence minimax sur F.

Dans ce cas tout estimateur v´ erifiant (1.2.3) sera dit asymptotiquement minimax.

Remarque 1.2.1. La d´ efinition formul´ ee ci-dessus, n’impose l’unicit´ e de la vitesse de convergence

minimax qu’` a une constante pr` es. Par la suite, par abus de language on appelle vitesse de convergence

une suite fix´ ee satisfaisant (1.2.3), (1.2.4).

(11)

Remarque 1.2.2. Nous nous restreindrons dans cette th` ese ` a consid´ erer le cas o` u F = F

⁰

est un espace fonctionnel de type Holder ou Sobolev, G(f) = f et la fonction de perte est de la forme ω : x → |x|

^q

avec q > 0 et | · | d´ esigne la valeur absolue sur R .

L’estimation minimax a fait l’objet d’un grand nombre de travaux et cela principalement dans les mod` eles de bruit blanc (1.1.2), de r´ egression (1.1.3) et de densit´ e. On notera parmi eux Hasminskii et Ibragimov[52],[53], Kerkyacharian, Lepski et Picard[67], Stone [100] ainsi que Tsybakov [108].

1.3 Approche Adaptative

Pour l’approche adaptative, on ne suppose plus la connaissance exacte de l’espace fonctionnel F auquel appartient le fonction ` a estimer f. On suppose seulement que l’espace F est inclus dans une r´ eunion de classes fonctionnelles {F

_κ

}

_κ∈Ψ

. Typiquement, cette hypoth` ese peut se traduire par : nous ne connaissons plus parfaitement le param` etre de r´ egularit´ e de la fonction ; mais celui-ci est suppos´ e appartenir ` a un ensemble donn´ e, ici Ψ. Le param` etre κ ´ etant alors appel´ e param` etre nuisible ou param` etre de nuisance.

Le but de l’estimation minimax adaptative est de construire un estimateur de f simultan´ ement asymptotiquement minimax sur tous les espaces F

_κ

. Lorsqu’une telle proc´ edure s’av` ere impossible, nous demanderons ` a l’estimateur d’ˆ etre le plus pr´ ecis possible en un certains sens sur l’ensemble Ψ des param` etres nuisibles.

Supposons connues les vitesses de convergence minimax sur chaque espace F

_κ

, not´ ees ϕ

_n

(κ).

D´ efinition 1.3.1. Un estimateur f b

^(a)

sera dit adaptatif optimal (E.A.O.) sur {F

_κ

}

κ∈Ψ

si

(1.3.1) sup

κ∈Ψ

lim sup

n→∞

R

_n

f b

^(a)

, F

_κ

, ϕ

_n

(κ)

< ∞

Il sera utile, pour faire le lien entre l’estimation adaptative et l’estimation avec normalisation al´ eatoire, de donner une d´ efinition ´ equivalente ` a (1.3.1). Pour cela, d´ efinissons la vitesse adaptative optimale sur la classe {F

κ

}

κ∈Ψ

par

(1.3.2) ϕ

_n,a

(f ) = inf

κ:f∈F_κ

ϕ

_n

(κ),

et introduisons le risque maximal adaptatif d’un estimateur f b sur cette mˆ eme classe,

(1.3.3) R

^(a)_n

f , b {F

_κ

}

κ∈Ψ

= sup

f∈S

κ∈ΨFκ

E

f

h ω

ϕ

_n,a

(f)

⁻¹

k f b − fk i .

D´ efinition 1.3.2. De mani` ere ´ equivalente ` a (1.3.1), un estimateur f b

^(a)

sera dit adaptatif optimal par rapport ` a la classe {F

_κ

}

κ∈Ψ

lorsque

(1.3.4) lim sup

n→∞

R

^(a)_n

f b

^(a)

, {F

_κ

}

κ∈Ψ

< ∞

La recherche de telle proc´ edure a fait l’objet de nombreux travaux. Les m´ ethodes non lin´ eaires

de s´ election de mod` ele, de seuillage ou d’agr´ egation comme la comparaison biais-variance pour les

estimateurs ` a noyau, sont au centre de la grande majorit´ e d’entre eux. Citons parmi eux Barron, Birg´ e

et Massart [7], Donoho et Johnstone [27], Efromovich [30], Efromovich et Low[31], [32], Goldenshluger

etNemirovski [43], Golubev [45], Lepski [72], [73],[74], Lepski et Spokoiny [75],[77] Lepski, Mammen

et Spokoiny[76] ainsi que Low[90].

(12)

EXEMPLE 1.3.1. Lepski [72] grˆ ace ` a des techniques de comparaison biais-variance pour les es- timateurs ` a noyau, a explicit´ e un E.A.O. pour l’estimation en norme L

_p

(p ∈ [2, ∞]) lorsque les espaces F

_κ

correspondent ` a des espaces de Holder H (κ) = H (β, L) et Ψ = [β

∗

, β

^∗

] × (0, L

^∗

].

Cependant, cette approche, id´ eale d’un point de vue th´ eorique, s’av` ere avoir des domaines d’ap- plication et d’interpr´ etation assez limit´ es. Ceci se formalise au travers des deux points suivants.

En premier lieu, comme nous pouvions le redouter intuitivement, l’existence d’un estimateur adaptatif optimal est remis en question dans certains mod` eles. Ainsi, Lepski [73] a montr´ e l’im- possibilit´ e d’obtenir un tel estimateur pour le probl` eme d’estimation ponctuelle dans le mod` ele de bruit blanc gaussien dans le cadre des espaces de Holder H (κ) avec Ψ sous-ensemble fini de R

²∗

. En fait, dans cet exemple comme dans une majorit´ e de mod` eles, la propri´ et´ e d’adaptation requiert un paiement vis ` a vis de la vitesse adaptative optimale. Aussi, lorsque celle-ci ne peut ˆ etre atteinte, il est n´ ec´ essaire de d´ efinir un crit` ere permettant de s´ electionner un ’meilleur’ estimateur sur la classe {F

_κ

}

κ∈Ψ

. Plusieurs notions d’optimalit´ e ont ´ et´ e envisag´ es dans la litt´ erature. Nous citerons parmi celles-ci, le crit` ere ’global’ introduit par Lepski [73], le crit` ere ’ponctuel’ de Tsybakov [107] ainsi que celui formul´ e par Klutchnikoff [68] s’appliquant pour des param` etres nuisibles multidimensionnels.

De plus, comme le laisse entrevoir la D´ efinition 1.3.2, la vitesse atteinte par un E.A.O. d´ epend for- tement de la localisation exacte de f par rapport ` a {F

_κ

}

κ∈Ψ

. Ainsi, sans information suppl´ ementaire sur f il est impossible de connaˆıtre ϕ

_n,a

(f ) et donc de construire une r´ egion de confiance s’adaptant ` a la valeur du param` etre nuisible, cela malgr´ e les performances optimales de l’E.A.O.. Cette incapacit´ e

`

a am´ eliorer les r´ egions de confiance construites ` a partir de l’approche minimax constitue une preuve criante de la dualit´ e intrens` eque de l’approche adaptative : elle traduit de mani` ere optimale la capa- cit´ e d’adaptation d’un point de vue minimax mais reste incapable de fournir de ’vrais’ intervalles de confiance.

Les d´ efauts de l’approche adaptative que nous venons de souligner, motivent la mise en place d’une proc´ edure permettant d’adapter l’estimation ` a non plus la localisation exacte de f (inconnue) mais une estimation de cette localisation. Ainsi, nous nous baserons sur les donn´ ees d’observations afin de savoir dans quelles mesures nous pouvons affiner notre estimation de la fonction cible. Ceci permettra la construction de ’vraies’ r´ egions de confiance.

Dans cette th` ese, nous d´ eveloppons une proc´ edure mise en place par Lepski [82] qui va permettre la construction d’E.A.O. pour la famille {Σ, Σ

₀

} o` u Σ est une boule de Sobolev multidimensionnel de param` etre de r´ egularit´ e β et Σ

₀

⊂ Σ est le sous espace des fonctions additives (v´ erifiant (1.1.1)).

Le chapitre 2 fournira un E.A.O. dans le cadre du mod` ele de bruit blanc gaussien (1.1.2) et celui de r´ egression ` a pas fix´ es, tandis que le chapitre 3 g´ en´ eralisera ce r´ esultat dans le mod` ele de r´ egression

`

a pas al´ eatoires.

1.4 Risque avec normalisation al´ eatoire

1.4.1 Description math´ ematique

Consid´ erons comme dans l’approche adaptative que F ∈

F

κ

, κ ∈ Ψ; F

⁽⁰⁾

, et supposons que le

probl` eme d’estimation minimax soit r´ esolu sur chaque espace F

_κ

ainsi que sur F

⁽⁰⁾

⊃ F

_κ

. Nous

ferons ici l’hypoth` ese que sur chaque sous espace F

_κ

la vitesse minimax ϕ

_n

(κ) est asymptotiquement

plus rapide que ϕ

_n

(F

⁽⁰⁾

), vitesse de convergence minimax sur l’espace ”ambiant” F

⁽⁰⁾

. De plus, nous

(13)

consid´ erons d´ esormais que Ψ est un sous ensemble discret de R

^m

.

D´ efinition 1.4.1. Nous appellerons normalisation al´ eatoire, toute variable al´ eatoire ρ b

_n

: Ω → (0, ϕ

_n

(F

⁽⁰⁾

)] ,

mesurable par rapport aux observations et born´ ee sup´ erieurement par ϕ

_n

(F

⁽⁰⁾

) (ici Ω est l’ensemble des ´ even` enements al´ eatoires induit par l’exp´ erience statistique).

Le risque quadratique (nous nous limiterons dans la suite de la th` ese ` a consid´ erer la fonction de perte ω(x) = x

²

) normalis´ e par ρ b

n

d’un estimateur f b

n

de la fonction cible f ∈ F

⁽⁰⁾

est d´ efini comme

(1.4.1) R

^(r)

( ρ b

_n

, F

⁽⁰⁾

, f b

_n

) , sup

f∈F⁽⁰⁾

E

ⁿf

h

ρ b

⁻²_n

k f b − f k

²

i .

Supposons l’existence d’une normalisation al´ eatoire, ρ b

_n

, poss´ edant un estimateur, f b

_n

adapt´ e, c’est

`

a dire tel que le risque (1.4.1) soit asymptotiquement major´ e par une constante M. Une simple utilisation de l’in´ egalit´ e de Markov induit pour 0 < γ < 1,

P

^f

(

k f b − fk ≥ M

γ

1/2

ρ b

_n

)

≤ γ.

(1.4.2)

Ainsi, la normalisation ρ b

_n

doit ˆ etre comprise comme la pr´ ecision d’estimation accessible de l’esti- mateur f b

_n

. L’enjeu de cette approche est donc la construction un couple estimateur-normalisation al´ eatoire

f b

_n

; ρ b

_n

auquel nous demandons les deux propri´ et´ es suivantes : (i) lim

_n→∞

R

^(r)

( ρ b

_n

, F

⁽⁰⁾

, f b

_n

) < ∞ .

(ii) ∀ κ ∈ Υ, lim inf

n→∞

inf

f∈Fκ

P

^f

ρ b

n

< ϕ

n

(F

⁽⁰⁾

)

> 0 .

Le premier point t´ emoigne de l’ad´ equation entre la proc´ edure et la normalisation al´ eatoire. Le se- cond, lui, demande ` a ρ b

_n

d’am´ eliorer la pr´ ecision d’estimation minimax globale ϕ

_n

(F

⁽⁰⁾

) lorsque cela est possible. Ainsi nous allons mesurer le gain engendr´ e par une normalisation sur l’ensemble des sous-espaces F

_κ

grˆ ace ` a l’introduction de la notion de caract´ eristique.

Soit 1 > α

n

> 0 une suite de r´ eels. Nous voulons garantir, lorsque la fonction cible appartient ` a F

κ

, pour un certain κ ∈ Υ, un gain d’estimation minimal avec probabilit´ e, avec un degr´ e de confiance sup´ erieur ou ´ egal ` a 1 − α

_n

. La notion d’am´ elioration se d´ efinit alors sous cette contrainte.

D´ efinition 1.4.2. On appelle α

_n

-caract´ eristique de ρ b

_n

le vecteur x

_n

= (x

_n

( ρ, β)) b

_κ∈Υ

tel que pour tout κ ∈ Υ

(1.4.3) x

_n

( ρ, κ) b , inf

0 < x < ϕ

_n

(F

⁽⁰⁾

) : inf

f∈Fκ

P

f

( ρ b

_n

≤ x) ≥ 1 − α

_n

(14)

Remarque 1.4.1. Les composantes de la caract´ eristique sont des fonctions d´ ecroissantes en α

_n

. En relˆ achant le seuil de s´ ecurit´ e sur la plage d’am´ eliration d’estimation, on s’autorise une plus grande pr´ ecision d’estimation.

Ce vecteur va permettre de comparer les normalisations al´ eatoires sur chaque sous espace. A partir de cette definition, l’id´ ee pour d´ ecrire une strat´ egie optimale ρ

^∗_n

consiste ` a montrer :

1. l’existence d’un estimateur adapt´ e ` a ρ

^∗_n

2. qu’aucune normalisation al´ eatoire ρ b

_n

admettant un estimateur adapt´ e n’est plus fine que ρ

^∗_n

(au sens de la caract´ eristique) pour une valeur du param` etre nuisible,

Ces principes se formalisent dans la d´ efinition de normalisation α-optimale.

D´ efinition 1.4.3. Une normalisation al´ eatoire ρ

^∗_n

sera dite α

_n

-optimale vis ` a vis de la famille {F

_κ

}

κ∈Υ

si les conditions suivantes sont v´ erifi´ ees

¶ il existe un estimateur f

_n^∗

tel que lim sup

n→∞

R

^(r)

ρ

^∗_n

, F

⁽⁰⁾

, f

_n^∗

< ∞.

· pour toute normalisation ρ b

_n

telle qu’il existe κ

₀

∈ Υ, tel que

n→∞

lim

x

n

( ρ, κ b

0

) x

_n

(ρ

^∗

, κ

₀

) = 0, alors

lim inf

n→∞

inf

fbn

R

^(r)

( ρ b

n

, F

⁽⁰⁾

, f b

n

) = ∞.

L’estimateur f

_n^∗

v´ erifiant 1. est alors dit α

_n

-adaptatif.

Remarque 1.4.2. Puisque ρ

^∗_n

≤ ϕ

_n

(F

⁽⁰⁾

), tout estimateur α

_n

-adaptatif est aussi minimax sur F

⁽⁰⁾

. Ainsi le risque (1.4.1) permet de couvrir le cadre de la th´ eorie minimax.

Remarque 1.4.3. Il n’y a pas unicit´ e de la normalisation al´ eatoire α

_n

-optimale. En effet, deux normalisations ayant mˆ eme caract´ eristique (en ordre) seront alors consid´ er´ ees comme ´ equivalentes.

Cette notion d’optimalit´ e introduite par Lepski [82] pour une famille

F

₀

, F

⁽⁰⁾

, o` u F

₀

⊂ F

⁽⁰⁾

, a ´ et´ e g´ en´ eralis´ e par Lepski et Hoffman [83]. Cependant, les travaux faisant l’objet de cette th` ese se limitant ` a l’´ etude d’une famille compos´ ee d’un espace massif et d’un nombre fini de sous espaces

’acc´ el´ erateurs’ (typiquement N), nous allons voir qu’il est possible de se restreindre ` a consid´ erer des normalisations al´ eatoires ne prenant qu’un nombre fini de valeurs (typiquement N+1 valeurs). Par exemple, la proposition suivante dans Lepski [83], montre que dans le cas o` u N=1, on peut se limiter

`

a d´ efinir une normalisation al´ eatoire par deux valeurs : la vitesse de convergence sur l’espace ’massif’

et une autre valeur repr´ esentant l’am´ elioration possible de la pr´ ecision sur l’espace ’acc´ el´ erateur’.

Proposition 1.4.1. Supposons (ρ

^∗_n

, f

_n^∗

) soit un couple α

_n

-optimal c.a.d. v´ erifie la d´ efinition 1.4.4, pour la famille

F

₀

, F

⁽⁰⁾

, alors ρ

^∗_1,n

=

x

_n

(ρ

^∗

), if ρ

^∗_n

≤ x

_n

(ρ

^∗

),

ϕ

n

(F

⁽⁰⁾

), if ρ

^∗_n

> x

n

(ρ

^∗

),

est ´ egalement α

_n

-optimale.

(15)

Remarque 1.4.4. La g´ en´ eralisation de ce r´ esultat pour un nombre quelconque N ∈ N

^∗

peut ˆ etre trouv´ e dans [83]

Une telle proposition appelle une d´ efinition simplif´ı´ ee de α

_n

-optimalit´ e pour les normalisations al´ eatoires, alternative ` a la d´ efinition globale 1.4.4 dans le cas N=1. Nous noterons donc dans la suite, O

n

, l’ensemble des normalisations al´ eatoires ρ b

n

ne prenant que deux valeurs {ϕ

n

(F

⁽⁰⁾

), b

n

} avec 0 < b

n

< ϕ

n

(F

⁽⁰⁾

).

(1.4.4) Ω

_n

(α

_n

) , Ω

_n

=

(ρ

_n

)

_n

∈ O

_n

: lim sup

n−→∞

α

⁻¹_n

sup

f∈F₀

P

f

(ρ

_n

= ϕ

_n

(F

⁽⁰⁾

)) ≤ 1

.

D´ efinition 1.4.4. Une normalisation al´ eatoire ρ

^∗_n

∈ O

n

sera dite α

n

-optimale vis ` a vis de la famille {F

0

, F

⁽⁰⁾

} si les conditions suivantes sont v´ erifi´ ees

¶ ρ

^∗_n

∈ Ω

n

(α

n

)

· il existe un estimateur f

_n^∗

tel que lim sup

n→∞

R

^(r)

ρ

^∗_n

, F

⁽⁰⁾

, f

_n^∗

< ∞.

¸ si ρ b

n

= {ϕ

n

(F

⁽⁰⁾

), b

n

} ∈ Ω

n

(α

n

) telle que lim

n→∞ bn

an

= 0, alors lim inf

n→∞

inf

fbn

R

^(r)

( ρ b

_n

, F

⁽⁰⁾

, f b

_n

) = ∞.

L’estimateur f

_n^∗

v´ erifiant 2. est alors dit α

_n

-adaptatif.

Tout au long de cette th` ese nous montrerons l’optimalit´ e de nos proc´ edures via la D´ efinition 1.4.4.

1.4.2 Philosophie de la construction de normalisation optimale

Lepski et Hoffmann [83] ont montr´ e qu’il est possible d’expliciter une normalisation optimale adapt´ ee ` a

F

_κ

, κ ∈ Ψ; F

⁽⁰⁾

, apr` es avoir r´ esolu s´ epar´ ement les probl` emes concernant les familles F

_κ

, F

⁽⁰⁾

. Cette construction justifie notre intˆ eret pour l’´ etude d’une famille du type

F

⁽⁰⁾

, F

₀

⊂ F

⁽⁰⁾

. Nous allons donc exposer la philosophie de la construction dans le cadre pr´ ecis d’une famille constitu´ e de deux classes de fonctions F

₀

⊂ F

⁽⁰⁾

.

Dans ce cadre, savoir si la localisation (inconnue) de notre fonction cible permet ou non une proc´ edure d’estimation plus pr´ ecise revient ` a r´ epondre ` a la question : f appartient-elle ` a l’espace F

₀

? L’id´ ee consiste ` a utiliser les observations afin de donner une r´ eponse fiable. Evidemment les observations ´ etant bruit´ ees, il n’est pas possible d’y r´ epondre de mani` ere exacte. L’outil de base va donc ˆ etre le test statistique de l’hypoth` ese

H

₀

: f ∈ F

₀

, contre une alternative locale

A

_n

: f ∈

f ∈ F

⁽⁰⁾

: d (f, F

₀

) = inf

g∈F0

kf − gk ≥ ψ

_n

.

Une id´ ee naturelle consiste ` a faire correspondre la m´ ethode d’estimation avec le r´ esultat du test.

Typiquement, la strat´ egie est de choisir l’estimateur minimax sur F

₀

, not´ e f b

₀

, lorsque le test accepte

(16)

l’hypoth` ese, et l’estimateur minimax sur F

⁽⁰⁾

, not´ e f b

⁽⁰⁾

, lorsque celle-ci est rejet´ ee. C’est la phase d’estimation. La pr´ ecision alors atteinte par l’estimateur r´ esultant constituera la normalisation al´ eatoire.

EXEMPLE 1.4.1. Observons, le cas du test trivial qui accepte syst´ ematiquement l’hypoth` ese. Ce test induit l’utilisation syst´ ematique de f b

₀

. La caract´ eristique de la normalisation rattach´ ee est optimale puisqu’elle ´ equivaut ` a la vitesse minimax ϕ

_n

(F

₀

). Cependant, cet estimateur n’est pas raisonnable loin de F

₀

puisqu’il n’ est pas minimax sur F

⁽⁰⁾

et donc n’a aucune chance d’ˆ etre α

_n

-optimal.

La r` egle de d´ ecision permettant de tester H

0

doit se soumettre aux contraintes suivantes : 1. accepter l’hypoth` ese avec une grande probabilit´ e lorsqu’elle ci est vraie et ainsi diminuer la

caract´ eristique de la normalisation sous-jacente .

2. distinguer de mani` ere efficace les ´ el´ ements trop loin de F

0

.

Pour r´ ealiser ces conditions, la phase de test requiert l’estimation pr´ ecise (au sens minimax) de la distance d = d (f, F

₀

). En cela, la construction fait appel ` a la notion d’optimalit´ e au sens de la th´ eorie minimax des tests d’hypoth` ese. Nous exposerons plus en d´ etail les notions relatives ` a cette th´ eorie dans la Section 1.5.

Dans un cadre Hilbertien, la r` egle de d´ ecision se base g´ en´ eralement sur le principe suivant : f b

₀

estime bien la projection de f sur F

₀

; f b

⁽⁰⁾

estime bien f de mani` ere uniforme sur F

⁽⁰⁾

; en observant une la quantit´ e

d b = k f b

₀

− f b

⁽⁰⁾

k,

on peut d´ etecter l’appartenance ` a F

₀

. On d´ etermine un seuil de tol´ erance que d b ne doit pas d´ epasser pour que H

₀

soit accept´ ee.

Remarque 1.4.5. Notons que dans certains mod` eles. il est plus facile de distinguer la fonction f de l’espace F

0

que d’estimer f. En effet ce ph´ enom` ene provient du fait que la vitesse minimax d’estimation de d = d(f, F

0

) = sur F

⁽⁰⁾

est meilleure que la vitesse minimax ϕ

n

(F

⁽⁰⁾

), lorsque le risque est d´ efini par rapport ` a k · k. En particulier, dans le cas o` u k.k = k · k

_p

avec p ∈ 2 N cette am´ elioration est remarquable (voir Lepski, Nemirovski et Spokoiny [81]). Aussi, selon l’espace F

₀

il est possible d’avoir une meilleure precision d’estimation de d que d’estimation de f sous l’hypoth` ese.

Dans ce cas pr´ ecis, la phase d’estimation est limitante pour la normalisation al´ eatoire.

Comme nous l’avons vu, la m´ ethodologie est tr´ es claire lorsqu’on se limite ` a consid´ erer une unique hypoth` ese ’acc´ el´ eratrice’. Une question assez naturelle peut se poser : Que se passe-t-il lorsque plu- sieurs hypoth` eses sont envisag´ ees ? Lepski et Hoffmann ont r´ epondu ` a cela. En effet, dans le cas d’un nombre fini d’hypoth` eses, ils ont montr´ e qu’il suffit de tester s´ epar´ ement chaque hypoth` ese puis choisir parmi celles qui ont ´ et´ e accept´ ees, celle qui permet une plus grande pr´ ecision d’estimation.

Une g´ en´ eralisation ` a un nombre quelconque d’hypoth` eses est ´ egalement envisag´ ee dans Lepski [83].

Cette construction dite construction canonique se formalise dans la proposition suivante.

Supposons avoir expliciter des normalisations al´ eatoires α

_n

-optimale, ρ

^∗_n,κ

, ainsi que les estimateurs adapt´ es, f

_n,κ^∗

, pour chaque famille {F

_κ

, F

⁽⁰⁾

}, κ ∈ Ψ. D´ efinissons alors l’indice κ

^∗

tel que

ρ

^∗_n,κ∗

= inf

κ∈Ψ

ρ

^∗_n,κ

. On pose alors,

ρ

^∗_n

= ρ

^∗_n,κ^∗

, f

_n^∗

= f

_n,κ^∗ ^∗

.

(17)

Proposition 1.4.2. La normalisation al´ eatoire ρ

^∗_n

est α

_n

-optimale et f

_n^∗

est α

_n

-adaptatif pour la famille {F

_κ

}

κ∈Ψ

Remarque 1.4.6. Le probl` eme r´ eciproque de la construction des normalisations ρ

^∗_n,κ

, κ ∈ Ψ, ` a partir d’une normalisation α

_n

-optimale sur la famille {F

_κ

}

κ∈Ψ

est ´ egalement soulev´ e dans Lepski [83].

Nous utiliserons la construction canonique dans le chapitre 3 afin d’´ etendre les r´ esultats obtenus pour le mod` ele d’additivit´ e partielle pr´ esent´ e dans la Section 1.6. En outre, ce r´ esultat permettra de consid´ erer des espaces fonctionnels anisotropes.

1.4.3 Liens avec certains r´ esultats existants

Cette m´ ethodologie ´ etant assez r´ ecente, la litt´ erature s’y rapportant est par cons´ equent assez r´ eduite. Lepski [82] initie le principe et propose une premi` ere ´ etude th´ eorique. Il traite dans ce papier le cas de l’ hypoth` ese de sous-famille param´ etr´ ee et pr´ esentent certains probl` emes ouverts :

1. Lepski et Hoffmann [83] r´ epondent ` a celui concernant l’hypoth` ese de dimensionnalit´ e pour l’ob- servation d’un signal dans le mod` ele (1.1.2) lorsque F

⁽⁰⁾

est un espace de Sobolev d-dimensionnel anisotrope. Cette hypoth` ese consiste ` a supposer que la fonction observ´ ee ne d´ epend effectivement que de s < d variables.

2. Yode [110] obtient une normalisation al´ eatoire optimale et un estimateur α-optimal pour l’hy- poth` ese d’ind´ ependance des coordonn´ ees, lors l’observation de la densit´ e d’un vecteur al´ eatoire de R

^d

.

Soulignons ´ egalement que Baraud [4] utilise, dans le contexte de construction d’intervalles de confiance (voir section suivante), une m´ ethode ´ egalement bas´ ee sur une utilisation de tests d’hy- poth` ese. La strat´ egie g´ en´ erale consiste ` a contrˆ oler uniform´ ement kf − f b k lorsque f est la fonction de r´ egression et f b un bon estimateur, typiquement construit par projection sur un sous-espace S. Un test de l’hypoth` ese f ∈ S bas´ e sur l’estimation de la distance de f au sous espace S, est alors utilis´ e afin de valider ou non la pertinence du choix de S.

Le probl` eme trait´ e dans les chapitres 2 et 3 se situe dans la continuit´ e de ces travaux. En effet, les r´ esultats contenus dans cette th` ese visent ` a am´ eliorer la construction de vraies r´ egions de confiance pour l’observation d’une fonction multidimensionnelle en se basant sur l’hypoth` ese de structure additive (1.1.1). Nous traitons ici un cadre hilbertien, en supposant F

⁽⁰⁾

⊂ L

2

(D), avec D compact de R

^d

, muni de la norme quadratique usuelle. Dans ce cas pr´ ecis, nous verrons que la phase de test limite la pr´ ecision accessible de la proc´ edure, c’est ` a dire la normalisation al´ eatoire optimale, tout en fournissant des estimateurs adaptatifs au sens de la d´ efinition 1.3.2.

En effet, dans l’ensemble des cas trait´ es par cette m´ ethode, l’estimateur α

_n

-adaptatif construit est non seulement minimax optimal mais aussi adaptatif optimal. Cette propri´ et´ e montr´ ee par Lepski [82], apparaˆıt ` a partir du moment o` u l’on se fixe une suite α

_n

tendant assez vite vers 0. La r´ esultat exact est donn´ e ci-dessous. Pour deux suites r´ eelles (u

_n

)

n∈N

et (v

_n

)

n∈N

` a valeurs dans R

^∗

, nous noterons u

_n

= O(v

_n

) lorsque la suite (u

_n

/v

_n

)

_n∈

N

est born´ ee.

Proposition 1.4.3. Soit le couple (ρ

^∗_n

, f

_n^∗

) α

_n

-adaptatif optimal pour

F

₀

, F

⁽⁰⁾

. Supposons que l’estimateur f

_n^∗

1

_{ρ^∗_n_≤x_n_(ρ^∗_)}

soit asymptotiquement minimax sur F

₀

et que si ω(x) = |x|

^q

,

α

_n

= O

_n

(ϕ

^q_n

(F

₀

)) ,

(18)

alors f

_n^∗

est adaptatif par rapport ` a

F

₀

, F

⁽⁰⁾

.

Remarque 1.4.7. Le r´ esultat reste vrai si le couple (ρ

^∗_n

, f

_n^∗

) v´ erifie les points ¶ et · de la D´ efinition 1.4.4.

Remarque 1.4.8. Un r´ esultat analogue permettant de traiter le cas d’une famille finie quelconque d’espaces fonctionnels a ´ et´ e prouv´ e par Lepski et Hoffmann [83]. La question r´ eciproque qui consiste

`

a savoir dans quelles conditions un estimateur adaptatif peut ˆ etre α

_n

-adaptatif reste ouverte.

Cette proposition dicte implicitement le choix de α

_n

→ 0 lorsque n → ∞. La difficult´ e technique majeure li´ ee aux r´ esultats pr´ esents dans cette th` ese, se rapporte ` a cette condition. En effet, celle-ci va n´ ec´ essiter un contrˆ ole tr` es pr´ ecis des erreurs de tests. Nous verrons dans la Section 1.7 en quoi cela peut s’av´ erer d´ elicat pour le mod` ele de r´ egression. Tout d’abord, revenons en d´ etails sur la construction de r´ egions de confiance li´ ee ` a l’approche d’estimation via le risque avec normalisation al´ eatoire.

1.4.4 R´ egion de confiance

Comme nous l’avons soulign´ e plus haut, l’une des motivations principales li´ ee ` a l’introduction de la th´ eorie de risque avec normalisation al´ eatoire est l’obtention de ”vraies” r´ egions de confiance pour la fonction cible f .

Ainsi, notons X

⁽ⁿ⁾

l’ensemble des observations g´ en´ er´ e par l’exp´ erience (typiquement n est le nombres d’observations), et G : F → F

⁰

une fonctionnelle ` a valeurs dans un espace de Banach (F

⁰

, k · k).

D´ efinition 1.4.5. Un sous ensemble B(X

⁽ⁿ⁾

) ⊂ F

⁰

, dependant des observations mais en aucun cas d’un param` etre inconnu li´ e ` a la fonction f, est appel´ e r´ egion (ou boule) de confiance de niveau

%

n

pour G(f ) lorsque

f

inf

∈F

P

f

G(f) ∈ B(X

⁽ⁿ⁾

)

≥ 1 − %

_n

. (1.4.5)

L’ensemble des r´ egions de confiance de niveau %

_n

sur la classe F est not´ e l

_%_n

(F ).

Pour un niveau de confiance %

_n

fix´ e, l’objectif est de minimiser le rayon (calcul´ e par rapport ` a k·k) d’une region de confiance satisfaisant (1.4.5). Ce probl` eme statistique est ` a l’origine de nombreux travaux, citons parmi eux Baraud [4], Li [87] et Low [90].

La plupart des m´ ethodes de construction de boules de confiance sont bas´ ees sur une estimation via l’approche minimax de la fonctionnelle G(f ). Par exemple, dans le cas o` u F = F

⁰

et G(f) = f, supposons que f b

_n

soit un estimateur minimax de f sur F, atteignant la vitesse ϕ

_n

(F ) pour le risque quadratique en norme k · k. Une simple application de l’in´ egalit´ e de Chebychev permet d’obtenir l’existence d’une constance C > 0 telle que :

sup

f∈F

P

^f

k f b

n

− f k > Cϕ

n

(F )

≤ %

n

.

Ainsi, la boule centr´ ee sur f b

_n

et de rayon Cϕ

_n

(F) (mesur´ e par rapport ` a k·k), not´ ee B

_k·k

( f b

_n

, Cϕ

_n

(F )),

est une r´ egion de confiance de niveau %

_n

pour f ∈ F .

(19)

Dans le contexte minimax, la pr´ ecision d’une boule de confiance pour G(f ) est mesur´ ee via deux quantit´ es fortement reli´ ees : sa probabilit´ e de recouvrement sur F et sa taille. Cette derni` ere est intuitivement d´ efinit lorsqu’ on imagine une boule de confiance ayant un diam` etre d´ eterministe. Par contre, d` es lors que nous consid´ erons une r´ egion de confiance pour laquelle le rayon d´ epends des observations, la notion de taille doit ˆ etre rattach´ ee ` a la notion de diam` etre moyen. Ainsi, si l’on note d(B(X

⁽ⁿ⁾

)), le diam` etre de la r´ egion de confiance B(X

⁽ⁿ⁾

), on a

d(B(X

⁽ⁿ⁾

)) , max n

kx − yk ; x , y ∈ B(X

⁽ⁿ⁾

) o . La taille de la r´ egion B(X

⁽ⁿ⁾

) sur la classe F est alors d´ efinit par

L(B(X

⁽ⁿ⁾

), F) , sup

f∈F

E

f

h d(B(X

⁽ⁿ⁾

)) i .

Du point de vue de Neyman-Pearson, l’objectif est de minimiser la taille moyenne L(B(X

⁽ⁿ⁾

), F) tout en conservant une probabilit´ e de recouvrement de 1 − %

_n

sur la classe F . En d’autre termes, il s’agit de construire une r´ egion de confiance atteignant la borne

L

^∗_%

n

(F ) , inf

B(X⁽ⁿ⁾)∈l%n(F)

L(B(X

⁽ⁿ⁾

), F ) .

Citons ` a ce sujet les travaux de Donoho [26], Hall [49] ou encore Hardle et Marron [50] fortement inspir´ es par la technique de bootstrap.

Evidemment, ce point de vue minimax va poser le probl` eme d’adaptation statistique concernant la construction de r´ egion de confiance. Exposons les fondements de cette notion sur l’exemple simple de deux classes fonctionnelles F

₁

⊂ F . Dans ce contexte, nous souhaitons pouvoir construire une boule de confiance, B

^∗

(X

⁽ⁿ⁾

), de niveau %

_n

sur F et de sorte que :







L(B

^∗

(X

⁽ⁿ⁾

), F) = L

^∗_%_n

(F ) , L(B

^∗

(X

⁽ⁿ⁾

), F

₁

) = L

^∗_%

n

(F

₁

) . (1.4.6)

Une telle r´ egion de confiance, si elle existe, sera dite adaptative optimale relativement ` a la famille {F

₁

, F }. La construction de r´ egions de confiance adaptatives est au centre des travaux de Hengartner et Stark [55], Picard et Tribouley [92] et plus r´ ecemment de Cai et Low [15] [16]. En particulier, ces derniers ont introduit une notion d’adaptation interm´ ediaire en definissant une quantit´ e mesurant le degr´ e d’adaptation entre deux classes de fonctions :

L

^∗_%_n

(F, F

₁

) , inf

B(X⁽ⁿ⁾)∈l%n(F)

L(B(X

⁽ⁿ⁾

), F

₁

) .

Il est clair que L

^∗_%_n

(F, F

₁

) ≥ L

^∗_%_n

(F

₁

) mais surtout que la construction de r´ egions de confiance adatpa- tives au sens de (1.4.6) ne sera possible que si ces deux quantit´ es sont du mˆ eme ordre de grandeur. En particulier, Low [90] a fournit un exemple de mod` ele pour lequel L

^∗_%_n

(F, F

1

) est asymptotiquement grand vis ` a vis de L

^∗_%

n

(F

₁

).

Comme nous l’avons soulign´ e plus haut, l’approche d’estimation adaptative ne permet pas de

d´ eduire de mani` ere simple de ”vrais” intervalles de confiance adaptatifs, c.a.d. dont la taille s’adapte

(20)

de fa¸con optimale ` a la r´ egularit´ e effective de f. Ainsi les probl` emes d’estimation adaptative et de construction de r´ egions de confiance adaptative au sens de (1.4.6) ne sont donc que tr´ es faiblement li´ es. En ce sens, pour le probl` eme de construction de r´ egion de confiance pour G(f) = f(t

0

) o` u t

0

est un point fix´ e, et k · k = | · |, Low [90] a montr´ e qu’il ´ etait impossible d’am´ eliorer le rayon minimax uniform´ ement sur F , c.a.d L

^∗_%

n

(F , F

₁

) ≈ L

^∗_%

n

(F ). La th´ eorie d’estimation avec normalisation al´ eatoire essentiellement d´ evelopp´ ee dans le cadre hilbertien de l’estimation en norme k · k

₂

permet d’obtenir des r´ esultats plus optimistes dans ce contexte. En effet, (1.4.2) permet d’interpr´ eter une normalisation al´ eatoire comme le rayon al´ eatoire d’une r´ egion de confiance de niveau %

_n

, potentiellement plus fin que le rayon minimax. Nous verrons au chapitre 3, Section 3.1.4.2, une construction assez fine d’une r´ egion de confiance bas´ ee sur l’estimation avec normalisation al´ eatoire d’une fonction de r´ egression.

En particulier, nous discuterons l’influence d’un niveau de confiance asymptotiquement nul sur la largeur des r´ egions de confiance.

1.5 Th´ eorie minimax des tests d’hypoth` ese

1.5.1 Mise en place th´ eorique

D’un point de vue minimax, la th´ eorie de test d’hypoth` ese est un outil majeur pour la construc- tion des normalisations al´ eatoires. Elle trouve son origine dans les travaux de Ingster [60][61][62][63].

L’id´ ee fondamentale consiste ` a ´ etudier le test de l’hypoth` ese ”nulle”, not´ ee H

0

, contre une alternative locale non param´ etrique. Au travers de diff´ erentes ´ etudes, men´ ees dans Bierens [12], Eubank et Hart [34], Stute [103], il a ´ et´ e possible de constater la forte d´ ependance du test ’optimal’ par rapport au choix de l’alternative. En effet, certains tests peuvent s’av´ erer tres efficaces pour d´ etecter H

₀

contre une famille d’alternatives locales mais cependant peu raisonnable pour le choix d’une autre famille d’alternatives. Ingster a ainsi formalis´ e le fait qu’un test ne peut ˆ etre uniform´ ement consis- tant que si l’on consid´ ere les alternatives suffisament ’´ eloign´ ees’ de l’hypoth` ese nulle. Typiquement l’on va chercher ` a contruire un test de puissance asymptotiquement ´ egale ` a 1, permettant de distin- guer l’hypoth` ese nulle de l’alternative la plus proche possible. Pour un mod` ele donn´ e, la d´ emarche consiste donc ` a obtenir ` a la fois cette distance minimale d’approche et un test efficace ` a cette distance.

Formalisons cette notion, en consid´ erant l’observation d’une fonction f appartenant ` a un espace fonctionnel F dans le mod` ele de r´ egression (1.1.3). Notons F

₀

un sous-ensemble de F. Nous nous int´ eressons au probl` eme de test de l’hypoth` ese nulle

H

₀

: f ∈ F

₀

, contre l’alternative locale

A

_n

(Cϕ

_n

) : f ∈ Φ

_n

(Cϕ

_n

) = {f ∈ F : d(f, F

₀

) ≥ Cϕ

_n

} ,

lorsque d est une fonction distance donn´ ee, C > 0 et ϕ

n

> 0 (n ´ etant le nombre d’observations). De mani` ere g´ en´ erale, on attache ` a l’espace F une condition de r´ egularit´ e n´ ec´ essaire (voir Ingster [63]) ` a la distinction de la fonction ` a tester f du bruit d’observations.

On appelle fonction test ou plus simplement test toute variable al´ eatoire ∆

_n

mesurable par

rapport ` a X

⁽ⁿ⁾

et ` a valeurs dans {0, 1}. Cette fonction se base sur une r` egle de d´ ecision et d´ ecide

(21)

d’accepter H

₀

(typiquement si ∆

_n

= 0) ou rejeter celle-ci (si ∆

_n

= 1). Dans le cadre minimax, la qualit´ e du test ∆

_n

est caract´ eris´ ee par deux quantit´ es repr´ esentant les deux types d’erreurs possibles.

L’erreur de premi` ere esp` ece ou niveau du test α(∆

n

) = sup

f∈F0

P

^f

(∆

n

= 1),

qui symbolise la probabilit´ e de rejet de l’hypoth` ese alors que celle-ci est v´ erifi´ ee en r´ ealit´ e et l’erreur de deuxi` eme esp` ece

γ(∆

_n

, ρ

_n

) = sup

f∈Φn(Cϕn)

P

f

(∆

_n

= 0)

repr´ esentant la probabilit´ e d’accepter H

₀

` a tort. La quantit´ e 1− γ(∆

_n

, ρ

_n

) est commun´ ement appell´ ee puissance du test.

Notons Γ

_n

l’ensemble de toutes les strat´ egies relatives au test de H

₀

. Afin de comparer deux

´ el´ ements de Γ

_n

, nous adopterons une approche dite de Neyman-Pearson. Celle-ci consiste ` a fixer au pr´ ealable le niveau de test d´ esir´ e, c’est ` a dire ` a se restreindre ` a consid´ erer un sous ensemble de strat´ egies de niveau α, puis ` a minimiser l’erreur de deuxi` eme esp` ece sous cette contrainte. Pour cela, consid´ erons une suite de r´ eels α = (α

_n

)

n∈N

et introduisons l’ensemble

Γ

_n

(α

_n

) =

∆

_n

∈ Γ

_n

: lim sup

n→∞

α

⁻¹_n

α(∆

_n

) ≤ 1

.

Un test appartenant ` a Γ

_n

(α

_n

) sera dit de niveau asymptotique α

_n

. On mettra en evidence l’in- fluence de la valeur α

∞

= lim inf

n→∞

α

_n

. Soit γ = (γ

_n

)

n∈N

une suite de r´ eels positifs. Nous donnons alors le crit` ere d’optimalit´ e permettant de caract´ eris´ e la plus petite distance pour laquelle il est possible de distinguer l’hypoth` ese nulle de l’alternative.

D´ efinition 1.5.1. La suite ϕ

n

est dite vitesse (α

n

, γ

n

)-optimale de test lorsque

¶ il existe C

∗

> 0 telle que ∀C < C

∗

, on a lim inf

n→∞

γ

_n⁻¹

inf

∆n∈Γn(αn)

γ(∆

n

, Cϕ

n

) ≥ 1

· il existe C

^∗

> 0 et un test ∆

^∗_n

∈ Γ

_n

(α

_n

) tels que ∀C > C

^∗

, lim sup

n→∞

γ

_n⁻¹

γ(∆

^∗_n

, Cϕ

_n

) ≤ 1.

Le test ∆

^∗_n

v´ erifiant le second point est dit asymptotiquement optimal.

1.5.2 Contexte statistique

Les premi` eres ´ etudes se rattachant ` a cette th´ eorie ont eu pour objet le probl` eme de test d’absence de signal H

₀

: f = 0 contre l’alternative locale A

_n

(Cϕ

_n

) : kf k

_r

> Cϕ

_n

pour f appartenant

`

a des espace de Holder, Sobolev puis Besov. L’ensemble des r´ esultats obtenus montrent une forte d´ ependance entre la vitesse optimale de test et les hypoth` eses de r´ egularit´ es.

EXEMPLE 1.5.1. Dans le mod` ele du bruit blanc gaussien (1.1.2), sur des espaces de Besov B

^s,p

, et dans le cas o` u α

∞

> 0, il a ´ et´ e (voir Ingster [60], [62]) montr´ e l’optimalit´ e de la vitesse ε

^4s+1^4s

lorsque r ≤ 2 ≤ p, et de la vitesse ε

^2s+1−1/p^2s

pour p = r > 2. Le cas de r´ egularit´ e inhomog` ene p < r = 2 fut r´ esolut par Lepski et Spokoiny [78] en observant l’optimalit´ e de ε

^4s

0

4s0+1

o` u s

⁰

= s −

_2p¹

+

¹₄

.

(22)

De nombreux autres probl` emes de test furent abord´ es via l’approche minimax. On citera parmi eux les travaux de Ermakov [33], Gayraud et Pouet [37], Lepski et Pouet [85], Lepski et Tsybakov [86]. Une partie de cette th` ese est dedi´ ee ` a l’obtention de vitesse optimale de test de l’hypoth` ese de structure additive (1.1.1). Ce probl` eme a ´ et´ e r´ esolu par Abramovich, De Feis et Sapatinas [1] dans le mod` ele de r´ egression ` a pas fixe sur des espaces de Besov et pour une suite α

_n

constante. Nous r´ epondrons ` a cette question dans un mod` ele plus g´ en´ eral de r´ egression ` a pas al´ eatoire de loi inconnue et en imposant surtout α

_∞

= lim inf

_n→∞

α

_n

= 0.

A partir de ces r´ esultats, plusieurs points peuvent ˆ etre discut´ es. Nous nous concentrons ici sur deux probl` emes essentiels :

1. Quels sont les enjeux concernant le choix de la suite α

_n

? Que se passe-t-il lorsqu’on envisage α

∞

= 0 ? Quel influence ce choix a-t-il sur la vitesse optimale de test ?

2. La structure d’un test asymptotiquement optimal d´ ependant fortement du param` etre de r´ egularit´ e a priori inconnu, peut-on proposer une strat´ egie de test s’adaptant ` a ce param` etre ? Si oui, dans quelles mesures ?

Dans cette th` ese, nous consid` ererons l’approche de Neymann-Pearson en autorisant la suite α

_n

` a tendre vers 0. Ce choix privil´ egie l’acceptation de l’hypoth` ese au d´ epens de l’alternative. En effet, en faisant tendre l’erreur de premi` ere esp` ece vers 0, l’on va garantir d’accepter H

0

avec une grande probabilit´ e lorsque celle-ci est vraie. Cette d´ emarche s’int` egre dans la proc´ edure de construction d’une normalisation al´ eatoire, puisque l’acceptation de l’hypoth` ese engendre directement l’am´ elioration de la pr´ ecision d’estimation via la valeur de la caract´ eristique (D´ efinition 1.4.2). De plus, comme nous le verrons, le choix de α

∞

= 0 diminue la vitesse de test optimale et ainsi augmente la taille de la zone neutre {f ∈ F : 0 < d(f, F

₀

) < ϕ

_n

} sur laquelle la proc´ edure d’estimation est susceptible d’ˆ etre am´ elior´ ee.

Un autre aspect important de ce choix r´ eside dans le lien entre estimation α-adaptative et estima- tion adaptative. La Proposition 1.4.3 montre que lorsque α

_n

= O (ϕ

^r_n

(F

₀

)), un estimateur α-adaptatif est aussi adaptatif au sens de la D´ efinition 1.3.1. Ainsi, en faisant tendre α

_n

vers 0, on donne la pos- sibilit´ e ` a la proc´ edure d’estimation construite ` a partir du test de structure, d’ˆ etre adaptive.

Ce type de consid´ eration est assez r´ ecent (Ingster [63]). On le retrouve dans le travaux de Yode [110] qui r´ esout le probl` eme de test d’ind´ ependance des coordonn´ ees dans le mod` ele de densit´ e.

Comme on a pu le constater les probl` emes de test d’hypoth` ese et d’estimation dans le contexte minimax sont ´ etroitement li´ es. Cependant, il est possible d’observer des diff´ erences entre vitesse de test et vitesse d’estimation. Par exemple, pour le test d’absence de signal dans le cadre d’un espace de Besov comme d´ ecrit plus haut p ≥ r, la vitesse minimax d’estimation est ε

^2s+1^2s

, alors que la vitesse de test optimale est ε

^4s+1^4s

. Une chose persiste la d´ ependance par rapport au param` etre de r´ egularit´ e s. Cette dualit´ e a naturellement pouss´ e ` a transposer la notion d’adaptation ` a la th´ eorie des tests d’hypoth` eses.

Des travaux th´ eoriques (dans le mod` ele du bruit blanc) de Spokoiny [99] ` a ce sujet, ont permis

d’observer que la propri´ et´ e d’adaptation pouvait aussi n´ ec´ essiter un paiement dans le cadre des

tests d’hypoth` ese. Il a montr´ e que cette perte d’efficacit´ e se caract´ erise par la pr´ esence d’un terme

additionnel en ln (ln (ε

⁻¹

)) dans la vitesse optimale de test d’absence de signal. En s’inspirant de

[99], nous construirons, dans le mod` ele de r´ egression, un test de la structure additive qui s’adapte ` a

(23)

la r´ egularit´ e de la fonction observ´ ee, tout en conc´ edant ` a la vitesse optimale de test un facteur en ln(ln(n)). L’optimalit´ e, selon le crit` ere donn´ e par Spokoiny, d’une telle proc´ edure sera ´ etablie.

1.6 Le mod` ele non param´ etrique additif

Comme on a pu le voir plus haut, le proc´ ed´ e d’estimation envisag´ e se base sur le test d’une struc- ture permettant de r´ eduire l’entropie de l’espace consid´ er´ e. En effet, dans le cadre de l’estimation ponctuelle d’une fonction d-dimensionnelle, d` es lors que le param` etre d de l’espace des observations augmente, la taille de l’´ echantillon restant fix´ ee, il est n´ ec´ essaire, afin de maintenir un biais d’esti- mation acceptable, d’´ elargir la fenˆ etre d’observation autour du point consid´ er´ e. ce qui va entraˆıner l’augmentation sensible de la variance d’estimation. En cela, le choix de la structure additive n’est pas innocent. En effet, si la fonction observ´ ee s’av` ere v´ erifier (1.1.1), il est alors possible d’estimer de mani` ere satisfaisante chaque composante principale f

_s

et cela ind´ ependamment de la dimension d. Cette id´ ee est concr´ etis´ ee par Stone [101]. Il montre que la vitesse d’estimation minimax d’une fonction r´ eguli` ere additive de d variables correspond ` a la vitesse minimax unidimensionnelle.

L’interpr´ etabilit´ e li´ e au mod` ele de r´ egression additive en fait ´ egalement un mod` ele statistique remarquable. En effet, dans ce mod` ele de r´ egression, la repr´ esentation des fonctions f

_s

r´ ev` ele la rela- tion entre Y et un r´ egresseur particulier conditionnellement ` a la pr´ esence des autres r´ egresseurs. Ce point de vue est ` a la base de l’estimation via la m´ ethode d’int´ egration marginale d´ evelopp´ ee dans le chapitre 4.

Diff´ erentes extensions de ce mod` ele ont ´ et´ e envisag´ ees. Parmi celles-ci, on retiendra :

? le mod` ele Additif G´ en´ eralis´ e (GAM) introduit par Hastie et Tibshirani [54]

G(f (x

₁

, . . . , x

_d

)) =

p

X

j=1

f

_j

(x

_j

),

dans lequel on observe la fonction de r´ egression au travers de la fonction lien G.

? le mod` ele de Projection Pursuit (PP) pour lequel on a f(x) =

d

X

i=1

f

_i

(e

^T_i

x) ,

lorsque e

₁

, . . . , e

_d

sont des vecteurs de R

^d

; e

^T

x d´ esigne le produit scalaire dans R

^d

entre les vecteurs e et x ; les f

_i

´ etant alors des fonctions r´ eelles unidimensionnelles.

? le mod` ele Multi Index (MP) o` u e

₁

, . . . , e

_m

∈ R

^d

avec m < d et F fonction m-dimensionnelle f(x) = F (e

^T₁

x, . . . , e

^T_m

x).

De nombreux r´ esultats d’estimation dans le cadre minimax concernent les mod` eles pr´ esent´ es ci- dessus. On notera notamment les travaux de Chen [17], Golubev [44] ou encore Hall [48]. Dans cette th` ese, nous nous limiterons ` a consid´ erer le mod` ele additif (1.1.1) et une g´ en´ eralisation de celui-ci, que l’on nommera mod` ele additif partiel et qui consiste ` a supposer que pour tout x = (x

₁

, . . . , x

_d

),

(1.6.1) f(x) =

r

X

l=1

f

_l

(x

_l