• Aucun résultat trouvé

Perforamances statistiques d'estimateurs non-linéaires

N/A
N/A
Protected

Academic year: 2021

Partager "Perforamances statistiques d'estimateurs non-linéaires"

Copied!
187
0
0

Texte intégral

(1)

HAL Id: tel-00540963

https://tel.archives-ouvertes.fr/tel-00540963

Submitted on 29 Nov 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Michael Chichignoud

To cite this version:

Michael Chichignoud. Perforamances statistiques d’estimateurs non-linéaires. Mathématiques [math].

Université de Provence - Aix-Marseille I, 2010. Français. �tel-00540963�

(2)

U.F.R. M.I.M.

ECOLE DOCTORALE DE MATH´ ´ EMATIQUES ET INFORMATIQUE E.D. 184

TH` ESE

pr´ esent´ ee pour obtenir le grade de Docteur de l’Universit´ e de Provence

Sp´ ecialit´ e : Math´ ematiques par

Micha¨ el CHICHIGNOUD

sous la direction du Pr. Oleg LEPSKI

Titre :

Performances statistiques d’estimateurs non-lin´ eaires

soutenue publiquement le 25 novembre 2010

JURY

M. Laurent CAVALIER Universit´ e de Provence Examinateur

Mme B´ eatrice LAURENT INSA de Toulouse Examinatrice

M. Oleg LEPSKI Universit´ e de Provence Directeur

M. Pascal MASSART Universit´ e Paris-Sud Rapporteur

Mme Dominique PICARD Universit´ e Paris-Diderot Examinatrice

M. Alexandre TSYBAKOV Universit´ e Pierre et Marie Curie Examinateur

M. Aad Van der VAART Vrije Universiteit Rapporteur

(3)
(4)

Jacqueline et Robert,

une pens´ ee pour eux.

(5)
(6)

REMERCIEMENTS

Mes premi` eres pens´ ees vont ` a mon directeur de th` ese, Oleg Lepski, qui m’a fait l’immense honneur de m’accompagner pendant ces trois longues ann´ ees. Il est difficile en quelques lignes d’exprimer tous mes remerciements et mon estime pour lui. J’ai souvent mis ` a contribution ses nombreuses qualit´ es humaines, mais son soutien et ses conseils avis´ es m’ont permis de r´ ealiser ce manuscrit. Par ses connaissances scientifiques et son extraordinaire niveau en math´ ematiques, qui m’impressionne toujours, il a su me lancer sur un sujet tr` es ouvert et je le remercie tr` es sinc` erement. Dans les ann´ ees futures, j’esp` ere pouvoir r´ epondre aux nombreuses questions ouvertes, qu’il m’a pos´ e (et auxquelles je n’ai pas su r´ epondre), sur des probl` emes qui occuperont certainement une place importante dans les statistiques de demain.

J’exprime tous mes remerciements ` a Pascal Massart et Aad Van der Vaart pour avoir gentiment accept´ e de rapporter cette th` ese. Je suis tr` es touch´ e qu’ils aient pris le temps de relire mes modestes travaux.

Je tiens ´ egalement ` a remercier Laurent Cavalier, B´ eatrice Laurent, Dominique Picard et Alexandre Tsybakov, de l’immense honneur qu’ils me font de participer ` a ce jury de th` ese d’une tr` es grande qualit´ e scientifique.

Un grand merci ` a tous les membres de l’´ equipe Probabilit´ es/Statistiques, notamment ` a Florent Autin, Yuri Golubev, Gr´ egory Maillard, Christophe Pouet et Thomas Willer pour leurs conseils avis´ es, leur sympathie et leur engouement pour les math´ ematiques.

Je voudrais remercier aussi les personnes qui ont contribu´ e ` a la r´ ealisation de cet ouvrage, notamment Christophe Pouet et Thomas Willer. Ma sinc` ere gratitude et mon amiti´ e vont

`

a Joseph Salmon, futur docteur lui aussi. Un petit clin d’oeil ` a Adrien Saumard, qui a su, en peu de temps, me poser des questions tr` es ouvertes sur mon sujet et me donner quelques conseils de r´ edaction.

Je tiens ` a remercier les enseignants qui m’ont le plus marqu´ e au cours de mes ´ etudes, et qui m’ont fait aimer les math´ ematiques : M. Fournier (Professeur de math´ ematiques en Premi` ere) pour son enthousiasme et son d´ e ` a 28 faces, Dominique Barbolosi (Professeur en Licence) pour la qualit´ e de ses cours sans support papier, et enfin Laurent Cavalier (Professeur en Master) pour ses cours dynamiques effectu´ es avec beaucoup de rigueur.

Ces trois ann´ ees pass´ ees au CMI m’ont permis de rencontrer des gens extraordinaires.

Je remercie le personnel administratif pour leur disponibilit´ e et leur sympathie, les charges

(7)

administratives ´ etaient bien peu lourdes grˆ ace ` a leur pr´ esence. Je suis heureux d’avoir fait partie de la Team des doctorants du Cmi et je remercie chacun d’entre eux pour les nom- breuses discussions que nous avons eu sur divers domaines des math´ ematiques. Je remercie sinc` erement Hamish Short (directeur de l’´ ecole doctorale) et Etienne Pardoux (ex-directeur de l’´ ecole doctorale) pour tout ce qu’ils ont fait pour moi, en particulier pour l’obtention d’une bourse doctorale. Un grand merci aux membres du bureau 114 que j’ai pu cˆ otoy´ es au quotidien, notamment Cl´ ement Marteau, S´ ebastien Loustau et Shanti Gibert. Leur pr´ esence fˆ ut chaleureuse et indispensable durant toutes ces ann´ ees.

J’exprime mes plus sinc` eres remerciements ` a ma famille pour son accompagnement dans ce long parcours. Ma m` ere, mon fr` ere et mes grands parents ont ´ et´ e d’un soutien sans faille.

En particulier, un immense merci ` a mon p` ere qui ` a force de patiente et d’encouragements, m’a communiqu´ e son penchant pour les math´ ematiques et la logique. Du fond du coeur Merci !

Et pour finir, tous mes sentiments vont ` a ma future femme Myl` ene, qui a accept´ e de me

dire “oui” pour me rendre le plus heureux des hommes. Sans elle et son chaleureux soutien,

je ne serais pas l` a aujourd’hui. Merci mon amour !

(8)

SOMMAIRE

Le th` eme de cette th` ese est l’estimation non-param´ etrique, en particulier l’´ etude des performances th´ eoriques de l’estimation de fonctions de r´ egression, une partie importante d’un des domaines math´ ematiques connue sous le nom de statistique math´ ematique.

Une partie de cette th` ese est r´ edig´ ee en anglais, car ce sont des preprints ou des articles soumis. Les chapitres 1 et 2 sont quant ` a eux r´ edig´ es en fran¸cais. C’est pourquoi nous avons fait pr´ ec´ eder chaque chapitre d’un court r´ esum´ e en fran¸cais.

Ce manuscrit est organis´ e comme suit :

– Le chapitre 1 est une introduction aux mod` eles de r´ egression, aux crit` eres de perfor- mance en vigueur et aux m´ ethodes adaptatives avec s´ election de fenˆ etres.

– Dans le chapitre 2, le lecteur peut trouver les principaux r´ esultats de cette th` ese pour deux nouveaux types d’estimateurs. Notons qu’un lecteur non-sp´ ecialiste du domaine aura recours au chapitre 1 pour sa compr´ ehension.

Nous proposons aussi quelques perspectives ` a ce travail. Notamment, une liste d’une quinzaine de probl` emes ouverts est donn´ ee ` a la fin de ce chapitre.

– Les chapitres 3 et 4 traitent de l’estimation bay´ esienne.

– Le chapitre 5 introduit l’estimateur de Huber et quelques r´ esultats sur ses perfor- mances.

Les r´ esultats th´ eoriques sont accompagn´ es d’exp´ eriences num´ eriques. En particulier, on pourra comparer les estimateurs bay´ esien et de Huber avec les estimateurs lin´ eaires.

Les chapitres 3 ` a 5 peuvent ˆ etre lus ind´ ependamment des autres (ce qui est ` a l’origine de quelques r´ ep´ etitions). Il reste n´ eanmoins quelques liens (limit´ es aux outils probabilistes et

`

a des r´ esultats techniques communs). Nous avons fait tout notre possible pour uniformiser nos notations, que nous d´ efinissons avant le chapitre 3 et qui sont red´ efinies ensuite pour chaque chapitre.

La version ´ electronique de cette th` ese (` a t´ el´ echarger sur la page web de l’auteur :

http ://www.latp.univ-mrs.fr/∼chichign/doku.php ?id=acceuil) comprend des liens hyper-

ref qui permettent de se retrouver au chapitre, ` a la section, ` a la formule ou ` a la citation

en un simple clic sur la r´ ef´ erence. Nous incitons le lecteur ` a l’utiliser pour une recherche

(9)

bibliographique ou un r´ esultat technique, bien que la version papier reste la plus agr´ eable ` a

lire.

(10)

Table des mati` eres

1 R´ egression Non-Param´ etrique 13

1.1 Objet de la Th` ese . . . . 13

1.2 Mod` eles de R´ egression et Espaces Fonctionnels . . . . 16

1.2.1 Espaces de H¨ older Isotropes . . . . 16

1.2.2 R´ egression G´ en´ erale . . . . 18

1.2.3 R´ egression Additive . . . . 18

1.2.4 R´ egression Gaussienne et de Cauchy . . . . 20

1.2.5 R´ egression Inhomog` ene de Poisson . . . . 20

1.2.6 R´ egression α . . . . 22

1.2.7 R´ egression Multiplicative Uniforme . . . . 24

1.3 Approche Localement Param´ etrique . . . . 26

1.3.1 Estimateur Bay´ esien . . . . 28

1.3.2 Estimateur de Huber . . . . 30

1.4 Mesure de l’Erreur . . . . 33

1.4.1 Approche Minimax Ponctuelle . . . . 33

1.4.2 Approche Minimax Adaptative . . . . 35

1.5 Adaptation . . . . 36

1.5.1 G´ en´ eralit´ es . . . . 37

1.5.2 Choix de la Fenˆ etre : M´ ethode de Lepski . . . . 38

2 R´ esultats et Perspectives 53 2.1 Approche Bay´ esienne . . . . 53

2.1.1 Recherche de la Vitesse Minimax . . . . 54

2.1.2 Proc´ edure Adaptative . . . . 56

(11)

2.1.3 Grandes D´ eviations . . . . 57

2.1.4 Exemples de Mod` eles avec des Vitesses Diff´ erentes . . . . 58

2.2 Crit` ere de Huber . . . . 61

2.2.1 Adaptation . . . . 61

2.2.2 Grandes D´ eviations . . . . 63

2.2.3 In´ egalit´ es Maximales pour les processus empiriques . . . . 65

2.3 Exp´ eriences num´ eriques . . . . 69

2.4 Perspectives . . . . 79

2.4.1 Approche Bay´ esienne . . . . 79

2.4.2 Crit` ere de Huber . . . . 81

3 General Locally Bayesian Approach 85 3.1 Introduction . . . . 85

3.2 Minimax Estimation . . . . 89

3.3 Adaptive Rule . . . . 91

3.4 Applications . . . . 92

3.4.1 Gaussian Regression . . . . 93

3.4.2 Inhomogeous Poisson Regression . . . . 94

3.4.3 α Regression . . . . 95

3.4.4 Multiplicative Uniform Regression . . . . 96

3.5 Proofs of Main Results . . . . 97

3.5.1 Auxiliary Results: Large Deviations . . . . 97

3.5.2 Proof of Theorem 4 . . . . 98

3.5.3 Proof of Theorem 5 . . . . 98

3.5.4 Proof of Proposition 3 . . . 100

3.6 Appendix . . . 103

4 Locally Bayesian Approach for Multiplicative Uniform Regression 113 4.1 Introduction . . . 113

4.2 Minimax estimation on isotropic H¨ older class . . . 120

4.3 Adaptive estimation on isotropic H¨ older classes . . . 121

4.4 Simulation study . . . 125

4.5 Proofs of main results: upper bounds . . . 128

(12)

4.5.1 Auxiliary results . . . 128

4.5.2 Proof of Proposition 4 . . . 129

4.5.3 Proof of Proposition 5 . . . 135

4.5.4 Proof of Theorem 11 . . . 136

4.5.5 Proof of Theorem 14 . . . 137

4.6 Proofs of lower bounds . . . 139

4.6.1 Proof of Theorem 10 . . . 140

4.6.2 Proof of Theorem 13 . . . 140

4.6.3 Proof of Proposition 6 . . . 141

4.7 Appendix . . . 143

5 Huber Estimation 153 5.1 Introduction . . . 153

5.2 Maximal Risk on H

d

(β, L, M ) . . . 158

5.3 Bandwidth Selector of Huber Estimator . . . 159

5.4 Proofs of Main Results: Upper Bounds . . . 161

5.4.1 Auxiliary Results: Large Deviations for M-estimators . . . 161

5.4.2 Proof of Proposition 7 . . . 164

5.4.3 Proof of Theorem 15 . . . 165

5.4.4 Proof of Theorem 16 . . . 166

5.5 Appendix . . . 169

(13)
(14)

Chapitre 1

R´ egression Non-Param´ etrique

Nous pr´ esentons, dans ce chapitre introductif, les mod` eles de r´ egression non-param´ etriques que nous ´ etudions. Nous introduirons l’approche localement param´ etrique, le risque mini- max et la notion d’adaptation. Les estimateurs, utilis´ es dans cette th` ese, sont pr´ esent´ es dans la section 1.3. Une partie importante de l’introduction est consacr´ ee ` a une pr´ esentation d´ etaill´ ee de la m´ ethode dite de Lepski (voir Section 1.5.2).

1.1 Objet de la Th` ese

Dans cette th` ese, nous ´ etudions un domaine de la statistique math´ ematique : l’estima- tion non-param´ etrique. Ceci consiste ` a estimer des fonctions (objets de dimensions infinies)

`

a partir d’observations “bruit´ ees”. Ce genre d’approche s’est consid´ erablement d´ evelopp´ e ces derni` eres ann´ ees dans le monde scientifique. L’imagerie (m´ edicale ou astronomique), l’´ etude du g´ enome (puces ` a ADN en grande dimension) ou encore les probl` emes inverses (physique des mat´ eriaux, tomographie en imagerie m´ edicale, etc.) ont recours ` a l’estimation non-param´ etrique. Les statistiques ont un attrait particulier du fait qu’elles utilisent des th´ eories math´ ematiques pour mod´ eliser des probl` emes r´ eels. En particulier, l’introduction, de la notion d’al´ ea (en anglais : random) dans les observations, permet au statisticien de construire des m´ ethodes d’estimation “fiables” en th´ eorie.

La mod´ elisation de probl` eme se fait de la mani` ere suivante. On dispose d’un nombre n de donn´ ees, not´ ees Y = (Y

1

, Y

2

, ..., Y

n

) ∈ R

n

, issues d’une exp´ erience r´ eelle. On mod´ elise les observations en utilisant deux th´ eories math´ ematiques, l’analyse fonctionnelle et les proba- bilit´ es. On peut d´ ecomposer les observations Y de la fa¸con suivante :

Y

i

= f (X

i

) + “bruit”, i = 1, ..., n, X

i

∈ R

d

,

que l’on appele mod` ele additif, o` u f est une fonction “r´ eguli` ere” ` a d variables de R

d

R . Nous supposerons pour toute cette th` ese que la fonction f est dans un certain espace

fonctionnel not´ e F

β

de dimension infinie o` u β est un param` etre de r´ egularit´ e.

(15)

On suppose ´ egalement que nos observations sont d´ egrad´ ees par un al´ ea inconnu que nous mod´ elisons par une variable al´ eatoire comme nous le voyons souvent en statistique (voir Section 1.2).

A partir de ce mod` ele math´ ematique, on veut r´ esoudre le probl` eme suivant : Estimer ou reconstruire la fonction f ` a partir des observations (Y

1

, Y

2

, ..., Y

n

). Pour cela nous d´ eveloppons des outils math´ ematiques ad´ equats. Dans les mod` eles additifs, comme le mod` ele gaussien, des m´ ethodes d’estimation ont ´ et´ e largement d´ evelopp´ ees depuis un demi-si` ecle et sont devenus un outil courant de l’estimation non-param´ etrique : estimateurs ` a noyau (voir Rosenblatt [1956], Parzen [1962], Nadaraya [1964], Watson [1964] et Borovkov [1987]) ou plus r´ ecemment la d´ ecomposition en bases d’ondelettes (Donoho, Johnstone, Kerkyacharian, et Picard [1995]

et H¨ ardle, Kerkyacharian, Picard, et Tsybakov [1998]).

Il est bien connu que les estimateurs lin´ eaires (par rapport aux observations, voir D´ efinition 4) ne sont pas robustes (non-sensibles aux valeurs extrˆ emes, en anglais outliers). Par exem- ple, si le bruit est une variable al´ eatoire de Cauchy (sans moment d’ordre 1), ces estimateurs sont inefficaces (Voir Exemple 1.1).

Si les observations admettent un moment d’ordre deux ( E Y

2

< ∞), on sait, d’apr` es le th´ eor` eme central limite, que la moyenne empirique converge (en probabilit´ e) vers son esp´ erance ` a la vitesse 1/ √

n. Ainsi, les estimateurs lin´ eaires ne feront jamais mieux que cette vitesse. Ce qui implique que les estimateurs lin´ eaires ne sont pas optimaux pour certains mod` eles (voir Exemple 1.1 et Section 1.2).

L’utilisation du ph´ enom` ene de Stein [1981] repose sur le fait que le bruit est gaussien. En effet, Stein [1981] met au ´ evidence la contraction de Stein dans le mod` ele de suites gaussi- ennes qui n’est valable seulement si le bruit est gaussien ou sous-gaussien. Bien que l’esti- mateur de James/Stein soit ”meilleur” que la moyenne empirique, ces propri` et´ es th´ eoriques sont valables seulement dans le cas Gaussien.

L’adaptation, en estimation non-param´ etrique, est aussi tr` es ”gourmande” en bruit gaussien, notamment pour l’obtention d’in´ egalit´ es exponentielles de concentration. Par ex- emple pour l’estimateur ` a noyau, ceci est n´ ecessaire (voir Section 1.5).

Exemple 1. Dans le cas param´ etrique, on peut trouver des mod` eles dans lesquels les estimateurs lin´ eaires ne sont pas optimaux. Par exemple, si les observations suivent une loi uniforme continue sur l’intervalle [0, θ], Y

i

∼ U

[0,θ]

, i = 1, ..., n, alors la moyenne empirique not´ ee ¯ Y permet d’estimer θ ≥ 0 avec la vitesse 1/ √

n, 2 ¯ Y

n

−1/2

−−−→

n→∞

θ, en probabilit´ e.

On peut construire un estimateur plus rapide dans ce mod` ele, max

i

Y

i n

−1

−−−→

n→∞

θ, en probabilit´ e,

un estimateur non-lin´ eaire qui atteint la vitesse 1/n. Nous ´ etudions certains mod` eles avec

cette particularit´ e dans le cas non-param´ etrique et nous d´ eveloppons un estimateur bay´ esien

(16)

non-lin´ eaire. Celui-ci nous permet d’atteindre les vitesses de convergence optimales (Voir D´ efinition de l’optimalit´ e, Section 1.4).

Exemple 2. On regarde maintenant le mod` ele de Cauchy, pour lequel, beaucoup d’estima- teurs ont ´ echou´ e, notamment les estimateurs lin´ eaires. On prend les variables Y

i

= θ +C

i

, i = 1, ..., n avec C

i

une variable de Cauchy (D´ efinition 1.2.4). Il est facile de voir que la moyenne empirique ¯ Y n’est pas convergente. Dans ce cas, on utilise la m´ ediane empirique Med(Y ) et sa normalit´ e asymptotique (voir par exemple Brown, Cai, et Zhou [2008]). Ainsi, la m´ ediane empirique converge vers θ ` a la vitesse 1/ √

n, Med(Y )

n

−1/2

−−−→

n→∞

θ, en probabilit´ e.

Pour le cas non-param´ etrique, nous proposons un estimateur fond´ e sur cette id´ ee que nous appelons estimateur de Huber.

Nous venons de pr´ esenter deux exemples o` u les estimateurs lin´ eaires ne sont pas efficaces (voir inutilisables). Ces remarques motivent le travail de cette th` ese avec l’introduction de nouveaux estimateurs non-lin´ eaires.

Dans cette th` ese, nous d´ eveloppons de nouveaux estimateurs localement param´ etriques capables (sous certaines conditions) de s’adapter aux diff´ erents bruits (gaussien, Cauchy, etc.) et ` a la forme du mod` ele (additif ou multiplicatif). Ainsi, nous pr´ esentons deux types d’estimateurs : estimateur bay´ esien et estimateur de Huber. Nous montrons que pour diff´ erents mod` eles de r´ egression, ces estimateurs sont optimaux au sens minimax (D´ efinition 8) sur les espaces de H¨ older isotropes (D´ efinition 1).

La notion d’adaptation, introduite depuis une vingtaine d’ann´ ees, est un point incon- tournable en estimation non-param´ etrique (Stone [1982] et Efromovich et Pinsker [1984]).

Nous proposons plusieurs proc´ edures adaptatives reposant sur la m´ ethode dite de Lepski pour le choix de la fenˆ etre. Ces proc´ edures permettent aux estimateurs consid´ er´ es d’attein- dre des vitesses de convergences adaptatives optimales en un certain sens (voir Section 4.3).

L’utilisation de la m´ ethode dite de Lepski est fr´ equente dans cette th` ese. De ce fait, nous pr´ esentons dans ce chapitre, l’id´ ee de la m´ ethode ainsi que les conditions suffisantes ` a la mise en oeuvre de la proc´ edure.

L’int´ erˆ et de l’estimation d´ epasse largement le cadre pratique et algorithmique. Il y a un vrai int´ erˆ et ` a d´ evelopper des proc´ edures qui sont optimales en th´ eorie et de pouvoir les utiliser dans diff´ erents domaines d’applications. Ainsi, les performances th´ eoriques de nos estimateurs adaptatifs reposent sur le contrˆ ole des grandes d´ eviations. Ce contrˆ ole peut ˆ etre obtenu par des in´ egalit´ es de type in´ egalit´ es de concentration pour les processus empiriques qui ont ´ et´ e tr` es d´ evelopp´ ees, entre autres par Talagrand [1995,1996a,1996b], Ledoux [1997], Birg´ e et Massart [1998],

Massart [2000, 2007], Bousquet [2002], Boucheron, Bousquet, et Lugosi [2004], Golubev et

Spokoiny [2009] et Goldenshluger et Lepski [2009b], du fait de leur n´ ecessit´ e.

(17)

1.2 Mod` eles de R´ egression et Espaces Fonctionnels

Dans cette section, nous pr´ esentons les espaces fonctionnels utilis´ es (espaces de H¨ older), ainsi que les diff´ erents mod` eles de r´ egression ´ etudi´ es dans cette th` ese. Dans un premier temps, nous parlerons du mod` ele de r´ egression g´ en´ erale , et diff´ erents exemples de celui-ci, comme la r´ egression additive avec densit´ e inconnue, la r´ egression gaussienne, la r´ egression α et la r´ egression avec bruit multiplicatif uniforme. Un rapide survol est donn´ e sur les mod` eles des statistiques non-param´ etriques en fin de section.

1.2.1 Espaces de H¨ older Isotropes

Tout au long de ce manuscrit, nous travaillerons exclusivement avec les espaces de H¨ older isotropes, i.e. la fonction de r´ egression inconnue est suppos´ ee ` a plusieurs variables avec la mˆ eme r´ egularit´ e h¨ olderienne dans chaque direction (par rapport ` a chaque variable).

Pour tout (p

1

, ..., p

d

) ∈ N

d

nous notons ~ p = (p

1

, ..., p

d

) et |~ p| = p

1

+ ... + p

d

.

D´ efinition 1. Soient β > 0, L > 0, M > 0, d ∈ N

et bβc le plus grand entier strictement inf´ erieur ` a β. La classe de H¨ older isotrope H

d

(β, L, M) est l’ensemble des fonctions f : [0, 1]

d

→ R ayant sur [0, 1]

d

toutes ses d´ eriv´ ees d’ordre bβc et telles que ∀x, y ∈ [0, 1]

d

bβc

X

m=0

X

|~p|=m

sup

x∈[0,1]d

|~p|

f(x)

∂x

p11

· · · ∂x

pdd

≤ M,

|~p|

f (x)

∂x

p11

· · · ∂x

pdd

− ∂

|~p|

f(y)

∂y

p11

· · · ∂y

dpd

≤ Lkx − yk

β−bβc1

, ∀

~ p

= bβc.

La th´ eorie Minimax repose essentiellement sur le fait que la fonction ` a estimer est dans un espace fonctionnnel, ici H

d

(β, L, M). Les r´ esultats minimax pr´ esent´ es dans la suite peuvent ˆ

etre ´ etendus aux espaces anisotropes. Mais nous verrons dans la section 2.4 que les m´ ethodes adaptatives ne sont pas con¸cues pour les espaces anisotropes dans le cas o` u l’estimateur est non-lin´ eaire.

Pour ´ etudier les mod` eles de r´ egression inhomog` ene de Poisson et de r´ egression mul- tiplicative uniforme, une contrainte suppl´ ementaire doit ˆ etre rajout´ ee sur le support de f ∈ H

d

(β, L, M, A) o` u

H

d

(β, L, M, A) =

f ∈ H

d

(β, L, M ) : inf

x∈[0,1]d

f(x) ≥ A

, A > 0.

Remarque 1. Cette hypoth` ese est suffisante pour l’utilisation de l’estimateur bay´ esien pour

les r´ egressions inhomog` ene de Poisson et multiplicative uniforme, celle-ci est purement

th´ eorique (n´ ecessaire) et n’est pas justifi´ ee en pratique. Si on prend la r´ egression multi-

plicative uniforme (d´ efinie dans la section 1.2.7), et si f admet des points de nullit´ e, alors

(18)

Y

i

= 0. Avec cette observation, il est difficile de dire si cela est dˆ u ` a la fonction ou au bruit (qui a une probabilit´ e non-n´ egligeable d’ˆ etre proche de 0). Pour la r´ egression inhomog` ene de Poisson, le param` etre de la loi de Poisson est toujours positif. Ainsi en pratique, on prendra A proche de 0 pour minimiser cette restriction. Sans cette restriction, le probl` eme est ouvert.

La classe des fonctions de H¨ older est incluse dans les espaces de Besov qui sont souvent utilis´ es dans l’approche maxiset ou avec les estimateurs par ondelettes (Autin [2004]). Nous donnons la d´ efinition de ces espaces ci-dessous.

Les espaces de Besov Multidimensionnels. Nous rappelons la d´ efinition des espaces de Besov pour les fonctions unidimensionnelles et quelques inclusions avec les espaces de H¨ older et Sobolev. On d´ efinit les espaces de Besov, dans le cas de fonctions de [0, 1]

d

dans R . Il faut pour cela carat´ eriser le module de continuit´ e d’une fonction f de L

p

[0, 1]

d

. Pour tout x dans [0, 1]

d

, notons ∆

h

f(x) = f (x − h) − f(x), et pour tout entier u, on note l’it´ er´ ee

uh

f = ∆

h

◦ · · · ◦ ∆

h

f . On d´ efinit alors le u

e

module de continuit´ e pour la norme p (avec p ∈ [1, ∞]) et pour tout t > 0 de la mani` ere suivante

ω

p

(f, t) = sup

khk2≤t

Z

Ju,h

|∆

uh

f (x)|

p

dx

!

1/p

, o` u J

u,h

= {x ∈ [0, 1]

d

, x + uh ∈ [0, 1]

d

} et k.k

2

est la norme `

2

sur R

d

.

D´ efinition 2. Soient p ∈ [1, ∞], q ∈ [1, ∞], s ∈]0, ∞[ et u = dse (o` u dse est le plus petit entier strictement plus grand que s). On dit qu’une fonction f appartenant ` a L

p

[0, 1]

d

est dans l’espace de Besov B

sp,q

[0, 1]

d

, quand γ

spq

(f) < ∞ o` u

γ

spq

(f ) =

 

 

 

  Z

0

t

−s

ω

p

(f, t)

q

dt

t , si 1 ≤ q < ∞ , sup

t

|t

−s

ω

p

(f, t)|, si q = ∞ . On note B

sp,q

(L) une boule de Besov de rayon L, munie de la norme :

kf k

Jp,qs

= kfk

p

+ γ

spq

(f ).

Les espaces de Besov constituent une tr` es grande famille de fonctions. En particulier, rappelons que l’espace de Sobolev S

s

correspond pr´ ecis´ ement ` a l’espace B

2,2s

et l’espace de H¨ older H

d

(s, L) (avec 0 < s / ∈ N ) ` a l’espace B

s∞,∞

(L) o` u L est le rayon de la boule de Besov.

Ces espaces sont tr` es utilis´ es dans l’approche par ondelettes. En effet, il est possible de

d´ efinir les espaces de Besov ` a partir des coefficients dans la base d’ondelettes (voir H¨ ardle,

Kerkyacharian, Picard, et Tsybakov [1998]). Pour plus de d´ etails sur ces espaces, on se

r´ ef´ erera aux travaux de Bergh et L¨ ofstr¨ om [1976], Peetre [1976], Meyer [1992] ou DeVore et

Lorentz [1993].

(19)

1.2.2 R´ egression G´ en´ erale

Dans notre mod` ele, on observe les couples de variables al´ eatoires ind´ ependantes (X

1

, Y

1

) , ..., (X

n

, Y

n

) not´ ees

(1.2.1) Z

n

= X

i

, Y

i

i=1,...,n

,

o` u X

i

est un vecteur dit de variables explicatives (appel´ e design) qui d´ etermine la distribution de l’observation Y

i

. Le vecteur X

i

∈ [0, 1]

d

de dimension d peut ˆ etre vu comme une variable temporelle ou spatiale et Y

i

∈ R l’observation au point X

i

. Notre mod` ele suppose que les valeurs X

i

peuvent ˆ etre al´ eatoires ou fix´ ees et que la distribution de chaque Y

i

est d´ etermin´ ee par un param` etre f

i

qui peut d´ ependre de la position X

i

, f

i

= f (X

i

). Dans beaucoup de cas, la param´ etrisation naturelle est choisie de la fa¸con suivante f

i

= E Y

i

|X

i

( E est l’esp´ erance math´ ematique). On note g(., f

i

) la densit´ e sur R de l’observation Y

i

par rapport

`

a la mesure de Lebesgue. Pour la r´ egression additive, nous consid` ererons le design al´ eatoire de loi uniforme sur [0, 1]

d

. Le probl` eme d’estimation est de reconstruire la fonction f en tout point y. Ce mod` ele que nous appelons R´ egression g´ en´ erale, sera trait´ e dans le Chapitre 3.

Un estimateur dit bay´ esien est construit pour ce mod` ele tr` es g´ en´ eral. Nous verrons que sous certaines conditions (voir hypoth` eses 3), cet estimateur atteint les vitesses de conver- gence adaptatives optimales. Dans cette th` ese, cette approche introduite par Has’minskii et Ibragimov [1981], pour l’estimation param´ etrique, est g´ en´ eralis´ ee ` a l’adaptation. Certains mod` eles, o` u la densit´ e g des observations est discontinue, sont ´ etudi´ es.

1.2.3 R´ egression Additive

Dans ce mod` ele, on observe les couples de variables al´ eatoires ind´ ependantes (X

i

, Y

i

)

i

qui v´ erifient l’´ equation :

(1.2.2) Y

i

= f (X

i

) + ξ

i

, i = 1, ..., n,

o` u le bruit est une variable al´ eatoire de densit´ e g

ξ

(.). X

i

est le design al´ eatoire de loi uniforme sur [0, 1]

d

et X

i

est ind´ ependant de ξ

i

. La fonction de r´ egression f est suppos´ ee appartenir

`

a une boule de H¨ older H

d

(β, L, M). Nous supposerons v´ erifi´ ees les hypoth` eses suivantes : Hypoth` eses 1.

1. g

ξ

est paire, 2. g

ξ

(0) ≥ A > 0, 3. g

ξ

est continue en 0.

Remarque 2. La sym´ etrie du bruit (hypoth` ese 1.1) est une supposition assez faible. En

g´ en´ eral, on suppose que les effets du bruit sont les mˆ emes ` a gauche et ` a droite de la m´ ediane

qui vaut 0. Notons qu’un grand nombre de densit´ es, utilis´ ees dans cette th` ese, v´ erifient cette

(20)

hypoth` ese. Les deux autres hypoth` eses sont n´ ecessaires pour contrˆ oler les grandes d´ eviations de l’estimateur de Huber (voir Chapitre 5). Elles permettent aussi de v´ erifier l’assertion suivante. Avec ces hypoth` eses, on peut voir que ξ admet une m´ ediane th´ eorique unique ´ egale

`

a 0, i.e. 0 est unique solution de l’´ equation P (ξ < x) = 1/2. Noter qu’il existe de nombreux mod` eles classiques v´ erifiant ces hypoth` eses (R´ egressions gaussienne, de Cauchy et α). On peut remarquer que la r´ egression additive est un cas particulier de la r´ egression g´ en´ erale. En effet, il suffit de prendre g ., f (X

i

)

= g

ξ

(. − f(X

i

)).

L’´ etude de ce mod` ele n´ ecessite la construction d’un estimateur fond´ e sur l’id´ ee de la m´ ediane (estimateur de Huber, voir Chapitre 5). En particulier, nous d´ eveloppons une proc´ edure adaptative dans le cas o` u la r´ egularit´ e de la fonction cible est inconnue.

Hall et Jones [1990] ont utilis´ e une m´ ethode de Validation crois´ ee (voir Tsybakov [2008]) sur une famille d’estimateurs robustes pour obtenir des r´ esultats adaptatifs avec le risque L

2

. Peu apr` es, H¨ ardle et Tsybakov [1992] ont ´ etandu ce r´ esultat, avec une m´ ethode de Plug- in (introduit par Woodroofe [1970]), pour des fonctions de contrast plus g´ en´ erales, avec un choix al´ eatoire local de la fenˆ etre, mais seulement des r´ esuultats de normalit´ e asymptotique sont donn´ es.

L’adaptation dans la r´ egression additive a fait l’objet d’un autre travail. En effet, Brown, Cai, et Zhou [2008] utilisent la normalit´ e asymptotique de la m´ ediane pour approximer ce mod` ele par le mod` ele gaussien avec une m´ ethode de m´ ediane par blocs. Une ´ etape in- term´ ediaire est de projeter les nouvelles observations dans une base d’ondelettes. Ensuite, la m´ ethode de Stein par blocs (voir Cai [1999]) est utilis´ ee pour l’adaptation en estimation globale. En revanche, cette approche n´ ecessite des hypoth` eses plus fortes que les hypoth` eses 1 qui sont suffisantes pour l’utilisation de l’estimateur de Huber.

Plus r´ ecemment, Reiss, Rozenholc, et Cuenod [2009] utilise la m´ ethode de Lepski pour d´ evelopper un estimateur de Huber adaptatif dans le mod` ele additif. Les r´ esultats obtenus sont pour l’estimation ponctuelle mais pour les fonctions localement constante (i.e. β ≤ 1).

Dans la suite, nous pr´ esentons plusieurs cas particuliers o` u les estimateurs bay´ esien et de Huber peuvent ˆ etre utilis´ es. En effet nous v´ erifions dans le cas de la r´ egression gaussienne, si nos estimateurs sont applicables. Pour le bruit de Cauchy, l’estimateur de Huber est tout d´ esign´ e pour estimer la fonction de r´ egression (voir Chapitre 5). Nous pr´ esentons des mod` eles peu connus dans la litt´ erature (voir R´ egressions α et multiplicative uniforme). Nous utilisons l’estimateur bay´ esien dans le cadre du mod` ele inhomog` ene de Poisson (tr` es utilis´ e en imagerie, voir notamment Polzehl et Spokoiny [2006] et Katkovnik et Spokoiny [2008]).

Ici la vitesse de convergence est la mˆ eme que pour le mod` ele gaussien (qui peut ˆ etre obtenu

avec un estimateur lin´ eaire). Les r´ egressions, dites α et multiplicative uniforme, sont de tr` es

bons exemples dans lesquels la vitesse de convergence devient meilleure que la vitesse des

estimateurs lin´ eaires. Pour plus de d´ etails, voir Section 2.1.4.

(21)

1.2.4 R´ egression Gaussienne et de Cauchy

Les r´ egressions gaussienne ou de Cauchy sont des cas particuliers de la r´ egression additive o` u la densit´ e g

ξ

(.) prend respectivement les formes suivantes

Densit´ e gaussienne : g

ξ

(x) = 2πσ

2

−1/2

exp

− x

2

2

, σ > 0, Densit´ e de Cauchy : g

ξ

(x) = 1

π a

a

2

+ x

2

, a > 0.

(a) Fonction de r´ egression. (b) R´ egression Gaussienne (c) R´ egression de Cauchy.

Figure 1.1 – Observations dans les r´ egressions gaussiennes et de cauchy.

N´ eanmoins, elles suscitent un int´ erˆ et particulier. En effet le bruit gaussien est utilis´ e de fa¸con syst´ ematique dans le domaine des statistiques et le bruit de Cauchy est une variable al´ eatoire sans moment d’ordre 1. Pour le bruit gaussien, on peut trouver une multitude d’articles qui l’´ etudient. Citons deux livres de Nemirovski [2000] et Tsybakov [2008] pour une introduction ` a ce mod` ele et aux m´ ethodes classiques d’estimation non-param´ etrique.

Nous introduisons ce mod` ele standard pour v´ erifier que les estimateurs d´ evelopp´ es dans cette th` ese fonctionnent correctement dans ce mod` ele classique (voir Chapitres 3 et 5).

L’estimateur de Huber est particuli` erement bien adapt´ e aux bruits dont les densit´ es sont

`

a queues lourdes (par exemple bruit de Cauchy, voir Chapitre 5). On peut constater une diff´ erence notable, entre les bruits gaussien et de Cauchy, dans la figure 1.1. En effet pour le bruit de Cauchy, on constate un nombre plus important de valeurs extrˆ emes. Ceci explique l’inefficacit´ e des estimateurs lin´ eaires pour ce bruit.

1.2.5 R´ egression Inhomog` ene de Poisson

Consid´ erons la r´ egression g´ en´ erale, cette fois avec la particularit´ e que les observations

sont discr` etes Y

i

∈ N . Nous supposons que Y

i

suit une loi de Poisson de param` etre f(X

i

)

(22)

(Y

i

∼ P f (X

i

)

). On ´ ecrit la densit´ e g(k, f (X

i

)) = P

f

(Y

i

= k) =

f (X

i

)

k

k! exp

− f (X

i

) , k ∈ N , f ∈ H

d

(β, L, M, A).

Les points du design (X

i

)

i∈1,...,n

sont d´ eterministes et sans perte de g´ en´ eralit´ e nous supposons qu’ils sont r´ epartis de mani` ere uniforme sur la grille suivante :

(1.2.3) X

i

1/n

1/d

, 2/n

1/d

, . . . , 1

d

, i = 1, . . . , n.

Remarquons la restriction de f ` a l’espace H

d

(β, L, M, A), cette restriction (f = A) est retrouv´ ee dans la r´ egression multiplicative uniforme. Ce mod` ele est tr` es utilis´ e en imagerie, en particulier pour mod´ eliser la photom´ etrie des appareils photo num´ erique. On le trouve aussi en tomographie, il mod´ elise la r´ esonance magn´ etique des positons utilis´ ee pour obtenir des IRM d’une ou plusieurs parties du corps humain.

Les travaux de Anscombe [1948] permettent de passer approximativement de la r´ egression de Poisson ` a la gaussienne par une transformation des observations par la fonction x → 2 p

x + 3/8. Dans la figure 1.2, nous donnons des exemples de densit´ es de Poisson et un

´

echantillon d’observations simul´ e ` a partir d’une fonction de r´ egression.

(a) Densit´ es d’une loi de Poisson de param` etre t. (b) Observations de Poisson.

Figure 1.2 – Densit´ e de la loi de Poisson de param` etre t > 0 et observations.

(23)

Image Originale. Bruit de Poisson. Bruit Gaussien.

Figure 1.3 – Illustration d’images issues d’observations de Poisson (zoomer sur la version num´ erique).

1.2.6 R´ egression α

Le mod` ele de r´ egression α est le suivant

(1.2.4) Y

i

= f(X

i

) +

i

, i = 1, ..., n,

o` u

i

a pour densit´ e g

α

(x) = C(α) exp {−|x|

α

} avec 0 < α < 1/2. C(α) est une constante choisie pour que g

α

soit bien une densit´ e. Ici le design X

i

est choisi comme dans (1.2.3) et f ∈ H

d

(β, L, M ). La particularit´ e de ce mod` ele est que pour α < 1/2 la vitesse de convergence change en fonction de α (voir Chapitre 3).

La figure 1.4 pr´ esente les observations de ce mod` ele pour α = 1/4. On constate qu’il y a un tr` es grand nombre d’observations ´ eloign´ ees de la fonction de r´ egression f . Mais un petit nombre est tr` es proche de f (` a comparer avec la figure 1.1), cela nous donne une information tr` es pr´ ecieuse qui peut se v´ erifier en th´ eorie ` a travers de meilleures vitesses de convergence.

En effet, nous verrons que l’estimateur bay´ esien est plus rapide (au sens des vitesses de convergence) que les estimateurs lin´ eaires (voir Sections 2.1 et 3.4.3).

Nous donnons la figure 1.5 pour illustrer ce comportement. En effet, la queue de dis- tribution ne joue pas un rˆ ole majeur entre les densit´ es. Le comportement de la densit´ e, ` a mettre en avant, est la concentration du bruit au voisinage de 0. Le voisinage de la gaussi- enne (on parle de l’intervalle [−3, 3]) est assez large, tandis que le voisinage de g

α

est plus concentr´ e autour de 0 (on constate un pic en 0 de la fonction g

α

). Donc bien que la queue de distribution gaussienne soit la plus faible, le comportement autour de 0, handicape cette loi. Nous avons aussi fait apparaˆıtre la loi de Cauchy qui a le mˆ eme comportement que la gaussienne au voisinage de 0, mais une queue de distribution lourde.

Dans la figure 1.5, nous avons choisi les param` etres de chaque densit´ e, pour que toutes

soient ´ egales ` a 1 au point 0. Ceci est utilis´ e comme crit` ere de comparaison de la dispersion

(ou la variance, mais n’existe pas pour la loi de Cauchy) de chaque densit´ e.

(24)

(a) R´ egression Gaussienne. (b) R´ egression α.

Figure 1.4 – Comparaison entre des observations gaussiennes et des observations issues de la r´ egression α pour α = 1/4.

Figure 1.5 – Densit´ es gaussienne, de Cauchy et α, α = 1/4

(25)

1.2.7 R´ egression Multiplicative Uniforme

Soit l’exp´ erience statistique g´ en´ er´ ee par les observations Z

n

= (X

i

, Y

i

)

i=1,...n

, n ∈ N

, o` u (X

i

, Y

i

) satisfont ` a l’´ equation

(1.2.5) Y

i

= f(X

i

) × U

i

, i = 1, . . . , n,

o` u f ∈ H

d

(β, L, M, A). Les variables al´ eatoires (U

i

)

i∈1,...,n

sont suppos´ ees ind´ ependantes et uniform´ ement distribu´ ees sur [0, 1]. Le design X

i

est choisi comme dans (1.2.3). Ce mod` ele est ´ etudi´ e dans le chapitre 4 pour lequel on utilise l’estimateur bay´ esien pour estimer la fonction de r´ egression. Ce type de mod` ele peut ˆ etre utilis´ e dans le cadre des mod` eles de fronti` ere d´ evelopp´ es par Simar et Wilson [2000]. Outre le cadre pratique, il est int´ eressant de voir que les estimateurs lin´ eaires sont inefficaces dans ce mod` ele (voir Section 2).

Nous verrons que pour ce mod` ele, la vitesse de convergence minimax est tr` es rapide. Elle est meilleure que toutes celles des mod` eles pr´ ec´ edents. Visuellement, on peut le constater

`

a l’aide de la figure 1.6. En effet, toutes les observations sont en dessous de la fonction de r´ egression f . Et on voit distinctement apparaˆıtre la fonction cible, en regardant le maximum par morceaux des observations. L’estimateur bay´ esien sera, dans ce mod` ele, beaucoup plus rapide que les estimateurs lin´ eaires (Voir Sections 2.1 et 3.4.4).

Figure 1.6 – Observations d’une fonction bruit´ ee avec un bruit multiplicatif uniforme.

(26)

Autres Mod` eles. On peut citer d’autres mod` eles des statistiques non-param´ etriques : le mod` ele du bruit blanc et les probl` emes inverses. Le mod` ele de bruit blanc gaussien est d´ efini par l’´ equation diff´ erentielle stochastique :

dY

t

= f (t)dt + σ

√ n dW

t

, t ∈ R

d

,

o` u f est la fonction ` a estimer ` a partir des observations (Y

t

)

t∈Rd

, W

t

est un champ Brownien sur R

d

(Processus de Wiener), σ > 0 et n ∈ N

. Le mod` ele de bruit blanc gaussien joue un rˆ ole important en Statistiques (voir Has’minskii et Ibragimov [1981]). L’avantage de ce mod` ele est qu’il est simple ` a utiliser et qu’il approche d’autres mod` eles statistiques, en particulier la r´ egression gaussienne (Brown et Low [1996] et Nussbaum [1996]).

Pour ce mod` ele, les estimateurs ` a noyau sont utilis´ es pour l’adaptation (voir les travaux les plus r´ ecents de Kerkyacharian, Lepski, et Picard [2001], Klutchnikoff [2005], Goldensh- luger et Lepski [2008], Goldenshluger et Lepski [2009a]).

Les probl` emes inverses sont le r´ esultat de l’´ equation suivante : dY

t

= Af (t)dt + σ

√ n dW

t

, t ∈ R

d

,

o` u A est un op´ erateur lin´ eaire d´ efini sur un espace fonctionnel. L’heuristique de ce mod` ele est que l’on observe indirectement la fonction cible, ` a travers une transformation de celle- ci, par l’op´ erateur A connu mais pas forc´ ement inversible. Les probl` emes inverses sont tr` es connus pour leurs applications en pratique (´ equation de la chaleur, tomographie aux rayons X, etc.). Depuis ces dix derni` eres ann´ ees, de nombreuses m´ ethodes ont ´ et´ e d´ evelopp´ ees pour l’estimation adaptative de la fonction f (voir par exemple Cavalier et Tsybakov [2002] et Cavalier, Golubev, Picard, et Tsybakov [2002]). Par exemple, la m´ ethode de Stein par blocs est fr´ equemment utilis´ ee. Le mod` ele est projet´ e dans une base et on obtient le mod` ele de suite gaussienne. On observe alors les coefficients de la fonction f , multipli´ es par les valeurs singuli` eres de l’op´ erateur A, auxquels on ajoute un bruit gaussien. Une autre m´ ethode, d´ evelopp´ ee pour les probl` emes inverses tr` es mal pos´ es (l’op´ erateur A n’est pas inversible), est appel´ ee enveloppe du risque et introduite par Cavalier et Golubev [2006], Cavalier [2008]

et Marteau [2009].

(27)

1.3 Approche Localement Param´ etrique

Dans cette section, nous pr´ esentons l’approche localement param´ etrique (en anglais : local parametric fitting). Plus pr´ ecisemment, nous traitons l’approche polynomiale locale qui nous permet d’approximer localement la fonction f par un polynˆ ome not´ e f

θ

lui-mˆ eme inconnu.

Ensuite, nous proposons deux estimateurs permettant d’estimer les coefficients du polynˆ ome d’approximation f

θ

. Cette technique est appel´ ee M´ ethode des polynˆ omes locaux, elle a ´ et´ e utilis´ ee pour la premi` ere fois par Katkovnik [1985] (pour plus de d´ etails voir Tsybakov [2008]). Notons que, en pratique, le degr´ e du polynˆ ome d’approximation est choisi assez petit (degr´ e = 0, 1 ou encore 2), ceci est dˆ u au temps de calculs qui est exponentiellement grand par rapport au nombre de coefficients ` a estimer.

L’approche localement param´ etrique ne s’arrˆ ete pas qu’aux polynˆ omes. On peut imag- iner approximer la fonction f par tout autre objet param´ etrique. Par exemple, on peut d´ ecomposer f dans une base orthogonale o` u l’on ne gardera qu’un nombre fini de coeffi- cients.

M´ ethode des Polynˆ omes Locaux. On se place dans le mod` ele de r´ egression g´ en´ erale d´ efini dans (1.2.1). Soit f ∈ H

d

(β, L, M) avec L, M > 0 et β ∈ [0, b[ o` u b ∈ N

peut ˆ etre choisi arbitrairement grand (b est la r´ egularit´ e maximale des fonctions que l’on ´ etudie). Soit

(1.3.1) V

h

(y) =

( X

i

d

O

j=1

y

j

− h/2, y

j

+ h/2

∩ [0, 1]

d

)

,

un voisinage de y tel que V

h

(y) ⊆ [0, 1]

d

, o` u est h ∈ (0, 1) un scalaire donn´ e. Soit

(1.3.2) D

b

=

b

X

m=0

m + d − 1 d − 1

.

Soit K (z), ∀z ∈ R

d

le vecteur de dimension D

b

des polynˆ omes du type suivant : K

>

(z) =

d

Y

j=1

z

jpj

, (p

1

, . . . , p

d

) ∈ N

d

: 0 ≤ p

1

+ · · · + p

d

≤ b

! ,

o` u le signe > repr´ esente la fonction tranposition. Ensuite, pour tout t ∈ R

Db

, o` u t

>

= t

p1,....,pd

, (p

1

, . . . , p

d

) ∈ N

d

: 0 ≤ p

1

+ · · · + p

d

≤ b

, on d´ efinit le polynˆ ome local f

t

(x) = t

>

K

x − y h

I

Vh(y)

(x), x ∈ [0, 1]

d

, (1.3.3)

o` u I est la fonction indicatrice. Notons que f

t

(y) = t

0,...,0

. Introduisons l’ensemble des coef- ficients

Θ M

=

t ∈ R

Db

: ktk

1

≤ M ⊂ R

Db

,

(1.3.4)

(28)

o` u k.k

1

est la norme `

1

sur R

Db

. Remarquons que pour tout f ∈ H

d

(β, L, M)

∃θ = θ(f, y, h) ∈ Θ M

: sup

x∈Vh(y)

f (x) − f

θ

(x)

≤ Ldh

β

.

Figure 1.7 – Illustration d’une approximation locale d’une fonction (ligne) par une droite ou un polynˆ ome d’ordre 1 (pointill´ e)).

Le polynˆ ome local f

θ

peut ˆ etre vu comme une approximation localement param´ etrique de la fonction de r´ egression f sur le voisinage V

y

(h). Par exemple, on peut choisir pour f

θ

le polynˆ ome de Taylor de la fonction f au point y (voir Figure 1.7).

Comme nous l’avons pr´ ecis´ e en d´ ebut de chapitre, la restriction aux polynˆ omes locaux n’est pas n´ ecessaire, si l’on trouve un autre objet param´ etrique capable d’approcher la fonc- tion cible (par exemple, une d´ ecomposition en base d’ondelettes ` a coefficients finis).

L’id´ ee principale est que si h est choisi suffisament petit, les observations originales (1.2.1) sont bien approxim´ ees par le mod` ele param´ etrique Y

i

de densit´ e g(., f

θ

(X

i

)) dans lequel, sous certaines conditions sur g(.), les estimateurs de Huber et bay´ esien sont optimaux au sens des vitesses de convergences. Dans la suite nous pr´ esentons les estimateurs qui nous permettent d’estimer θ, en rappelant pour commencer, la d´ efinition d’un estimateur.

D´ efinition 3. On dit que f ˜ est un estimateur si f ˜ (.) = ˜ f ., Z

n

est une fonction mesurable des observations.

D´ efinition 4. On dit que f ˜ est un estimateur lin´ eaire si il existe K : [0, 1]

d

× [0, 1]

d

→ R telle que :

f ˜ (y) =

d

X

i=1

K X

i

, y

Y

i

, ∀f ∈ H

d

(β, L), ∀y ∈ [0, 1]

d

.

On peut trouver cette d´ efinition dans les notes de Nemirovski [2000].

(29)

D´ efinition 5. On appelle f

θˆ

estimateur par polynˆ omes locaux si θ ˆ est solution du probl` eme de minimisation suivant :

t∈Θ(M

min

)

` Z

n

, f

t

, o` u `(., .) est un crit` ere ` a choisir.

Dans cette th` ese, on rencontre les crit` eres bay´ esien, des moindres carr´ es, des valeurs absolues et de Huber (voir ci-dessous).

1.3.1 Estimateur Bay´ esien

Consid´ erons, dans cette section, le mod` ele de r´ egression g´ en´ erale d´ efinie dans la section 1.2.2 et soit E

f

= E

nf

l’esp´ erance math´ ematique par rapport ` a la loi de probabilit´ e P

f

= P

nf

des observations Z

n

. D´ efinissons la pseudo vraisemblance L

h

(t, Z

n

) = Y

Xi∈Vh(y)

g Y

i

, f

t

(X

i

)

, t ∈ Θ M , (1.3.5)

et le crit` ere bay´ esien (1.3.6) π

h

(t) =

Z

Θ(M)

kt − uk

1

L

h

u, Z

n

1/m

du, t ∈ Θ M .

o` u m est une constante positive choisie dans la suite (voir Hypoth` eses 1, Chapitre 3).

Soit ˆ θ(h) la solution du probl` eme de minimisation suivant :

(1.3.7) θ(h) = arg min ˆ

t∈Θ(M)

π

h

(t),

o` u k.k

1

est la norme `

1

sur R

Db

. L’estimateur localement bay´ esien f ˆ

h

(y) de f (y) est d´ efini maintenant comme ˆ f

h

(y) = ˆ θ

0,...,0

(h).

Nous constatons que la vraisemblance joue le rˆ ole de la loi a priori sur le param` etre ` a estimer. Il est possible de rajouter un autre a priori sur le param` etre. En effet, on a l’habitude de voir (Has’minskii et Ibragimov [1981]) un crit` ere de la forme R

kt−uk

1

L

h

(u)q(u)du o` u q(.) est une densit´ e sur Θ(M ) (dans notre cas q(.) ≡ 1). Dans l’approche bay´ esienne, le but est de choisir de fa¸con optimale cette densit´ e. Ici, nous nous int´ eressons seulement au probl` eme d’optimalit´ e des vitesses de convergence. On remarque aussi que la vraisemblance est ´ elev´ ee

`

a la puissance 1/m (m est ` a choisir). C’est une nouvelle fa¸con de consid´ erer l’estimateur de

type bay´ esien, traditionnellement m = 1. Le choix de m permet d’affaiblir les hypoth` eses

sur la densit´ e g(.) et d’avoir une meilleure compr´ ehension de la d´ emonstration. Dans le

chapitre 4 nous prenons m = 1, en revanche dans le chapitre 3 nous consid´ erons m ` a choisir

(par exemple m = 2 pour la r´ egression gaussienne). Le chapitre 4 est un cas particulier du

chapitre 3 du point de vue des mod` eles, mais les d´ emonstrations sont plus complexes dans

le chapitre 4 car m = 1 est mal ajust´ e.

(30)

Le choix de la fonction de perte, ici la norme `

1

, n’est pas restrictif. Ceci nous permet d’am´ eliorer les constantes de majoration du risque. On peut prendre notamment la norme

`

2

qui permet de donner une forme explicite de ˆ θ pour l’estimation param´ etrique unidimen- sionnelle (Has’minskii et Ibragimov [1981]) :

θ(h) = ˆ R

Θ(M)

u

L

h

u, Z

n

1/m

du R

Θ(M)

L

h

v, Z

n

1/m

dv .

Cet estimateur est aussi connu sous le nom d’estimateur de Pitman (voir Has’minskii et Ibragimov [1981]). Cette version de l’estimateur bay´ esien donne un estimateur lin´ eaire pour la r´ egression gaussienne. Mais cela ne d´ epend pas de la norme `

2

utilis´ ee ici. En effet la forme de l’estimateur bay´ esien d´ epend directement de la densit´ e g(., .) des observations et non de la fonction de perte utilis´ ee pour sa construction. Notons que cette m´ ethode est similaire ` a une approche localement param´ etrique ´ etablie ` a partir d’estimateurs du maximum de vraisemblance r´ ecemment d´ evelopp´ es par Polzehl et Spokoiny [2006] et Katkovnik et Spokoiny [2008] pour les mod` eles statistiques r´ eguliers.

Le principal avantage de ce nouvel estimateur bay´ esien, est qu’il atteint la vitesse de con- vergence optimale du mod` ele. Par exemple, pour les r´ egressions gaussienne et multiplicative uniforme, notre estimateur atteint respectivement les vitesses minimax (voir D´ efinition 8) n

2β+dβ

et n

β+dβ

sous les hypoth` eses 3. Nous pouvons dire que l’estimateur bay´ esien con- currence (fait mieux ou aussi bien que) les estimateurs lin´ eaires dans certains mod` eles (voir Section 2.1).

Estimateur du Maximum de Vraisemblance

Il est tr` es important de se poser la question suivante : existe-t-il d’autres estimateurs optimaux comme l’estimateur bay´ esien ?

La r´ eponse ` a cette question est positive. En effet, l’exemple le plus connu est l’estimateur du maximum de vraisemblance. Cet estimateur concurrence les estimateurs lin´ eaires au mˆ eme titre que l’estimateur bay´ esien. On peut expliquer ce ph´ enom` ene par le fait que ces deux estimateurs utilisent l’information contenue dans la vraisemblance du mod` ele et donc sont capables d’am´ eliorer la vitesse. D´ efinissons cet estimateur

f ˚

h

(y) = arg max

t∈Θ(M)

L

h

(t, Z

n

)

Dans le cas param´ etrique, si l’on consid` ere le mod` ele Y

i

∼ U

[0,θ]

, i = 1, ..., n, l’estimateur du maximum de vraisemblance correspondant est max

i=1,...,n

Y

i

. Comme cet estimateur est bas´ e sur le maximum des observations, donc non-lin´ eaire, il est possible d’am´ eliorer la vitesse de convergence. Ainsi, l’estimateur max

i=1,...,n

Y

i

converge vers θ ` a la vitesse 1/n contre 1/ √

n

pour les estimateurs lin´ eaires.

(31)

On peut g´ en´ eraliser cette approche au cas non-param´ etrique en utilisant comme esti- mateur max

Xi∈Vh(y)

Y

i

(estimateur localement constant). Il semble tr` es difficile de pouvoir g´ en´ eraliser cette approche pour un estimateur localement polynˆ omial d’ordre D

b

quelconque.

Un autre probl` eme est qu’il faut supposer une hypoth` ese suppl´ ementaire (par rapport ` a l’estimateur bay´ esien) de continuit´ e sur la vraisemblance. Has’minskii et Ibragimov [1981]

(voir Chapitre 1, Section 5, Th´ eor` eme 5.1) supposent cette hypoth` ese pour l’estimation param´ etrique. Mais jusqu’` a pr´ esent, on ne trouve pas dans la litt´ erature une extension de l’estimateur du maximum de vraisemblance local comme nous l’avons fait pour l’estimateur bay´ esien dans le probl` eme non-param´ etrique.

Polzehl et Spokoiny [2006] utilisent l’estimateur du maximum de vraisemblance dans les mod` eles de famille exponentielles dans le cadre localement param´ etrique (fonctions lo- calement constantes). Les auteurs donnent des r´ esultats tr` es g´ en´ eraux sur ces mod` eles en supposant l’existence de l’information de Fisher (mod` ele r´ egulier). Mais les vitesses de con- vergences ne sont pas am´ elior´ ees et restent les mˆ emes que pour les estimateurs lin´ eaires.

Ainsi, pour la r´ egression multiplicative uniforme non-param´ etrique, il n’est pas prouv´ e que l’on peut utiliser l’estimateur du maximum de vraisemblance et cela semble un objectif difficile.

Comme on vient de le voir, les raisons de l’utilisation de l’estimateur bay´ esien (pr´ ef´ er´ e ` a l’estimateur du maximum de vraisemblance) sont essentiellement techniques.

1.3.2 Estimateur de Huber

On se place, dans cette section, dans le cadre de la r´ egression additive avec la densit´ e g

ξ

inconnue definie dans (1.2.2), Nous supposons vraies les hypoth` eses 1 sur la densit´ e g

ξ

. Nous introduisons une variante de l’estimateur de la m´ ediane, plus commun´ ement appel´ e estima- teur de Huber, d´ evelopp´ e pour l’estimation non-param´ etrique par Tsybakov [1982a, 1982b, 1983, 1986] et H¨ ardle et Tsybakov [1988, 1992]. Ce dernier donne une r` egle de s´ election locale pour la fenˆ etre bas´ ee sur la m´ ethode Plug-in avec des r´ esultats en normalit´ e asymptotique.

Un peu plus tˆ ot Hall et Jones [1990] propose d’utiliser la validation crois´ ee pour le risque L

2

. Plus r´ ecemment, Reiss, Rozenholc, et Cuenod [2009] ont d´ evelopp´ e l’adaptation d’es- timateurs robustes, en particulier le crit` ere de Huber mais seulement pour les estimateurs localement constants. Consid´ erons la fonction de Huber,

Q(z) = z

2

2 I

|z|≤1

+

|z| − 1 2

I

|z|>1

, (1.3.8)

o` u I est la fonction indicatrice.

D´ efinissons le crit` ere de Huber

˜

m

h

(t) = ˜ m

h

t, Z

n

:= 1

nh

d

n

X

i=1

Q (Y

i

− f

t

(X

i

)) I

{Xi∈Vh(y)}

(1.3.9)

(32)

Fonction Carr´ ee z

2

. Fonction Valeur Absolue |z|. Fonction de Huber Q(z).

D´ eriv´ ee Carr´ ee 2z. D´ eriv´ ee Valeur Absolue Sign(z). D´ eriv´ ee de Huber Q

0

(z).

Figure 1.8 – Courbes des fonctions carr´ e, valeur absolue, de Huber et leurs d´ eriv´ ees.

On introduit le crit` ere de Huber qui allie les propri´ et´ es pratiques (robustesse) du crit` ere

`

1

et les propri´ et´ es th´ eoriques du crit` ere `

2

(d´ erivabilit´ e). On parle d’estimateur robuste si l’estimateur en question n’est pas sensible aux valeurs extrˆ emes, (voir Rousseeuw et Leroy [1987] et Huber et Ronchetti [2009]).

Ce crit` ere fait partie de la famille des crit` eres par polynˆ omes locaux. Par exemple, on peut utiliser le crit` ere `

2

appel´ ee moindres carr´ es (Q(z) = z

2

, voir Tsybakov [2008], Chapitre 1), ou bien le crit` ere `

1

appel´ e valeurs absolues (Q(z) = |z|).

Le crit` ere `

2

, qui donne un estimateur fond´ e sur la moyenne, est beaucoup plus sensible aux valeurs extrˆ emes (voir Figure 1.8, la d´ eriv´ ee de la fonction carr´ ee). En pratique, quand on cherche un estimateur robuste, on utilise le crit` ere `

1

qui conduit ` a une estimateur fond´ e sur la m´ ediane. Mais en estimation non-param´ etrique, cela pose un probl` eme car la fonction valeur absolue n’est pas d´ erivable en 0 (voir Figure 1.8). L’avantage de la fonction de Huber est que sa d´ eriv´ ee est continue sur R , tandis que la d´ eriv´ ee de la fonction valeur absolue n’est pas continue en 0 (voir Figure 1.8). On peut voir dans le chapitre 5, que le contrˆ ole des grandes d´ eviations (Proposition 7) est d´ emontr´ e ` a l’aide d’un argument de chaˆınage, celui-ci n´ ecessite la continuit´ e de la d´ eriv´ ee de la fonction Q utilis´ ee dans le crit` ere.

Soit ˘ θ(h) la solution du probl` eme de minimisation suivant :

(1.3.10) θ(h) = arg min ˘

t∈Θ(M)

m ˜

h

(t).

L’estimateur de Huber local f ˘

h

(y) de f (y) est d´ efini comme ˘ f

h

(y) = ˘ θ

0,...,0

(h).

(33)

La fonction de Huber a ´ et´ e introduite par Huber [1964,1981] dans l’id´ ee de d´ evelopper des estimateurs robustes par rapport aux valeurs extrˆ emes. Cette id´ ee a ´ et´ e reprise en pra- tique par Petrus [1999] pour la r´ egression gaussienne dans le cadre de la reconstruction d’images, et par Chang et Guo [2005] dans le mod` ele param´ etrique gaussien pour l’esti- mation du positionnement par satellite. Nous proposons dans le chaptire 5 de d´ emontrer les performances statistiques de cet estimateur. En outre, nous d´ emontrons que la vitesse de convergence atteinte est n

2β+1β

pour toute densit´ e g

ξ

v´ erifiant les hypoth` eses 1. Tsy- bakov [1982a] a d´ emontr´ e que cette vitesse est minimax pour le risque en probabilit´ e avec la condition suivante sur g

ξ

.

∃p

> 0, v

0

> 0 : Z

R

g

ξ

(u) ln g

ξ

(u)

g

ξ

(u + v) du ≤ p

v

2

,

pour tout |v| ≤ v

0

. Cette condition n’est autre qu’un contrˆ ole de la distance de Kullback entre les deux probabilit´ es (Voir Tsybakov [2008], Chapitre 2). On peut montrer que les densit´ es gaussienne et de cauchy v´ erifient cette condition. Mais par exemple, pour la r´ egression α (α < 1/2), cette condition n’est pas v´ erifi´ ee.

Un cadre plus g´ en´ eral est d´ evelopp´ e par Arias-Castro et Donoho [2009] pour les m´ edianes locales it´ er´ ees, justement pl´ ebiscit´ ee pour leur capacit´ e ` a traiter les sauts, et pas uniquement les zones homog` enes. Leurs r´ esultats sont aussi de type minimax pour des fonctions locale- ment Lipschitz (dans le cadre unidimensionnel et bidimensionnel). Arias-Castro et Donoho [2009] montrent que le risque est du mˆ eme ordre de grandeur pour les m´ ethodes par moyennes locales ou par m´ edianes locales dans le cadre r´ egulier (fonctions globalement lipschitziennes).

En revanche, si la fonction cible est discontinue et si les courbes r´ eguli` eres sont suffisamment s´ epar´ ees, ils montrent qu’une double it´ eration de la m´ ethode par m´ edianes locales permet de diminuer la vitesse du risque par rapport au cas par moyennes ou m´ edianes locales. Ce dernier article motive le fait que le crit` ere `

1

est plus performant que le crit` ere `

2

, notamment quand celui-ci ´ echoue (par exemple, fonctions discontinues ou bruit sans moment).

Notons que la fonction de Huber utilise deux r´ egimes, l’un reposant sur le crit` ere `

1

et l’autre sur le cirt` ere `

2

. En effet, on constate que le crit` ere `

2

traite les petits r´ esidus (sur l’intervalle [−1, 1]) et le crit` ere `

1

les r´ esidus plus importants notamment les valeurs extrˆ emes. La norme `

1

permet d’obtenir un estimateur plus robuste (que les estimateurs lin´ eaires par exemple). L’utilisation du crit` ere `

2

au voisinage de 0 implique que la d´ eriv´ ee de la fonction de Huber existe et est C

0

en 0. Ce dernier point est n´ ecessaire pour contrˆ oler les grandes d´ eviations (Proposition 7) de l’estimateur de Huber. Mais, on peut utiliser le crit` ere `

2

sur n’importe quel intervalle [−K, K ] o` u K est un param` etre de transition entre les deux normes. En effet, il est facile d’observer que les r´ esultats th´ eoriques sont v´ erifi´ es pour toute constante K > 0. En pratique le probl` eme du choix de cette constante est un probl` eme ouvert.

L’avantage, de cette approche, est que l’on peut estimer la fonction de r´ egression dans

le mod` ele de r´ egression additive avec densit´ e inconnue, i.e. l’estimateur de Huber ne d´ epend

pas de la densit´ e g

ξ

du bruit.

Références

Documents relatifs

c’est une hypothèse simplificatrice dans les démonstrations et que ce n’est pas une limitation très forte en pratique, on la conservera dans toute la suite de

Rupture de modèles : loi asymptotique des statistiques de tests et des estimateurs du maximum de vraisemblance.. Annales scientifiques de l’Université de Clermont-Ferrand 2, tome

En particulier, un estimateur robuste doit voir sa valeur faiblement perturbée par la présence de valeurs aberrantes dans l'échantillon.. Pour l'illustrer, imaginons qu'on ajoute à

MASTER 1 SIDE Pˆ ole Lamartine - ULCO INFORMATIQUE ET MOD` ELES LIN´ EAIRES Novembre 2010 - Contrˆ ole Continu, Semestre 1 Dur´ee de l’´epreuve : 2h00 Documents

Pour chaque paire, on appelle x i le score de l’aˆın´e et y i la diff´erence (alg´ebrique) des scores entre l’aˆın´e et le cadet6. Calculer le coefficient de corr´elation R

Ainsi, l’´ equation (38) montre que dans la classe des estimateurs lin´ eaires non-biais´ es, l’estimateur au sens des moindres carr´ es h opt est le “meilleur” estimateur

Calculer l’esp´ erance et la variance de Y..

Analyse de la variance ` a deux facteurs... Le probl` eme qui se pose fr´ equemment en agronomie est l’utilisation de certains engrais suivant la nature du terrain. si les diff´