• Aucun résultat trouvé

Estimation non-paramétrique de la densité de variables aléatoires cachées

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation non-paramétrique de la densité de variables aléatoires cachées"

Copied!
220
0
0

Texte intégral

(1)

HAL Id: tel-01685528

https://tel.archives-ouvertes.fr/tel-01685528

Submitted on 16 Jan 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

aléatoires cachées

Charlotte Dion

To cite this version:

Charlotte Dion. Estimation non-paramétrique de la densité de variables aléatoires cachées. Variables complexes [math.CV]. Université Grenoble Alpes, 2016. Français. �NNT : 2016GREAM031�. �tel- 01685528�

(2)

Pour obtenir le grade de

DOCTEUR DE L’UNIVERSITÉ DE GRENOBLE

Spécialité :Mathématiques Appliquées

Arrêté ministériel : 7 aout 2006

Présentée par

Charlotte Dion

Thèse dirigée parAdeline Samson Leclercq et codirigée parFabienne Comte

préparée au sein du Laboratoire Jean Kuntzmann

et de École Doctorale Mathématiques, Sciences et Technologies de l’Information, Informatique

Estimation non-paramétrique de la densité de variables aléatoires

cachées

Thèse soutenue publiquement le24 juin 2016 devant le jury composé de :

M. Pascal Massart

Professeur, Université Paris-Sud, Président

M. Arnak Dalalyan

Professeur, ENSAE/CREST, Rapporteur

M. Reinhard Höpfner

Professeur, Université de Mainz, Rapporteur

M. Anatoli Juditsky

Professeur, Université Grenoble Alpes, Examinateur

Mme Clémentine Prieur

Professeure, Université Grenoble Alpes, Examinatrice

Mme Fabienne Comte

Professeure, Université Paris Descartes, Directrice de thèse

Mme Adeline Samson Leclercq

Professeure, Université Grenoble Alpes, Directrice de thèse

(3)
(4)

variables al´eatoires cach´ees

(5)
(6)

R´esum´e :

Cette th` ese comporte plusieurs proc´ edures d’estimation non-param´ etrique de den- sit´ e de probabilit´ e. Dans chaque cas les variables d’int´ erˆ et ne sont pas observ´ ees directement, ce qui est une difficult´ e majeure. La premi` ere partie traite un mod` ele lin´ eaire mixte o` u des observations r´ ep´ et´ ees sont disponibles. La deuxi` eme partie s’int´ eresse aux mod` eles d’´ equations diff´ erentielles stochastiques ` a effets al´ eatoires. Plusieurs trajectoires sont observ´ ees en temps continu sur un intervalle de temps commun. La troisi` eme partie se place dans un contexte de bruit multiplicatif. Les diff´ erentes parties de cette th` ese sont reli´ ees par un contexte commun de probl` eme inverse et par une probl´ ematique commune : l’estimation de la densit´ e d’une variable cach´ ee. Dans les deux premi` eres parties la densit´ e d’un ou plusieurs effets al´ eatoires est esti- m´ ee. Dans la troisi` eme partie il s’agit de reconstruire la densit´ e de la variable d’origine ` a partir d’observations bruit´ ees. Diff´ erentes m´ ethodes d’estimation globale sont utilis´ ees pour construire des estimateurs performants : estimateurs ` a noyau, estimateurs par projection ou estimateurs construits par d´ econvolution. La s´ election de param` etres m` ene ` a des estimateurs adaptatifs et les risques quadratiques int´ egr´ es sont major´ es grˆ ace ` a une in´ egalit´ e de concentration de Talagrand.

Une ´ etude sur simulations de chaque estimateur illustre leurs performances. Un jeu de donn´ ees neuronales est ´ etudi´ e grˆ ace aux proc´ edures mises en place pour les ´ equations diff´ erentielles sto- chastiques.

Mots cl´es :

Estimation non-param´ etrique. Estimateur ` a noyau. M´ ethode de s´ election. ´ Equations diff´ erentielles stochastiques. Effets al´ eatoires.

Abstract:

This thesis contains several nonparametric estimation procedures of a probability density function. In each case, the main difficulty lies in the fact that the variables of interest are not directly observed. The first part deals with a mixed linear model for which repeated observations are available. The second part focuses on stochastic differential equations with ran- dom effects. Many trajectories are observed continuously on the same time interval. The third part is in a full multiplicative noise framework. The parts of the thesis are connected by the same context of inverse problems and by a common problematic: the estimation of the density function of a hidden variable. In the first two parts the density of one or two random effects is es- timated. In the third part the goal is to rebuild the density of the original variable from the noisy observations. Different global methods are used and lead to well competitive estimators: kernel estimators, projection estimators or estimators built from deconvolution. Parameter selection gives adaptive estimators and the integrated risks are bounded using a Talagrand concentration inequality. A simulation study for each proposed estimator highlights their performances. A neuronal dataset is investigated with the new procedures for stochastic differential equations developed in this work.

Keywords:

Nonparametric estimation. Kernel estimator. Selection method. Stochastic differ-

ential equations. Random effects.

(7)
(8)

Remerciements

Tout d’abord, je tiens ` a exprimer ma profonde gratitude envers mes directrices de th` ese Fa- bienne Comte et Adeline Samson. L’aboutissement de cette th` ese r´ esulte de vos grandes qualit´ es scientifiques et humaines. Depuis notre entretien pour un stage de master 2 vous avez toujours

´

et´ e pr´ esentes. Merci de m’avoir permis de vivre cette merveilleuse exp´ erience qu’a ´ et´ e la th` ese en me faisant confiance. J’ai tout appris aupr` es de vous et je serai toujours ` a l’´ ecoute de vos conseils. Merci ´ egalement pour votre patience et votre optimisme moteur au cours de ces trois ann´ ees. Enfin, merci pour votre soutien infaillible lors de la recherche d’un contrat post-doctoral.

Je voudrais de plus remercier Valentine Genon-Catalot avec qui j’ai ´ et´ e honor´ ee de travailler.

Notre collaboration a ´ et´ e tr` es importante pour moi. J’esp` ere avoir un peu appris de sa pr´ ecision et sa rigueur math´ ematique. Merci ´ egalement de m’avoir fait d´ ecouvrir le r´ eseau Dynstoch dont j’esp` ere pourvoir continuer ` a suivre les rencontres dans les ann´ ees ` a venir.

Enfin j’aimerais remercier Simone Hermann ma collaboratrice dans la r´ ealisation du package R.

Je tiens ` a remercier Arnak Dalalyan et Reinhard H¨ opfner pour l’int´ erˆ et qu’ils ont port´ e ` a mon travail en acceptant de rapporter cette th` ese, ainsi que Anatoli Juditsky, Pascal Massart et Cl´ ementine Prieur de me faire l’honneur de participer ` a mon jury de soutenance.

Puis je suis tr` es reconnaissante envers mes professeurs d’Orsay qui ont su me guider dans mes choix. Tout d’abord Dominique Hulin lors des cours d’analyse pour l’agr´ egation et Gr´ egory Miermont lors des cours de probabilit´ e. Mon arriv´ ee ` a Orsay a ´ et´ e tr` es agr´ eable grˆ ace ` a vous.

Merci de m’avoir soutenue mˆ eme dans les moments les plus difficiles. Enfin merci ` a Christophe Giraud et Pascal Massart directeurs du master Math´ ematiques pour les Sciences du Vivant.

Cette ann´ ee a ´ et´ e d´ ecisive pour moi. Merci de m’avoir encourag´ ee ` a continuer, encore actuelle- ment.

Merci au directeur du Laboratoire Jean Kuntzmann (LJK) Eric Bonnetier pour son accueil.

Merci ` a l’ex-directrice du laboratoire de Math´ ematiques Appliqu´ ees de Paris 5 (MAP5) Annie Raoult qui m’a permis d’avoir un bureau tr` es agr´ eable au MAP5. Je voudrais ´ egalement re- mercier chaleureusement l’´ equipe des administrateurs, secr´ etaires et informaticiens pour avoir facilit´ e mon quotidien. En particulier au MAP5 : merci ` a Marie-H´ el` ene Gbaguidi pour ses r´ e- ponses ` a toutes nos questions et pour son sourire quotidien, merci ` a Isabelle Val´ ero, Christophe Castellani, Marie Marduel. Merci ` a Azedine Mani et Arnaud Meunier pour tous les d´ ebugages ! Au LJK merci ` a Patrice Navarro, Fr´ ed´ eric Audra pour leurs conseils en informatique et leur r´ eactivit´ e in´ egalable, merci ´ egalement ` a Catherine Laiolo et Juana Dos-Santos. Merci ´ egalement aux membres permanents de l’´ equipe proba-stat du MAP5 et de l’´ equipe de statistiques de LJK.

J’aimerais remercier l’´ equipe de l’IUT Paris-Descartes avec laquelle j’ai pass´ e 3 ann´ ees lors de mon monitorat. Merci ` a Fran¸cois-Xavier Jollois puis Florence Muri de m’avoir int´ egr´ ee ` a l’´ equipe. Un grand merci ` a Mohamed Mellouk pour m’avoir permis de donner le TD de proba- bilit´ e associ´ e ` a son cours, avec une libert´ e dans les choix d’exercices et de la notation des ´ el` eves.

Merci au groupe jeune de la SFDS de m’avoir fait d´ ecouvrir un autre visage de la recherche, en particulier Thomas, Vincent, Maud et Benjamin.

Merci ` a tous les doctorants, ATER, post-doc, qui contribuent chaque jour ` a la bonne am-

biance des laboratoires ! Au MAP5 : Alkeos, Lo¨ıc, Fabien, Maud, Jean, Gwen, Kevin, Anne-

Claire, Julie, Thomas B, Thomas P, Pierre-Alexandre, R´ emy, Pierre, Sonia, Ronan, M´ elina,

Laurent, Alasdair, L´ eo, R´ ebecca, Samuel. Merci pour les bonnes soir´ ees (karaok´ e ? !) pass´ ees

(9)

ensemble, mais aussi plus simplement pour les pauses caf´ e et les d´ ejeuners anim´ es. Pierre R, on peut toujours compter sur toi, en toutes situations ! Merci aussi d’avoir repris le GTTJD avec enthousiasme. Merci ` a Caroline P de me faire d´ ecouvrir la musique de chambre ; j’esp` ere que l’on continuera nos d´ ejeuner parisiens. Merci ` a Angelina d’ˆ etre toujours disponible pour un caf´ e-discussion. Merci ` a Ga¨ elle pour sa gentillesse, ses conseils. Merci ´ egalement ` a Christophe D.

Un merci sp´ ecial ` a Arthur, Charlotte L, Claire et Anne-So. Arthur merci pour toutes ces discussions sur le piano, les maths, la vie... Claire merci pour ta douceur et ton oreille si at- tentive. Anne-So merci pour d’ˆ etre l` a, et de me suivre dans les expositions que j’ai envie de voir ! Charlotte merci pour le r´ econfort que tu m’as apport´ e cette ann´ ee. Votre amiti´ e m’est tr` es pr´ ecieuse ! Puis merci ` a Christ` ele E pour ces moments de rire, de danse, d’escapades, depuis le master 2 et tous ceux ` a venir !

Au LJK merci ` a Matthias, Romain, Nelson, Adrien, C´ ecile. Merci ` a M´ elisande de m’avoir accueillie sans h´ esiter. Ester, merci pour ton amiti´ e. Tu es un exemple par ton parcours brillant et ton soutien est une force pour moi. Enfin, merci ` a ma merveilleuse colocataire Chlo´ e M. de partager mon quotidien. De Grenoble ` a Paris, what’s next ?

Je dois ´ egalement beaucoup ` a mes amis de plus longue date sans qui la vie serait beaucoup moins int´ eressante ! Mes amis de Cognac : Flo, quand je repense ` a tout ce chemin parcouru ensemble je suis vraiment heureuse que nous soyons toujours si proches. Merci ` a Polo pour son amiti´ e que notre voyage au ´ Etats-unis au lyc´ ee a soud´ e pour toujours ! Merci ` a Marine et Charlotte T que j’ai toujours plaisir ` a voir et avec qui il est toujours tellement simple de se comprendre.

Merci ` a mes amis de Bordeaux : Marion, Gilles, Thibault. Marion, merci de venir me voir de temps en temps de Libourne en laissant pour un weekend ta petite famille si attachante, et merci pour toutes ces heures au t´ el´ ephone depuis Ca-Ju ! Gilles, ins´ eparables/insupportables en classes pr´ epa on se retrouve en master apr` es quelques ann´ ees ` a quelques salles d’´ ecart. Que de souvenirs partag´ es, les cours, la

«

sonatina

»

, puis Paris... Merci pour ton soutien. Enfin merci

`

a Thibault pour tous ces moments de rire si importants, la plage, le ski, les f´ erias !

Enfin mes amis de Paris. Il parait que Paris est une ville o` u les gens sont d´ esagr´ eables, ferm´ es et n’aiment pas bavarder. Allez dire ¸ ca ` a Christ` ele B et C´ eline ! Cette ann´ ee avec vous sur les bancs de l’universit´ e d’Orsay a ´ et´ e inoubliable. Merci pour tous ces moments ensemble ! Merci aussi de m’avoir pr´ esent´ ee Caroline L qui est devenue une de mes amies les plus ch` eres.

Merci ` a Chlo´ e A avec qui l’ann´ ee de l’agr´ egation fut (presque) une bonne ann´ ee ! J’esp` ere que tu m’emm` eneras bientˆ ot sur ton bateau. Merci ` a Aurora pour tout ce qu’elle m’apporte. J’esp` ere que l’on va continuer les visites ensemble, en France et ailleurs !

Mes derniers remerciements vont ` a ma famille. Merci ` a Agn` es et Fran¸ cois pour tous ces bons moments pass´ es ensemble, souvent aux quatre coins du monde. Merci ` a Jacqueline et Francis avec qui je partage les meilleurs souvenirs de mon enfance. Merci ` a mon oncle Bernard d’ˆ etre toujours pr´ esent et confiant en l’avenir. J’ai une pens´ ee ´ emue pour mes grands parents et ma grande tante. En particulier pour ma grand-m` ere Raymonde avec qui j’aurais tant aim´ e partager ce moment et beaucoup d’autres. Enfin, merci ` a mes parents. Il n’y a pas de mot assez fort pour vous exprimer ma gratitude et mon amour. Papa, merci d’avoir partag´ e avec moi ton goˆ ut pour les math´ ematiques ; malgr´ e mes efforts pour ne pas en faire trop au lyc´ ee, j’ai finalement suivi tes conseils. Maman, je suis tellement admirative et touch´ ee que tu aies relu mon introduction, les ´ etranges sigles qui suivent sont aussi les tiens !

Enfin merci ` a toi Pierre, tu emplis de joie mon quotidien un peu plus chaque jour, ann´ ee

apr` es ann´ ee.

(10)
(11)
(12)

1 Introduction 11

1.1 Notations . . . . 12

1.2 Estimation non-param´ etrique . . . . 12

1.3 Mod` eles et approches . . . . 22

1.4 Etude de donn´ ´ ees neuronales . . . . 32

I Mod` ele lin´ eaire mixte 35

2 Nouvelles strat´egies d’estimation non-param´etrique dans des mod`eles lin´eaires mixtes 37

2.1 Introduction . . . . 39

2.2 Construction of two estimators, risk bounds and adaptive results . . . . 40

2.3 Comparisons with previous results . . . . 46

2.4 Numerical illustration . . . . 47

2.5 Concluding remarks . . . . 52

2.6 Proofs . . . . 53

II Mod` eles d’´ equations diff´ erentielles stochastiques ` a effets al´ eatoires 63

3 Estimation non-param´etrique dans un mod`ele d’Ornstein-Uhlenbeck `a effets mixtes 65

3.1 Introduction . . . . 68

3.2 Presentation of the strategies . . . . 70

3.3 Study of the kernel estimator . . . . 72

3.4 Study of the deconvolution estimator . . . . 73

3.5 Simulation study . . . . 76

3.6 Application to neuronal data . . . . 82

3.7 Discussion . . . . 83

3.8 Proofs . . . . 84

Appendix . . . . 90

4 Estimation bidimensionnelle dans un mod`ele d’´equations diff´erentielles sto- chastiques `a deux effets al´eatoires 93

4.1 Introduction . . . . 95

4.2 Notation and assumptions . . . . 96

4.3 Random effect estimation . . . . 98

4.4 Nonparametric estimation . . . 100

9

(13)

4.5 Discrete data . . . 103

4.6 Simulation study . . . 104

4.7 Concluding remarks . . . 110

4.8 Proofs . . . 111

Appendix 1 . . . 118

Appendix 2: more about the MISE bounds . . . 119

5 Estimation dans des mod`eles mixtes d’´equations diff´erentielles stochastiques avec le package R :

mixedsde

123

5.1 Introduction . . . 127

5.2 Density estimation in mixed stochastic differential models . . . 128

5.3 Overview of the mixedsde functions . . . 132

5.4 Package mixedsde through simulated examples . . . 136

5.5 Package mixedsde through a real data example . . . 142

Appendix 1 . . . 148

Appendix 2 . . . 148

III Mod` ele de bruit multiplicatif 153

6 Estimation non-param´etrique dans un mod`ele de censure multiplicative avec un bruit sym´etrique 155

6.1 Introduction . . . 157

6.2 Multiplicative denoising of density and survival function . . . 158

6.3 Model transformation and deconvolution approach . . . 164

6.4 Numerical study . . . 166

6.5 Proofs . . . 171

Appendix: observations and outcomes . . . 183

IV Perspectives 189

7 Perspectives 191

7.1 Sur les mod` eles lin´ eaires mixtes . . . 192

7.2 Sur la mod´ elisation neuronale . . . 193

7.3 Sur le mod` ele de bruit multiplicatif . . . 198

A Liste de publications 203

B R´esultats d’analyse 205

Bibliographie 209

(14)

Introduction

Sommaire

1.1 Notations . . . 12

1.2 Estimation non-param´etrique . . . 12

1.2.1 M´ethode `a noyau . . . 12

1.2.2 M´ethode par projection . . . 13

1.2.3 Le principe de d´econvolution . . . 13

1.2.4 Qu’est-ce qui fait un bon estimateur ? ´Etude du risque quadratique int´egr´e 15 1.2.5 S´election de param`etre . . . 18

1.3 Mod`eles et approches . . . 22

1.3.1 Mod`eles lin´eaires mixtes . . . 22

1.3.2 Mod`eles d’´equations diff´erentielles stochastiques `a effets mixtes . . . 25

1.3.3 Un mod`ele de censure . . . 29

1.4 Etude de donn´´ ees neuronales . . . 32

11

(15)

La densit´ e de probabilit´ e caract´ erise la r´ epartition des donn´ ees fournies par un ´ echan- tillon. C’est une des premi` eres quantit´ es qu’un praticien peut ´ etudier. Puis, l’estimation

«

non- param´ etrique

»

d’une fonction fournit l’information n´ ecessaire pour ensuite imposer un mod` ele param´ etrique sur cette fonction si tel est le souhait du praticien. Cette approche statistique globale cherche ` a limiter le nombre d’hypoth` eses sur la forme ´ eventuelle du mod` ele qui donne naissance aux donn´ ees observ´ ees. Enfin, les m´ ethodes d´ evelopp´ ees pour l’estimation de densit´ e peuvent se transposer pour l’estimation d’autres fonctions cl´ es telles que la fonction de survie ou le taux de hasard.

Pour ces raisons nous nous int´ eressons dans ce travail ` a des probl` emes d’estimation non- param´ etrique, de fonctions densit´ es. Nous nous concentrons sur la densit´ e de variables cach´ ees, c’est ` a dire qui ne sont pas observ´ ees directement. En effet, bien souvent, l’information principale est contenue dans ces variables. L’exemple de donn´ ees contamin´ ees par un bruit est le plus fr´ equent : l’enjeu du statisticien est de reconstruire l’information perdue. Nous proposons dans ce contexte de nouvelles proc´ edures d’estimation globale et nous ´ etudions les propri´ et´ es des estimateurs r´ esultants. Cette introduction rappelle les principales m´ ethodes d’estimation non- param´ etrique de densit´ e ainsi que les notions, les mod` eles et les r´ esultats de cette th` ese.

1.1 Notations

On note l’espace de Banach :

Lp

(

R

) = {f :

R

R

,

R

R

|f

p

(x)|dx < ∞} et la norme associ´ ee kf k

p

=

R

R

|f

p

(x)|dx

1/p

, ` a l’exception de la norme de l’espace de Hilbert

L2

(R) que l’on notera kf k par simplicit´ e. Pour deux fonctions f et g dans

L1

(

R

) ∩

L2

(

R

), le produit scalaire est d´ efini par hf, gi =

R

R

f (x)g(x)dx. La transform´ ee de Fourier de f est f

(x) =

R

R

e

ixu

f (u)du pour tout x ∈

R. Quand

f est la densit´ e d’une variable al´ eatoire X, f

(·) =

E[eiX·

] est appel´ ee fonction caract´ eristique de X. Enfin le produit de convolution de f et g est pour tout x ∈

R

: f ? g(x) =

R

R

f (x − y)g(y)dy. On rappelle le th´ eor` eme de Plancherel-Parseval : pour toute fonction f ∈

L1

(

R

) ∩

L2

(

R

), 2πkf k

2

= kf

k

2

. Enfin, si g est une fonction born´ ee sur

R

on note : kgk

= sup

x∈R

|g(x)|.

1.2 Estimation non-param´ etrique

Comment estimer la densit´ e de probabilit´ e f ` a partir de la connaissance d’une suite de variables al´ eatoires X

1

, . . . , X

N

ind´ ependantes et identiquement distribu´ ees (i.i.d.) issues de cette densit´ e ? Lorsque le nombre d’observations N est assez grand, l’approche non-param´ etrique peut ˆ etre consid´ er´ ee. Dans cette section on se place dans le cadre o` u N observations directes sont disponibles, except´ e dans le paragraphe 1.2.3. Des estimateurs classiques existent dans ce cas.

Nous pr´ esentons ici seulement les m´ ethodes ` a noyau et les m´ ethodes par projection utilis´ ees dans la suite de ce travail.

1.2.1 M´ ethode ` a noyau

Les estimateurs ` a noyau ont ´ et´ e introduits par Rosenblatt (1956) puis par Parzen (1962) pour estimer la fonction de r´ epartition. Pour estimer une densit´ e f sur

R

, un estimateur ` a noyau (kernel en anglais) est donn´ e, pour h > 0 et x ∈

R

, par :

f

bh

(x) = 1 N h

N

X

j=1

K

x − X

j

h

= 1 N

N

X

j=1

K

h

(x − X

j

) (1.2.1)

(16)

o` u la fonction K :

R

R

est appel´ ee noyau. Elle doit ˆ etre int´ egrable telle que

R

R

K(x)dx = 1, et ˆ etre positivex pour que l’estimateur soir une densit´ e. Les noyaux usuels sont les noyaux gaussiens K(x) = (1/ √

2π) exp(−x

2

/2) (sp´ ecialement pour l’estimation de densit´ e), mais aussi le noyau d’Epanechnikov K(x) = (3/4)(1 − x

2

)

1−1≤x≤1

ou triangulaire K(x) = (1 − |x|)

1|x|≤1

. On note K

h

(·) := K(·/h)/h o` u le param` etre h > 0 est appel´ ee fenˆ etre (bandwidth) du noyau, ou param` etre de lissage. Cet estimateur est un estimateur sans biais de la fonction f

h

= K

h

? f , c’est ` a dire qu’il v´ erifie pour tout x ∈

R,E[

f

bh

(x)] = f

h

(x). De plus f

h

converge vers f lorsque h tend vers 0 en norme

L2

, ce qui justifie qu’en pratique on approche la fonction f par la fonction f

h

.

1.2.2 M´ ethode par projection

Pour construire un estimateur par projection de f supposons que f ∈

L2

(

R

). Le principe est de d´ evelopper f en s´ eries de fonctions orthogonales et d’estimer les coefficients de ce d´ eveloppement

`

a l’aide de moyennes empiriques. Soit (ϕ

j

)

j∈N

une base hilbertienne de

L2

(

R

). Alors on d´ efinit la projection f

m

de f sur le sous espace vectoriel engendr´ e par les m premiers vecteurs de la base

S

m

= Vect{ϕ

k

, k = 1, . . . , m} (1.2.2) avec la dimension dim S

m

= m (ou une fonction croissante de m), f

m

=

Pm

k=1

a

k

ϕ

k

et a

k

= hf, ϕ

k

i. Les espaces S

m

sont dits emboit´ es car S

m

⊂ S

m0

⇔ m ≤ m

0

. Un estimateur par projection de f est donn´ e par

f

bm

=

m

X

k=1

b

a

k

ϕ

k

(1.2.3)

o` u

b

a

k

est un estimateur de a

k

. Dans le cadre d’observations directes on choisit les coefficients

b

a

k

= 1 N

N

X

j=1

ϕ

k

(X

j

)

ainsi ils v´ erifient

E[b

a

k

] = a

k

. L’estimateur f

bm

est un estimateur sans biais du projet´ e f

m

de f sur S

m

. L’estimation d’une fonction sur

R

est alors ramen´ ee ` a l’estimation de m coefficients r´ eels.

Plus la dimension m est grande plus le mod` ele est complexe. Il faudra optimiser le choix de m.

Nous avons pr´ esent´ e deux m´ ethodes d’estimation de la densit´ e f ` a partir d’un ´ echantillon observ´ e issu de cette loi. Cependant il est rare d’avoir des observations directes et c’est ce qui nous am` ene ` a d´ ecrire le cas d’observations bruit´ ees dans le paragraphe suivant. Nous allons

´

egalement pr´ eciser le lien entre la m´ ethode ` a noyau et la m´ ethode par projection.

1.2.3 Le principe de d´ econvolution

Les difficult´ es d’estimation viennent souvent du fait que la variable d’int´ erˆ et n’est pas la variable observ´ ee. Cela peut ˆ etre dˆ u par exemple ` a des erreurs de mesures lors d’une exp´ erience. Le bruit qui masque l’´ echantillon d’origine est g´ en´ eralement mod´ elis´ e de deux mani` eres : par l’addition d’une variable ind´ ependante (centr´ ee et sym´ etrique le plus souvent) ou par la multiplication par une variable ind´ ependante. Le bruit multiplicatif est li´ e ` a la notion de censure de donn´ ees que nous pr´ esentons dans le paragraphe 1.3.3. Le bruit additif conduit au probl` eme dit

«

de d´ econvolution

»

et ` a des m´ ethodes et des estimateurs sp´ ecifiques.

Notons les observations bruit´ ees disponibles Y

j

, telles que :

Y

j

= X

j

+ ε

j

, j = 1, . . . , N

(17)

o` u les ε

j

sont les variables al´ eatoires i.i.d. mod´ elisant le bruit et sont ind´ ependantes des X

j

. Ici (et d` es qu’il pourra y avoir une ambigu¨ıt´ e) nous pr´ ecisions la notation : f

Z

d´ esigne la densit´ e de la variable Z. Les observations (Y

j

)

j

sont alors i.i.d. de densit´ e f

Y

. L’objectif est d’estimer la densit´ e f

X

des variables cach´ ees X

j

` a partir des donn´ ees Y

j

, de fa¸ con non-param´ etrique. La densit´ e des observations s’´ ecrit alors f

Y

= f

X

? f

ε

. En appliquant la transform´ ee de Fourier

`

a cette ´ egalit´ e, on obtient le produit simple f

Y

= f

X

f

ε

. Si la densit´ e du bruit ε est suppos´ ee connue et que f

ε

ne s’annule pas, en estimant la fonction caract´ eristique f

Y

on peut atteindre la fonction f

X

par : f

X

= f

Y

/f

ε

. Puis l’estimateur de f

X

est construit en appliquant une formule d’inversion de Fourier. Cependant il reste ` a estimer la fonction caract´ eristique f

Y

qui est inconnue. Un estimateur empirique est donn´ e par :

f

bY

(u) = 1 N

N

X

j=1

e

iuYj

. (1.2.4)

Mais, en substituant cet estimateur ` a la vraie fonction, l’int´ egrabilit´ e du rapport f

bY

/f

ε

n’est plus assur´ ee. Une solution est d’utiliser un autre estimateur de la fonction caract´ eristique, not´ e f

bY,α

, pour obtenir un estimateur de la forme :

f

bX,α

(x) = 1 2π

Z

R

e

−iux

f

bY,α

(u)

f

ε

(u) du. (1.2.5)

Cet estimateur est obtenu en estimant la densit´ e f

Y

par un estimateur ` a noyau (Carroll & Hall, 1988; Fan, 1991; Meister & Neumann, 2010), ou par projection (Comte et al., 2006; Comte &

Lacour, 2011) puis en appliquant l’inversion de Fourier.

Une autre m´ ethode consiste ` a inclure une fonction indicatrice dans l’int´ egrant, r´ eduisant ainsi l’intervalle d’int´ egration sur un intervalle ferm´ e. On dit que l’on introduit un cut-off. La collection d’estimateurs construite ainsi s’´ ecrit :

f

bX,m

(x) = 1 2π

Z πm

−πm

e

−iux

f

bY

(u)

f

ε

(u) du (1.2.6)

avec par exemple m = 1, . . . , N . Mais cet estimateur est un estimateur par projection, en un certain sens. Soit la fonction sinus cardinal sinc(x) = sin πx

πx , sinc(0) = 1 (cette fonction est dans

L2

(R) mais pas dans

L1

(R)), ` a partir de cette fonction on construit la base : ` ∈

Z,

φ

m,`

(x) =

√ mφ(mx − `) avec φ(x) =

sinπxπx

. Le Th´ eor` eme de Shannon (voir Leborgne, 2013) assure que c’est une base orthonormale de S

m

= {f ∈

L2

(

R

), supp(f

) = [−πm, πm]} = Vect(φ

m,`

, ` ∈

Z

) au sens

L2

(

R

), o` u supp d´ esigne le support.

Remarquons que cet espace S

m

est de dimension infinie (m 6= dim S

m

). Nous notons la fonction f

X,m

d´ efinie par la formule f

X,m

:= f

X1[−πm,πm]

, ´ el´ ement de S

m

et Π

Sm

l’op´ erateur de projection de S

m

. Alors nous avons pour tout x ∈

R

f

X,m

(x) = 1 2π

Z

R

e

−iux1[−πm,πm]

(u)f

X

(u)du =

X

`∈Z

hf

X

, φ

m,l

m,`

(x) := Π

Sm

(f

X

)(x).

Nous appelons les coefficients a

m,`

:= hf

X

, φ

m,`

i donn´ es par hf

X

, φ

m,`

i = 1

2π hf

X

, φ

m,`

i = 1 2π

f

Y

f

ε

, φ

m,`

= 1 2π

Z πm

−πm

e

−(i`/m)u

√ m

f

Y

(u)

f

ε

(u) du .

(18)

Puis on d´ efinit l’estimateur par projection f

bX,mP

par f

bX,mP

=

X

`∈Z

b

a

Pm,`

φ

m,`

avec

b

a

Pm,`

= 1 2π

Z πm

−πm

e

−(i`/m)u

√ m

f

bY

(u) f

ε

(u) du

o` u f

bY

est donn´ e par la formule (1.2.4). Il reste ` a v´ erifier que f

bX,mP

= f

bX,m

, en montrant que

b

a

Pm,`

= h f

bX,m

, φ

m,`

i. En effet par la formule d’inversion de Fourier on trouve :

h f

bX,m

, φ

m,`

i = 1

2π h f

bX,m

, φ

m,`

i = 1 2π

Z πm

−πm

e

−(i`/m)u

√ m

f

bY

(u)

f

ε

(u) du =

b

a

PX,m

ce qui donne l’´ egalit´ e annonc´ ee.

Mais l’estimateur (1.2.6) est aussi un estimateur ` a noyau. Posons : m = 1/h, h > 0, 1 ≤ m ≤ N

f

bX,m

(x) = 1 2π

Z

1[−π,π]

(uh)e

−iux

1 N

N

X

j=1

e

iuYj

f

ε

(u) du puis K

(u) :=

1[−π,π]

(u), K(x) = sin(πx)

πx , K

h

(u) := K

(uh); et K

eh

(u) := K

(uh)

f

ε

(u) . Alors il vient :

f

bX,m

(x) = 1 2π

1 N

N

X

j=1

Z

e

−iu(x−Yj)

K

eh

(u)du = 1 N

N

X

j=1

K

eh

(x − Y

j

)

Nous avons montr´ e ici le fort lien qui existe entre noyau et projection. Ce lien sera renforc´ e dans la Section 1.2.4.

Cas de la loi du bruit inconnue

Il est possible de construire des estimateurs lorsque la loi du bruit est inconnue. Il faut alors estimer la fonction caract´ eristique du bruit f

ε

ou dans certains cas une transformation de celle ci. Une m´ ethode consiste ` a supposer que l’on dispose d’un ´ echantillon du bruit seul (c’est le cas par exemple dans Comte & Lacour, 2011). En pratique cela correspond par exemple ` a l’´ etude de sorties d’une machine, ` a vide dans un premier temps. On poss` ede alors un ´ echantillon de l’erreur de mesure seule. D’autre part, on peut disposer de donn´ ees r´ ep´ et´ ees : pour une observation (un individu par exemple) j on a K mesures bruit´ ees pour k = 1, . . . , K, Y

j,k

= X

j

+ ε

j,k

. Alors, une transformation des donn´ ees peut permettre d’estimer la quantit´ e voulue.

Cependant, cette quantit´ e (par exemple f

ε

ou |f

ε

|

2

) apparait toujours au d´ enominateur de notre estimateur (1.2.6), il faudra donc inverser l’estimateur obtenu. Pour s’assurer que le d´ enominateur ne s’approche pas trop de 0, on fait appel ` a la technique de troncature due ` a Neumann (1997) (voir par exemple Comte & Lacour (2011), Comte & Samson (2012), Mabon (2015a) et le Chapitre 2).

1.2.4 Qu’est-ce qui fait un bon estimateur ? ´ Etude du risque quadratique int´ egr´ e

Afin de juger la qualit´ e d’un estimateur il faut choisir une fonction de perte et d´ efinir le risque

associ´ e. Pour les proc´ edures d’estimation globales ´ etudi´ ees dans ce travail nous nous int´ eressons

au risque quadratique int´ egr´ e (MISE, pour mean integrated squared error ). Pour cela la fonction

(19)

que l’on cherche ` a estimer est suppos´ ee de carr´ e int´ egrable. La fonction de perte est la distance

L2

et le MISE en est alors l’esp´ erance. Pour un estimateur f

bα

de f , avec α dans la collection H, le risque s’´ ecrit

E

[k f

bα

− f k

2

]. Il fournit une mesure moyenne de la distance entre l’estimateur et la vraie fonction.

D´ecomposition biais-variance

Pour calculer ce risque on le d´ ecompose en un terme qui mesure la distance entre la moyenne de l’estimateur et la vraie fonction, et de la variance int´ egr´ ee de l’estimateur :

E

[k f

bα

− f k

2

] = k

E

[ f

bα

] − f k

2

+

E

[k

E

[ f

bα

] − f

bα

k

2

]. (1.2.7) Le premier terme est appel´ e terme de biais et le second terme de variance. En calculant chaque terme, on obtient une borne sup´ erieure de ce risque d´ ependant de N et de α. Le r´ esultat est non-asymptotique, puisque valable pour toute valeur de N . Il est d’autant meilleur que N est grand.

L’estimateur ` a noyau dans le cadre des observations directes d´ ecrit Section 1.2.1, v´ erifie

E[

f

bh

] = f

h

, et si le noyau K est de carr´ e int´ egrable, la borne obtenue est :

E

[k f

bh

− f k

2

] ≤ kf

h

− f k

2

+ kKk

2

N h . (1.2.8)

L’estimateur par projection dans le cadre des observations directes, d´ ecrit Section 1.2.2, v´ erifie

E[

f

bm

] = f

m

et la borne obtenue est :

E

[k f

bm

− f k

2

] ≤ kf

m

− f k

2

+ C

ϕ

m

N (1.2.9)

si la base (ϕ

k

)

k

choisie est telle que les vecteurs de base sont born´ es : kϕ

k

k

≤ C

ϕ

pour tout k, avec C

ϕ

R+

.

On peut faire ici une analogie entre les deux estimateurs grˆ ace aux bornes de risques obtenues.

En effet, dans la borne (1.2.8) on voit que le terme de biais d´ ecroit quand la fenˆ etre h tend vers 0 alors que dans ce cas le terme de variance croˆıt. Dans la borne (1.2.9) on voit que le terme de biais d´ ecroit quand la dimension m tend vers l’infini alors que dans ce cas le terme de variance croˆıt. Les param` etres h et m ont donc un rˆ ole similaire.

Comment estimer l’ordre du terme de biais ?

Nous ´ etudions l’estimation de fonctions densit´ es, donc de fonctions int´ egrables. Les espaces in- t´ eressants pour cette ´ etude sont les espaces de Sobolev et les espaces de Nikol’skii, qui sont des cas particuliers d’espaces plus g´ en´ eraux de Besov que nous ne pr´ esentons pas dans ce travail, (voir DeVore & Lorentz, 1993, pour les inclusions d’espaces). Supposer que la densit´ e recherch´ ee f appartient ` a un de ces espaces permet d’obtenir l’ordre du biais.

Tout d’abord, on s’int´ eresse aux classes de H¨ older, d´ efinies par

Σ

I

(β, L) = {f : I →

R

, f

bβc

existe , ∀x, y ∈ I, |f

bβc

(x) − f

bβc

(y)| ≤ L|x − y|

β−bβc

}

o` u bβc est le plus grand entier plus petit que β. Le param` etre β est appel´ e indice de r´ egularit´ e

de la fonction (voir Tsybakov, 2009), et I =

R+

,

R

le plus souvent. Par exemple, pour ´ evaluer

l’ordre du biais pour un estimateur ` a noyau f

bh

donn´ e par l’´ equation (1.2.1), ponctuellement,

c’est ` a dire |f

h

(x

0

) − f (x

0

)|, on suppose que f ∈ Σ

R

(β, L) mais alors il faut supposer que le

noyau K est

«

d’ordre

»

` = bβc.

(20)

D´efinition 1.2.1.

Soit ` ∈

N

. On dit que K :

R

R

est un noyau d’ordre ` si les fonctions u 7→ u

j

K(u) sont int´ egrables pour j = 0, . . . , ` et telles que :

R

R

K(u)du = 1,

R

R

u

j

K (u)du = 0, pour j = 1, . . . , `.

Dans ces conditions il vient pour tout x

0

R

, |f

h

(x

0

) − f (x

0

)| ≤ Ch

β

(o` u C est une constante qui d´ epend de K et de β, voir Tsybakov (2009)).

Puis, plus g´ en´ eralement les classes de Nikol’skii sont d´ efinies par N (β, R) :=

(

f ∈

L2

(

R

), ∀y ∈

R

,

Z

f

bβc

(x + y) − f

bβc

(x)

2

dx

1/2

≤ R|y|

β−bβc

,

f

bβc

≤ R

)

(voir Nikol’skii, 1975). Elles sont adapt´ ees aux estimateurs ` a noyau pour obtenir une majoration du biais au carr´ e int´ egr´ e. En effet si f ∈ N (β, R) et que K est un noyau d’ordre ` = bβc, il vient : k f

bh

− fk ≤ Ch

β

. On r´ ef` ere ` a Goldenshluger & Lepski (2011) et Comte & Lacour (2013) pour d’autres utilisations dans le cas multidimensionnel.

Enfin, les classes des Sobolev sont tr` es utilis´ ees. Nous nous int´ eressons ` a la d´ efinition des espaces de Sobolev en fonction de la transform´ ee de Fourier des fonctions, o` u b n’est pas n´ eces- sairement entier,

H

b

(

R

) = W

2b

(

R

) := {f ∈

L2

(

R

),

Z

|f

(x)|

2

(1 + x

2

)

b

dx < ∞}.

Rappelons que si b > 1/2 et k le plus grand entier tel que k < b − 1/2 alors f ∈ H

b

(

R

) est de classe C

k

(voir Lerner (2008)). Les deux classes classiquement utilis´ ees pour qualifier la r´ egularit´ e des fonctions d’int´ erˆ et, sont :

• Ordinary smooth (OS) : cela s’´ ecrit comme l’appartenance ` a une boule de Sobolev de H

b

(R) de r´ egularit´ e b de rayon L, pour la norme sous-jacente :

A

b

(L) := {f ∈

L2

(

R

),

Z

R

|f

(x)|

2

(1 + x

2

)

b

dx ≤ L}

avec b > 0, L > 0. Par exemple les densit´ es gamma, uniforme, Laplace sont dans un A

b

(L).

Si b > 1/2 les densit´ es contenues dans A

b

(L) sont continues et born´ ees.

• Super smooth (SS) : la fonction d’int´ erˆ et est dans l’espace suivant : A

r,a

:= {f ∈

L2

(

R

),

Z

R

|f

(x)|

2

exp(2a|x|

r

)dx ≤ L}.

Les fonctions de cette classe sont en particulier C

. Par exemple les densit´ es Cauchy, gaussiennes ou les m´ elange de gaussiennes, appartiennent ` a un A

r,a

.

Ces espaces sont utilis´ es en d´ econvolution dans Butucea (2004) ou Lacour (2006). Par exemple, l’estimateur f

bX,m

donn´ e par l’´ equation (1.2.6) est construit comme un estimateur sans biais de f

X,m

, si f

X

∈ A

b

(L) il vient kf

X,m

− f

X

k ≤ Cm

−b

.

Enfin, on peut d´ efinir l’analogue des espaces de Sobolev dans

L2

(

R+

). Dans ce cas, on consid` ere une base sur cet espace, qui n’est plus la base trigonom´ etrique mais la base de Laguerre (ϕ

k

)

k

(d´ efinie dans la Partie 6). La construction et l’´ etude de l’espace suivant se trouvent dans Bongioanni & Torrea (2009). Une boule de Sobolev-Laguerre de r´ egularit´ e s de rayon L est d´ efinie par

W

s

(

R+

, L) := {f ∈

L2

(

R+

),

X

k≥0

k

s

hf, ϕ

k

i

2

≤ L < +∞},

avec s > 0. Comte & Genon-Catalot (2015) donnent un ´ equivalent sur la r´ egularit´ e de la fonction

f lorsque s est entier : si f est dans

L2

(R

+

) alors cela ´ equivaut ` a dire que f admet des d´ eriv´ ees

(21)

jusqu’` a l’ordre s − 1 et f

(s−1)

est absolument continue et δ

m

◦ δ

m−1

◦ · · · ◦ δ

1

◦ δ

0

f ∈

L2

(

R+

) avec δ

k

f(x) = √

xf

0

(x) + 1 2

√ x − k

√ x f (x)

. Dans ce cas, lorsque l’on estime une densit´ e f ∈

L2

(

R+

) par un estimateur par projection f

bm

, en supposant de plus que f ∈ W

s

(

R+

, L) on obtient : kf − f

m

k

2

≤ m

−s

.

Il existe d’autres espaces associ´ es ` a d’autres bases, par exemple les bases d’histogrammes ou de polynˆ omes par morceaux sont associ´ ees ` a des espaces de Besov.

Les vitesses classiques

Une borne sup´ erieure d’un risque

L2

montre qu’il tend vers 0 lorsque N devient grand, on parle d’estimateur convergent. La vitesse de convergence ψ

N

est la suite, d´ ecroissante avec N , telle que :

E

[k f

bα

− f k

2

] ≤ Cψ

N

avec C une constante ind´ ependante de N . La suite (ψ

N

)

N

est dite

«

optimale au sens minimax

»

(ou vitesse minimax) si elle satisfait ´ egalement la borne inf´ erieure : inf

fb

sup

α∈H

E[k

f

bα

− fk

2

] ≥ C

0

ψ

N

.

Lorsque l’on a obtenu l’ordre du biais en fonction d’un param` etre de r´ egularit´ e de la fonction f , le choix du param` etre optimal α

opt

qui minimise la borne du risque se d´ eduit ais´ ement.

En effet le caract` ere non-asymptotique des bornes des MISE obtenues permettent de choisir α en fonction de N . Alors, on trouve la vitesse en fonction des param` etres de r´ egularit´ e. Par exemple pour l’estimateur ` a noyau de f : f

bh

donn´ e par (1.2.1), si f ∈ N (β, R), et que K est un noyau d’ordre ` = bβc, on minimise en h la fonction convexe h 7→ C

1

h

+ C

2

/(N h). Il vient h

opt

= CN

−1/(2β+1)

et la vitesse de convergence est en N

−2β/(2β+1)

.

Pour l’estimateur par projection de f : f

bm

donn´ e par (1.2.3), si f ∈ W

s

(

R+

, L), on minimise en m la fonction convexe m 7→ C

10

m

−s

+ C

20

m/N. Il vient m

opt

= C

0

N

1/(1+s)

et la vitesse de convergence est la vitesse de convergence est N

−s/(s+1)

. Dans les deux cas le choix de α (h ou m) d´ epend de N et du param` etre de r´ egularit´ e de f .

Pour les m´ ethodes de d´ econvolution les vitesses classiques sont r´ epertori´ ees dans Lacour (2006). Elles font intervenir en plus un param` etre de r´ egularit´ e pour la densit´ e du bruit, due

`

a la forme de l’estimateur f

bX,α

donn´ ee par (1.2.6). Les r´ egularit´ es utilis´ ees pour la densit´ e du bruit f

ε

sont donn´ ees par :

k

0

(x

2

+ 1)

−γ/2

exp(−b|x|

s

) ≤ |f

ε

(x)| ≤ k

1

(x

2

+ 1)

−γ/2

exp(−b|x|

s

)

avec s ≥ 0, b ≥ 0, γ ∈

R

(γ > 0 si s = 0 et k

0

, k

1

> 0). La densit´ e f

ε

est dite super smooth (SS) si s > 0 et ordinary smooth (OS) sinon. Lorsque f

X

et f

ε

sont OS, les vitesses sont alors d´ egrad´ ees du param` etre de r´ egularit´ e γ de f

ε

on obtient la vitesse : N

−2b/(2b+2γ+1)

. Lorsque le bruit est SS et que f

X

est seulement OS on obtient des vitesses logarithmiques mauvaises. Ces vitesses sont optimales (voir Fan, 1991; Butucea, 2004). Dans le cas o` u les deux densit´ es sont SS, les vitesses sont donn´ ees dans Comte & Lacour (2010), elles sont meilleures et d´ ecroissent plus vite que n’importe quelle fonction logarithmique. Notre objectif sera d’atteindre les vitesses optimales.

1.2.5 S´ election de param` etre

Une fois la collection d’estimateurs construite, pour une collection de param` etres, il faut choisir

le param` etre qui d´ efinit l’estimateur final. En pratique, la r´ egularit´ e de la fonction que l’on estime

est inconnue. L’objectif est de construire des estimateurs qui s’adaptent ` a la r´ egularit´ e inconnue

(22)

0 2 4 6 8

0.00.10.20.30.4

0 2 4 6 8

0.00.10.20.30.4

0 2 4 6 8

0.00.10.20.30.4

Figure 1.1– Estimateur par projectionfbm, en rouge (gris), def, en noir ´epais, densit´e d’un m´elange de deux lois gamma. De gauche `a droite :m= 1,m= 7, m= 20

de f, seulement ` a partir des donn´ ees. On parlera d’estimateur

«

adaptatif

»

et de proc´ edure data-driven.

Expliquons l’enjeu. Dans la d´ ecomposition biais-variance (1.2.7), les deux termes sont de monotonie oppos´ ee. Cela se voit sur les majorations (1.2.8) pour l’estimateur ` a noyau et (1.2.9) pour l’estimateur par projection. Mais le probl` eme du choix de h ou m est le mˆ eme : pour minimiser le risque, il faut faire un compromis entre ces deux termes, c’est ` a dire entre la qualit´ e de l’approximation de la fonction d’int´ erˆ et et la complexit´ e du mod` ele.

S´election d’un param`etre de dimension

Consid´ erons le cas de la collection d’estimateurs f

bm

de f construits par projection et donn´ ee en (1.2.3). La collection d´ enombrable finie des mod` eles, donc des param` etres m, est not´ ee M

N

. L’estimateur par projection f

bm

co¨ıncide avec l’estimateur qui minimise le contraste γ

N

(t) = ktk

2

− (2/N )

PN

j=1

t(X

j

) sur S

m

(1.2.2). Les espaces S

m

sont emboit´ es et il y a au plus un mod` ele par dimension. Plus la dimension s´ electionn´ ee est grande plus le mod` ele est pr´ ecis mais complexe, un compromis est donc ` a faire. La Figure 1.1 illustre ce propos pour le choix de la base de Laguerre sur

R+

. Trois estimateurs f

bm

de la densit´ e d’un ´ echantillon issu d’un m´ elange de deux lois gamma sont repr´ esent´ es (trait gris/rouge) de gauche ` a droite pour m = 1, 7, 20.

Seul le graphe du milieu repr´ esente une estimation satisfaisante. On recherche donc un crit` ere pour choisir l’estimateur final f

bmb

de fa¸ con automatique. L’estimateur appel´ e

«

oracle

»

not´ e f

bm

d´ efini par : m

= argmin

m∈MN E

[k f

bm

− f k

2

], est inaccessible en pratique, mais le but est de s’en approcher au mieux, c’est ce qui va d´ efinir le

«

meilleur

»

estimateur. D’apr` es la majoration (1.2.9) et par orthogonalit´ e de la base choisie, on a : m

= argmin

m∈MN

n

kf − f

m

k

2

+

CNϕm o

= argmin

m∈MN

n

−kf

m

k

2

+

CNϕm o

. L’in´ egalit´ e oracle est

E

[k f

b

mb

− f k

2

] ≤ C

E

[k f

bm

− f k

2

] + C

0

N

o` u C est une constante positive et C

0

est une constante positive d´ ependant de f et de C

ϕ

. Les r´ esultats que nous d´ emontrons dans ce travail sont des r´ esultats de

«

type oracle

»

c’est ` a dire de la forme

E

[k f

b

mb

− f k

2

] ≤ C inf

m∈MN E

[k f

bm

− f k

2

] + C

0

N .

L’in´ egalit´ e sera d’autant meilleure que C est proche de 1. On dira que l’estimateur est

«

optimal

au sens de l’oracle

»

, s’il a un risque aussi petit, ` a une constante pr` es et ` a un terme de reste

pr` es, que le meilleur des risques possibles dans une collection d’estimateurs.

(23)

Expliquons maintenant la m´ ethode de s´ election. Le contraste γ

N

( f

bm

) = −k f

bm

k

2

d´ ecroit avec m par construction : par cons´ equent, en choisissant l’estimateur minimisant le contraste on sous-estimerait le vrai risque. C’est pourquoi on introduit une fonction de

«

p´ enalisation

»

. On d´ efinit une fonction pen : M →

R+

telle m est choisi comme minimisant le crit` ere p´ enalis´ e suivant

crit(m) = γ

N

( f

bm

) + pen(m).

Puis on choisit la fonction p´ enalit´ e de l’ordre du majorant de la variance, ´ evalu´ e lors du calcul de MISE de l’estimateur, puisque l’on cherche ` a minimiser le MISE. Pour l’estimateur par projection on a donc pen(m) = κC

ϕ

m/N, avec κ une constante de calibration, ` a choisir en pratique. La collection de mod` eles M

N

est alors pr´ ecis´ ee, elle peut ˆ etre choisie par exemple pour borner la p´ enalit´ e : M

N

= {1, . . . , N }.

L’approche par minimisation de crit` ere p´ enalis´ e date des ann´ ees 70 avec les travaux de Akaike (1973) et Mallows (1973) qui proposent de p´ enaliser par la dimension puis elle a ´ et´ e g´ en´ eralis´ ee par Barron et al. (1999), Massart (2007). D’autres crit` eres tels que BIC (introduit par Schwarz en 1978) et AIC se basent sur une heuristique asymptotique et sont d´ ependants de la taille du mod` ele. C’est pourquoi des crit` eres p´ enalis´ es bas´ es sur des in´ egalit´ es non-asymptotiques se sont d´ evelopp´ es.

Dans cette th` ese nous choisissons de p´ enalit´ es bas´ ees sur un majorant du terme de variance.

La p´ enalit´ e est d´ eterministe le plus souvent et telle que pen(α) ≥ κ

E

[k

E

[ f

bα

] − f

bα

k

2

]

avec κ une constante. Les in´ egalit´ es de concentrations permettent de prouver les in´ egalit´ es de type oracle pour ce choix de p´ enalit´ e. En particulier on s’appuiera sur la forme int´ egr´ ee du r´ esultat de Talagrand (1996), donn´ e en Annexe B. La p´ enalit´ e est donn´ ee ` a une constante pr` es qu’il faudra calibrer en pratique. Par exemple Birg´ e & Massart (2006) ont propos´ e une m´ ethode pour calibrer la constante des p´ enalit´ es connues ` a une constante multiplicative pr` es pour le mod` ele gaussien : l’heuristique de pente (on peut voir aussi Baudry et al., 2012, pour l’impl´ ementation de la m´ ethode).

S´election de fenˆetre

Consid´ erons maintenant la collection d’estimateurs ` a noyau f

bh

de f donn´ ee par (1.2.1). Notons H

N

la collection d´ enombrable finie de fenˆ etres h. Plus h est petit plus l’estimation est pr´ ecise, mais plus la complexit´ e du mod` ele est grande. Il faut donc faire un compromis entre pr´ ecision et perte d’information. La Figure 1.2 montre trois estimateurs ` a noyau (en trait continu rouge/gris) de la densit´ e d’un ´ echantillon d’une variable X distribu´ ee selon un m´ elange de deux lois gamma.

De gauche ` a droite la fenˆ etre vaut h = 0.01, 0.25, 1. Seul le graphe du milieu montre un estimateur satisfaisant de la vraie densit´ e (en trait noir ´ epais), les deux autres choix ne sont pas acceptables.

On voit ici la n´ ecessit´ e de d´ efinir une m´ ethode de s´ election de h. Pour minimiser le risque

L2

de notre l’estimateur nous devons r´ ealiser le compromis biais-variance, expliqu´ e pr´ ec´ edemment.

La m´ ethode la plus ancienne appel´ ee

«

r` egle du pouce

»

est bas´ ee sur des consid´ erations empiriques. On trouve des d´ etails dans Sheather (2004). Cette m´ ethode s’appuie sur l’approxi- mation lorsque h tend vers 0 du MISE pour le noyau gaussien et lorsque f est une gaussienne.

Puis un m´ ethode tr` es utilis´ ee est la cross-validation. Elle repose sur une minimisation du MISE

approch´ e par son homologue empirique. Il en existe diff´ erente versions. On r´ ef` ere aux travaux

de Celisse (2008) et Celisse (2014) pour des r´ esultats th´ eoriques concernant cette m´ ethode pour

l’estimation de densit´ e par projection.

(24)

0 2 4 6 8

0.00.10.20.30.4

gridf

f

0 2 4 6 8

0.00.10.20.30.4

gridf

f

0 2 4 6 8

0.00.10.20.30.4

gridf

f

Figure 1.2– Estimateur `a noyaufbh,en rouge (gris), def, en noir ´epais, densit´e d’un m´elange de deux lois gamma. De gauche `a droite :h= 0.01,h= 0.25,h= 1

Dans le but d’obtenir des r´ esultats th´ eoriques sur les estimateurs ` a noyaux avec s´ election de fenˆ etre, nous nous int´ eressons maintenant ` a la m´ ethode de Goldenshluger et Lepski d´ evelopp´ ee dans Goldenshluger & Lepski (2011). Soit H

N

une collection finie de fenˆ etres. D´ efinissons la suite de noyaux it´ er´ es

f

bh,h0

(x) = K

h0

? f

bh

(x) = 1 N

N

X

j=1

K

h0

? K

h

(x − X

j

).

La fenˆ etre choisie est donn´ ee par

b

h = argmin

h∈HN

{A(h) + V (h)}

avec

A(h) = sup

h0∈HN

k f

bh,h0

− f

bh0

k

2

− V (h

0

)

+

, avec V (h) = κ kKk

21

kKk

2

N h , (1.2.10)

o` u κ est une constante de calibration, ` a choisir en pratique. Le terme A(h) estime le terme de biais kf

h

− f k

2

en rempla¸ cant les quantit´ es inconnues par des estimateurs. Mais le calcul montre qu’il faut encore retrancher un terme, de l’ordre du terme de variance (V (h)), pour que A(h) soit de l’ordre du terme de biais, ` a un reste d’ordre 1/N pr` es. La collection H

N

est choisie ici pour contrˆ oler le terme V (h) et est fournie par la d´ emonstration de l’´ egalit´ e de type oracle suivante,

`

a l’aide de l’in´ egalit´ e de Talagrand :

E

[k f

b

bh

− f k

2

] ≤ C inf

h∈HN

{kf

h

− f k

2

+ V (h)} + C

0

N . Par exemple H

N

= {1/k, k = 1, . . . b √

N c}.. La preuve de ce r´ esultat fournit une minoration de κ mais trop grande en g´ en´ eral et en pratique il faudra choisir la constante par une ´ etude sur simulations. Un travail r´ ecent de Lacour & Massart (2016) sugg` ere de ne plus utiliser les estimateurs f

bh,h0

dans le terme A(h) et de choisir une constante κ pour le terme V (h) qui apparait dans le crit` ere A(h) (1.2.10) puis 2κ dans le terme V (h) qui d´ efinit

b

h.

Cas de la d´econvolution

Nous avons vu dans la Section 1.2.3 que l’estimateur f

bX,m

construit pour le probl` eme de d´ econ- volution peut-ˆ etre vu comme un estimateur ` a noyau ou un estimateur par projection (mais m n’est plus la dimension de l’espace S

m

). Dans ce cas, on peut alors soit utiliser une m´ ethode de p´ enalisation classique (comme d´ ecrite ci dessus pour la projection), soit adapter la m´ ethode de Goldenshluger et Lepski d´ evelopp´ ee pour les noyaux pour la s´ election de mod` ele (voir Comte &

Johannes, 2012). En effet la m´ ethode permet d’obtenir de fa¸ con simple des in´ egalit´ es de type

Références

Documents relatifs

proportionnelle `a la temp´erature, ce qui e coh´erent avec la physique : si on identifie une gaussienne de variance nulle avec une masse de Dirac, on retrouve qu’`a temp´erature

On d´ecoupe d’abord au hasard deux rayons dans le gˆateau, puis on jette au hasard la cerise sur le bord.. Celle-ci a intuitivement plus de chance de tomber sur la part la

Pour cela, il faut d´ efinir le sens d’une int´ egrale d’une fonction mesurable et qui g´ en´ eralise l’int´ egrale de Riemann des fonctions continues par morceaux :

A partir du th´ ` eor` eme de transfert, il est possible de d´ emontrer des r´ esultats concernant l’esp´ erance de variables al´ eatoires r´ eelles qui sont quasiment les mˆ

Un usager se présente entre 7h00 et 7h30 à cet arrêt, l’heure d’arrivée étant une variable aléatoire uniforme sur cette période.. Trouver la probabilité qu’il doivent

TES 1 Interrogation 9A 4 avril 2015 R´ epondre aux questions sur

X est la variable al´eatoire continue sur [0; 4] dont la loi a pour densit´e de probabilit´e la fonction f.. D´efinir la fonction f de densit´e de probabilit´e de la

X est la variable continue sur [2; 3] dont la loi a pour densit´e de probabilit´e la fonction f... D´eterminer la probabilit´e de chacun des ´ev´enements