• Aucun résultat trouvé

Quelques résultats en statistiques des grandes dimensions

N/A
N/A
Protected

Academic year: 2021

Partager "Quelques résultats en statistiques des grandes dimensions"

Copied!
113
0
0

Texte intégral

(1)

HAL Id: tel-01387393

https://tel.archives-ouvertes.fr/tel-01387393

Submitted on 25 Oct 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Quelques résultats en statistiques des grandes

dimensions

Marc-Antoine Giuliani

To cite this version:

Marc-Antoine Giuliani. Quelques résultats en statistiques des grandes dimensions. Mathématiques [math]. Université Paris Diderot (Paris 7), 2016. Français. �tel-01387393�

(2)

UNIVERSIT´

E PARIS DIDEROT (PARIS 7)

´

ECOLE DOCTORALE DE SCIENCES MATH´EMATIQUES DE PARIS CENTRE

Laboratoire de Mod`eles Al´eatoires et de Probabilit´es - CNRS UMR 7599

TH`

ESE DE DOCTORAT

Discipline : Math´ematiques Appliqu´ees

Pr´esent´ee par Marc-Antoine Giuliani

QUELQUES R´

ESULTATS EN

STATISTIQUES DES GRANDES DIMENSIONS

Sous la direction de Dominique PICARD

Rapporteurs : M. Pierre ALQUIER ENSAE

M. Sylvain SARDY Universit´e de Gen`eve

Soutenue publiquement le 24 mai 2016 devant le jury compos´e de : M. Pierre ALQUIER ENSAE Rapporteur M. St´ephane BOUCHERON Universit´e Paris Diderot Examinateur M. Erwan LE PENNEC Ecole Polytechnique Examinateur Mme Dominique PICARD Universit´e Paris Diderot Directrice M. Sylvain SARDY Universit´e de Gen`eve Rapporteur

(3)
(4)

Remerciements.

Mes tout premiers remerciements vont `a ma directrice Dominique Picard. Merci Dominique d’avoir encadr´e ce travail, de m’avoir accompagn´e tout au long de ces quatre ans, je suis bien conscient de n’avoir pas ´et´e un ´el`eve facile ! Mais ta gentillesse, ton savoir et ton investissement constant m’ont permis de mener ce travail au bout. Merci aussi de m’avoir donn´e l’opportunit´e tr`es enrichissante d’assurer un de tes TD pendant mon ann´ee d’ATER.

Je remercie mes rapporteurs Pierre Alquier et Sylvain Sardy pour le travail qu’ils ont eu le courage d’accomplir.

Je remercie St´ephane Boucheron et Erwan Le Pennec d’avoir bien voulu faire partie de mon jury.

Il est d’usage de remercier tous ceux qui nous ont apport´e de la connaissance, de l’aide et de la joie de mani`ere plus ou moins alphab´etique, permettez moi de les remercier par ordre chronologique. Tout d’abord (et `a nouveau) merci Dominique et Pierre de m’avoir fait d´ecouvrir le sujet passionnant de la statistique math´ematique, vos enseignements pendant mon ann´ee de M1 ont ´et´e d´eterminants. Merci Pierre pour tes encouragements et ta bienveillance (et tes tampons smileys !). Merci Monsieur Kerkyacharian et Erwan de m’avoir fait d´ecouvrir les ondelettes et plus largement le sujet de l’estimation non-param`etrique. Merci pour votre enseignement riche et exigeant. Merci Erwan de m’avoir encourag´e `a me lancer dans cette aventure de la th`ese. Merci St´ephane pour tes enseignements, ta gentillesse permanente, ton bureau ´etait toujours ouvert (et ton goˆut du code rass´er´enant). Merci Mathilde de m’avoir appris R et plus largement de m’avoir fait r´ealiser que notre discipline n’a de sens qu’appliqu´ee. Merci Noufel pour ta bonne humeur constante et les nombreux caf´es pris ensemble. Merci Aur´elie de m’avoir accompagn´e dans mon activit´e d’enseignement. Merci Maud et Lorick d’avoir sˆu cr´eer une merveilleuse ambiance alors que nous commencions tous les trois l’aventure du doctorat. Merci Thomas, ton sens de l’humour et ton goˆut des maths ont ´et´e un soutien pr´ecieux. Merci Guillaume d’avoir toujours aim´e r´esoudre des probl`emes de maths, petits ou grands ! Enfin merci Anna pour ton soutien constant et ton amiti´e.

Je tiens `a remercier mes parents, mon p`ere qui a ´et´e mon premier professeur de math´ematiques et ma m`ere qui a toujours ´et´e un soutien ind´efectible. Un grand merci `

a ma soeur Mathilde de m’avoir toujours encourag´e, et d’avoir ´et´e l`a dans les moments difficiles. A mes amis Anne, Brice, Charles, Gaspard, Jean-Paul, Simon, St´ephane pour tous nos bols d’air du week-end. J’ai de plus une pens´ee particuli`ere pour ma grand-m`ere qui aurait aim´e ˆetre l`a aujourd’hui.

Enfin et tout particuli`erement merci `a toi Annabelle, c’est autant ta th`ese que la mienne (mais j’ai fait toutes les d´emarches administratives pour une fois !). Tu as ´et´e l`a `a chaque pas et sans toi rien n’aurait ´et´e possible. Merci pour ces ann´ees pass´ees et pour toutes celles `a venir.

A tous ceux que j’ai cˆotoy´es et qui m’ont soutenu `a un moment ou un autre de ces quatre ann´ees, merci et qu’ils m’excusent de ne pouvoir tous les nommer.

(5)
(6)

Table des mati`

eres

1 Introduction 8

1 Le mod`ele lin´eaire . . . 8

1.1 Motivation du mod`ele . . . 8

1.2 Erreur de pr´ediction, cadre minimax . . . 9

2 Estimation par projection . . . 11

2.1 Estimateur des moindres carr´es . . . 11

2.2 Estimation parcimonieuse . . . 13

3 Estimation adaptative pour la r´egression parcimonieuse . . . 15

3.1 Design orthogonal et seuillage . . . 15

3.2 La m´ethode de relaxation convexe . . . 17

3.3 Les m´ethodes greedy . . . 18

4 Etendre la m´ethode de seuillage aux mod`eles en grandes dimensions : la m´ethode one-step greedy . . . 19

4.1 Le cas homosc´edastique : la m´ethode LOL (learning out of leaders) 19 4.2 Extension `a un bruit color´e . . . 21

4.3 Les m´ethodes super greedy . . . 24

4.4 Rendre adaptative une proc´edure super greedy : algorithme super greedy avec pivot . . . 25

5 Estimation non-param´etrique : le cas de l’estimation de densit´e . . . 30

5.1 Estimation de densit´e sur R et risque minimax . . . 31

5.2 Estimateur `a noyau d’une densit´e . . . 31

5.3 Le ph´enom`ene de biais au bord (ou boundary bias) . . . 32

5.4 Modification de noyaux d’ordre quelconque au bord . . . 36

2 Orthogonal One Step Greedy Procedure for heteroscedastic linear mod-els 43 1 Introduction . . . 44

2 The Setup . . . 47

2.1 The model . . . 47

2.2 Notation . . . 47

3 The One Step Greedy Algorithm for Heteroscedastic Noise . . . 48

3.1 Intuition . . . 48

(7)

3.3 Pseudocode description of the method . . . 50

4 Theoretical Results . . . 52

4.1 Coherence . . . 52

4.2 Rates of convergence of OOSG on weighted `q balls . . . 53

4.3 Discussion . . . 54

5 Numerical Study . . . 56

5.1 Experimental Design . . . 56

5.2 Algorithm . . . 57

5.3 Effect of indeterminacy and sparsity ratio . . . 57

5.4 Comparison with LOL . . . 59

5.5 Comparison with weighted adaptive Lasso . . . 60

6 Proofs . . . 62

6.1 Preliminaries . . . 62

6.2 The prediction error . . . 65

6.3 Selection error . . . 65 6.4 Estimation error . . . 69 6.5 Proof of theorem 2.5 . . . 74 7 Appendix . . . 75 7.1 Proof of lemma 2.1 . . . 75 7.2 Proof of lemma 2.2 . . . 75 7.3 Proof of proposition 2.6 . . . 76 7.4 Proof of proposition 2.7 . . . 77 7.5 Proof of proposition 2.8 . . . 78

3 Orthogonal matching pursuit with pivoting: accelerating greedy pursuit algorithms 83 1 Introduction . . . 84

1.1 Orthogonal Matching Pursuit . . . 84

1.2 Super Greedy modification of OMP . . . 87

2 Super Greedy OMP with pivoting rule . . . 88

3 Numerical Studies . . . 89

3.1 Simulation data . . . 89

3.2 Real-world texts data sets . . . 92

4 Conclusion . . . 94

4 A simple high-order kernel for boundary correction in density estima-tion 95 1 Introduction . . . 96

1.1 Aims and Motivations . . . 96

1.2 Model and Assumptions . . . 96

1.3 Behaviour of the bias of the kernel estimator . . . 97

(8)

2.1 Folding . . . 99

2.2 Expansion of the solution on an orthogonal basis . . . 100

3 Numerical Study . . . 101

4 Conclusion . . . 103

5 Proofs . . . 103

5.1 Proof of lemma 4.1 . . . 103

(9)

Chapitre 1

Introduction

Sommaire

1 Le mod`ele lin´eaire . . . 8

1.1 Motivation du mod`ele . . . 8

1.2 Erreur de pr´ediction, cadre minimax . . . 9

2 Estimation par projection . . . 11

2.1 Estimateur des moindres carr´es . . . 11

2.2 Estimation parcimonieuse . . . 13

3 Estimation adaptative pour la r´egression parcimonieuse . . . 15

3.1 Design orthogonal et seuillage . . . 15

3.2 La m´ethode de relaxation convexe . . . 17

3.3 Les m´ethodes greedy . . . 18

4 Etendre la m´ethode de seuillage aux mod`eles en grandes dimensions : la m´ethode one-step greedy . . . 19

4.1 Le cas homosc´edastique : la m´ethode LOL (learning out of leaders) 19 4.2 Extension `a un bruit color´e . . . 21

4.3 Les m´ethodes super greedy . . . 24

4.4 Rendre adaptative une proc´edure super greedy : algorithme super greedy avec pivot . . . 25

5 Estimation non-param´etrique : le cas de l’estimation de densit´e 30 5.1 Estimation de densit´e sur R et risque minimax . . . 31

5.2 Estimateur `a noyau d’une densit´e . . . 31

5.3 Le ph´enom`ene de biais au bord (ou boundary bias) . . . 32

5.4 Modification de noyaux d’ordre quelconque au bord . . . 36

1

Le mod`

ele lin´

eaire

1.1

Motivation du mod`

ele

Le mod`ele lin´eaire est l’un des objets centraux de la statistique math´ematique. Il est le parfait exemple d’une construction inspir´ee d’un probl`eme concret et autour de laquelle

(10)

une riche th´eorie s’est mise en place : ´etant donn´e une variable d’int´erˆet, y, peut-on mesurer l’influence qu’ont sur elle une famille de p covariables, x1, . . . , xp?

Bien entendu, pour que la chose soit possible, il est n´ecessaire de supposer que y et les covariables xi sont li´ees. Le mod`ele lin´eaire est une fa¸con de sp´ecifier ce lien en supposant

que :

y = α∗1x1+ · · · + α∗pxp+ ε, (1.1)

o`u les α∗i sont des scalaires et o`u ε est un terme de bruit, que l’on mod´elisera comme une variable al´eatoire r´eelle d’esp´erance nulle.

Le statisticien dispose d’un ´echantillon d’apprentissage de n observations de la variable y et des covariables xi. Il est pratique de noter y ∈ Rn le vecteur d’observations de la

variable y dans cet ´echantillon d’apprentissage, de mˆeme on note xi ∈ Rn le vecteur

d’observations de la covariable xi. Il est alors naturel de regrouper les observations des

covariables dans une matrice (dite de design) :

X =     .. . ... xi1 xip .. . ...     = [x1. . . xp],

dont les colonnes sont les vecteurs xi. Alors la relation eq. (1.1) se traduit en un syst`eme

d’´equations dans l’´echantillon d’apprentissage :

y = X α∗+ ε, (1.2) o`u ε ∈ Rn est un vecteur dont chaque composante repr´esente le bruit associ´e `a chaque

observation de la variable y, et α∗ ∈ Rp est le vecteur des param`etres. Sur la figure 1.1 on

repr´esente une telle relation sur un jeu de donn´ees simul´ees.

On peut maintenant reformuler la question initiale plus pr´ecis´ement : ´etant donn´e un ´echantillon d’apprentissage de taille n, comment estimer le mieux possible la valeur des p param`etres α∗i si l’on suppose la relation 1.1 entre la variable d’int´erˆet y et les covariables x1, . . . , xp?

1.2

Erreur de pr´

ediction, cadre minimax

Soit ˆα un estimateur du vecteur de param`etres α∗, c’est-`a-dire que ˆα est un vecteur de Rp construit uniquement `a partir de l’observation de y et de X (de fa¸con mesurable). Afin de r´epondre `a la question pr´ec´edente on doit se doter d’un crit`ere d’erreur pour mesurer la qualit´e de ˆα et ˆetre `a mˆeme de comparer si possible deux estimateurs entre eux.

Un crit`ere raisonnable pour mesurer la qualit´e d’un estimateur est de regarder `a quel point il est capable de bien pr´edire l’esp´erance de la variable d’int´erˆet sachant la valeur des

(11)

0.0 0.5 1.0 1.5 2.0 0.00 0.25 0.50 0.75 1.00 x y

Figure 1.1. Jeu de donn´ees simul´ees : y = 2x + ε.

covariables sur les donn´ees de l’´echantillon d’apprentissage. L’erreur quadratique moyenne (Mean Squared Error), n1kXα∗− X ˆαk2

2, est justement une fa¸con naturelle de quantifier

l’´ecart entre le vecteur d’int´erˆet Xα∗ et sa pr´ediction X ˆα. Mais cette quantit´e est al´eatoire, on cherchera donc a borner son esp´erance, qu’on qualifiera de risque de pr´ediction :

R(α∗, ˆα) = Eh1 nkXα

− X ˆ

αk22i. (1.3) On parle de risque de pr´ediction car si le design X est repr´esentatif des valeurs prises par les covariables, cette quantit´e refl`ete bien la capacit´e de l’estimateur ˆα `a fournir de bonnes pr´edictions sur des observations futures.

Il est bien entendu sans int´erˆet de parler d’optimalit´e d’un estimateur en un point α∗ ∈ Rp. En effet l’estimateur d´eterministe ˆα = αest toujours optimal au point α, et

pourtant n’est pas du tout efficace en tout autre α ∈ Rp assez ´eloign´e de α. Pour pallier

cette difficult´e on introduit la notion d’optimalit´e au sens minimax, qui caract´erise `a quelle vitesse α∗ peut ˆetre estim´e uniform´ement sur un certain sous-ensemble Λ de Rp.

Definition 1.1. On dira qu’un estimateur ˆα est optimal au sens minimax sur Λ si : R(α∗, ˆα) = Eh1

nkXα

− X ˆ

αk22i≤ Cψn,p,

pour une certaine suite (ψn,p), et une constante C > 0, et s’il existe une constante C0 > 0

telle que : inf ˆ β sup α∗∈ΛE h ψn,p−1 1 nkXα ∗− X ˆ βk22 i ≥ C0,

o`u l’infinimum est pris sur tous les estimateurs ˆβ possibles. De plus ψn,p est appel´ee vitesse

(12)

Un estimateur est donc minimax s’il est celui dont la pire erreur sur Λ est la moins grande.

2

Estimation par projection

Nous commen¸cons par introduire l’estimateur des moindres carr´es dans le mod`ele lin´eaire pr´ec´edemment d´ecrit. Nous essayons alors d’expliquer en quoi, bien que tout `a fait raisonnable pour les situations o`u l’on dispose de beaucoup plus d’observations qu’il n’y a de covariables, cet estimateur n’est pas adapt´e aux probl´ematiques contemporaines de grandes dimensions, o`u le nombre de covariables est grand devant le nombre d’observations. La section suivante tente de rem´edier `a ce probl`eme en postulant la parcimonie du vecteur α∗ et en adaptant la proc´edure d’estimation.

2.1

Estimateur des moindres carr´

es

On cherche `a construire ici un estimateur qui minimise le risque de pr´ediction : R(α∗, ˆα) = Eh1

nkXα

− X ˆ

αk22i.

Le vecteur Xα∗ n’´etant pas directement observable, une id´ee naturelle est alors de le remplacer par le vecteur observ´e y = Xα∗+ ε. On cherche donc un estimateur qui soit solution du probl`eme de minimisation :

ˆ

α = arg min

α∈Rp

ky − Xαk2

2. (1.4)

Toute solution du probl`eme 1.4 est appel´ee estimateur des moindres carr´es (puisqu’il minimise le carr´e d’une norme euclidienne), et sera not´ee ˆαLS. Le th´eor`eme de projection

dans les espaces de Hilbert garantit l’existence de ces estimateurs. De plus il implique que tout estimateur ˆαLS erifie la relation :

X ˆαLS = PVX[y], (1.5)

o`u VX est l’espace vectoriel image du design X, et PVX est le projecteur orthogonal sur VX.

Un estimateur des moindres carr´es jouit de nombreuses bonnes propri´et´es, il est par exemple optimal dans la classe des estimateurs lin´eaires non biais´es de α∗ lorsque X est une injection (th´eor`eme de Gauss-Markov [85]). A l’inverse, le point de d´epart des m´ethodes que nous ´etudierons ensuite vient de son incapacit´e `a s’adapter aux probl`ematiques dites de ”grandes dimensions”. Le th´eor`eme suivant fournit une borne sur son erreur de pr´ediction

qui met en lumi`ere ce ph´enom`ene.

Th´eor`eme 1.2. Supposons que la relation 1.1 soit vraie, et supposons de plus que le terme de bruit est gaussien de variance σ2, ε ∼ N (0, σ2). Alors l’estimateur des moindres carr´es

v´erifie :

R(α∗, ˆαLS) . σ2r

n, (1.6)

(13)

Ce r´esultat a deux interpr´etations tr`es importantes en fonction de la situation qu’on consid`ere.

Le cas ”classique” : pendant longtemps l’´etude du mod`ele lin´eaire reposait im-plicitement sur l’id´ee que le nombre de covariables utilis´ees ´etait fixe, alors qu’il ´etait relativement ais´e d’acqu´erir plus d’observations. C’est-`a-dire que le nombre d’observations pouvait facilement ˆetre rendu plus grand que le nombre de covariables, qui n’augmentait pas avec l’acquisition de nouvelles observations. Sous ces conditions, c’est-`a-dire si le nombre d’observations est grand devant le nombre, fixe, de covariables alors le th´eor`eme 1.2 garantit que le risque de pr´ediction de l’estimateur des moindres carr´es d´ecroit comme

1

n. Une riche litt´erature fait l’´etat des connaissances accumul´ees dans ce cas, on pourra

se r´ef´erer par exemple `a [85] ou `a [97] (pour voir la th´eorie d´evelopp´ee dans un espace euclidien g´en´eral).

Le cas ”grandes dimensions” : de plus en plus aujourd’hui, les jeux de donn´ees auxquels le statisticien est confront´e ne rentrent plus dans le cadre ”classique” d´ecrit pr´ec´edemment. En effet, de nombreux domaines acqui`erent des donn´ees o`u le nombre de covariables est grand devant le nombre d’observations. En particulier la g´enomique o`u la technologie des puces `a ADN permet l’acquisition, pour chaque observation, des niveaux d’expressions d’un grand nombre de g`enes. Chaque observation restant plutˆot coˆuteuse (ou la population ´etudi´ee ´etant tr`es restreinte, comme dans le cas de maladies g´en´etiques rares) les donn´ees obtenues ne rentrent plus dans le cadre ”classique”, le nombre de covariables y ´

etant beaucoup plus grand que le nombre d’observations. Le ”text mining” est un autre domaine o`u chaque acquisition d’une nouvelle observation, c’est-`a-dire d’un nouveau texte, s’accompagne d’une augmentation du nombre de covariables. En effet dans le mod`ele dit de ”bag of words”, chaque texte d’un corpus est une observation alors que les mots dont ils sont constitu´es forment les covariables. Avec l’acquisition d’un nouveau texte, s’ajoutent aux pr´ec´edentes covariables, de nouveaux mots non pr´ec´edemment observ´es. Dans ce cas le nombre de param`etres p n’est plus fixe, mais croˆıt avec n et peut ˆetre beaucoup plus grand que n. Dans ce contexte o`u p n’est plus fixe, et o`u potentiellement on peut avoir p  n, le th´eor`eme 1.2 ne garantit plus rien sur la vitesse d’estimation de l’estimateur des moindres carr´es.

Afin d’illustrer les difficult´es de ce nouveau paradigme, consid´erons le cas orthogonal o`u les calculs sont simplifi´es. Dans ce cas, on suppose que le nombre de covariables est ´egal au nombre d’observations n. On suppose de plus que les colonnes du design X forment une base orthonormale de l’espace Rn. Alors l’estimateur des moindres carr´es est unique et se r´eduit `a ˆαLS=tXy. De plus, sous les hypoth`eses du th´eor`eme 1.2, on peut calculer son risque de pr´ediction pour tout α∗ ∈ Rn, qui n’est autre que :

R(α∗, ˆαLS) = σ2.

(14)

tend vers l’infini. De plus on peut prouver que cet estimateur est minimax sur Rn, nous n’avons donc pas d’espoir de construire un meilleur estimateur (au sens minimax) que ˆ

αLS!

Ainsi, si on ne fait aucune hypoth`ese a priori sur le vecteur α∗, le probl`eme du mod`ele lin´eaire en grandes dimensions est une cause perdue. Heureusement, en pratique les vecteurs de param`etres ne vivent pas dans tout Rp mais plutˆot sur une sous-vari´et´e de Rp de dimension intrins`eque bien inf´erieure `a p. En effet si l’on consid`ere l’exemple des bases d’ondelettes, on sait que la plupart des signaux y admettent une repr´esentation qui utlise peu de coefficients, qu’on qualifie de sparse. Mˆeme si le signal vit initialement dans Rp, une fois transform´e de la sorte, il appartient donc `a l’ensemble des signaux n’ayant que k  n coefficients non nuls. Si jamais l’on pouvait deviner a priori o`u se situent ces k coefficients, alors on pourrait directement effectuer la r´egression lin´eaire en n’utilisant que ces k covariables et le th´eor`eme 1.2 garantirait une vitesse en kn  1. On peut alors esp´erer que sous une hypoth`ese de sparsit´e du vecteur des param`etres, c’est-`a-dire sous l’hypoth`ese que seul un petit nombre des covariables sont en fait n´ecessaires, on puisse contruire des estimateurs d´etectant quels param`etres doivent ˆetre estim´es, et estimant seulement ceux l`a. On obtiendrait alors de bien meilleures propri´et´es asymptotiques que l’estimateur des moindres carr´es, puisque le nombre total de covariables serait remplac´e par la sparsit´e r´eelle de α∗ dans la vitesse de convergence.

2.2

Estimation parcimonieuse

Cette partie s’inspire tr`es largement de [18]. On introduit maintenant le concept d’estimateur des moindres carr´es restreint. Soit C est un convexe ferm´e de Rp. On peut

consid´erer le probl`eme de minimisation : ˆ

αC = arg min α∈C

ky − Xαk2

2. (1.7)

On parlera d’estimateur des moindres carr´es restreint (`a C) pour toute solution au probl`eme 1.7. Le th´eor`eme de projection sur les convexes ferm´es d’un espace de Hilbert garantit l’existence d’une solution `a ce probl`eme. De plus il garantit que toute solution v´erifie :

X ˆαC = PCX[y], (1.8)

o`u PCX est le projecteur orthogonal sur l’ensemble CX, image de C par X. De plus si la

restriction de X `a C est injective alors cette solution est unique.

Soit M un sous-ensemble de {1, . . . , p}. Une famille particuli`erement importante de sous-espaces vectoriels de Rp sont les espaces :

V (M) = {α ∈ Rp; αi = 0, ∀i /∈ M}.

Les estimateurs des moindres carr´es restreints `a V (M) sont alors les estimateurs des moindres carr´es au sens de 1.4 mais n’utilisant que les covariables ind´ex´ees par M ! On les

(15)

notera ˆα(M) dans la suite. Alors la relation 1.8 implique que : E h X ˆα(M)i = EhPV (M)X[y] i = PV (M)X[Xα ∗ ]. (1.9) On en d´eduit la d´ecomposition, particuli`erement importante, de l’erreur de pr´ediction comme : EkXα∗− X ˆα(M)k22 = kXα ∗− P V (M)X[Xα ∗ ]k22+ EhkPV (M)X[ε]k 2 2 i . (1.10) Cette d´ecomposition a l’interpr´etation habituelle d’une d´ecomposition biais-variance : le terme kXα∗− PV (M)X[Xα

]k2

2 s’interpr`ete comme le carr´e d’un biais, plus M est grand

plus cette quantit´e est petite, alors que EhkPV (M)X[ε]k 2 2

i

s’interpr`ete comme une variance, qui elle, `a l’oppos´e du biais, croˆıt avec le nombre de covariables utilis´ees.

Pla¸cons nous sous les hypoth`eses du th´eor`eme 1.2, en consid´erant que le vecteur de bruit ε est gaussien, homosc´edastique, de covariance Cov(ε) = σ2In. Alors la d´ecompositon

1.10 dans ce cas particulier peut s’´ecrire : EkXα∗− X ˆα(M)k22 = kXα

− P

V (M)X[Xα ∗

]k22+ σ2dim (V (M)X). (1.11)

Ainsi chaque covariable que l’on d´ecide d’utiliser ajoute σ2 `a la variance de l’estimateur,

mais r´eduit son biais en contrepartie. Par contre, il n’est absolument pas n´ecessaire que la r´eduction du biais apport´ee par l’introduction d’une covariable soit sup´erieure `a l’augmen-tation de la variance qu’elle induit.

Supposons maintenant que le vecteur que l’on souhaite estimer, α∗, est k-sparse, c’est-`

a-dire que ses coefficients non nuls sont index´es par un certain sous-ensemble support M∗ ⊂ {1, . . . , p}, tel que |M∗| ≤ k. On notera par la suite kα∗k0 le cardinal du

sous-ensemble d’indices support de α∗. Alors, si dim (V (M∗)X) = |M∗| ≤ k, l’estimateur des

moindres carr´es restreint `a M∗ v´erifie : 1 nEkXα ∗− X ˆ α(M∗)k22 ≤ σ2 k n  σ 2, (1.12)

d`es que k  n. Ainsi, si l’on sait a priori que kα∗k0 ≤ k, on a int´erˆet `a remplacer l’estimateur

des moindres carr´es par l’estimateur restreint solution du probl`eme de minimisation :    ˆ αS = arg min αky − Xαk22, s. t. kαk0 ≤ k. (1.13)

Cet estimateur ˆαS poss`ede alors, lorsque α∗ est bien k-sparse, des propri´et´es de convergence bien sup´erieures `a l’estimateur des moindres carr´es non restreint.

Th´eor`eme 1.3. Pla¸cons nous sous les hypoth`eses du th´eor`eme 1.2. Supposons que α∗ soit k-sparse avec k ≤ p/2. Alors :

R(α∗, ˆαS) . σ2k nlog ep k  . (1.14)

(16)

Dans ce th´eor`eme, on trouve bien le terme nk qui est la vitesse qu’on obtiendrait si l’on savait a priori o`u se situe le support de α∗. On paye en plus un prix li´e au fait qu’on ne connait pas le support de α∗ mais seulement une borne sur son cardinal avec le facteur multiplicatif log



ep k



. Il suffit maintenant pour avoir convergence de v´erifier la condition

log p

n → 0 `a sparsit´e fix´ee !

L’estimateur ˆαS souffre pourtant de deux d´efauts r´edhibitoires :

1. son calcul repose sur la connaissance a priori de la sparsit´e (ou du moins d’une bonne borne) de α∗. Il est non adaptatif !

2. mˆeme si l’on disposait de cette connaissance a priori, il est pratiquement incalculable. En effet il n´ecessite le calcul d’un nombre exponentiel d’estimateurs des moindres carr´es, un pour chaque sous-ensemble de cardinal inf´erieur `a k de {1, . . . , p}, c’est-` a-dire de l’ordre de pk estimateurs. D`es que p et k sont mod´er´ement grands c’est une tˆache irr´ealisable.

Le probl`eme de la regression sparse peut maintenant se formuler de la fa¸con suivante : comment obtenir un estimateur adaptatif ˆα calculable (en temps au plus polynomial) avec une efficacit´e proche de ˆαS?

3

Estimation adaptative pour la r´

egression

parcimo-nieuse

On commence par pr´esenter le cas de la regression parcimonieuse (sparse) avec un design orthogonal qui sert de fondement aux d´eveloppements ult´erieurs et pour lequel une th´eorie compl`ete existe. On pr´esente ensuite les deux strat´egies g´en´erales pour fournir des estimateurs effectivement calculables, en temps polynomial, au comportement proche de la solution du probl`eme 1.13 dans le cas d’un design g´en´eral : les estimateurs obtenus par relaxation convexe de la p´enalit´e `0 et les estimateurs obtenus par des m´ethodes greedy.

Dans toute la suite on supposera le terme de bruit ε gaussien.

3.1

Design orthogonal et seuillage

Supposons que les colonnes du design X forment une base orthonormale de l’espace Rn. Supposons de plus dans un premier temps que le bruit ε est blanc, c’est-`a-dire que Cov(ε) = σ2I

n. Sous l’hypoth`ese d’orthonormalit´e du design, l’estimateur des moindres

carr´es n’est autre que ˆαLS =tXy et v´erifie :

ˆ

αLS = α∗+ ˜ε, (1.15) o`u ˜ε = tXε ∼ N (0, σ2I

n). Cette relation est qualifi´ee de mod`ele de suite gaussienne. De

(17)

kXα∗− X ˆαk22 = kα∗− ˆαk22. Introduisons les formes seuill´ees de ˆαLS au niveau λ : thλ( ˆαLS)i =    ˆ αLS i , si | ˆαLSi | ≥ λ, 0, sinon, (1.16)

est l’estimateur avec seuillage ”hard”, et

tsλ( ˆαLS)i =          ˆ αLS i − λ, si ˆαLSi ≥ λ, 0, si | ˆαLS i | < λ, ˆ αLSi + λ, si ˆαLSi ≤ −λ, (1.17)

est l’estimateur avec seuillage ”soft”. Alors, en utilisant le concept d’in´egalit´e oracle, [37] prouve le r´esultat suivant.

Th´eor`eme 1.4. Sous les hypoth`eses du th´eor`eme 1.3, si tλ( ˆαLS) est un estimateur seuill´e

de ˆαLS (hard ou soft) au niveau λ = σ2 log n on a :

R(α∗, tλ( ˆαLS)) . σ2log(n)

k

n. (1.18)

C’est un r´esultat tout `a fait remarquable car on obtient essentiellement la mˆeme vitesse que 1.3 sans avoir `a incorporer de savoir a priori sur la sparsit´e de α∗! En effet on peut remarquer que l’estimateur avec seuillage hard th

λ( ˆαLS) est aussi solution du probl`eme de

minimisation :

thλ( ˆαLS) = arg min

α

ky − Xαk2

2+ λ2kαk0 (1.19)

qui est la forme lagrangienne de 1.13. C’est-`a-dire que pour tout k dans 1.13, il existe un λ tel que 1.19 soit ´equivalent. Mais le th´eor`eme 1.4 fournit une strat´egie de seuillage universelle ind´ependante de la sparsit´e r´eelle de α∗, le seuil ne d´ependant que du niveau de bruit et de la dimension n, l’estimateur seuill´e est adaptatif. De plus il est ais´ement calculable, le probl`eme 1.13 ´etant explicitement r´esoluble sous l’hypoth`ese d’orthogonalit´e du design.

En fait le r´esultat prouv´e dans [37] est beaucoup plus fort et permet de prouver la minimaxit´e de l’estimateur seuill´e sous bien d’autres conditions que la sparsit´e de α∗, en particulier lorsque α∗ appartient `a une boule de `q pour 0 ≤ q ≤ 1. La th´eorie du seuillage

a ´et´e essentiellement d´evelopp´ee en vue d’applications `a la statistique non param´etrique et une litt´erature tr`es riche autour de la question de l’estimation non lin´eaire [33], [32], dans les bases d’ondelettes [28], [70] existe. On pourra se r´ef´erer `a [39], [41], [55], [40] pour ne citer que quelques exemples.

Enfin, la th´eorie a ´et´e ensuite ´etendue au cas d’un bruit non blanc, c’est-`a-dire lorsque le bruit gaussien admet une matrice de covariance non triviale, dans [59], [56], [64], en incorporant l’h´et´erosc´edasticit´e du bruit dans la strat´egie de seuillage.

(18)

3.2

La m´

ethode de relaxation convexe

Reconsid´erons un instant les r´esultats de la section pr´ec´edente. L’estimateur par seuillage soft , ts

λ( ˆαLS), qui est adaptatif et minimax sur la classe des α

sparse, peut se

d´ecrire comme la solution du probl`eme de minimisation : tsλ( ˆαLS) = arg min

α

ky − Xαk2

2+ 2λkαk1. (1.20)

Ici la p´enalit´e `0 du seuillage hard est relax´ee en une p´enalit´e `1 convexe sans d´et´eriorer

les bonnes propri´et´es de l’estimateur. De plus ce probl`eme ´etant convexe, il est r´esoluble en temps polynomial quel que soit le design X (en effet l’optimisation convexe est un sujet important auxquel une grande litt´erature est consacr´ee, et o`u beaucoup d’algorithmes efficaces on ´et´e d´evelopp´es [11]). Il est donc naturel pour un design quelconque de chercher l’estimateur solution de :

ˆ

α = arg min

α

ky − Xαk22+ λkαk1. (1.21)

Cet estimateur, est qualifi´e d’estimateur Lasso [89]. De nombreux algorithmes sp´ecifiques ont ´et´e d´evelopp´es pour resoudre ce probl`eme de minimisation. On pourra citer en par-ticulier la m´ethode d’homotopie [44], ou encore plus efficace en pratique la descente de coordonn´ees [48].

Le probl`eme de cet estimateur r´eside dans le fait qu’il est a priori adapt´e `a la norme `1

de α∗ et non pas `a sa sparsit´e. La magie de cet estimateur r´eside elle dans le fait que, si l’on ajoute certaines conditions sur le design, alors il est tout aussi efficace, pour un bon choix de λ, que l’estimateur par seuillage dans le cas d’un design orthogonal. Il existe de nombreux types de conditions exig´ees sur la matrice de design X, mais tous se r´esument `a r´eclamer qu’elle ne pr´esente pas de corr´elations trop fortes, qu’elle ne soit pas trop ´eloign´ee d’une matrice orthogonale. D´etaillons en quelques unes :

— il y a les conditions dites de coh´erence. La coh´erence d’un design est d´efinie comme le plus grand (en valeur absolue) terme extra-diagonal de la matrice de Gram tXX

(convenablement normalis´ee). Si l’on suppose que les colonnes de X sont de norme euclidienne unit´e alors la coh´erence est :

µ(X) = max

i6=j | < xi, xj > |. (1.22)

Plus la coh´erence est petite moins le design est corr´el´e. Pour des r´esultats de convergence sur le Lasso sous des hypoth`eses de coh´erence on pourra se r´ef´erer `a [15], [14].

— la propri´et´e d’isom´etrie restreinte introduite dans [19]. Elle exige que pour tout sous-ensemble d’indices M de cardinalit´e born´ee par m, le spectre de la matrice

tX

MXM (si les colonnes de X sont de norme euclidienne unit´e) soit born´e par

1 ± δm, δm < 1. Pour des r´esultats de convergence du Lasso sous cette hypoth`ese

(techniquement sous une hypoth`ese plus faible appel´ee condition de valeur propre restreinte) on pourra se r´ef´erer `a [6].

(19)

Sous ce type de conditions, en choisissant un param`etre de r´egularisation λ de l’ordre de √log p on retrouve, en supposant α∗ k-sparse, une convergence avec une vitesse de l’ordre de σ2log(p)kn.

3.3

Les m´

ethodes greedy

Les m´ethodes greedy sont des heuristiques de r´esolution it´eratives du probl`eme de r´egression parcimonieuse. Elles incorporent les covariables au fur et `a mesure, en proc´edant en une s´erie d’optimisations locales. De nombreuses variantes existent, nous nous contentons donc pour le moment de d´ecrire une forme tr`es g´en´erique d’algorithme greedy. On part d’un vecteur de r´esidus initial r0 = y, un estimateur initial ˆα0 = 0 et un ensemble de

covariables initiallement s´electionn´ees S0 = ∅. Supposons qu’on a construit rn−1, ˆαn−1 et

Sn−1 sans avoir atteint notre crit`ere d’arrˆet. Alors :

1. on attribue `a chaque covariable du design X un score bas´e sur sa proximit´e avec le vecteur de r´esidu rn−1.

2. on s´electionne la covariable ayant le plus haut score et on l’ajoute `a l’ensemble Sn−1

pour former Sn.

3. on construit une nouvelle approximation, ˜y, du signal y, dans l’espace vectoriel engendr´e par les covariables s´electionn´ees dans Sn.

4. on met `a jour les r´esidus rn = y − ˜y et on it`ere la proc´edure.

Pour sp´ecifier une m´ethode greedy en particulier reste `a pr´eciser la fa¸con dont on ´

evalue la proximit´e entre rn−1 et les covariables `a l’´etape d’attribution du score, et la fa¸con

dont on construit l’approximation ˜y. Diff´erents choix m`enent aux diff´erentes variantes d’algorithmes greedy. Pour un panorama complet on pourra consulter [88].

On se concentrera ici sur une forme particuli`ere d’algorithme greedy appel´ee Orthogonal Matching Pursuit (OMP), introduite dans [30] et [79]. Dans cette variante le score de la covariable i au temps n − 1 est la valeur absolue de son produit scalaire avec rn−1,

| < xi, rn−1 > |. Quant au processus d’approximation, il consiste `a prendre pour ˜y le

projet´e orthogonal de y sur l’espace vectoriel engendr´e par les covariables ind´ex´ees par Sn.

Cette proc´edure a l’avantage de sa simplicit´e et de sa rapidit´e d’ex´ecution.

Tout comme dans le cas de l’estimateur Lasso, l’obtention de bons r´esultats de conver-gence pour OMP, sous l’hypoth`ese de sparsit´e de α∗, requiert des conditions sur le design X, le mˆeme type de conditions que pour le Lasso. Ainsi l’on peut ´etudier OMP sous des hypoth`eses de coh´erence, comme dans [90] qui fournit une condition suffisante sur le design X pour avoir une reconstruction parfaite de α∗ dans le cas o`u il n’y pas de terme de bruit, ou encore [52]. Des r´esultats existent aussi sous des conditions de type RIP comme dans [102]. Tout ces travaux garantissent que la solution obtenue par k pas de OMP est essentiellement comparable `a la meilleure approximation `a k termes de α∗, [26]. Enfin le crit`ere d’arrˆet doit ˆetre adapt´e au terme de bruit dans le mod`ele 1.2. Une telle ´etude est conduite dans [16].

(20)

4

Etendre la m´

ethode de seuillage aux mod`

eles en

grandes dimensions : la m´

ethode one-step greedy

La m´ethode classique du seuillage 3.1 fonctionne sous l’hypoth`ese d’orthogonalit´e du design et n’est donc pas a priori adapt´ee aux mod`eles en grandes dimensions. Les m´ethodes de relaxation convexe 3.2 ou les m´ethodes greedy 3.3 permettent de retrouver des r´esultats th´eoriques comparables aux m´ethodes de seuillage sous une hypoth`ese de quasi-orthogonalit´e du design, ce qui permet de d´epasser le cas p = n. Mais cette propri´et´e a un coˆut : l’obtention d’un estimateur par ces deux m´ethodes peut demander beaucoup plus de calculs qu’un simple seuillage. Il est alors naturel de se demander si les m´ethodes de seuillage ne peuvent pas ˆetre directement adapt´ees pour s’appliquer aux mod`eles en grandes dimensions, sous une hypoth`ese de quasi-orthogonalit´e du design, c’est-`a-dire s’il est possible de pousser la th´eorie du seuillage au d´el`a de la condition d’orthogonalit´e, ce qui fournirait une m´ethodologie au coˆut computationnel tr`es faible tout en ´etant efficace.

Cette avanc´ee a ´et´e d´ecrite dans une s´erie d’articles ([63], [73], [74], [72]) o`u une m´ethode appel´ee LOL (Learning Out of Leaders) ´etend le seuillage classique aux designs de coh´erence assez faible dans le cas d’un bruit blanc gaussien. Cette th´eorie est d´ecrite dans la section 4.1. Dans cette th`ese, la m´ethode LOL est adapt´ee aux bruits gaussiens color´es dans le chapitre 2, et une description de la m´ethode est d´evelopp´ee dans la section 4.2. Enfin la section 4.3 d´ecrit une g´en´eralisation des m´ethodes gloutonnes constituant un cadre g´en´eral qui contient `a la fois les algorithmes greedy au sens de 3.3 et les m´ethodes comme LOL. La section 4.4 d´ecrit un des articles de cette th`ese (restrancrit au chapitre 3) qui discute de l’impl´ementation pratique d’une telle strat´egie.

4.1

Le cas homosc´

edastique : la m´

ethode LOL (learning out of

leaders)

En une s´erie d’articles ([63], [73], [74], [72]) la m´ethode de seuillage a ´et´e ´etendue aux mod`eles en grandes dimensions sous des hypoth`eses de coh´erence sur le design avec un bruit blanc. On consid`ere donc ici le mod`ele 1.2 o`u ε ∼ Nn(0, σ2In) et on portera une attention

particuli`ere au cas p ≥ n (cette hypoth`ese n’est pas n´ecessaire `a LOL qui peut aussi ˆetre utilis´e dans le cas de mod`eles o`u le nombre d’observations est sup´erieur au nombre de covariables, mais LOL est avant tout pens´e avec le mod`ele en grandes dimensions comme principale cible).

On peut r´esumer la strat´egie de seuillage dans le cas d’un design orthogonal `a deux ´etapes : tout d’abord calculer l’estimateur des moindres carr´es de α∗, puis le seuiller, c’est-`a-dire essentiellement remplacer toutes ses coordonn´ees plus petites qu’un certain seuil par 0. Cette strat´egie, si elle est appliqu´ee telle quelle, est condamn´ee `a l’´echec si le design a plus de covariables que d’observations. Nous avons en effet d´ej`a d´ecrit en quoi un estimateur des moindres carr´es est inadapt´e `a cette situation.

(21)

Pour s’adapter `a cette situation on peut raisonner de la sorte : si α∗ est sparse alors seul un petit nombre de covariables est important. On peut donc essayer de les s´electionner a priori et travailler sur un mod`ele r´eduit, o`u seules les covariables s´electionn´ees sont utilis´ees. On s’est alors ramen´e `a un mod`ele ”classique”, o`u n ≥ p, et l’on peut proc´eder au calcul de l’estimateur des moindres carr´es et `a son seuillage. C’est le principe d’une proc´edure en deux ´etapes, qualifi´ee de s´election / estimation dans [47].

Pour sp´ecifier totalement la m´ethode LOL il est alors n´ecessaire de pr´eciser deux points :

1. comment effectuer la s´election intiale des covariables utiles ?

2. `a quel niveau doit-on seuiller l’estimateur des moindres carr´es final (c’est-`a-dire l’estimateur des moindres carr´es restreint aux covariables s´electionn´ees `a la premi`ere ´etape) ?

Discutons dans un premier temps de la proc´edure de s´election des covariables. C’est cette ´etape qui diff´erentie profond´ement la m´ethodologie LOL du seuillage classique, conceptuellement et dans la technique n´ecessaire aux preuves. L’id´ee est en fait assez simple, si jamais le design ´etait orthonormal alors l’estimateur ˆα =tXy (qui n’est autre

que l’estimateur des moindres carr´es ici) est un estimateur sans biais du vecteur d’int´erˆet α∗. Si maintenant on ne suppose plus le design orthonormal, mais si on suppose juste que ses colonnes sont norm´ees (ce qui est toujours possible) alors ˆα =tXy n’est plus un

estimateur sans biais de α∗, mais sous de bonnes hypoth`eses de coh´erence il l’est presque ! En effet pour tout 1 ≤ i ≤ p on a que la i-`eme coordonn´ee de ˆα v´erifie :

ˆ αi = α∗i + X j6=i < xi, xj > α∗j | {z } Ri +˜ε, (1.23)

o`u ˜ε est une variable gaussienne, ˜ε ∼ N (0, σ2). On voit alors clairement que dans ce cas

ˆ

αi est un estimateur biais´e de α∗i, le terme Ri venant biaiser l’estimation. Le terme Ri

vient en fait de la corr´elation interne du design X, et on peut toujours le majorer `a l’aide du concept de coh´erence 1.22. En effet on a, pour tout 1 ≤ i ≤ p, |Ri| ≤ µ(X)kα∗k1.

Donc si la coh´erence du dictionnaire X est faible, en particulier si elle est assez faible pour que le terme de biais soit de l’ordre du terme de bruit ˜ε, ˆα est un bon estimateur initial de α∗; il est alors naturel de s´electionner les covariables d’int´erˆet comme ´etant celles o`u ˆα est ”grand”. Cette id´ee est centrale `a la proc´edure de s´election de LOL, et est en fait utilis´ee dans de nombreuses proc´edures de s´elections pour les mod`eles en grandes dimensions. Elle jouit g´en´eralement de bonnes propri´et´es, comme par exemple la notion de Sure Independant Screening de [46]. LOL d´ecide donc de s´electionner toutes les covariables telles que la valeur de | ˆαi| d´epasse un certain seuil λ1.

Il faut alors faire attention `a ce que le nombre de covariables s´electionn´ees ne soit pas trop grand afin de garantir l’unicit´e de l’estimateur des moindres carr´es calcul´e `a l’´etape

(22)

suivante. La coh´erence fournit `a nouveau une borne (via le th´eor`eme de Greshgorin) sur le nombre de covariables que l’on peut s´electionner tout en garantissant la non-singularit´e de la matrice de design r´eduite. En effet on prouve que toute sous-matrice de X o`u l’on a conserv´e au plus bν/µ(X)c + 1 colonnes, avec ν ∈ (0, 1), est non-singuli`ere. LOL s´electionne donc moins de covariables que cette borne (qui est calculable sur des donn´ees r´eelles contrairement `a une condition de type RIP [20]).

Une fois les covariables s´electionn´ees on est ramen´e alors `a un probl`eme de seuillage ”classique”. Toute la technique consiste alors `a exhiber une strat´egie universelle de seuillage dans l’´etape de s´election qui garantisse (au moins avec grande probabilit´e) que l’on a choisit les ”bonnes” covariables, la d´etermination du deuxi`eme seuil λ2 utilis´e au moment

de r´egulariser l’estimateur des moindres carr´es ´etant plus classique.

Pr´ecis´ement, notons B0(S, M ) la boule des vecteurs de Rp dont la sparsit´e est inf´erieure

`

a S et dont la norme `1 est inf´erieure `a M . Alors [63] prouve le th´eor`eme suivant.

Th´eor`eme 1.5. Supposons que p ≤ ecn, pour une certaine constante c > 0. Alors si le design X v´erifie que µ(X) .

q

log p

n , l’estimateur produit par LOL, ˆα

LOL, en choisissant λ1 et λ2 de l’ordre de q log p n v´erifie : sup α∈B0(S,M ) 1 nEkXα − X ˆα LOLk2 2 . S log p n , (1.24) tant que S < µ(X)ν , ν ∈ (0, 1).

Ce qui prouve le caract`ere minimax de la m´ethode sur la classe des vecteurs sparses pour des design dont la coh´erence est assez faible (sous une hypoth`ese suppl´ementaire sur la norme `1 du vecteur de param`etres). En fait, dans [63] le caract`ere minimax de

la m´ethode est ´etendu `a toutes les boules `q, pour q ∈ [0, 1], en passant par un r´esultat

encore plus fort en probabilit´e (et pas directement en esp´erance). Ainsi la m´ethode LOL ´etend bel et bien le seuillage classique en fournissant toujours une proc´edure optimale.

4.2

Extension `

a un bruit color´

e

Un des travaux de cette th`ese, reproduit au chapitre 2, a consist´e `a ´etendre la m´ethodologie LOL au cas d’un bruit h´et´erosc´edastique, dans l’esprit de l’extension de la m´ethode de seuillage aux mod`eles `a design orthogonal et `a bruit color´e effectu´ee dans [58], [57]. Une telle extension n’a rien d’imm´ediat car une technique cl´e dans la preuve des vitesses de convergence de LOL ne peut plus ˆetre utilis´ee.

En effet lorsqu’on consid`ere un estimateur des moindres carr´es restreint `a une certaine sous-famille de covariables, le bruit apparait dans l’erreur finale comme le carr´e de la norme `2 de la projection orthogonale du terme de bruit initial ε, kPVS[ε]k

2

2, sur le sous-espace

(23)

homosc´edastique, ε ∼ Nn(0, σ2In), et lorsqu’on ne s´electionne pas trop de covariables,

kPVS[ε]k 2

2 est un χ2 `a |S| degr´es de libert´e dont on peut contrˆoler la d´eviation et l’esp´erance

qui ne d´ependent donc que du nombre de covariables s´electionn´ees.

Si maintenant on consid`ere, comme dans le chapitre 2, que le bruit est h´et´erosc´edastique, ε ∼ Nn(0, Γ), o`u Γ est une matrice positive d´efinie quelconque, alors la situation change

radicalement. En effet la quantit´e E h

kPVS[ε]k 2 2

i

ne d´epend alors plus seulement du nombre de covariables s´electionn´ees mais bien de leurs positions ! On ne peut donc pas se contenter de modifier le deuxi`eme seuillage pour prendre en compte l’h´et´erosc´edasticit´e comme on le ferait avec un design orthogonal, mais l’on doit prendre en compte ce ph´enom`ene d`es l’´etape de s´election des covariables.

Il est important de noter que l’on d´esire ´eviter deux ´ecueils : 1. on ne veut pas borner EhkPVS[ε]k

2 2

i

uniform´ement sur tous espaces VS de dimension

born´ee par une certaine constante. En effet proc´eder de la sorte reviendrait `a consid´erer le mod`ele h´et´erosc´edastique comme un mod`ele homosc´edastique avec la pire variance possible. On ne tiendrait pas compte du fait qu’une proc´edure de s´election efficace tend `a s´electionner les covariables du support de α∗, et donc que le terme EhkPVS[ε]k

2 2

i

doit ˆetre proche de kPVS∗[ε]k 2

2, o`u S∗ indexe les coordonn´ees

support de α∗. Or il est tout `a fait possible que le signal soit support´e sur une r´egion de l’espace de variance tr`es faible, et par cons´equent que kPVS∗[ε]k

2

2 soit tr`es inf´erieur

`

a la pire projection possible.

2. on veut ´eviter de transformer notre mod`ele de mani`ere `a rendre le bruit blanc. En effet on pourrait multiplier tous les termes de eq. (1.2) par Γ−1/2 de mani`ere `a obtenir un nouveau mod`ele :

Γ−1/2y = Γ−1/2Xα∗+ η,

o`u η ∼ Nn(0, In). Mais en op´erant de la sorte on modifie la matrice de Gram initiale tXX en t−1X et il y donc un trade-off : tout gain en termes de bruit peut ˆetre

plus que compens´e par une perte de coh´erence dans le nouveau design. On veut donc ´eviter cette op´eration de ”whitening”, et d´evelopper une m´ethode utilisant le design original.

De mani`ere `a pouvoir contrˆoler EhkPVS[ε]k 2 2

i

il est n´ecessaire d’imposer des restrictions sur le choix de S que notre proc´edure de s´election impose. Tout d’abord si l’on part de l’estimateur initial ˆα =tXy, il est facile de voir que l’h´et´erosc´edasticit´e se traduit par :

Var ( ˆαl) = kΓ1/2xlk22.

Pour des raisons techniques, on d´efinit la quantit´e σ2

l = Var ( ˆαl) ∨ 1 pour tout indice

1 ≤ l ≤ p, et par extension σ2(L) =P

l∈Lσl2qui repr´esente donc essentiellement la variance

(24)

Il est alors n´ecessaire d’introduire les conditions suivantes sur les ´el´ements de LλΣ,N, la famille des ensembles d’indices s´electionnables :

1. ∀L ∈ LλΣ,N, ∀l ∈ L, | ˆαl/σl| ≥ λ,

2. σ2(L) ≤ Σ ∗,

3. |L| ≤ N .

Ainsi dans le cas h´et´erosc´edastique, on cherche `a s´electionner les indices i tels que la quantit´e | ˆαl| renormalis´ee par sa variance d´epasse un certain seuil λ. De plus, comme

dans le cas homosc´edastique, on doit contrˆoler le cardinal de l’ensemble des indices s´electionn´es mais on doit ici ´egalement contrˆoler sa variance totale σ2(L) (en effet dans

le cas homosc´edastique ces deux quantit´es sont proportionnelles et il est donc ´equivalent de contrˆoler l’une ou l’autre). Alors une fois que l’on se restreint aux sous-ensembles al´eatoires L qui appartiennent `a Lλ

Σ∗,N on peut `a nouveau contrˆoler de mani`ere int´eressante

la quantit´e EhkPVL[ε]k 2 2

i

. En effet dans le chapitre 2 on prouve le r´esultat suivant. Proposition 1.6. Si L ∈ Lλ

Σ∗,N est un ensemble al´eatoire, et s’il existe une constante

θ > 0 telle que Σ∗ ≤ pθ, alors

E h kPVL[ε]k 2 2 i .σ2max(S∗) + µ(Γ1/2X)Σ∗  N log p, (1.25) d`es que λ2 ≥ Ch(µ(X)kα∗k1)2 ∨ log pn i

pour une certaine constante C > 0. Ici S∗ = {l; |α∗ l| > λ 2σl} et σ 2 max(S ∗) = max l∈S∗σ2 l.

La quantit´e µ(Γ1/2X), que l’on appelle Γ-coherence, tient compte de l’interaction

entre le design et la matrice de covariance du bruit, alors que σ2 max(S

) refl`ete bien le

comportement esp´er´e, l’esp´erance de la norme de la projection orthogonale du bruit n’´etant pas contrˆol´ee par la pire variance possible mais bien par la pire variance du support du signal d’int´erˆet !

Une fois en possession de cette proposition technique il devient alors possible, en proc´edant `a la s´election des covariables et en contrˆolant `a la fois le cardinal et la variance totale, d’obtenir la vitesse de convergence de la m´ethode sur une large classe de boules anisotropes de Rp. D´efinissons ces boules anisotropes comme :

— pour q ∈ (0, 1], Bq,σ(M ) = n α ∈ Rp;Pp l=1σ 2 l|αl/σl|q 1/q ≤ Mo , — pour q = 0, B0,σ(S, M ) = n α ∈ Rp;Pp l=1σ 2 l1{αl6= 0} ≤ S, kαk1 ≤ M o .

Alors sous des hypoth`eses de coh´erence on prouve dans le chapitre 2 le th´eor`eme suivant (les conditions techniques sont explicites dans l’article).

Th´eor`eme 1.7. Supposons que la coh´erence du design v´erifie µ(X) . q

log p

n . Alors en

choisissant les seuils λ1 et λ2 de l’ordre de

q

log p

n , et si on note ˆα

l’estimateur fournit

(25)

1. pour tout q ∈ (0, 1] : ∀α ∈ Bq,σ(M ), E h1 nkΨ(α − ˆα ∗ )k22i . σ2max(S∗)log p n 1−q/2 . o`u S∗ est d´efini dans la proposition 1.6.

2. Si S ≤ ν/τn∨ 1 : ∀α ∈ B0,σ(S, M ), E h1 nkΨ(α − ˆα ∗ )k22i . σ2max(S∗)S log p n  .

Ainsi on obtient presque la vitesse minimax du mod`ele homosc´edastique. En effet les vitesses obtenues d´ependent maintenant de la ”pire” variance port´ee par le signal α∗. Nous ne savons pas si ces vitesses sont optimales au sens minimax mais elles sont un premier pas dans la compr´ehension des m´ethodes glouttonnes pour le mod`ele lin´eaire h´et´erosc´edastique en grandes dimensions. En effet le mod`ele lin´eaire h´et´erosc´edastique en grandes dimensions a ´et´e bien moins ´etudi´e que sa version homosc´edastique, et alors que des r´esultats existent pour ´etendre les m´ethodes de relaxation convexe `a ce cadre [4], [95], [94], [31], [54], il n’y pas eu `a notre connaissance d’effort comparable pour les m´ethodes greedy.

4.3

Les m´

ethodes super greedy

Si l’on compare la m´ethodologie greedy d´ecrite `a la section 3.3 et les m´ethodologies `a un pas d´ecrites aux sections 4.1, 4.2, on constate que dans les deux cas la premi`ere op´eration effectu´ee consiste `a affecter `a chaque covariable un score, via le calcul des quantit´es | < xi, y > | qui est lin´eaire en p, le nombre de covariables (ce calcul est par contre lin´eaire

ou non en n, en fonction du fait que l’on puisse ou pas utiliser une structure particuli`ere de la matrice de design X, comme la sparsit´e de ses colonnes). Mais les m´ethodes greedy mettent `a jour `a chaque pas leur vecteur de scores, alors que les m´ethodologies `a un pas n’effectuent ce calcul qu’une fois. Ainsi l’operation d’affectation des scores est au pire de complexit´e O(np) pour un m´ethode `a un pas, alors que pour une m´ethode greedy qui effectue k pas, elle exige un calcul de complexit´e O(knp).

Pour les mod`eles en ”tr`es grandes dimensions”, o`u le nombre de covariables est ´enorme, c’est ce calcul des scores qui souvent domine la complexit´e totale des proc´edures greedy. En effet, la m´ethode d’estimation a g´en´eralement un coˆut quasi-constant, et proportionnel `

a n, `a chaque pas. Il est donc naturel de se demander s’il n’est pas possible d’effectuer moins de calculs du vecteur des scores, dans l’id´ee des m´ethodologies `a un pas. A l’inverse une m´ethode `a un pas peut ne pas bien se comporter en pratique parce qu’elle ne met pas assez souvent ses scores `a jour, et a donc tendance `a int´egrer de nombreuses covariables dont l’apport en termes de r´eduction du biais est faible (car trop fortement corr´el´ees `a des variables d´ej`a int´egr´ees).

Les m´ethodes qui cherchent `a obtenir le meilleur des deux mondes sont qualifi´ees de super-greedy dans [67], [66]. Elles proc´edent comme les m´ethodes greedy mais `a chaque

(26)

pas, au lieu d’int´egrer une seule covariable, elles en int´egrent un nombre fixe, q. Ainsi `a sparsit´e S ´egale de l’estimateur, alors qu’une m´ethode greedy ´evalue S fois son vecteur de scores, une m´ethode super greedy ne l’´evalue que S/q fois. Cette strat´egie peut r´ealiser des ´economies de temps de calcul consid´erables, tout en ayant des performances similaires aux m´ethodes greedy lorsque le design n’est pas trop corr´el´e. Elles ont aussi souvent des performances sup´erieures aux m´ethodes `a un pas en pratique, car moins sensibles aux redondances du design. Reste alors la question d’une strat´egie adaptative du choix de q.

Une telle m´ethode super greedy adaptative a ´et´e propos´ee dans [43] o`u l’on s´electionne, pour un vecteur de score donn´e, toute les covariables dont le score est sup´erieur `a un certain seuil (comme dans [63]). Mais contrairement `a [63], le seuil est choisi en utilisant le principe de False Discovery Rate introduit dans [1], et la proc´edure est it´er´ee. En pratique une telle proc´edure repose donc encore sur la connaissance du niveau de bruit. Or dans les mod`eles en grandes dimensions, l’estimation de ce niveau de bruit s’av`ere particuli`erement difficile.

La strat´egie classique pour choisir le nombre d’it´erations optimal de OMP est de proc´eder par validation crois´ee (ce qu’une bonne impl´ementation de OMP permet sans surcoˆut prohibitif). Mais pour une strat´egie super greedy, si l’on doit proc´eder par valida-tion crois´ee pour `a la fois choisir le nombre total de pas k et la taille des pas interm´ediaires i, le nombre de couples (i, k) `a tester devient vite grand, ce qui induit un temps de calcul important, alors que nous essayons d’acc´el´erer les m´ethodes greedy !

Le chapitre 3 d´ecrit une m´ethodologie super greedy adaptative qui ne repose sur aucune connaissance du bruit a priori, et ´evite de proc´eder `a une validation crois´ee pour le choix de la longueur des pas interm´ediaires. On introduit cette m´ethode dans la section suivante.

4.4

Rendre adaptative une proc´

edure super greedy : algorithme

super greedy avec pivot

Revenons maintenant `a OMP et distinguons sa partie d’estimation de sa partie de s´election :

• la m´ethode d’estimation de OMP consiste, partant d’un score attribu´e aux cova-riables (par la m´ethode de s´election), `a ins´erer `a chaque it´eration la covariable la mieux not´ee dans l’ensemble des covariables d´ej`a s´electionn´ees et `a calculer l’estimateur des moindres carr´es restreint `a ce sous-ensemble de colonnes,

• la m´ethode de s´election, quant `a elle, attribue un score `a chaque covariables xi en

calculant | < xi, r > |, o`u r est le vecteur courant des r´esidus.

Comme on l’a d´ej`a remarqu´e le coˆut d’un appel `a la proc´edure d’estimation est au pire de l’ordre de O(np). Quant `a la m´ethode d’estimation, une impl´ementation raisonnable ´evite de recalculer `a chaque ´etape un estimateur des moindres carr´es, sans tenir compte des calculs effectu´es `a l’´etape pr´ec´edente. Pour ce faire supposons que l’on soit au d´ebut de

(27)

la (k + 1)-i`eme it´eration de la proc´edure d’estimation. Notons Sk l’ensemble des covariables

d´ej`a s´electionn´ees `a l’´etape k, et supposons que l’it´eration pr´ec´edente nous fournit la factorisation QR du design X restreint `a Sk, XSk = QkRk. Alors il est facile de mettre

`

a jour cette factorisation en y incorporant une covariable xj, j /∈ Sk, j ∈ Sk+1, de telle

sorte que XSk+1 = Qk+1Rk+1 : par un proc´ed´e de Gram-Schmit, il suffit de calculer k

produits scalaires, soit une complexit´e maximale de l’ordre de O(nk) op´erations (une description pr´ecise de la m´ethode et son pseudocode est donn´ee dans le chapitre 3, pour des r´ef´erences g´en´erales au calcul matriciel num´erique on pourra se reporter `a [7] ou [8]). Comme cette proc´edure est utilis´ee pour k tr`es inf´erieur `a p, on voit que le coˆut d’estimation est largement domin´e par le coˆut de s´election.

L’id´ee des m´ethodes super greedy est alors de faire appel `a la m´ethode de s´election le moins souvent possible. En effet si l’on se contente de demander `a la m´ethode d’estimation de ne pas ins´erer de covariables d´ej`a pr´esentes dans son calcul de l’estimateur, il n’est absolument pas n´ecessaire de faire appel `a la m´ethode de s´election `a chaque it´eration (ce que fait OMP). Ainsi, pour nous, une variante super greedy de OMP peut ˆetre identifi´ee `a sa strat´egie vis-`a-vis de l’appel `a la proc´edure de s´election.

Un cas particuli`erement naturel de strat´egie de s´election est alors de proc´eder `a la mise `

a jour des scores toutes les q it´erations, pour une certaine constante q (comme dans [67], [66]). Nous noterons ces variantes OMP q N , o`u N d´esigne le nombre total d’it´erations et q la p´eriode d’actualisation du vecteur de scores (i.e. le score est mis `a jour toutes les q it´erations). Ainsi OMP 1 N d´esigne N it´erations de l’algorithme OMP standard, tandis que OMP N N d´esigne une m´ethode `a un pas. La figure 1.2 compare les erreurs de pr´ediction relative, ky−X ˆαk22

kyk2

2 , en fonction du nombre d’it´erations effectu´ees, pour diff´erentes

p´eriodes q de mise `a jour.

Sur la figure 1.2, on observe les deux extrˆemes que sont OMP (soit OMP 1 80 dans notre notation), qui recalcule son vecteur de scores `a chaque pas, c’est-`a-dire ici 80 fois, et OMP `a un pas (OMP 80 80) qui ne le calcule qu’une fois. On observe aussi des strat´egies interm´ediaires qui nous permettent de constater que :

◦ une strat´egie de p´eriodicit´e faible, comme OMP 2 80 ou OMP 4 80 ici, se comporte essentiellement comme OMP (car le design est ici tr`es d´ecorr´el´e), mais ne r´ealise qu’un gain calculatoire mod´er´e,

◦ la strat´egie `a un pas, OMP 80 80, qui r´ealise un ´enorme gain de temps de calcul, commet globalement une erreur sup´erieure `a celle de OMP, et a de plus tendance `

a rencontrer des plateaux, c’est-`a-dire des zones o`u l’adjonction d’une nouvelle covariable ne diminue pas significativement l’erreur de pr´ediction,

◦ si l’on observe la strat´egie `a deux pas, OMP 40 80, on constate l’effet associ´e `a la mise `a jour des scores (r´ealis´ee au pas 40, et indiqu´ee par un trait vertical sur la figure 1.2) : l’erreur commise se d´emarque alors de celle de la m´ethode `a un pas, sort du plateau d’erreur, et diminue `a nouveau pour se rapprocher de celle de OMP.

(28)

0.00 0.25 0.50 0.75 1.00 0 20 40 60 80 Nombre d’itérations Erreur Relativ e Méthode omp_1_80 omp_2_80 omp_4_80 omp_40_80 omp_80_80

Comparaison de différentes stratégies d’accélération

Figure 1.2. Comparaison de OMP et de ses formes super greedy. Le design est une matrice `a entr´ees gaussiennes i.i.d, avec n = 500 et p = 1500. Le param`etre α∗ est sparse, de sparsit´e S = 50.

La m´ethode que nous proposons au chapitre 3 impl´emente une strat´egie adaptative qui essaye de maintenir une erreur de l’ordre de celle commise par OMP, tout en actualisant le moins possible le vecteur des scores. Pour ce faire on utilise le vecteur des r´esidus actualis´e rk, retourn´e par la k-i`eme it´eration de la proc´edure d’estimation. On peut donc `a chaque

it´eration calculer le ratio krkk2

krk−1k2 qui mesure, en proportion, le gain en pouvoir pr´edictif

r´ealis´e par l’adjonction de la variable introduite `a l’´etape k. On proc`ede alors de la sorte : 1. on part d’un vecteur de score initial,

2. on incorpore les covariables une par une dans l’ordre induit par le vecteur de scores initial, tant que le ratio krkk2

krk−1k2 est inf´erieur `a une constante λ ∈ (0, 1),

3. si `a une certaine it´eration k0 l’adjonction d’une nouvelle covariable ne respecte pas la

relation krk0k2

krk0−1k2 < λ, alors seulement on actualise le vecteur de score et on red´emarre

la proc´edure `a l’´etape k0− 1.

Ainsi cette proc´edure ne tend `a actualiser son vecteur de scores (on dira qu’elle pivote) que lorsque son erreur de pr´ediction (estim´ee sur le training set) rencontre un plateau (i.e. que la norme du vecteur de r´esidu ne d´ecroˆıt pas suffisament vite). Cette strat´egie assure `

a notre forme super greedy de OMP, d’avoir une erreur de pr´ediction qui d´ecroˆıt `a une vitesse comparable `a celle de OMP tout en effectuant peu d’actualisations des scores. On peut se r´ef´erer `a la figure 1.3, pour voir notre m´ethode en action sur un mod`ele similaire `a celui employ´e pour l’exp´erience de la figure 1.2. Les traits verticaux pr´ecisent `a quelles it´erations notre strat´egie d´ecide de recalculer les scores.

(29)

0.00 0.25 0.50 0.75 1.00 0 10 20 30

Number of incorporated atoms

Relativ

e Error

Method

OMP

One step OMP OMP with pivoting

Figure 1.3. Comparaison de OMP, OMP `a un pas et notre m´ethodologie avec pivot. Le design est une matrice `a entr´ees gaussiennes i.i.d, avec n = 75 et p = 300. Le param`etre α∗ est sparse, de sparsit´e S = 15. Les lignes verticales indiquent les ´etapes o`u la m´ethodologie avec pivot met `a jour le vecteur de score.

Pour illustrer les gains tr`es importants en temps de calcul r´ealis´es par notre m´ethode, on a mesur´e et report´e les resultats sur la figure 1.4, le temps d’obtention d’un estimateur `

a sparsit´e fix´ee (i.e. on fixe le nombre d’it´erations) par OMP et par OMP avec pivot, en fonction du nombre de covariables pr´esentes dans le design. Le nombre d’it´erations total ´

etant fix´e, seul le coˆut associ´e `a la proc´edure de s´election diff´erentie les deux m´ethodes, et on peut constater que cela induit un gain consid´erable.

De plus le param`etre λ r´egularise la proc´edure : en effet plus λ est proche de 0, plus l’agorithme s’arrˆete rapidement (incapable de r´eduire la norme du vecteur de r´esidus dans les proportions demand´ees), et actualise r´eguli`erement ses scores. A l’inverse, lorsque λ = 1, alors la proc´edure devient une m´ethode `a un pas qui se contente du vecteur de scores initial. Il suffit donc de le s´electionner par validation crois´ee (ici une seule valida-tion crois´ee suffit au lieu des deux n´ecessaires a priori dans une m´ethode de type OMP q N ).

Enfin un autre avantage de la proc´edure avec pivot est illustr´e sur des donn´ees r´eelles au chapitre 3. On y consid`ere les donn´ees fournies par la comp´etition Kaggle https://www.kaggle.com/c/job-salary-prediction. On y trouve diff´erentes offres d’emploi, avec leur description et le salaire associ´e. Au corpus des descriptions on peut associer une matrice ”Document-terms” de grandes dimensions, o`u les documents sont

(30)

0 1 2

0 10000 20000 30000 40000 50000

Number of columns

Time (in seconds)

variable

OMP pivot_OMP

Figure 1.4. Comparaison du temps d’´ex´ecution de OMP et de notre m´ethodologie. Le design est une matrice gaussienne avec un nombre fixe d’observations, n = 750. Le param`etre α∗ est sparse, de sparsit´e S = 50, les deux m´ethodes r´ealisant 150 pas.

en ligne et les termes en colonne, et chaque coefficient vaut 1 ou 0, en fonction du fait qu’un certain terme soit pr´esent, ou pas, dans le document concern´e. On cherche alors un estimateur permettant de pr´edire le salaire `a partir de la description de l’emploi.

Pour les comparer, on calcule l’estimateur fournit par OMP et par notre modification avec pivot sur un jeu de donn´ees ”train” et on mesure leur erreur sur un jeu de donn´ees ”test” ind´ependant. On reporte les r´esultats sur la figure 1.5.

Il est int´eressant de constater ici que notre m´ethode donne toujours de meilleurs r´esultats que OMP. Il semble raisonnable de supposer que cel`a vient de la capacit´e de notre m´ethode `a incorporer une nouvelle covariable mˆeme si elle est corr´ell´ee `a des covariables d´ej`a s´electionn´ees (du moins dans une certain proportion fix´ee par λ). Ainsi si l’on compare les termes s´electionn´es par les deux m´ethodes on peut constater bien plus de redondance dans ceux choisis par notre algorithme comparativement `a OMP (par exemple on peut voir sur le tableau 1.1 que la m´ethode avec pivot s´electionne ”projects” et ”project”. Cette corr´elation que l’on autorise parmi les covariables s´electionn´ees permet probablement d’´eviter d’incorporer les artefacts que OMP tend `a utiliser, en actualisant trop r´eguli`erement les scores.

(31)

0.18 0.20 0.22 0.24 0.26 0 50 100 150 200 250 Number of steps Relativ e Prediction Error method OMP

OMP with pivoting

Figure 1.5. Comparaison de l’erreur de pr´ediction relative, estim´ee sur un jeu de donn´ees ind´ependant du train, de OMP et de notre variation avec pivot, en fonction du nombre total d’it´erations.

OMP OMP with pivoting 1 and and 2 chase the 3 projects for 4 ooh chase 5 business locum 6 own projects 7 london project 8 management analysis 9 analysis business 10 paye technical

Table 1.1. Dix premiers termes choisis par OMP et par notre m´ethode.

5

Estimation non-param´

etrique : le cas de

l’estima-tion de densit´

e

L’estimation non-param´etrique diff`ere de l’estimation param´etrique, dont le mod`ele lin´eaire est un bon exemple, en supposant, non pas que le vecteur α∗ `a estimer appartient `

a un espace euclidien (mˆeme de grande dimension), mais plutˆot `a un espace de fonctions, c’est-`a-dire un espace de dimension infinie. Pourtant, pour l’estimer, on ne dispose toujours que d’un nombre fini d’observations, n. On s’int´eresse dans la suite `a un mod`ele particulier

(32)

d’estimation non-param´etrique, l’estimation de densit´e. Pour une introduction g´en´erale au sujet (dont s’inspire largement cette section) on pourra consulter [92].

5.1

Estimation de densit´

e sur R et risque minimax

Soient X1, . . . , Xndes variables al´eatoires i.i.d. de densit´e de probabilit´e fX par rapport

`

a la mesure de Lebesgue sur R. Le probl`eme de l’estimation de densit´e est alors, partant des observations Xi, de construire (de fa¸con mesurable) un estimateur ˆfn de fX. Ce probl`eme

est dit non-param´etrique lorsque l’objet `a estimer, fX, vit a priori dans un espace de

dimension infinie, i.e. lorqu’on ne veut pas imposer a priori `a fX d’appartenir `a une certaine

famille param´etr´ee de densit´es !

Supposons que fX appartienne `a une certaine classe non-param´etrique de densit´es F .

Alors, si d est une semi-distance sur F , on peut, comme pour le mod`ele lin´eaire, introduire la notion de risque de l’estimateur ˆfn :

R( ˆfn, fX) = E

h

d2( ˆfn, fX)

i .

On peut alors, comme on l’a fait pour le mod`ele lin´eaire, qualifier un estimateur ˆfn

de minimax sur F s’il existe une suite positive (ψn)n≥1 telle que le risque maximal sur F

v´erifie : r( ˆfn) = sup fX∈F E h d2( ˆfn, fX) i ≤ Cψ2 n,

pour une certaine constante C > 0, et si le risque minimax sur F : Rn∗ = inf ˆ gn sup fX∈F E h d2( ˆfn, fX) i , o`u l’infinimum est pris sur tous les estimateurs ˆgn, v´erifie

lim inf n→+∞ ψ −2 n R ∗ n ≥ c,

pour une certaine constante c > 0.

5.2

Estimateur `

a noyau d’une densit´

e

Introduit dans [82], puis g´en´eralis´e dans [78], l’estimateur `a noyau est une des m´ethodes les plus classiques d’estimation d’une densit´e.

On qualifie de noyau toute fonction K : R → R, int´egrable, telle que R K(u)du = 1. Soit h > 0, l’estimateur `a noyau, de noyau K et de fenˆetre h, de fX est la fonction,

ˆ fh(x) = 1 nh n X i=1 Kx − Xi h  , (1.26)

efinie pour tout x ∈ R. Notons, pour tout h > 0, Kh(x) = h1K(xh). Alors, par construction,

l’esp´erance de l’estimateur `a noyau eq. (1.26) n’est autre que le produit de convolution de fX avec Kh :

E[fˆh(x0)] = Kh∗ fX(x0) =

Z

R

Figure

Figure 1.1. Jeu de donn´ ees simul´ ees : y = 2x + ε.
Figure 1.2. Comparaison de OMP et de ses formes super greedy. Le design est une matrice ` a entr´ ees gaussiennes i.i.d, avec n = 500 et p = 1500
Figure 1.3. Comparaison de OMP, OMP ` a un pas et notre m´ ethodologie avec pivot. Le design est une matrice ` a entr´ ees gaussiennes i.i.d, avec n = 75 et p = 300
Figure 1.4. Comparaison du temps d’´ ex´ ecution de OMP et de notre m´ ethodologie. Le design est une matrice gaussienne avec un nombre fixe d’observations, n = 750
+7

Références

Documents relatifs

[r]

Le Conseil de Communauté, après en avoir délibéré à l'unanimité des membres présents et représentés décide de désigner 20 délégués titulaires : SEJOURNE

Les réponses à la question sur les enjeux que LIFT soulève sont similaires aux réponses précédentes : La collaboration entre l’école et les entreprises est nommée par la

“Si l’on a construit deux r´ eglettes pareilles, et si l’on place la seconde au-dessous de la premi` ere en la retournant et en faisant correspondre la case 1 ` a 2n, il est ´

Nous 6nonr ~t la fin du second paragraphe, le r6sultat d'approximation dans le eas particulier des points minimaux, et, dans le troisi6me paragraphe, nous l'appli- quons pour

BioFix PR est un ciment pour application manuelle présenté dans un emballage contenant un sachet avec 40 g de poudre radio-opaque stérilisé à l'oxyde d'éthylène et une ampoule

N’utilisez surtout pas la notation ln(z) si z n’est pas un r´ eel strictement

c’est appliquer la tactique R´ e´ ecrire de fa¸con intelligente jusqu’` a obtenir une forme que tout le monde est d’accord pour trouver optimale. On peut donner un sens pr´ ecis `