Quelques résultats en statistiques des grandes dimensions

(1)

HAL Id: tel-01387393

https://tel.archives-ouvertes.fr/tel-01387393

Submitted on 25 Oct 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Quelques résultats en statistiques des grandes

dimensions

Marc-Antoine Giuliani

To cite this version:

Marc-Antoine Giuliani. Quelques résultats en statistiques des grandes dimensions. Mathématiques [math]. Université Paris Diderot (Paris 7), 2016. Français. �tel-01387393�

(2)

UNIVERSIT´

E PARIS DIDEROT (PARIS 7)

´

ECOLE DOCTORALE DE SCIENCES MATH´EMATIQUES DE PARIS CENTRE

Laboratoire de Modèles Aléatoires et de Probabilités - CNRS UMR 7599

TH`

ESE DE DOCTORAT

Discipline : Math´ematiques Appliqu´ees

Pr´esent´ee par Marc-Antoine Giuliani

QUELQUES R´

ESULTATS EN

STATISTIQUES DES GRANDES DIMENSIONS

Sous la direction de Dominique PICARD

Rapporteurs : M. Pierre ALQUIER ENSAE

M. Sylvain SARDY Universit´e de Gen`eve

Soutenue publiquement le 24 mai 2016 devant le jury composé de : M. Pierre ALQUIER ENSAE Rapporteur M. Stéphane BOUCHERON Université Paris Diderot Examinateur M. Erwan LE PENNEC Ecole Polytechnique Examinateur Mme Dominique PICARD Université Paris Diderot Directrice M. Sylvain SARDY Université de Genève Rapporteur

(3)

(4)

Remerciements.

Mes tout premiers remerciements vont à ma directrice Dominique Picard. Merci Dominique d’avoir encadré ce travail, de m’avoir accompagné tout au long de ces quatre ans, je suis bien conscient de n’avoir pas été un élève facile ! Mais ta gentillesse, ton savoir et ton investissement constant m’ont permis de mener ce travail au bout. Merci aussi de m’avoir donné l’opportunité très enrichissante d’assurer un de tes TD pendant mon année d’ATER.

Je remercie mes rapporteurs Pierre Alquier et Sylvain Sardy pour le travail qu’ils ont eu le courage d’accomplir.

Je remercie St´ephane Boucheron et Erwan Le Pennec d’avoir bien voulu faire partie de mon jury.

Il est d’usage de remercier tous ceux qui nous ont apporté de la connaissance, de l’aide et de la joie de manière plus ou moins alphabétique, permettez moi de les remercier par ordre chronologique. Tout d’abord (et à nouveau) merci Dominique et Pierre de m’avoir fait découvrir le sujet passionnant de la statistique mathématique, vos enseignements pendant mon année de M1 ont été déterminants. Merci Pierre pour tes encouragements et ta bienveillance (et tes tampons smileys !). Merci Monsieur Kerkyacharian et Erwan de m’avoir fait découvrir les ondelettes et plus largement le sujet de l’estimation non-paramètrique. Merci pour votre enseignement riche et exigeant. Merci Erwan de m’avoir encouragé à me lancer dans cette aventure de la thèse. Merci Stéphane pour tes enseignements, ta gentillesse permanente, ton bureau était toujours ouvert (et ton goût du code rassérénant). Merci Mathilde de m’avoir appris R et plus largement de m’avoir fait réaliser que notre discipline n’a de sens qu’appliquée. Merci Noufel pour ta bonne humeur constante et les nombreux cafés pris ensemble. Merci Aurélie de m’avoir accompagné dans mon activité d’enseignement. Merci Maud et Lorick d’avoir sû créer une merveilleuse ambiance alors que nous commencions tous les trois l’aventure du doctorat. Merci Thomas, ton sens de l’humour et ton goût des maths ont été un soutien précieux. Merci Guillaume d’avoir toujours aimé résoudre des problèmes de maths, petits ou grands ! Enfin merci Anna pour ton soutien constant et ton amitié.

Je tiens à remercier mes parents, mon père qui a été mon premier professeur de mathématiques et ma mère qui a toujours été un soutien indéfectible. Un grand merci `

a ma soeur Mathilde de m’avoir toujours encouragé, et d’avoir été là dans les moments difficiles. A mes amis Anne, Brice, Charles, Gaspard, Jean-Paul, Simon, Stéphane pour tous nos bols d’air du week-end. J’ai de plus une pensée particulière pour ma grand-mère qui aurait aimé être là aujourd’hui.

Enfin et tout particulièrement merci à toi Annabelle, c’est autant ta thèse que la mienne (mais j’ai fait toutes les démarches administratives pour une fois !). Tu as été là à chaque pas et sans toi rien n’aurait été possible. Merci pour ces années passées et pour toutes celles à venir.

A tous ceux que j’ai côtoyés et qui m’ont soutenu à un moment ou un autre de ces quatre années, merci et qu’ils m’excusent de ne pouvoir tous les nommer.

(5)

(6)

Table des mati`

eres

1 Introduction 8

1 Le mod`ele lin´eaire . . . 8

1.1 Motivation du mod`ele . . . 8

1.2 Erreur de pr´ediction, cadre minimax . . . 9

2 Estimation par projection . . . 11

2.1 Estimateur des moindres carr´es . . . 11

2.2 Estimation parcimonieuse . . . 13

3 Estimation adaptative pour la r´egression parcimonieuse . . . 15

3.1 Design orthogonal et seuillage . . . 15

3.2 La m´ethode de relaxation convexe . . . 17

3.3 Les m´ethodes greedy . . . 18

4 Etendre la méthode de seuillage aux modèles en grandes dimensions : la méthode one-step greedy . . . 19

4.1 Le cas homoscédastique : la méthode LOL (learning out of leaders) 19 4.2 Extension à un bruit coloré . . . 21

4.3 Les m´ethodes super greedy . . . 24

4.4 Rendre adaptative une proc´edure super greedy : algorithme super greedy avec pivot . . . 25

5 Estimation non-param´etrique : le cas de l’estimation de densit´e . . . 30

5.1 Estimation de densit´_{e sur R et risque minimax . . . 31}

5.2 Estimateur `a noyau d’une densit´e . . . 31

5.3 Le ph´enom`ene de biais au bord (ou boundary bias) . . . 32

5.4 Modification de noyaux d’ordre quelconque au bord . . . 36

2 Orthogonal One Step Greedy Procedure for heteroscedastic linear mod-els 43 1 Introduction . . . 44

2 The Setup . . . 47

2.1 The model . . . 47

2.2 Notation . . . 47

3 The One Step Greedy Algorithm for Heteroscedastic Noise . . . 48

3.1 Intuition . . . 48

(7)

3.3 Pseudocode description of the method . . . 50

4 Theoretical Results . . . 52

4.1 Coherence . . . 52

4.2 Rates of convergence of OOSG on weighted `q balls . . . 53

4.3 Discussion . . . 54

5 Numerical Study . . . 56

5.1 Experimental Design . . . 56

5.2 Algorithm . . . 57

5.3 Effect of indeterminacy and sparsity ratio . . . 57

5.4 Comparison with LOL . . . 59

5.5 Comparison with weighted adaptive Lasso . . . 60

6 Proofs . . . 62

6.1 Preliminaries . . . 62

6.2 The prediction error . . . 65

6.3 Selection error . . . 65 6.4 Estimation error . . . 69 6.5 Proof of theorem 2.5 . . . 74 7 Appendix . . . 75 7.1 Proof of lemma 2.1 . . . 75 7.2 Proof of lemma 2.2 . . . 75 7.3 Proof of proposition 2.6 . . . 76 7.4 Proof of proposition 2.7 . . . 77 7.5 Proof of proposition 2.8 . . . 78

3 Orthogonal matching pursuit with pivoting: accelerating greedy pursuit algorithms 83 1 Introduction . . . 84

1.1 Orthogonal Matching Pursuit . . . 84

1.2 Super Greedy modification of OMP . . . 87

2 Super Greedy OMP with pivoting rule . . . 88

3 Numerical Studies . . . 89

3.1 Simulation data . . . 89

3.2 Real-world texts data sets . . . 92

4 Conclusion . . . 94

4 A simple high-order kernel for boundary correction in density estima-tion 95 1 Introduction . . . 96

1.1 Aims and Motivations . . . 96

1.2 Model and Assumptions . . . 96

1.3 Behaviour of the bias of the kernel estimator . . . 97

(8)

2.1 Folding . . . 99

2.2 Expansion of the solution on an orthogonal basis . . . 100

3 Numerical Study . . . 101

4 Conclusion . . . 103

5 Proofs . . . 103

5.1 Proof of lemma 4.1 . . . 103

(9)

Chapitre 1

Introduction

Sommaire

1 Le mod`ele lin´eaire . . . 8

1.1 Motivation du mod`ele . . . 8

1.2 Erreur de pr´ediction, cadre minimax . . . 9

2 Estimation par projection . . . 11

2.1 Estimateur des moindres carr´es . . . 11

2.2 Estimation parcimonieuse . . . 13

3 Estimation adaptative pour la r´egression parcimonieuse . . . 15

3.1 Design orthogonal et seuillage . . . 15

3.2 La m´ethode de relaxation convexe . . . 17

3.3 Les m´ethodes greedy . . . 18

4 Etendre la méthode de seuillage aux modèles en grandes dimensions : la méthode one-step greedy . . . 19

4.1 Le cas homoscédastique : la méthode LOL (learning out of leaders) 19 4.2 Extension à un bruit coloré . . . 21

4.3 Les m´ethodes super greedy . . . 24

4.4 Rendre adaptative une proc´edure super greedy : algorithme super greedy avec pivot . . . 25

5 Estimation non-paramétrique : le cas de l’estimation de densité 30 5.1 Estimation de densité sur R et risque minimax . . . 31

5.2 Estimateur `a noyau d’une densit´e . . . 31

5.3 Le ph´enom`ene de biais au bord (ou boundary bias) . . . 32

5.4 Modification de noyaux d’ordre quelconque au bord . . . 36

1 Le mod`

ele lin´

eaire

1.1 Motivation du mod`

ele

Le modèle linéaire est l’un des objets centraux de la statistique mathématique. Il est le parfait exemple d’une construction inspirée d’un problème concret et autour de laquelle

(10)

une riche théorie s’est mise en place : étant donné une variable d’intérêt, y, peut-on mesurer l’influence qu’ont sur elle une famille de p covariables, x1, . . . , xp?

Bien entendu, pour que la chose soit possible, il est nécessaire de supposer que y et les covariables xi sont liées. Le modèle linéaire est une fa¸con de spécifier ce lien en supposant

que :

y = α∗₁x1+ · · · + α∗pxp+ ε, (1.1)

où les α∗_i sont des scalaires et où ε est un terme de bruit, que l’on modélisera comme une variable aléatoire réelle d’espérance nulle.

Le statisticien dispose d’un ´echantillon d’apprentissage de n observations de la variable y et des covariables xi. Il est pratique de noter y ∈ Rn le vecteur d’observations de la

variable y dans cet ´echantillon d’apprentissage, de mˆeme on note xi ∈ Rn le vecteur

d’observations de la covariable xi. Il est alors naturel de regrouper les observations des

covariables dans une matrice (dite de design) :

X =     .. . ... xi1 xip .. . ...     = [x1. . . xp],

dont les colonnes sont les vecteurs xi. Alors la relation eq. (1.1) se traduit en un syst`eme

d’´equations dans l’´echantillon d’apprentissage :

y = X α∗+ ε, (1.2) o`_{u ε ∈ R}n _{est un vecteur dont chaque composante repr´}_{esente le bruit associ´}_{e `}_{a chaque}

observation de la variable y, et α∗ _{∈ R}p _{est le vecteur des param`}_{etres. Sur la figure 1.1 on}

représente une telle relation sur un jeu de données simulées.

On peut maintenant reformuler la question initiale plus précisément : étant donné un échantillon d’apprentissage de taille n, comment estimer le mieux possible la valeur des p paramètres α∗_i si l’on suppose la relation 1.1 entre la variable d’intérêt y et les covariables x1, . . . , xp?

1.2 Erreur de pr´

ediction, cadre minimax

Soit ˆα un estimateur du vecteur de paramètres α∗, c’est-à-dire que ˆα est un vecteur de Rp construit uniquement à partir de l’observation de y et de X (de fa¸con mesurable). Afin de répondre à la question précédente on doit se doter d’un critère d’erreur pour mesurer la qualité de ˆα et être à même de comparer si possible deux estimateurs entre eux.

Un critère raisonnable pour mesurer la qualité d’un estimateur est de regarder à quel point il est capable de bien prédire l’espérance de la variable d’intérêt sachant la valeur des

(11)

0.0 0.5 1.0 1.5 2.0 0.00 0.25 0.50 0.75 1.00 x y

Figure 1.1. Jeu de donn´ees simul´ees : y = 2x + ε.

covariables sur les donn´ees de l’´echantillon d’apprentissage. L’erreur quadratique moyenne (Mean Squared Error), _n1kXα∗_{− X ˆ}_αk2

2, est justement une fa¸con naturelle de quantifier

l’écart entre le vecteur d’intérêt Xα∗ et sa prédiction X ˆα. Mais cette quantité est aléatoire, on cherchera donc a borner son espérance, qu’on qualifiera de risque de prédiction :

R(α∗, ˆ_{α) = E}h1 nkXα

∗_{− X ˆ}

αk2₂i. (1.3) On parle de risque de prédiction car si le design X est représentatif des valeurs prises par les covariables, cette quantité reflète bien la capacité de l’estimateur ˆα à fournir de bonnes prédictions sur des observations futures.

Il est bien entendu sans intérêt de parler d’optimalité d’un estimateur en un point α∗ _{∈ R}p_{. En effet l’estimateur d´}_{eterministe ˆ}_{α = α}∗ _{est toujours optimal au point α}∗_{, et}

pourtant n’est pas du tout efficace en tout autre α ∈ Rp _{assez ´}_eloign´_{e de α}∗_{. Pour pallier}

cette difficulté on introduit la notion d’optimalité au sens minimax, qui caractérise à quelle vitesse α∗ peut être estimé uniform´_{ement sur un certain sous-ensemble Λ de R}p_.

Definition 1.1. On dira qu’un estimateur ˆα est optimal au sens minimax sur Λ si : R(α∗, ˆ_{α) = E}h1

nkXα

∗_{− X ˆ}

αk2₂i≤ Cψn,p,

pour une certaine suite (ψn,p), et une constante C > 0, et s’il existe une constante C0 > 0

telle que : inf ˆ β sup α∗_∈ΛE h ψ_n,p−1 1 nkXα ∗_{− X ˆ} βk2₂ i ≥ C0,

o`u l’infinimum est pris sur tous les estimateurs ˆβ possibles. De plus ψn,p est appel´ee vitesse

(12)

Un estimateur est donc minimax s’il est celui dont la pire erreur sur Λ est la moins grande.

2 Estimation par projection

Nous commen¸cons par introduire l’estimateur des moindres carrés dans le modèle linéaire précédemment décrit. Nous essayons alors d’expliquer en quoi, bien que tout à fait raisonnable pour les situations où l’on dispose de beaucoup plus d’observations qu’il n’y a de covariables, cet estimateur n’est pas adapté aux problématiques contemporaines de grandes dimensions, où le nombre de covariables est grand devant le nombre d’observations. La section suivante tente de remédier à ce problème en postulant la parcimonie du vecteur α∗ et en adaptant la procédure d’estimation.

2.1 Estimateur des moindres carr´

es

On cherche `a construire ici un estimateur qui minimise le risque de pr´ediction : R(α∗, ˆ_{α) = E}h1

nkXα

∗_{− X ˆ}

αk2₂i.

Le vecteur Xα∗ n’étant pas directement observable, une idée naturelle est alors de le remplacer par le vecteur observé y = Xα∗+ ε. On cherche donc un estimateur qui soit solution du problème de minimisation :

ˆ

α = arg min

α∈Rp

ky − Xαk2

2. (1.4)

Toute solution du problème 1.4 est appelée estimateur des moindres carrés (puisqu’il minimise le carré d’une norme euclidienne), et sera notée ˆαLS_{. Le th´}_eor`_{eme de projection}

dans les espaces de Hilbert garantit l’existence de ces estimateurs. De plus il implique que tout estimateur ˆαLS _v´_{erifie la relation :}

X ˆαLS = PVX[y], (1.5)

o`u VX est l’espace vectoriel image du design X, et PVX est le projecteur orthogonal sur VX.

Un estimateur des moindres carrés jouit de nombreuses bonnes propriétés, il est par exemple optimal dans la classe des estimateurs linéaires non biaisés de α∗ lorsque X est une injection (théorème de Gauss-Markov [85]). A l’inverse, le point de départ des méthodes que nous étudierons ensuite vient de son incapacité à s’adapter aux problèmatiques dites de ”grandes dimensions”. Le théorème suivant fournit une borne sur son erreur de prédiction

qui met en lumière ce phénomène.

Th´eor`eme 1.2. Supposons que la relation 1.1 soit vraie, et supposons de plus que le terme de bruit est gaussien de variance σ2_{, ε ∼ N (0, σ}2_{). Alors l’estimateur des moindres carr´}_es

v´erifie :

R(α∗, ˆαLS_{) . σ}2r

n, (1.6)

(13)

Ce résultat a deux interprétations très importantes en fonction de la situation qu’on considère.

Le cas ”classique” : pendant longtemps l’étude du modèle linéaire reposait im-plicitement sur l’idée que le nombre de covariables utilisées était fixe, alors qu’il était relativement aisé d’acquérir plus d’observations. C’est-à-dire que le nombre d’observations pouvait facilement être rendu plus grand que le nombre de covariables, qui n’augmentait pas avec l’acquisition de nouvelles observations. Sous ces conditions, c’est-à-dire si le nombre d’observations est grand devant le nombre, fixe, de covariables alors le théorème 1.2 garantit que le risque de prédiction de l’estimateur des moindres carrés décroit comme

1

n. Une riche littérature fait l’état des connaissances accumulées dans ce cas, on pourra

se référer par exemple à [85] ou à [97] (pour voir la théorie développée dans un espace euclidien général).

Le cas ”grandes dimensions” : de plus en plus aujourd’hui, les jeux de données auxquels le statisticien est confronté ne rentrent plus dans le cadre ”classique” décrit précédemment. En effet, de nombreux domaines acquièrent des données où le nombre de covariables est grand devant le nombre d’observations. En particulier la génomique où la technologie des puces à ADN permet l’acquisition, pour chaque observation, des niveaux d’expressions d’un grand nombre de gènes. Chaque observation restant plutôt coûteuse (ou la population étudiée étant très restreinte, comme dans le cas de maladies génétiques rares) les données obtenues ne rentrent plus dans le cadre ”classique”, le nombre de covariables y ´

etant beaucoup plus grand que le nombre d’observations. Le ”text mining” est un autre domaine où chaque acquisition d’une nouvelle observation, c’est-à-dire d’un nouveau texte, s’accompagne d’une augmentation du nombre de covariables. En effet dans le modèle dit de ”bag of words”, chaque texte d’un corpus est une observation alors que les mots dont ils sont constitués forment les covariables. Avec l’acquisition d’un nouveau texte, s’ajoutent aux précédentes covariables, de nouveaux mots non précédemment observés. Dans ce cas le nombre de paramètres p n’est plus fixe, mais croˆıt avec n et peut être beaucoup plus grand que n. Dans ce contexte où p n’est plus fixe, et où potentiellement on peut avoir p n, le théorème 1.2 ne garantit plus rien sur la vitesse d’estimation de l’estimateur des moindres carrés.

Afin d’illustrer les difficultés de ce nouveau paradigme, considérons le cas orthogonal où les calculs sont simplifiés. Dans ce cas, on suppose que le nombre de covariables est égal au nombre d’observations n. On suppose de plus que les colonnes du design X forment une base orthonormale de l’espace Rn. Alors l’estimateur des moindres carrés est unique et se réduit à ˆαLS=tXy. De plus, sous les hypothèses du théorème 1.2, on peut calculer son risque de prédiction pour tout α∗ _{∈ R}n, qui n’est autre que :

R(α∗, ˆαLS) = σ2.

(14)

tend vers l’infini. De plus on peut prouver que cet estimateur est minimax sur Rn, nous n’avons donc pas d’espoir de construire un meilleur estimateur (au sens minimax) que ˆ

αLS!

Ainsi, si on ne fait aucune hypothèse a priori sur le vecteur α∗, le problème du modèle linéaire en grandes dimensions est une cause perdue. Heureusement, en pratique les vecteurs de param`_{etres ne vivent pas dans tout R}p mais plutôt sur une sous-variété de Rp de dimension intrinsèque bien inférieure à p. En effet si l’on considère l’exemple des bases d’ondelettes, on sait que la plupart des signaux y admettent une représentation qui utlise peu de coefficients, qu’on qualifie de sparse. Même si le signal vit initialement dans Rp, une fois transformé de la sorte, il appartient donc à l’ensemble des signaux n’ayant que k n coefficients non nuls. Si jamais l’on pouvait deviner a priori où se situent ces k coefficients, alors on pourrait directement effectuer la régression linéaire en n’utilisant que ces k covariables et le théorème 1.2 garantirait une vitesse en k_n 1. On peut alors espérer que sous une hypothèse de sparsité du vecteur des paramètres, c’est-à-dire sous l’hypothèse que seul un petit nombre des covariables sont en fait nécessaires, on puisse contruire des estimateurs détectant quels paramètres doivent être estimés, et estimant seulement ceux là. On obtiendrait alors de bien meilleures propriétés asymptotiques que l’estimateur des moindres carrés, puisque le nombre total de covariables serait remplacé par la sparsité réelle de α∗ dans la vitesse de convergence.

2.2 Estimation parcimonieuse

Cette partie s’inspire tr`es largement de [18]. On introduit maintenant le concept d’estimateur des moindres carr´es restreint. Soit C est un convexe ferm´_{e de R}p_{. On peut}

consid´erer le probl`eme de minimisation : ˆ

αC = arg min α∈C

ky − Xαk2

2. (1.7)

On parlera d’estimateur des moindres carrés restreint (à C) pour toute solution au problème 1.7. Le théorème de projection sur les convexes fermés d’un espace de Hilbert garantit l’existence d’une solution à ce problème. De plus il garantit que toute solution vérifie :

X ˆαC = PCX[y], (1.8)

o`u PCX est le projecteur orthogonal sur l’ensemble CX, image de C par X. De plus si la

restriction de X `a C est injective alors cette solution est unique.

Soit M un sous-ensemble de {1, . . . , p}. Une famille particuli`erement importante de sous-espaces vectoriels de Rp _{sont les espaces :}

V (M) = {α ∈ Rp; αi = 0, ∀i /∈ M}.

Les estimateurs des moindres carrés restreints à V (M) sont alors les estimateurs des moindres carrés au sens de 1.4 mais n’utilisant que les covariables indéxées par M ! On les

(15)

notera ˆα(M) dans la suite. Alors la relation 1.8 implique que : E h X ˆα(M)i _{= E}hPV (M)X[y] i = PV (M)X[Xα ∗ ]. (1.9) On en déduit la décomposition, particulièrement importante, de l’erreur de prédiction comme : EkXα∗− X ˆα(M)k22 = kXα ∗_{− P} V (M)X[Xα ∗ ]k2₂_{+ E}hkPV (M)X[ε]k 2 2 i . (1.10) Cette décomposition a l’interprétation habituelle d’une décomposition biais-variance : le terme kXα∗− PV (M)X[Xα

∗_]k2

2 s’interpr`ete comme le carr´e d’un biais, plus M est grand

plus cette quantit´_{e est petite, alors que E}hkPV (M)X[ε]k 2 2

i

s’interprète comme une variance, qui elle, à l’opposé du biais, croˆıt avec le nombre de covariables utilisées.

Pla¸cons nous sous les hypothèses du théorème 1.2, en considérant que le vecteur de bruit ε est gaussien, homoscédastique, de covariance Cov(ε) = σ2In. Alors la décompositon

1.10 dans ce cas particulier peut s’´ecrire : EkXα∗− X ˆα(M)k22 = kXα

∗_{− P}

V (M)X[Xα ∗

]k2₂+ σ2dim (V (M)X). (1.11)

Ainsi chaque covariable que l’on d´ecide d’utiliser ajoute σ2 _`_{a la variance de l’estimateur,}

mais réduit son biais en contrepartie. Par contre, il n’est absolument pas nécessaire que la réduction du biais apportée par l’introduction d’une covariable soit supérieure à l’augmen-tation de la variance qu’elle induit.

Supposons maintenant que le vecteur que l’on souhaite estimer, α∗, est k-sparse, c’est-`

a-dire que ses coefficients non nuls sont index´es par un certain sous-ensemble support M∗ ⊂ {1, . . . , p}, tel que |M∗| ≤ k. On notera par la suite kα∗k0 le cardinal du

sous-ensemble d’indices support de α∗. Alors, si dim (V (M∗)X) = |M∗| ≤ k, l’estimateur des

moindres carrés restreint à M∗ vérifie : 1 nEkXα ∗_{− X ˆ} α(M∗)k2₂ ≤ σ2 k n σ 2_, _(1.12)

dès que k n. Ainsi, si l’on sait a priori que kα∗k0 ≤ k, on a intérêt à remplacer l’estimateur

des moindres carr´es par l’estimateur restreint solution du probl`eme de minimisation :    ˆ αS _{= arg min} αky − Xαk22, s. t. kαk0 ≤ k. (1.13)

Cet estimateur ˆαS possède alors, lorsque α∗ est bien k-sparse, des propriétés de convergence bien supérieures à l’estimateur des moindres carrés non restreint.

Théorème 1.3. Pla¸cons nous sous les hypothèses du théorème 1.2. Supposons que α∗ soit k-sparse avec k ≤ p/2. Alors :

R(α∗, ˆαS_{) . σ}2k nlog ep k . (1.14)

(16)

Dans ce théorème, on trouve bien le terme _nk qui est la vitesse qu’on obtiendrait si l’on savait a priori où se situe le support de α∗. On paye en plus un prix lié au fait qu’on ne connait pas le support de α∗ mais seulement une borne sur son cardinal avec le facteur multiplicatif log

ep k

. Il suffit maintenant pour avoir convergence de v´erifier la condition

log p

n → 0 à sparsité fixée !

L’estimateur ˆαS _{souffre pourtant de deux d´}_{efauts r´}_{edhibitoires :}

1. son calcul repose sur la connaissance a priori de la sparsit´e (ou du moins d’une bonne borne) de α∗. Il est non adaptatif !

2. même si l’on disposait de cette connaissance a priori, il est pratiquement incalculable. En effet il nécessite le calcul d’un nombre exponentiel d’estimateurs des moindres carrés, un pour chaque sous-ensemble de cardinal inférieur à k de {1, . . . , p}, c’est-` a-dire de l’ordre de pk estimateurs. Dès que p et k sont modérément grands c’est une tâche irréalisable.

Le probl`eme de la regression sparse peut maintenant se formuler de la fa¸con suivante : comment obtenir un estimateur adaptatif ˆα calculable (en temps au plus polynomial) avec une efficacit´e proche de ˆαS_?

3 Estimation adaptative pour la r´

egression

parcimo-nieuse

On commence par présenter le cas de la regression parcimonieuse (sparse) avec un design orthogonal qui sert de fondement aux développements ultérieurs et pour lequel une théorie complète existe. On présente ensuite les deux stratégies générales pour fournir des estimateurs effectivement calculables, en temps polynomial, au comportement proche de la solution du problème 1.13 dans le cas d’un design général : les estimateurs obtenus par relaxation convexe de la pénalité `0 et les estimateurs obtenus par des méthodes greedy.

Dans toute la suite on supposera le terme de bruit ε gaussien.

3.1 Design orthogonal et seuillage

Supposons que les colonnes du design X forment une base orthonormale de l’espace Rn. Supposons de plus dans un premier temps que le bruit ε est blanc, c’est-`a-dire que Cov(ε) = σ2_I

n. Sous l’hypoth`ese d’orthonormalit´e du design, l’estimateur des moindres

carr´es n’est autre que ˆαLS ₌t_{Xy et v´}_{erifie :}

ˆ

αLS = α∗+ ˜ε, (1.15) o`u ˜ε = t_{Xε ∼ N (0, σ}2_I

n). Cette relation est qualifi´ee de mod`ele de suite gaussienne. De

(17)

kXα∗− X ˆαk2₂ = kα∗− ˆαk2₂. Introduisons les formes seuill´ees de ˆαLS au niveau λ : th_λ( ˆαLS)i =    ˆ αLS i , si | ˆαLSi | ≥ λ, 0, sinon, (1.16)

est l’estimateur avec seuillage ”hard”, et

ts_λ( ˆαLS)i =          ˆ αLS i − λ, si ˆαLSi ≥ λ, 0, si | ˆαLS i | < λ, ˆ αLS_i + λ, si ˆαLS_i ≤ −λ, (1.17)

est l’estimateur avec seuillage ”soft”. Alors, en utilisant le concept d’inégalité oracle, [37] prouve le résultat suivant.

Théorème 1.4. Sous les hypothèses du théorème 1.3, si tλ( ˆαLS) est un estimateur seuillé

de ˆαLS _{(hard ou soft) au niveau λ = σ}√_{2 log n on a :}

R(α∗, tλ( ˆαLS)) . σ2log(n)

k

n. (1.18)

C’est un résultat tout à fait remarquable car on obtient essentiellement la même vitesse que 1.3 sans avoir à incorporer de savoir a priori sur la sparsité de α∗! En effet on peut remarquer que l’estimateur avec seuillage hard th

λ( ˆαLS) est aussi solution du probl`eme de

minimisation :

th_λ( ˆαLS) = arg min

α

ky − Xαk2

2+ λ2kαk0 (1.19)

qui est la forme lagrangienne de 1.13. C’est-à-dire que pour tout k dans 1.13, il existe un λ tel que 1.19 soit équivalent. Mais le théorème 1.4 fournit une stratégie de seuillage universelle indépendante de la sparsité réelle de α∗, le seuil ne dépendant que du niveau de bruit et de la dimension n, l’estimateur seuillé est adaptatif. De plus il est aisément calculable, le problème 1.13 étant explicitement résoluble sous l’hypothèse d’orthogonalité du design.

En fait le résultat prouvé dans [37] est beaucoup plus fort et permet de prouver la minimaxité de l’estimateur seuillé sous bien d’autres conditions que la sparsité de α∗, en particulier lorsque α∗ appartient à une boule de `q pour 0 ≤ q ≤ 1. La théorie du seuillage

a été essentiellement développée en vue d’applications à la statistique non paramétrique et une littérature très riche autour de la question de l’estimation non linéaire [33], [32], dans les bases d’ondelettes [28], [70] existe. On pourra se référer à [39], [41], [55], [40] pour ne citer que quelques exemples.

Enfin, la théorie a été ensuite étendue au cas d’un bruit non blanc, c’est-à-dire lorsque le bruit gaussien admet une matrice de covariance non triviale, dans [59], [56], [64], en incorporant l’hétéroscédasticité du bruit dans la stratégie de seuillage.

(18)

3.2 La m´

ethode de relaxation convexe

Reconsidérons un instant les résultats de la section précédente. L’estimateur par seuillage soft , ts

λ( ˆαLS), qui est adaptatif et minimax sur la classe des α

∗ _{sparse, peut se}

d´ecrire comme la solution du probl`eme de minimisation : ts_λ( ˆαLS) = arg min

α

ky − Xαk2

2+ 2λkαk1. (1.20)

Ici la pénalité `0 du seuillage hard est relaxée en une pénalité `1 convexe sans détériorer

les bonnes propriétés de l’estimateur. De plus ce problème étant convexe, il est résoluble en temps polynomial quel que soit le design X (en effet l’optimisation convexe est un sujet important auxquel une grande littérature est consacrée, et où beaucoup d’algorithmes efficaces on été développés [11]). Il est donc naturel pour un design quelconque de chercher l’estimateur solution de :

ˆ

α = arg min

α

ky − Xαk2₂+ λkαk1. (1.21)

Cet estimateur, est qualifié d’estimateur Lasso [89]. De nombreux algorithmes spécifiques ont été développés pour resoudre ce problème de minimisation. On pourra citer en par-ticulier la méthode d’homotopie [44], ou encore plus efficace en pratique la descente de coordonnées [48].

Le problème de cet estimateur réside dans le fait qu’il est a priori adapté à la norme `1

de α∗ et non pas à sa sparsité. La magie de cet estimateur réside elle dans le fait que, si l’on ajoute certaines conditions sur le design, alors il est tout aussi efficace, pour un bon choix de λ, que l’estimateur par seuillage dans le cas d’un design orthogonal. Il existe de nombreux types de conditions exigées sur la matrice de design X, mais tous se résument à réclamer qu’elle ne présente pas de corrélations trop fortes, qu’elle ne soit pas trop éloignée d’une matrice orthogonale. Détaillons en quelques unes :

— il y a les conditions dites de cohérence. La cohérence d’un design est définie comme le plus grand (en valeur absolue) terme extra-diagonal de la matrice de Gram t_XX

(convenablement normalisée). Si l’on suppose que les colonnes de X sont de norme euclidienne unité alors la cohérence est :

µ(X) = max

i6=j | < xi, xj > |. (1.22)

Plus la cohérence est petite moins le design est corrélé. Pour des résultats de convergence sur le Lasso sous des hypothèses de cohérence on pourra se référer à [15], [14].

— la propriété d’isométrie restreinte introduite dans [19]. Elle exige que pour tout sous-ensemble d’indices M de cardinalité bornée par m, le spectre de la matrice

t_X

MXM (si les colonnes de X sont de norme euclidienne unit´e) soit born´e par

1 ± δm, δm < 1. Pour des r´esultats de convergence du Lasso sous cette hypoth`ese

(techniquement sous une hypothèse plus faible appelée condition de valeur propre restreinte) on pourra se référer à [6].

(19)

Sous ce type de conditions, en choisissant un param`etre de r´egularisation λ de l’ordre de √log p on retrouve, en supposant α∗ k-sparse, une convergence avec une vitesse de l’ordre de σ2log(p)k_n.

3.3 Les m´

ethodes greedy

Les méthodes greedy sont des heuristiques de résolution itératives du problème de régression parcimonieuse. Elles incorporent les covariables au fur et à mesure, en procédant en une série d’optimisations locales. De nombreuses variantes existent, nous nous contentons donc pour le moment de décrire une forme très générique d’algorithme greedy. On part d’un vecteur de résidus initial r0 _{= y, un estimateur initial ˆ}_α0 _{= 0 et un ensemble de}

covariables initiallement s´electionn´ees S0 _{= ∅. Supposons qu’on a construit r}n−1_{, ˆ}_αn−1 _et

Sn−1 _{sans avoir atteint notre crit`}_{ere d’arrˆ}_{et. Alors :}

1. on attribue à chaque covariable du design X un score basé sur sa proximité avec le vecteur de résidu rn−1_.

2. on s´electionne la covariable ayant le plus haut score et on l’ajoute `a l’ensemble Sn−1

pour former Sn_.

3. on construit une nouvelle approximation, ˜y, du signal y, dans l’espace vectoriel engendré par les covariables sélectionnées dans Sn.

4. on met à jour les résidus rn = y − ˜y et on itère la procédure.

Pour spécifier une méthode greedy en particulier reste à préciser la fa¸con dont on ´

evalue la proximit´e entre rn−1 _{et les covariables `}_{a l’´}_{etape d’attribution du score, et la fa¸con}

dont on construit l’approximation ˜y. Différents choix mènent aux différentes variantes d’algorithmes greedy. Pour un panorama complet on pourra consulter [88].

On se concentrera ici sur une forme particuli`ere d’algorithme greedy appel´ee Orthogonal Matching Pursuit (OMP), introduite dans [30] et [79]. Dans cette variante le score de la covariable i au temps n − 1 est la valeur absolue de son produit scalaire avec rn−1_,

| < xi, rn−1 > |. Quant au processus d’approximation, il consiste `a prendre pour ˜y le

projeté orthogonal de y sur l’espace vectoriel engendré par les covariables indéxées par Sn_.

Cette procédure a l’avantage de sa simplicité et de sa rapidité d’exécution.

Tout comme dans le cas de l’estimateur Lasso, l’obtention de bons résultats de conver-gence pour OMP, sous l’hypothèse de sparsité de α∗, requiert des conditions sur le design X, le même type de conditions que pour le Lasso. Ainsi l’on peut étudier OMP sous des hypothèses de cohérence, comme dans [90] qui fournit une condition suffisante sur le design X pour avoir une reconstruction parfaite de α∗ dans le cas où il n’y pas de terme de bruit, ou encore [52]. Des résultats existent aussi sous des conditions de type RIP comme dans [102]. Tout ces travaux garantissent que la solution obtenue par k pas de OMP est essentiellement comparable à la meilleure approximation à k termes de α∗, [26]. Enfin le critère d’arrêt doit être adapté au terme de bruit dans le modèle 1.2. Une telle étude est conduite dans [16].

(20)

4 Etendre la m´

ethode de seuillage aux mod`

eles en

grandes dimensions : la m´

ethode one-step greedy

La méthode classique du seuillage 3.1 fonctionne sous l’hypothèse d’orthogonalité du design et n’est donc pas a priori adaptée aux modèles en grandes dimensions. Les méthodes de relaxation convexe 3.2 ou les méthodes greedy 3.3 permettent de retrouver des résultats théoriques comparables aux méthodes de seuillage sous une hypothèse de quasi-orthogonalité du design, ce qui permet de dépasser le cas p = n. Mais cette propriété a un coût : l’obtention d’un estimateur par ces deux méthodes peut demander beaucoup plus de calculs qu’un simple seuillage. Il est alors naturel de se demander si les méthodes de seuillage ne peuvent pas être directement adaptées pour s’appliquer aux modèles en grandes dimensions, sous une hypothèse de quasi-orthogonalité du design, c’est-à-dire s’il est possible de pousser la théorie du seuillage au délà de la condition d’orthogonalité, ce qui fournirait une méthodologie au coût computationnel très faible tout en étant efficace.

Cette avancée a été décrite dans une série d’articles ([63], [73], [74], [72]) où une méthode appelée LOL (Learning Out of Leaders) étend le seuillage classique aux designs de cohérence assez faible dans le cas d’un bruit blanc gaussien. Cette théorie est décrite dans la section 4.1. Dans cette thèse, la méthode LOL est adaptée aux bruits gaussiens colorés dans le chapitre 2, et une description de la méthode est développée dans la section 4.2. Enfin la section 4.3 décrit une généralisation des méthodes gloutonnes constituant un cadre général qui contient à la fois les algorithmes greedy au sens de 3.3 et les méthodes comme LOL. La section 4.4 décrit un des articles de cette thèse (restrancrit au chapitre 3) qui discute de l’implémentation pratique d’une telle stratégie.

4.1 Le cas homosc´

edastique : la m´

ethode LOL (learning out of

leaders)

En une série d’articles ([63], [73], [74], [72]) la méthode de seuillage a été étendue aux modèles en grandes dimensions sous des hypothèses de cohérence sur le design avec un bruit blanc. On considère donc ici le modèle 1.2 où ε ∼ Nn(0, σ2In) et on portera une attention

particulière au cas p ≥ n (cette hypothèse n’est pas nécessaire à LOL qui peut aussi être utilisé dans le cas de modèles où le nombre d’observations est supérieur au nombre de covariables, mais LOL est avant tout pensé avec le modèle en grandes dimensions comme principale cible).

On peut résumer la stratégie de seuillage dans le cas d’un design orthogonal à deux étapes : tout d’abord calculer l’estimateur des moindres carrés de α∗, puis le seuiller, c’est-à-dire essentiellement remplacer toutes ses coordonnées plus petites qu’un certain seuil par 0. Cette stratégie, si elle est appliquée telle quelle, est condamnée à l’échec si le design a plus de covariables que d’observations. Nous avons en effet déjà décrit en quoi un estimateur des moindres carrés est inadapté à cette situation.

(21)

Pour s’adapter à cette situation on peut raisonner de la sorte : si α∗ est sparse alors seul un petit nombre de covariables est important. On peut donc essayer de les sélectionner a priori et travailler sur un modèle réduit, où seules les covariables sélectionnées sont utilisées. On s’est alors ramené à un modèle ”classique”, où n ≥ p, et l’on peut procéder au calcul de l’estimateur des moindres carrés et à son seuillage. C’est le principe d’une procédure en deux étapes, qualifiée de sélection / estimation dans [47].

Pour spécifier totalement la méthode LOL il est alors nécessaire de préciser deux points :

1. comment effectuer la s´election intiale des covariables utiles ?

2. à quel niveau doit-on seuiller l’estimateur des moindres carrés final (c’est-à-dire l’estimateur des moindres carrés restreint aux covariables sélectionnées à la première étape) ?

Discutons dans un premier temps de la procédure de sélection des covariables. C’est cette étape qui différentie profondément la méthodologie LOL du seuillage classique, conceptuellement et dans la technique nécessaire aux preuves. L’idée est en fait assez simple, si jamais le design était orthonormal alors l’estimateur ˆα =t_{Xy (qui n’est autre}

que l’estimateur des moindres carrés ici) est un estimateur sans biais du vecteur d’intérêt α∗. Si maintenant on ne suppose plus le design orthonormal, mais si on suppose juste que ses colonnes sont normées (ce qui est toujours possible) alors ˆα =t_{Xy n’est plus un}

estimateur sans biais de α∗, mais sous de bonnes hypothèses de cohérence il l’est presque ! En effet pour tout 1 ≤ i ≤ p on a que la i-ème coordonnée de ˆα vérifie :

ˆ αi = α∗i + X j6=i < xi, xj > α∗j | {z } Ri +˜ε, (1.23)

o`u ˜ε est une variable gaussienne, ˜ε ∼ N (0, σ2_{). On voit alors clairement que dans ce cas}

ˆ

αi est un estimateur biais´e de α∗i, le terme Ri venant biaiser l’estimation. Le terme Ri

vient en fait de la corrélation interne du design X, et on peut toujours le majorer à l’aide du concept de cohérence 1.22. En effet on a, pour tout 1 ≤ i ≤ p, |Ri| ≤ µ(X)kα∗k1.

Donc si la cohérence du dictionnaire X est faible, en particulier si elle est assez faible pour que le terme de biais soit de l’ordre du terme de bruit ˜ε, ˆα est un bon estimateur initial de α∗; il est alors naturel de sélectionner les covariables d’intérêt comme étant celles où ˆα est ”grand”. Cette idée est centrale à la procédure de sélection de LOL, et est en fait utilisée dans de nombreuses procédures de sélections pour les modèles en grandes dimensions. Elle jouit généralement de bonnes propriétés, comme par exemple la notion de Sure Independant Screening de [46]. LOL décide donc de sélectionner toutes les covariables telles que la valeur de | ˆαi| dépasse un certain seuil λ1.

Il faut alors faire attention à ce que le nombre de covariables sélectionnées ne soit pas trop grand afin de garantir l’unicité de l’estimateur des moindres carrés calculé à l’étape

(22)

suivante. La cohérence fournit à nouveau une borne (via le théorème de Greshgorin) sur le nombre de covariables que l’on peut sélectionner tout en garantissant la non-singularité de la matrice de design réduite. En effet on prouve que toute sous-matrice de X où l’on a conservé au plus bν/µ(X)c + 1 colonnes, avec ν ∈ (0, 1), est non-singulière. LOL sélectionne donc moins de covariables que cette borne (qui est calculable sur des données réelles contrairement à une condition de type RIP [20]).

Une fois les covariables sélectionnées on est ramené alors à un problème de seuillage ”classique”. Toute la technique consiste alors à exhiber une stratégie universelle de seuillage dans l’étape de sélection qui garantisse (au moins avec grande probabilité) que l’on a choisit les ”bonnes” covariables, la détermination du deuxième seuil λ2 utilisé au moment

de régulariser l’estimateur des moindres carrés étant plus classique.

Précisément, notons B0(S, M ) la boule des vecteurs de Rp dont la sparsité est inférieure

`

a S et dont la norme `1 est inférieure à M . Alors [63] prouve le théorème suivant.

Th´eor`eme 1.5. Supposons que p ≤ ecn, pour une certaine constante c > 0. Alors si le design X v´_{erifie que µ(X) .}

q

log p

n , l’estimateur produit par LOL, ˆα

LOL_{, en choisissant} λ1 et λ2 de l’ordre de q log p n v´erifie : sup α∈B0(S,M ) 1 nEkXα − X ˆα LOL_k2 2 . S log p n , (1.24) tant que S < _µ(X)ν , ν ∈ (0, 1).

Ce qui prouve le caractère minimax de la méthode sur la classe des vecteurs sparses pour des design dont la cohérence est assez faible (sous une hypothèse supplémentaire sur la norme `1 du vecteur de paramètres). En fait, dans [63] le caractère minimax de

la méthode est étendu à toutes les boules `q, pour q ∈ [0, 1], en passant par un résultat

encore plus fort en probabilité (et pas directement en espérance). Ainsi la méthode LOL étend bel et bien le seuillage classique en fournissant toujours une procédure optimale.

4.2 Extension `

a un bruit color´

e

Un des travaux de cette thèse, reproduit au chapitre 2, a consisté à étendre la méthodologie LOL au cas d’un bruit hétéroscédastique, dans l’esprit de l’extension de la méthode de seuillage aux modèles à design orthogonal et à bruit coloré effectuée dans [58], [57]. Une telle extension n’a rien d’immédiat car une technique clé dans la preuve des vitesses de convergence de LOL ne peut plus être utilisée.

En effet lorsqu’on considère un estimateur des moindres carrés restreint à une certaine sous-famille de covariables, le bruit apparait dans l’erreur finale comme le carré de la norme `2 de la projection orthogonale du terme de bruit initial ε, kPVS[ε]k

2

2, sur le sous-espace

(23)

homosc´edastique, ε ∼ Nn(0, σ2In), et lorsqu’on ne s´electionne pas trop de covariables,

kPVS[ε]k 2

2 est un χ2 à |S| degrés de liberté dont on peut contrôler la déviation et l’espérance

qui ne dépendent donc que du nombre de covariables sélectionnées.

Si maintenant on considère, comme dans le chapitre 2, que le bruit est hétéroscédastique, ε ∼ Nn(0, Γ), où Γ est une matrice positive définie quelconque, alors la situation change

radicalement. En effet la quantit´_{e E} h

kPVS[ε]k 2 2

i

ne dépend alors plus seulement du nombre de covariables sélectionnées mais bien de leurs positions ! On ne peut donc pas se contenter de modifier le deuxième seuillage pour prendre en compte l’hétéroscédasticité comme on le ferait avec un design orthogonal, mais l’on doit prendre en compte ce phénomène dès l’étape de sélection des covariables.

Il est important de noter que l’on désire éviter deux écueils : 1. on ne veut pas borner EhkPVS[ε]k

2 2

i

uniform´ement sur tous espaces VS de dimension

bornée par une certaine constante. En effet procéder de la sorte reviendrait à considérer le modèle hétéroscédastique comme un modèle homoscédastique avec la pire variance possible. On ne tiendrait pas compte du fait qu’une procédure de sélection efficace tend à sélectionner les covariables du support de α∗, et donc que le terme EhkPVS[ε]k

2 2

i

doit ˆetre proche de kPVS∗[ε]k 2

2, o`u S∗ indexe les coordonn´ees

support de α∗. Or il est tout à fait possible que le signal soit supporté sur une région de l’espace de variance très faible, et par conséquent que kPVS∗[ε]k

2

2 soit tr`es inf´erieur

`

a la pire projection possible.

2. on veut éviter de transformer notre modèle de manière à rendre le bruit blanc. En effet on pourrait multiplier tous les termes de eq. (1.2) par Γ−1/2 de manière à obtenir un nouveau modèle :

Γ−1/2y = Γ−1/2Xα∗+ η,

o`u η ∼ Nn(0, In). Mais en op´erant de la sorte on modifie la matrice de Gram initiale t_{XX en} t_XΓ−1_{X et il y donc un trade-off : tout gain en termes de bruit peut ˆ}_etre

plus que compensé par une perte de cohérence dans le nouveau design. On veut donc éviter cette opération de ”whitening”, et développer une méthode utilisant le design original.

De mani`ere `a pouvoir contrˆ_{oler E}hkPVS[ε]k 2 2

i

il est nécessaire d’imposer des restrictions sur le choix de S que notre procédure de sélection impose. Tout d’abord si l’on part de l’estimateur initial ˆα =t_{Xy, il est facile de voir que l’h´}_et´_erosc´_edasticit´_{e se traduit par :}

Var ( ˆαl) = kΓ1/2xlk22.

Pour des raisons techniques, on d´efinit la quantit´e σ2

l = Var ( ˆαl) ∨ 1 pour tout indice

1 ≤ l ≤ p, et par extension σ2_{(L) =}P

l∈Lσl2qui repr´esente donc essentiellement la variance

(24)

Il est alors nécessaire d’introduire les conditions suivantes sur les éléments de Lλ_Σ_∗_,N, la famille des ensembles d’indices sélectionnables :

1. ∀L ∈ Lλ_Σ_∗_,N, ∀l ∈ L, | ˆαl/σl| ≥ λ,

2. σ2_{(L) ≤ Σ} ∗,

3. |L| ≤ N .

Ainsi dans le cas hétéroscédastique, on cherche à sélectionner les indices i tels que la quantité | ˆαl| renormalisée par sa variance dépasse un certain seuil λ. De plus, comme

dans le cas homoscédastique, on doit contrôler le cardinal de l’ensemble des indices sélectionnés mais on doit ici également contrôler sa variance totale σ2_{(L) (en effet dans}

le cas homoscédastique ces deux quantités sont proportionnelles et il est donc équivalent de contrôler l’une ou l’autre). Alors une fois que l’on se restreint aux sous-ensembles aléatoires L qui appartiennent à Lλ

Σ∗,N on peut à nouveau contrôler de manière intéressante

la quantit´_{e E}hkPVL[ε]k 2 2

i

. En effet dans le chapitre 2 on prouve le r´esultat suivant. Proposition 1.6. Si L ∈ Lλ

Σ∗,N est un ensemble al´eatoire, et s’il existe une constante

θ > 0 telle que Σ∗ ≤ pθ, alors

E h kPVL[ε]k 2 2 i .σ2_max(S∗) + µ(Γ1/2X)Σ∗ N log p, (1.25) d`es que λ2 ≥ Ch(µ(X)kα∗k1)2 ∨ log p_n i

pour une certaine constante C > 0. Ici S∗ = {l; |α∗ l| > λ 2σl} et σ 2 max(S ∗_{) = max} l∈S∗σ2 l.

La quantit´e µ(Γ1/2_{X), que l’on appelle Γ-coherence, tient compte de l’interaction}

entre le design et la matrice de covariance du bruit, alors que σ2 max(S

∗_{) refl`}_{ete bien le}

comportement espéré, l’espérance de la norme de la projection orthogonale du bruit n’étant pas contrôlée par la pire variance possible mais bien par la pire variance du support du signal d’intérêt !

Une fois en possession de cette proposition technique il devient alors possible, en procédant à la sélection des covariables et en contrôlant à la fois le cardinal et la variance totale, d’obtenir la vitesse de convergence de la méthode sur une large classe de boules anisotropes de Rp_{. D´}_{efinissons ces boules anisotropes comme :}

— pour q ∈ (0, 1], Bq,σ(M ) = n α ∈ Rp;Pp l=1σ 2 l|αl/σl|q 1/q ≤ Mo , — pour q = 0, B0,σ(S, M ) = n α ∈ Rp;Pp l=1σ 2 l1{αl6= 0} ≤ S, kαk1 ≤ M o .

Alors sous des hypothèses de cohérence on prouve dans le chapitre 2 le théorème suivant (les conditions techniques sont explicites dans l’article).

Théorème 1.7. Supposons que la cohérence du design v´_{erifie µ(X) .} q

log p

n . Alors en

choisissant les seuils λ1 et λ2 de l’ordre de

q

log p

n , et si on note ˆα

∗ _{l’estimateur fournit}

(25)

1. pour tout q ∈ (0, 1] : ∀α ∈ Bq,σ(M ), E h1 nkΨ(α − ˆα ∗ )k2₂i _{. σ}2_max(S∗)log p n 1−q/2 . o`u S∗ est d´efini dans la proposition 1.6.

2. Si S ≤ ν/τn∨ 1 : ∀α ∈ B0,σ(S, M ), E h1 nkΨ(α − ˆα ∗ )k2₂i _{. σ}2_max(S∗)S log p n .

Ainsi on obtient presque la vitesse minimax du modèle homoscédastique. En effet les vitesses obtenues dépendent maintenant de la ”pire” variance portée par le signal α∗. Nous ne savons pas si ces vitesses sont optimales au sens minimax mais elles sont un premier pas dans la compréhension des méthodes glouttonnes pour le modèle linéaire hétéroscédastique en grandes dimensions. En effet le modèle linéaire hétéroscédastique en grandes dimensions a été bien moins étudié que sa version homoscédastique, et alors que des résultats existent pour étendre les méthodes de relaxation convexe à ce cadre [4], [95], [94], [31], [54], il n’y pas eu à notre connaissance d’effort comparable pour les méthodes greedy.

4.3 Les m´

ethodes super greedy

Si l’on compare la méthodologie greedy décrite à la section 3.3 et les méthodologies à un pas décrites aux sections 4.1, 4.2, on constate que dans les deux cas la première opération effectuée consiste à affecter à chaque covariable un score, via le calcul des quantités | < xi, y > | qui est linéaire en p, le nombre de covariables (ce calcul est par contre linéaire

ou non en n, en fonction du fait que l’on puisse ou pas utiliser une structure particulière de la matrice de design X, comme la sparsité de ses colonnes). Mais les méthodes greedy mettent à jour à chaque pas leur vecteur de scores, alors que les méthodologies à un pas n’effectuent ce calcul qu’une fois. Ainsi l’operation d’affectation des scores est au pire de complexité O(np) pour un méthode à un pas, alors que pour une méthode greedy qui effectue k pas, elle exige un calcul de complexité O(knp).

Pour les modèles en ”très grandes dimensions”, où le nombre de covariables est énorme, c’est ce calcul des scores qui souvent domine la complexité totale des procédures greedy. En effet, la méthode d’estimation a généralement un coût quasi-constant, et proportionnel `

a n, à chaque pas. Il est donc naturel de se demander s’il n’est pas possible d’effectuer moins de calculs du vecteur des scores, dans l’idée des méthodologies à un pas. A l’inverse une méthode à un pas peut ne pas bien se comporter en pratique parce qu’elle ne met pas assez souvent ses scores à jour, et a donc tendance à intégrer de nombreuses covariables dont l’apport en termes de réduction du biais est faible (car trop fortement corrélées à des variables déjà intégrées).

Les méthodes qui cherchent à obtenir le meilleur des deux mondes sont qualifiées de super-greedy dans [67], [66]. Elles procédent comme les méthodes greedy mais à chaque

(26)

pas, au lieu d’intégrer une seule covariable, elles en intégrent un nombre fixe, q. Ainsi à sparsité S égale de l’estimateur, alors qu’une méthode greedy évalue S fois son vecteur de scores, une méthode super greedy ne l’évalue que S/q fois. Cette stratégie peut réaliser des économies de temps de calcul considérables, tout en ayant des performances similaires aux méthodes greedy lorsque le design n’est pas trop corrélé. Elles ont aussi souvent des performances supérieures aux méthodes à un pas en pratique, car moins sensibles aux redondances du design. Reste alors la question d’une stratégie adaptative du choix de q.

Une telle méthode super greedy adaptative a été proposée dans [43] où l’on sélectionne, pour un vecteur de score donné, toute les covariables dont le score est supérieur à un certain seuil (comme dans [63]). Mais contrairement à [63], le seuil est choisi en utilisant le principe de False Discovery Rate introduit dans [1], et la procédure est itérée. En pratique une telle procédure repose donc encore sur la connaissance du niveau de bruit. Or dans les modèles en grandes dimensions, l’estimation de ce niveau de bruit s’avère particulièrement difficile.

La stratégie classique pour choisir le nombre d’itérations optimal de OMP est de procéder par validation croisée (ce qu’une bonne implémentation de OMP permet sans surcoût prohibitif). Mais pour une stratégie super greedy, si l’on doit procéder par valida-tion croisée pour à la fois choisir le nombre total de pas k et la taille des pas intermédiaires i, le nombre de couples (i, k) à tester devient vite grand, ce qui induit un temps de calcul important, alors que nous essayons d’accélérer les méthodes greedy !

Le chapitre 3 décrit une méthodologie super greedy adaptative qui ne repose sur aucune connaissance du bruit a priori, et évite de procéder à une validation croisée pour le choix de la longueur des pas intermédiaires. On introduit cette méthode dans la section suivante.

4.4 Rendre adaptative une proc´

edure super greedy : algorithme

super greedy avec pivot

Revenons maintenant `a OMP et distinguons sa partie d’estimation de sa partie de s´election :

• la méthode d’estimation de OMP consiste, partant d’un score attribué aux cova-riables (par la méthode de sélection), à insérer à chaque itération la covariable la mieux notée dans l’ensemble des covariables déjà sélectionnées et à calculer l’estimateur des moindres carrés restreint à ce sous-ensemble de colonnes,

• la méthode de sélection, quant à elle, attribue un score à chaque covariables xi en

calculant | < xi, r > |, o`u r est le vecteur courant des r´esidus.

Comme on l’a déjà remarqué le coût d’un appel à la procédure d’estimation est au pire de l’ordre de O(np). Quant à la méthode d’estimation, une implémentation raisonnable évite de recalculer à chaque étape un estimateur des moindres carrés, sans tenir compte des calculs effectués à l’étape précédente. Pour ce faire supposons que l’on soit au début de

(27)

la (k + 1)-ième itération de la procédure d’estimation. Notons Sk l’ensemble des covariables

déjà sélectionnées à l’étape k, et supposons que l’itération précédente nous fournit la factorisation QR du design X restreint à Sk, XSk = QkRk. Alors il est facile de mettre

`

a jour cette factorisation en y incorporant une covariable xj, j /∈ Sk, j ∈ Sk+1, de telle

sorte que XSk+1 = Qk+1Rk+1 : par un proc´ed´e de Gram-Schmit, il suffit de calculer k

produits scalaires, soit une complexité maximale de l’ordre de O(nk) opérations (une description précise de la méthode et son pseudocode est donnée dans le chapitre 3, pour des références générales au calcul matriciel numérique on pourra se reporter à [7] ou [8]). Comme cette procédure est utilisée pour k très inférieur à p, on voit que le coût d’estimation est largement dominé par le coût de sélection.

L’idée des méthodes super greedy est alors de faire appel à la méthode de sélection le moins souvent possible. En effet si l’on se contente de demander à la méthode d’estimation de ne pas insérer de covariables déjà présentes dans son calcul de l’estimateur, il n’est absolument pas nécessaire de faire appel à la méthode de sélection à chaque itération (ce que fait OMP). Ainsi, pour nous, une variante super greedy de OMP peut être identifiée à sa stratégie vis-à-vis de l’appel à la procédure de sélection.

Un cas particulièrement naturel de stratégie de sélection est alors de procéder à la mise `

a jour des scores toutes les q itérations, pour une certaine constante q (comme dans [67], [66]). Nous noterons ces variantes OMP q N , où N désigne le nombre total d’itérations et q la période d’actualisation du vecteur de scores (i.e. le score est mis à jour toutes les q itérations). Ainsi OMP 1 N désigne N itérations de l’algorithme OMP standard, tandis que OMP N N désigne une méthode à un pas. La figure 1.2 compare les erreurs de prédiction relative, ky−X ˆαk22

kyk2

2 , en fonction du nombre d’itérations effectuées, pour différentes

p´eriodes q de mise `a jour.

Sur la figure 1.2, on observe les deux extrêmes que sont OMP (soit OMP 1 80 dans notre notation), qui recalcule son vecteur de scores à chaque pas, c’est-à-dire ici 80 fois, et OMP à un pas (OMP 80 80) qui ne le calcule qu’une fois. On observe aussi des stratégies intermédiaires qui nous permettent de constater que :

◦ une stratégie de périodicité faible, comme OMP 2 80 ou OMP 4 80 ici, se comporte essentiellement comme OMP (car le design est ici très décorrélé), mais ne réalise qu’un gain calculatoire modéré,

◦ la stratégie à un pas, OMP 80 80, qui réalise un énorme gain de temps de calcul, commet globalement une erreur supérieure à celle de OMP, et a de plus tendance `

a rencontrer des plateaux, c’est-à-dire des zones où l’adjonction d’une nouvelle covariable ne diminue pas significativement l’erreur de prédiction,

◦ si l’on observe la stratégie à deux pas, OMP 40 80, on constate l’effet associé à la mise à jour des scores (réalisée au pas 40, et indiquée par un trait vertical sur la figure 1.2) : l’erreur commise se démarque alors de celle de la méthode à un pas, sort du plateau d’erreur, et diminue à nouveau pour se rapprocher de celle de OMP.

(28)

0.00 0.25 0.50 0.75 1.00 0 20 40 60 80 Nombre d’itérations Erreur Relativ e Méthode omp_1_80 omp_2_80 omp_4_80 omp_40_80 omp_80_80

Comparaison de différentes stratégies d’accélération

Figure 1.2. Comparaison de OMP et de ses formes super greedy. Le design est une matrice à entrées gaussiennes i.i.d, avec n = 500 et p = 1500. Le paramètre α∗ est sparse, de sparsité S = 50.

La méthode que nous proposons au chapitre 3 implémente une stratégie adaptative qui essaye de maintenir une erreur de l’ordre de celle commise par OMP, tout en actualisant le moins possible le vecteur des scores. Pour ce faire on utilise le vecteur des résidus actualisé rk, retourné par la k-ième itération de la procédure d’estimation. On peut donc à chaque

it´eration calculer le ratio krkk2

krk−1k2 qui mesure, en proportion, le gain en pouvoir pr´edictif

réalisé par l’adjonction de la variable introduite à l’étape k. On procède alors de la sorte : 1. on part d’un vecteur de score initial,

2. on incorpore les covariables une par une dans l’ordre induit par le vecteur de scores initial, tant que le ratio krkk2

krk−1k2 est inf´erieur `a une constante λ ∈ (0, 1),

3. si `a une certaine it´eration k0 l’adjonction d’une nouvelle covariable ne respecte pas la

relation krk0k2

kr_k0−1k2 < λ, alors seulement on actualise le vecteur de score et on red´emarre

la procédure à l’étape k0− 1.

Ainsi cette procédure ne tend à actualiser son vecteur de scores (on dira qu’elle pivote) que lorsque son erreur de prédiction (estimée sur le training set) rencontre un plateau (i.e. que la norme du vecteur de résidu ne décroˆıt pas suffisament vite). Cette stratégie assure `

a notre forme super greedy de OMP, d’avoir une erreur de prédiction qui décroˆıt à une vitesse comparable à celle de OMP tout en effectuant peu d’actualisations des scores. On peut se référer à la figure 1.3, pour voir notre méthode en action sur un modèle similaire à celui employé pour l’expérience de la figure 1.2. Les traits verticaux précisent à quelles itérations notre stratégie décide de recalculer les scores.

(29)

0.00 0.25 0.50 0.75 1.00 0 10 20 30

Number of incorporated atoms

Relativ

e Error

Method

OMP

One step OMP OMP with pivoting

Figure 1.3. Comparaison de OMP, OMP à un pas et notre méthodologie avec pivot. Le design est une matrice à entrées gaussiennes i.i.d, avec n = 75 et p = 300. Le paramètre α∗ est sparse, de sparsité S = 15. Les lignes verticales indiquent les étapes où la méthodologie avec pivot met à jour le vecteur de score.

Pour illustrer les gains très importants en temps de calcul réalisés par notre méthode, on a mesuré et reporté les resultats sur la figure 1.4, le temps d’obtention d’un estimateur `

a sparsité fixée (i.e. on fixe le nombre d’itérations) par OMP et par OMP avec pivot, en fonction du nombre de covariables présentes dans le design. Le nombre d’itérations total ´

etant fixé, seul le coût associé à la procédure de sélection différentie les deux méthodes, et on peut constater que cela induit un gain considérable.

De plus le paramètre λ régularise la procédure : en effet plus λ est proche de 0, plus l’agorithme s’arrête rapidement (incapable de réduire la norme du vecteur de résidus dans les proportions demandées), et actualise régulièrement ses scores. A l’inverse, lorsque λ = 1, alors la procédure devient une méthode à un pas qui se contente du vecteur de scores initial. Il suffit donc de le sélectionner par validation croisée (ici une seule valida-tion croisée suffit au lieu des deux nécessaires a priori dans une méthode de type OMP q N ).

Enfin un autre avantage de la procédure avec pivot est illustré sur des données réelles au chapitre 3. On y considère les données fournies par la compétition Kaggle https://www.kaggle.com/c/job-salary-prediction. On y trouve différentes offres d’emploi, avec leur description et le salaire associé. Au corpus des descriptions on peut associer une matrice ”Document-terms” de grandes dimensions, où les documents sont

(30)

0 1 2

0 10000 20000 30000 40000 50000

Number of columns

Time (in seconds)

variable

OMP pivot_OMP

Figure 1.4. Comparaison du temps d’éxécution de OMP et de notre méthodologie. Le design est une matrice gaussienne avec un nombre fixe d’observations, n = 750. Le paramètre α∗ est sparse, de sparsité S = 50, les deux méthodes réalisant 150 pas.

en ligne et les termes en colonne, et chaque coefficient vaut 1 ou 0, en fonction du fait qu’un certain terme soit présent, ou pas, dans le document concerné. On cherche alors un estimateur permettant de prédire le salaire à partir de la description de l’emploi.

Pour les comparer, on calcule l’estimateur fournit par OMP et par notre modification avec pivot sur un jeu de données ”train” et on mesure leur erreur sur un jeu de données ”test” indépendant. On reporte les résultats sur la figure 1.5.

Il est intéressant de constater ici que notre méthode donne toujours de meilleurs résultats que OMP. Il semble raisonnable de supposer que celà vient de la capacité de notre méthode à incorporer une nouvelle covariable même si elle est corréllée à des covariables déjà sélectionnées (du moins dans une certain proportion fixée par λ). Ainsi si l’on compare les termes sélectionnés par les deux méthodes on peut constater bien plus de redondance dans ceux choisis par notre algorithme comparativement à OMP (par exemple on peut voir sur le tableau 1.1 que la méthode avec pivot sélectionne ”projects” et ”project”. Cette corrélation que l’on autorise parmi les covariables sélectionnées permet probablement d’éviter d’incorporer les artefacts que OMP tend à utiliser, en actualisant trop régulièrement les scores.

(31)

0.18 0.20 0.22 0.24 0.26 0 50 100 150 200 250 Number of steps Relativ e Prediction Error method OMP

OMP with pivoting

Figure 1.5. Comparaison de l’erreur de prédiction relative, estimée sur un jeu de données indépendant du train, de OMP et de notre variation avec pivot, en fonction du nombre total d’itérations.

OMP OMP with pivoting 1 and and 2 chase the 3 projects for 4 ooh chase 5 business locum 6 own projects 7 london project 8 management analysis 9 analysis business 10 paye technical

Table 1.1. Dix premiers termes choisis par OMP et par notre m´ethode.

5 Estimation non-param´

etrique : le cas de

l’estima-tion de densit´

e

L’estimation non-paramétrique diffère de l’estimation paramétrique, dont le modèle linéaire est un bon exemple, en supposant, non pas que le vecteur α∗ à estimer appartient `

a un espace euclidien (même de grande dimension), mais plutôt à un espace de fonctions, c’est-à-dire un espace de dimension infinie. Pourtant, pour l’estimer, on ne dispose toujours que d’un nombre fini d’observations, n. On s’intéresse dans la suite à un modèle particulier

(32)

d’estimation non-paramétrique, l’estimation de densité. Pour une introduction générale au sujet (dont s’inspire largement cette section) on pourra consulter [92].

5.1 Estimation de densit´

_{e sur R et risque minimax}

Soient X1, . . . , Xndes variables aléatoires i.i.d. de densité de probabilité fX par rapport

`

a la mesure de Lebesgue sur R. Le problème de l’estimation de densité est alors, partant des observations Xi, de construire (de fa¸con mesurable) un estimateur ˆfn de fX. Ce problème

est dit non-param´etrique lorsque l’objet `a estimer, fX, vit a priori dans un espace de

dimension infinie, i.e. lorqu’on ne veut pas imposer a priori `a fX d’appartenir `a une certaine

famille paramétrée de densités !

Supposons que fX appartienne à une certaine classe non-paramétrique de densités F .

Alors, si d est une semi-distance sur F , on peut, comme pour le mod`ele lin´eaire, introduire la notion de risque de l’estimateur ˆfn :

R( ˆfn, fX) = E

h

d2( ˆfn, fX)

i .

On peut alors, comme on l’a fait pour le mod`ele lin´eaire, qualifier un estimateur ˆfn

de minimax sur F s’il existe une suite positive (ψn)n≥1 telle que le risque maximal sur F

v´erifie : r( ˆfn) = sup fX∈F E h d2( ˆfn, fX) i ≤ Cψ2 n,

pour une certaine constante C > 0, et si le risque minimax sur F : R_n∗ = inf ˆ gn sup fX∈F E h d2( ˆfn, fX) i , o`u l’infinimum est pris sur tous les estimateurs ˆgn, v´erifie

lim inf n→+∞ ψ −2 n R ∗ n ≥ c,

pour une certaine constante c > 0.

5.2 Estimateur `

a noyau d’une densit´

e

Introduit dans [82], puis généralisé dans [78], l’estimateur à noyau est une des méthodes les plus classiques d’estimation d’une densité.

On qualifie de noyau toute fonction K : R → R, intégrable, telle que R K(u)du = 1. Soit h > 0, l’estimateur à noyau, de noyau K et de fenêtre h, de fX est la fonction,

ˆ fh(x) = 1 nh n X i=1 Kx − Xi h , (1.26)

d´_{efinie pour tout x ∈ R. Notons, pour tout h > 0, K}h(x) = _h1K(x_h). Alors, par construction,

l’esp´erance de l’estimateur `a noyau eq. (1.26) n’est autre que le produit de convolution de fX avec Kh :

E[fˆh(x0)] = Kh∗ fX(x0) =

Z

R