• Aucun résultat trouvé

Mise en perspective et notes bibliographiques

Les premiers résultats sur l’agrégation dans un contexte statistique sont apparus dans Nemirovski [83], Catoni [25], Yang [106] et Tsybakov [98]. Ces travaux pionniers étudient trois différents problème d’agrégation.

• Pour l’agrégation de type sélection de modèles, le but est d’imiter la performance de la meilleure fonction dans le dictionnaire. Les résultats pour ce problème ont été obtenus dans [106, 25, 98, 64, 70, 58, 4, 35, 90, 32, 33], Chapters 2 and 3.

• Pour le problème d’agrégation convexe, le but est d’imiter la performance de la meilleure combinaison convexe des fonctions du dictionnaire [98, 89, 90, 96]. La Proposition3.10du chapitre 3 donne un résultat d’agrégation convexe pour les estimateurs affines.

• Pour le problème d’agrégation linéaire, le but est d’imiter la meilleure fonction dans l’espace vectoriel engendré par les fonctions du dictionnaire. [98,89, 90,

Des travaux plus récents étudient le problème d’agrégation parcimonieuse et celui de l’agrégation parcimonieuse-convexe, cf. [71, 92,93, 96].

Cette thèse se concentre sur le problème d’agrégation de type sélection de modèle. L’estimateur pénalisé étudié dans les chapitres 2et 3est similaire à la procédure de Q-agrégation proposé par Rigollet [90] et Dai et al. [32]. L’agrégation d’estimateurs affines utilisant la Q-agrégation a été étudié précédemment dans Dai et al. [33].

Leung and Barron [70] ont donné le premier résultat d’agrégation d’estimateurs linéaires, où il est nécessaire de prendre en compte la dépendance entre les estimateurs dans le dictionnaire et les données utilisées pour la phase d’agrégation. Ces résultats ont été plus tard généralisés dans Dalalyan and Salmon [35], Dai et al. [33] et dans le chapitre3de la présente thèse. A notre connaissance, le Théorème 4.2du chapitre 4 est le premier résultat d’agrégation d’estimateurs non linéaires où les estimateurs non linéaires sont construits à partir des mêmes données que celles utilisées pour la phase d’agrégation.

Le chapitre 5explique comment les méthodes d’agrégation peuvent être utilisées pour produire des inégalités d’oracle exactes dans le cadre de la régression à contrainte de forme, généralisant les résultats de Guntuboyina and Sen [50], Chatterjee et al. [27] et Chatterjee et al. [28]. Ces papiers ont d’abord étudié la vitesse quasi-paramétrique qui apparaît si la fonction de régression inconnue possède des propriétés de basse dimension, cf. les chapitres5 et6 pour des résultats rigoureux et une discussion plus approfondie à propos de ces propriétés de basse dimension. A notre connaissance, le chapitre7 donne les premiers résultats sur la construction d’ensembles de confiance adaptatifs dans ce cadre.

8.4

Remerciements

Je tiens d’abord à remercier Sacha, mon directeur de thèse qui a accepté de m’encadrer au début ce ces trois années intenses. Merci pour sa confiance, les problèmes qu’il a su choisir (la réussite d’une thèse repose beaucoup sur le choix des problèmes !), ses idées fécondes, sa patience et sa clarté, les interactions que nous avons eu pendant ces trois années m’ont appris énormément. J’espère que nous aurons encore longue collaboration, en plus des quelques projets planifiés pour les mois qui viennent.

J’aimerais exprimé une grande reconnaissance aux rapporteurs, Richard et Bodhi, qui ont accepté d’écrire un rapport sur ce manuscrit. Merci également à Richard pour nos discussions sur les ensembles de confiance, et à Bodhi pour son invitation à Columbia et nos échanges sur la régression sous contrainte de forme. Mes remer- ciements vont ensuite au jury de thèse. Arnak, pour les nombreuses discussions que nous avons eu dans la salle à café de l’ENSAE qui m’ont tant appris, en particulier sur les statistiques en hautes dimensions. Richard, pour ces discussions fructueuses sur les ensembles de confiance qui a abouti sur le chapitre7 de cette thèse. Philippe, pour tes nombreux travaux qui ont inspiré la plupart des résultats de cette thèse, pour tes précieux conseils sur la suite de mon parcours, et j’espère que nos inter- actions s’amplifieront sur la côté Est dans les prochaines années! Vladimir, merci encore d’avoir accepté de participer à ce jury de thèse, tes notes de St-Flour ont été précieuses de nombreuses fois pendant ces trois ans.

Merci aussi à tous l’équipe de laboratoire de stats de l’ENSAE : Pierre, Victor- Emmanuel, Alexander, Léna, Nicolas, Vincent, Arnak, Edwin, Gérard, Olga, Guil- laume, Hilmar, The Tien, Vianney, Judith, Medhi et Anna pour les nombreux

moments conviviaux passés à l’ENSAE.

Enfin, merci à mes parents pour leur soutien infaillible tout au long de ces trois années. Merci à L., M., A., Q., S., H., R., D., C., N., M., S. pour leur bonne humeur et tous les moments passés ensemble – puissent ces relations pendant de nombreuses années !

Résumé

Deux sujet sont traités dans cette thèse: l’agrégation d’estimateurs et la régression sous contrainte de formes.

La régression sous contrainte de forme étudie le problème de régression (trouver la fonction qui représente un nuage de points), avec la contrainte que la fonction en question possède une forme spécifique. Par exemple, cette fonction peut être croissante ou convexe: ces deux contraintes de forme sont les plus étudiés. Nous étudions en particulier deux estimateurs: un estimateur basé sur des méthodes d’agrégation et un estimateur des moindres carrés avec une contrainte de forme convexe. Des inégalités d’oracle sont obtenues, et nous construisons aussi des intervalles de confiance honnêtes et adaptatifs.

L’agrégation d’estimateurs est le problème suivant. Lorsque plusieurs méthodes sont proposes pour le même problème statistique, comment construire une nouvelle méthode qui soit aussi performante que la meilleure parmi les méthodes proposées? Nous étudierons ce problème dans trois contextes: l’agrégation d’estimateurs de den- sité, l’agrégation d’estimateurs affines et l’agrégation sur le chemin de régularisation du Lasso.

Summary

This PhD thesis studies two fields of Statistics: Aggregation of estimators and shape constrained regression.

Shape constrained regression studies the regression problem (find a function that approximates well a set of points) with an underlying shape constraint, that is, the function must have a specific "shape". For instance, this function could be nondecreasing of convex: These two shape examples are the most studied. We study two estimators: an estimator based on aggregation methods and the Least Squares estimator with a convex shape constraint. Oracle inequalities are obtained for both estimators, and we construct confidence sets that are adaptive and honest.

Aggregation of estimators studies the following problem. If several methods are proposed for the same task, how to construct a new method that mimics the best method among the proposed methods? We will study these problems in three settings: aggregation of density estimators, aggregation of affine estimators and aggregation on the regularization path of the Lasso.

Documents relatifs