• Aucun résultat trouvé

Sélection de modèles optimale par pénalité de rééchantillonnage pour des M-estimateurs à contraste régulier.

N/A
N/A
Protected

Academic year: 2021

Partager "Sélection de modèles optimale par pénalité de rééchantillonnage pour des M-estimateurs à contraste régulier."

Copied!
5
0
0

Texte intégral

(1)

HAL Id: inria-00386782

https://hal.inria.fr/inria-00386782

Submitted on 22 May 2009

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Sélection de modèles optimale par pénalité de rééchantillonnage pour des M-estimateurs à contraste

régulier.

Adrien Saumard

To cite this version:

Adrien Saumard. Sélection de modèles optimale par pénalité de rééchantillonnage pour des M-

estimateurs à contraste régulier.. 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux,

France, France. �inria-00386782�

(2)

Sélection de modèles optimale par pénalités de rééchantillonnage

pour des M-estimateurs à contraste régulier.

Adrien Saumard

En thèse sous la direction de Philippe Berthet, Université Rennes 1, IRMAR.

Résumé

On se propose ici d’étudier l’e¢ cacité, et en particulier l’optimalité de procédures de sélection de modèles par pénalités de rééchantillonnage pour une large classe de M-estimateurs. Nous donnerons la dé…nition d’un contraste dit régulier, et dans ce cadre nous étudierons sous des

hypothèses générales l’excès de risque du M-estimateur à modèle …xé, en donnant des bornes supérieures et inférieures en probabilité. Il nous faudra entre autre améliorer une inégalité due à Ho¤man-Jorgensen pour des variables aléatoires à valeurs dans un Banach. Nous montrerons en…n comment utiliser ces informations pour dégager un cadre d’optimalité dans les procédures de sélection de modèles associés à ses estimateurs.

Abstract

Our goal is here to study the e¢ ciency and in particular the optimality of resampling model selection procedures for a large class of M-estimators.

We will thus de…ne a regular contrast, and for M-estimators associated to those contrasts we will study upper and lower bounds in probability for their excess risk on a …xed model. To do this we will need an improvement of an inequality due to Ho¤man-Jorgensen for random variables in Banach spaces. We then intend to show how to derive sharp oracle inequalities from

such informations, and so to study general conditions of optimality.

Mots-clefs : sélection de modèles, rééchantillonnage, M-estimateurs, probabilité dans les espaces de Banach.

1 Introduction.

Il existe de nombreux travaux sur la qualité des procédures de sélection de modèles par

pénalisation, comparant la qualité de l’estimateur sélectionné à celle dite de l’oracle,

c’est-à-dire du meilleur estimateur parmi ceux construits sur chaque modèle. Une ques-

tion subtile liée à l’optimalité des procédures a été étudiée dans les travaux pionniers

de Lucien Birgé et Pascal Massart (2001 et 2006) dans un contexte gaussien à variance

(3)

connue : celle de l’existence de pénalité minimale et du phénomène de pente. En e¤et, ces auteurs ont montré que si la pénalité passe en-dessous d’une valeur critique appelée pénalité minimale, alors la procédure choisit systématiquement des modèles de dimension beaucoup trop grande, et de plus que la pénalité optimale, celle qui sélectionne un estima- teur qui a asymptotiquement la même performance que l’oracle, est deux fois la pénalité minimale. Cette propriété dite de pente peut donc servir à calibrer numériquement la con- stante devant une pénalité "générique" en observant par exemple la dimension des modèles sélectionnés. Qu’en est-il de la généralité de ce phénomène ? Yannick Baraud, Christophe Giraud et Sylvie Huet (2007) ont montré l’existence de pénalités minimales dans le cas gaussien à variance inconnue. Puis Sylvain Arlot (2007) a montré le phénomène de pente dans un contexte beaucoup plus général de régression hétéroscédastique. Néanmoins, l’étude a été menée dans le cadre de la régression par histogrammes, et donc bien que le passage à la généralité ait été opéré sur le bruit, la structure des modèles sous-jacents est fortement rentrée en compte dans la démonstration des résultats. De plus, Sylvain Arlot (2007) a proposé des pénalités dites de rééchantillonnage qui sont sous certaines condi- tions asymptotiquement optimales. Le but du travail que nous présentons était donc de passer à une plus grande généralité et de se libérer des calculs spéci…ques aux modèles par histogrammes. Nous allons donc dé…nir le cadre statistique de notre étude.

2 M-estimation à contraste régulier.

Etant donnée une loi P = P Z sur un espace mesurable ( Z ; T ) nous voulons estimer une fonctionnelle s de la loi de la forme

s = arg min

s 2S P (Ks) ;

où P f = E [f (Z )] ; S est un espace fonctionnel et K; appelé contraste, prend ses arguments dans S et véri…e 8 s 2 S ; j P (Ks) j < 1 :

Par exemple, pour l’estimation d’une fonction de régression avec Z = (X; Y ), on a s = E [Y j X = : ] = arg min

s 2 L

2

(P

X

) P (Ks) ; où (Ks) (x; y) = (y s (x)) 2 :

De plus un contraste sera dit régulier s’il véri…e pour P -presque tout z 2 Z , et tout s 2 S ,

(Ks) (z) (Ks ) (z) = s 0 + 1 (z) (s s ) (z) + s 2 (z) (s s ) (z) où la fonction s 2 et la constante s 0 dépendent de s et s 2 (z) = 0.

En reprenant le cas de la régression, avec (Ks) (x; y) = (y s (x)) 2 et s (z) = s (x; y) = s (x), on a

(Ks) (z) (Ks ) (z) = (s (x) s (x)) (s (x) s (x) 2 (y s (x)))

= 2 (y s (x)) (s (x) s (x)) + (s (x) s (x)) 2 :

(4)

Donc K est un contraste régulier avec s 0 = 0;

1 (z) = 2 (y s (x)) et

s

2 (z) = s (x) s (x) :

D’autres contrastes que celui des moindres carrés en régression véri…ent cette propriété de régularité, c’est par exemple le cas en densité avec le contraste de Kullback-Leibler où celui des moindres carrés par rapport à une mesure de référence connue.

Ce développement du contraste va nous permettre un contrôle …n de la performance du M-estimateur sur un modèle …xé, étape d’étude préalable à celui de la sélection de modèles.

3 Excès de risque à modèle …xé.

Soit M un modèle, c’est-à-dire un sous-espace de dimension …nie de S et soit (Z 1 ; :::; Z n ) un échantillon i.i.d. de loi P . Nous dé…nissons un M-estimateur s n sur M associé au contraste K par

s n = s n (M ) 2 arg min

s 2 M P n (Ks) ; où P n est la mesure empirique associée à l’échantillon (Z 1 ; :::; Z n ).

Nous cherchons à localiser l’excès de risque du M-estimateur, c’est-à-dire la quantité aléatoire

P (Ks n ) P (Ks ) ( 0) :

Le contrôle se fait par bornes supérieures et inférieures en probabilité. Du côté des bornes supérieures, beaucoup de travaux ont été faits, comme par exemple celui de Pascal Massart et Elodie Nédélec (2006) où ils étudient l’in‡uence de conditions de marge sur les M-estimateurs de manière très générale, ou encore celui d’Evarist Giné et Vladimir Koltchinskii (2006) qui généralise en certains aspects l’étude de P.Massart et E.Nédélec en proposant une technique di¤érente pour aborder les processus empiriques renormalisés.

Néanmoins, il existe très peu d’études des bornes inférieures en probabilité, c’est-à-dire des bornes du type

P [P (Ks n ) P (Ks ) B I ] ":

Notre étude repose entre autre à ce niveau sur une amélioration d’une inégalité due à Ho¤man-Jorgensen en théorie des probabilités dans les espaces de Banach. Cette inégalité stipule que si (Y 1 ; :::; Y n ) sont des variables i.i.d. à valeurs dans un espace de Banach (B; k : k ) alors on a

E

1p

" n X

i=1

Y j

p #

K p log p E

" n X

i=1

Y j

#

+ E

p1

max

1 i n k Y j k

p !

(5)

où K 1 est une constante numérique. Cette inégalité majore donc le moment d’ordre deux de la somme des variables par le moment d’ordre 1, plus un terme résiduel, le tout à une constante multiplicative près. Quitte à grossir le terme résiduel nous aimerions changer la constante multiplicative par 1. Ceci est en fait possible avec des hypothèses assez souples sur les variables, le terme de reste nécessitant plus de notations.

4 Sélection de modèles.

Une fois le contrôle à modèle …xé établi, nous reprenons essentiellement l’algèbre de dé- monstration exposé par Sylvain Arlot (2007), a…n de démontrer des inégalités oracles trajectorielles pour l’estimateur sélectionné, avec contrôle de la constante dans l’inégalité.

Bibliographie

[1] Arlot S. (2007) Rééchantillonnage et Sélection de modèles, mémoire de thèse.

[2] Baraud Y., Giraud C., Huet S. (2007) Gaussian model selection with unknown variance, To appear Ann.Stat.

[3] Birgé L. et Massart P. (2001) Gaussian model selection, J. Eur. Math. Soc. (JEMS), 3(3):203-268.

[4] Birgé L. et Massart P. (2006) Minimal penalties for model selection, Probab. Theory Related Fields, 134(3).

[5] Giné E. et Koltchinskii V. (2006) Concentration inequalities and asymptotic results for ratio type empirical processes, Ann.Probab., 33:1143-1216.

[6] Massart P. et Nédélec E. (2006) Risks bounds for statistical learning, Ann.Stat.,

34(5),2326–2366.

Références

Documents relatifs

Les membres de droit sont les parents, le tuteur ou le représentant légal des enfants fréquentant l’accueil de loisirs, ils doivent s’acquitter de frais de

Comme le montre le tableau 1, on peut observer en première analyse, d’une part, que les hommes gagnent plus que les femmes et, d’autre part, que les différences de taux des

Les visites médicales d’entrée sont donc, à deux titres, un cadre privilégié pour les acteurs engagés dans la production de connaissances sur les conditions de santé de la

Vous disposez de 2 tables (table1 et table2) différentes pour chaque sujet Vous remplacerez les noms table1 et table2 par les noms des tables de votre sujet (commencé

Le but de l'exposé est de valider cette heuristique et de montrer l'optimalité non-asymptotique de l'estimateur sélectionné dans un cadre générique nou- veau que nous dénirons et

Quand γ 0 = − 1/3, il y’a deux cas : sans contamination, l’EMV est le plus efficace pour estimer l’un ou l’autre paramètre, mais la méthode de médiane pour l’estimation de

Journées MAS et Journée en l’honneur de Jacques Neveu, Aug 2010,

En utilisant les contrˆoles optimaux obtenus sur l’exc`es de risque et l’exc`es de risque empirique pour des mod`eles de dimension raisonnable, dans le cadre g´en´eral de