HAL Id: hal-01109003
https://hal.inria.fr/hal-01109003
Submitted on 23 Jan 2015
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Estimation des quantiles conditionnels par quantification optimale : nouveaux résultats
Isabelle Charlier, Davy Paindaveine, Jérôme Saracco
To cite this version:
Isabelle Charlier, Davy Paindaveine, Jérôme Saracco. Estimation des quantiles conditionnels par
quantification optimale : nouveaux résultats. 46èmes Journées de Statistique, Jun 2014, Rennes,
France. �hal-01109003�
Estimation des quantiles conditionnels par quantification optimale : nouveaux r´ esultats
Isabelle Charlier 1,2,3 & Davy Paindaveine 1,2 & J´ erˆ ome Saracco 3
1 Universit´ e Libre de Bruxelles, D´ epartement de Math´ ematique, Boulevard du Triomphe, Campus Plaine, CP210, B-1050, Bruxelles, Belgique.
ischarli@ulb.ac.be, dpaindav@ulb.ac.be
2 ECARES, 50 Avenue F.D. Roosevelt, CP114/04, B-1050, Bruxelles, Belgique.
3 Universit´ e de Bordeaux, Institut de Math´ ematiques de Bordeaux, UMR CNRS 5251 et INRIA Bordeaux Sud-Ouest, ´ equipe CQFD, 351 Cours de la Lib´ eration, 33405 Talence.
Jerome.Saracco@math.u-bordeaux1.fr
R´ esum´ e. Nous construisons un estimateur non-param´ etrique des quantiles condition- nels de Y sachant X en utilisant la quantification optimale. Les quantiles conditionnels sont particuli` erement int´ eressants lorsqu’il apparaˆıt que la moyenne conditionnelle seule ne permet pas de repr´ esenter convenablement l’impact de la covariable X sur la variable d´ ependante Y . La quantification optimale en norme L p est une m´ ethode de discr´ etisation utilis´ ee depuis les ann´ ees 1950 en ing´ enierie. Elle permet d’obtenir la meilleure approxi- mation d’une distribution continue par une distribution discr` ete de support de taille N .
Le but de ce travail est donc d’appliquer la quantification optimale ` a l’estimation de quantiles conditionnels. Nous ´ etudions la convergence de l’approximation ainsi d´ efinie (N → ∞) et de l’estimateur en d´ ecoulant (n → ∞). Celui-ci a ´ et´ e impl´ ement´ e dans R afin d’en ´ evaluer le comportement num´ erique et de r´ ealiser une ´ etude de simulations. Nous l’avons ensuite compar´ e aux m´ ethodes existantes.
Mots-cl´ es. Estimation non-param´ etrique, Quantile conditionnel, Quantification op- timale.
Abstract. We construct a nonparametric estimator of conditional quantiles of Y given X using optimal quantization. Conditional quantiles are particularly of interest when it is felt that conditonal mean is not representative of the impact of the covariable X on the dependent variable Y . Optimal quantization in L p -norm is a discretizing method used since the fifties in engineering. We use it to find the best approximation of X by a discrete version with support of size N .
The aim of this work is to apply optimal quantization to conditional quantile estima- tion. We study the convergence of the approximation defined above (N → ∞) and of the resulting estimator (n → ∞). It was implemented in R in order to evaluate its numerical behavior and realize a simulation study. We then compare it with existing methods.
Keywords. Nonparametric estimation, Conditional quantile, Optimal quantization.
1 Les quantiles conditionnels
Introduite par Koenker et Bassett [3], la notion de quantiles conditionnels a pour principal int´ erˆ et de fournir une alternative ` a la moyenne conditionnelle en repr´ esentant de mani` ere plus claire et compl` ete l’impact des covariables sur la variable d´ ependante, notamment dans la cas de donn´ ees h´ et´ erosc´ edastiques. Nous observons dans la Figure 1(b) une image beaucoup plus pr´ ecise de la distribution conditionnelle de Y sachant X grˆ ace aux courbes de quantiles que celle obtenue avec la moyenne conditionnelle ` a la Figure 1(a). La litt´ erature sur ce sujet s’est depuis fortement d´ evelopp´ ee et plusieurs estimateurs non-param´ etriques ont ´ et´ e ´ etudi´ es (voir notamment Bhattacharya et Gangopadhyay [2]
et Yu et Jones [6]).
Les quantiles conditionnels sont d´ efinis de deux mani` eres ´ equivalentes. La d´ efinition en termes de solution d’un probl` eme d’optimisation est celle que nous avons choisie dans notre ´ etude.
-3 -2 -1 0 1 2
-10-5051015
x
y
(a)
-3 -2 -1 0 1 2
-10-5051015
x
y
95
75 50
25 5
(b)
Figure 1 – (a) En bleu, la courbe de la moyenne conditionnelle de Y sachant X, (b) Cinq courbes de quantiles conditionnels : en vert, α = 0.5 ; en orange, 0.25 pour la plus basse et α = 0.75 pour la plus haute ; en rouge, α = 0.05 pour la plus basse et 0.95 pour la plus haute.
D´ efinition 1.1. Le quantile conditionnel d’ordre α de Y sachant X = x est d´ efini par q α (x) = arg min
a∈ R
E[ρ α (Y − a)|X = x],
o` u ρ α (z) = αz I [z≥0] − (1 − α)z I [z>0] est appel´ ee la fonction de perte ou de coˆ ut.
En pratique, la distribution conditionnelle de Y sachant X = x est inconnue et nous
voulons l’estimer ` a partir d’un ´ echantillon de taille n, {(X i , Y i )} i=1,...,n , au moyen des
fonctions de quantiles conditionnels. L’estimation de ces quantiles permet de construire
des courbes de r´ ef´ erence ` a l’int´ erieur desquelles se trouvera une certaine proportion des observations. Ces courbes de r´ ef´ erence ont de nombreuses applications et sont utilis´ ees dans divers domaines comme en m´ edecine (courbe de r´ ef´ erence pour la croissance par exemple) mais aussi en ´ economie, ´ ecologie, analyse de dur´ ee de vie, etc.
2 Quantification optimale en norme L p
D’abord utilis´ ee en ing´ enierie (traitement du signal et th´ eorie de l’information), la quantification optimale consiste en la discr´ etisation d’un signal continu ` a l’aide d’un nombre fix´ e de points, les quantifieurs, dont la position doit ˆ etre judicieusement choi- sie afin de rendre la transmission du signal la plus efficace possible. Elle a depuis ´ et´ e utilis´ ee dans de nombreux autres domaines mais encore tr` es rarement en statistique (voir par exemple Aza¨ıs, G´ egout-Petit et Saracco [1]).
Dans un contexte math´ ematique, la quantification optimale en norme L p , p ≥ 1, consiste ` a ´ etudier la meilleure approximation d’un vecteur al´ eatoire X de dimension d par un vecteur q(X) prenant au plus N valeurs dans R d . Nous cherchons donc un vecteur tel que l’erreur de quantification en norme L p , kX − q(X)k p , soit minimale, avec kZk p = E[|Z| p ] 1/p , o` u | · | d´ enote la norme euclidienne dans R d .
Plus pr´ ecis´ ement, fixons N et consid´ erons x une grille compos´ ee de N points x 1 , . . . , x N appartenant ` a R d . Nous cherchons la fonction q x : R d → x = {x 1 , . . . , x N } telle que
kX − q x (X)k p = inf{kX − q(X)k p , q : R d → x est une fonction de Borel}.
La solution de ce probl` eme est la fonction q x projetant sur le plus proche voisin. Plus pr´ ecis´ ement, soit C i (x), i = 1, . . . , N une partition de Borel de R d satisfaisant, pour tout i = 1, . . . , N , C i (x) ⊂ {y ∈ R d : |x i − y| = min 1≤j≤N |x j − y|}. En clair, un point va appartenir ` a la cellule C i (x) si et seulement si le point x i est le point de la grille qui lui est le plus proche. Une telle partition est appel´ ee partition de Voronoi. La fonction q x est donc d´ efinie comme
q x (ξ) =
N
X
i=1
x i I C
i(x) (ξ),
pour tout vecteur ξ ∈ R d . Nous discr´ etisons donc X de la fa¸con suivante.
D´ efinition 2.1. Le vecteur al´ eatoire X b x = q x (X) = P N
i=1 x i I C
i(x) (X) est appel´ e la quan- tification de Voronoi de X.
Il reste ` a choisir la grille x de mani` ere ` a minimiser l’erreur de quantification kX− X b x k p .
L’existence d’une grille atteignant le minimum a ´ et´ e obtenue sous la condition que la loi
de X ne charge pas les hyperplans (voir Pag` es [4]). Il n’existe cependant pas de r´ esultat
d’unicit´ e ni de forme ferm´ ee nous permettant de d´ eterminer une N -grille optimale. En
pratique, nous utilisons l’algorithme du gradient stochastique permettant d’en obtenir
une ` a N fix´ e (voir Pag` es [4] et Pag` es et Printems [5]).
3 Approximation des quantiles conditionnels
Soit X un vecteur al´ eatoire de dimension d, X : (Ω, F , P ) → R d et soit p ≥ 1 tel que X ∈ L p (Ω). Nous consid´ erons le mod` ele non-param´ etrique
Y = f (X, ),
o` u la variable r´ eponse Y est li´ ee ` a X par une fonction f inconnue et o` u est un terme d’erreur ind´ ependant de X. Nous voulons approcher les quantiles conditionnels de Y sachant X = x. L’id´ ee est de remplacer X dans la D´ efinition 1.1 par une approximation discr` ete construite ` a l’aide de la quantification optimale. Plus pr´ ecis´ ement, nous nous pla¸cons sous l’hypoth` ese suivante.
Hypoth` ese (A) (i) Il existe δ > 0 tel que kXk p+δ < ∞ ; (ii) la loi de X ne charge pas les hyperplans ; (iii) il existe une constante C > 0 telle que, pour tout u, v ∈ R d , kf(u, ) − f(v, )k p ≤ C|u − v|.
Ces hypoth` eses nous permettent notamment d’utiliser les r´ esultats classiques en quan- tification pour X. Par cons´ equent, pour N fix´ e, il existe γ N ∈ ( R d ) N une grille optimale pour X et nous quantifions X en le projetant sur cette grille, ce qui nous donne le vecteur al´ eatoire discret X b N . Soient x ∈ R d et ˆ x sa projection sur la grille γ N , c’est-` a-dire le point qui lui est le plus proche au sens de la norme euclidienne. Nous approchons alors q α (x) par
q b N α (x) = arg min
a∈ R
E[ρ α (Y − a)| X b N = ˆ x].
Le th´ eor` eme suivant nous permet de contrˆ oler l’´ ecart entre b q α N (x) et le vrai quantile conditionnel.
Th´ eor` eme 3.1. Sous l’hypoth` ese (A) et pour α ∈ (0, 1), nous avons k q b α N (X) − q α (X)k p = O(N −1/2d )
pour N → ∞.
4 Estimation des quantiles conditionnels
Supposons maintenant que {(X 1 , Y 1 ), . . . , (X n , Y n )} sont n copies ind´ ependantes de (X, Y ). Nous construisons une grille optimale γ N ` a l’aide de l’algorithme du gradient stochastique 1 . Nous projetons les X i sur cette grille, et nous d´ efinissons alors l’estimateur par
q b α,n (x) = arg min
a∈ R n
X
i=1
ρ α (Y i − a) I [ X b
i=ˆ x] .
1. Nous ne d´ etaillons pas plus ici l’initialisation et le fonctionnement de cet algorithme, voir Pag` es [5]
pour plus de d´ etails.
La convergence presque sˆ ure de cet estimateur vers l’approximation d´ efinie plus haut a ´ et´ e obtenue pour n → ∞ avec N fix´ e sous certaines hypoth` eses suppl´ ementaires nous assurant que l’algorithme utilis´ e fournit (` a n → ∞) une grille optimale.
Dans le cas de petites tailles d’´ echantillons (n < 2000), l’algorithme du gradient sto- chastique peut fournir une grille qui n’est en r´ ealit´ e pas optimale, ce qui a un impact cons´ equent sur les courbes estim´ ees. Pour corriger ce probl` eme, nous avons eu recours ` a des estimations bootstrap. L’id´ ee est de g´ en´ erer ` a partir de notre ´ echantillon de d´ epart B ´ echantillons bootstrap de taille n avec remise. Nous proc´ edons alors comme expliqu´ e ci-dessus avec chacun de ces ´ echantillons et nous obtenons B estimations, not´ ees ˆ q α,n (b) (x) pour b = 1, . . . , B, que nous moyennons ensuite. Plus pr´ ecis´ ement, nous avons
¯
q α,n (x) = 1 B
B
X
b=1
ˆ q α,n (b) (x).
En pratique, nous avons choisi B = 50 afin d’obtenir des courbes suffisamment lisses sans toutefois augmenter de mani` ere cons´ equente le temps de calcul.
Un exemple de construction de courbes de r´ ef´ erence fond´ ees sur notre estimateur est donn´ e ` a la Figure 2.
-3 -2 -1 0 1 2 3
-6-4-20246
X
Y
(a)
-3 -2 -1 0 1 2 3
-6-4-20246
X
Y