R EVUE DE STATISTIQUE APPLIQUÉE
B ERNARD C OLIN
N ACÉRA M ELLAL
Rapport des quantiles empiriques des composantes d’une loi bidimensionnelle
Revue de statistique appliquée, tome 50, n
o4 (2002), p. 55-80
<http://www.numdam.org/item?id=RSA_2002__50_4_55_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
RAPPORT DES QUANTILES EMPIRIQUES
DES COMPOSANTES D’UNE LOI BIDIMENSIONNELLE
Bernard
COLIN(1),
NacéraMELLAL(2)
(1)
Département
deMathématiques
etd’Informatique,
Université de Sherbrooke, Sherbrooke JIK-2Rl,(Québec)
Canada(2)
Département
deMathématiques
et deStatistique,
Université d’Ottawa, Ottawa KIN-6N5 (Ontario) CanadaRÉSUMÉ
Notant la sensibilité
particulière
aux données aberrantes de l’estimateur usuel du rapport de deux moyennes, on considère comme alternative, afin depallier
cette situation, lequotient
de deux médianes et
plus généralement
lequotient
de deuxquantiles.
On montre que ce dernier est, pour le rapport desquantiles théoriques,
un estimateurasymptotiquement
normal, sans biaiset convergent. Des simulations montrent que le rapport des médianes, en tant
qu’ estimateur
du rapport des moyennes, se compare fort bien à des estimateurs de typeHodges-Lehmann
ou àdes estimateurs construits à l’aide du rapport de moyennes
tronquées
ou censurées etqu’il
est,par ailleurs, moins sensible aux données aberrantes que le
quotient
des moyennesempiriques.
Mots-clés : Loi bidimensionnelle, rapport des
quantiles, copules,
loiasymptotique.
ABSTRACT
Outliers in data set may have some drastic effects on the
performance
of some estimators.In this case for
example,
the estimation of the ratio of two means may begreatly
affectedby
such outliers. To deal with this
problem,
one can use, as acompetitor
of the means ratio, the medians ratio or moregeneraly
thequantiles
ratio. We show, in this paper, that theempirical quantiles
ratio is anasymptotically
normal, unbiaised and consistant estimator of the theoreticalquantiles
ratio. Some simulations show that medians ratio, used as an estimator of means ratioperforms
as well as some others likeHodges-Lehmann,
truncated means ratio or winsorizedmeans ratio estimators and moreover is less sensitive to outliers than the means ratio.
Keywords : Bidimensional probability
measures,quantiles
ratio,copula,
asymptotic normality.1. Introduction
Il est usuel dans certains domaines comme ceux de la
finance,
del’économie,
de la
sociologie
et bien d’autres encore, que l’on soit amené à effectuer dans le but de construire desindices,
lequotient
de deux variables aléatoiresX
etY lequel
seramène
fréquemment
auquotient
des deux moyennesempiriques X
et Y. Il en estde même en théorie de
l’échantillonnage,
que ce soit dans le cas de l’estimation d’unrapport,
ou dans le cas où l’on désire améliorer lesperformances
d’un estimateur d’un total par le biais d’une information auxiliaire.Connaissant la sensibilité
particulière
des moyennesempiriques
àl’égard
desobservations aberrantes et donc de
l’impact
que celapourrait
avoir sur laqualité
del’estimateur usuel du
quotient
de deux moyennes, onpourrait
penser àutiliser,
à cettefin,
lerapport
des moyennestronquées
ou lerapport
des moyennes censurées ou encore lerapport
de diversesstatistiques
déduites de la considération d’estimateurs detypes M, L,
ou R autrementdit,
d’estimateursqui
sontrespectivement :
solutiond’un
problème
de minimisation d’une fonction des observations et d’unparamètre,
combinaison linéaire des
statistiques
d’ordre ou fonction des rangs des observations.Toujours
dans ce contexte,l’approche
fonctionnelle mise à l’avant par les U et lesV-statistiques pourrait
s’avérer desplus
intéressantes tant dupoint
de vueasymptotique
que dupoint
de vue,plus empirique,
durééchantillonnage.
Cependant
considérant le fait que la médiane d’une loi deprobabilité
constitueun
paramètre
de tendance centrale et que la médianeempirique
est moins sensible aux observations aberrantes que ne l’est la moyenneempirique,
nous proposons, en par- ticulier dans le cas des loissymétriques,
de considérer à titre d’estimateur concurrent auquotient
de deux moyennes, lequotient
de deuxmédianes,
ouplus généralement
lequotient
de deuxquantiles empiriques.
Cette idée découle del’exemple
suivant em-prunté
à unproblème
d’estimation en théorie del’échantillonnage
et tiré del’ouvrage
de Cochran
[2].
Exemple. -
Le nombre total d’ habitants(en milliers)
dans 196grandes
villes desEtats-Unis
(quatre grandes
villes :New-York, Chicago, Philadelphie
etDétroit,
ontété
omises)
est de 22919 en 1920 et de 29351 en 1930. Onprélève
au hasard 9 villesparmi
les196,
on noterespectivement
par(xi)
et par(Yi)
le nombre d’habitants(en milliers)
de ces villes en 1930 et en 1920. L’ensemble des observations estprésentée
dans le tableau suivant :
Les valeurs
numériques
Y6 = 2 et xg = 570correspondent
de fait à des valeurs aberrantes car elles devraient êtrerespectivement
de 25 et 70. Si l’on désire alors estimer la croissance relative moyenne de lapopulation
des 196 villes retenues de 1920 à1930,
à l’aide de l’échantillonobservé,
en utilisant lequotient
desmoyennes empiriques x/y,
on trouve comme estimation2,11
alors que le vrairapport XY
est de
29351/22919 - 1, 28. Cependant
lerapport
des médianesempiriques
med
(xi) /med (y2) = x(5)/y(5)
a pour valeurnumérique 93/76 = 1,22.
Cettedernière
valeur, beaucoup plus proche
de la réalité que celle fournie par lequotient
des moyennes
empiriques,
incite à penser que lerapport
des médianesempiriques représente
un estimateur durapport
des moyennes de lapopulation plus
"robuste"que l’ estimateur habituellement utilisé.
Désignant
parp
etq
lesquantiles empiriques
d’ordres p et q de deux variables aléatoires X et Yquelconques,
nous nous proposons, dans lesparagraphes qui suivent,
d’étudier le
rapport p/q (loi
à distancefinie, espérance, variance,
loiasymptotique)
et
d’envisager
enparticulier
lerapport 0,5/0,5
comme alternative à l’estimateurX/Y
dans le cas où la loi ducouple (X, Y)
estsymétrique.
Nous illustrerons enfin le tout à l’aide de simulations.Afin de
préciser
le cadrethéorique
de l’étudequi suit,
nous considèrerons une structurestatistique paramétrique
dominée de la forme :où 03BC désigne
une mesure de référence or-finie(en général
la mesure deLebesgue)
telleque
Po ~03BC~03B8~0398 et où 0398 désigne l’espace paramètre
de la mesure deprobabilité
considérée. Associé à cette structure
statistique,
nous noterons par(R 2, BR2, Po)
~nle modèle
empirique engendré
par n réalisationsindépendantes
du modèle initial.2. Loi du
rapport
desstatistiques
d’ordre descomposantes
d’un vecteur aléatoire deR 2
On
désignera
par X et Y lescomposantes
d’un vecteur aléatoire deR2,
par(X 1, Vi), (X2, Y2),..., (Xn, Yn)
les observations issues du modèle telqu’introduit
ci-dessus et l’on notera par
X(r)
etY( s)
lesstatistiques
d’ordres r et s associéesrespectivement
aux observations(Xi)
et(Yi)
pour tout i =1, 2,...,
n.2.1. Loi du
couple (X(r), Y(s))
Soit
FX(r) ,Y(s) (x, y)
la fonction derépartition
du vecteur aléatoire(X(r), Y(s)).
Pour des raisons de commodité d’écriture nous noterons désormais cette fonction de
répartition
par :F(r,s) (x, y).
Posons alors :L’événement
(X(r)
x,Y(s) y)
nepeut
se réaliser que s’il y a au moins r observationsXi
telles queXi x
et au moins s observationsYj
telles queYj
y.Notons par
Alm
l’événement défini par : "il y a exactement l observationsXi (l r)
telles queXi x
et il y a exactement m observationsYj (m s)
telles queYj y".
Pour des valeurs de et mfixées,
notonségalement
parAlm, k
l’événement défini par : "il y a exactement kcouples (Xi, Yi)
tels queXi
x etYi y" où k
min(l, m).
Pour que ce dernier événementpuisse
se réaliser il faut doncqu’il
y ait exactement : 1 - kcouples
tels queXi
x etYi
> y, m - kcouples
tels queXi
> x etYi
y et enfin n - l - m + kcouples
tels queXi
> x etY2
> y. Laprobabilité
d’un tel événement est alors donnée par :
Afin de déterminer
P(Alm),
il suffit alors d’effectuer la somme desprobabilités
P(Alm,k)
sur toutes les valeurs de kcompatibles
avec les valeurs del,
m et n.Observant que la condition t + m n entraîne
que k
0 et que la condition l + m > n entraîneque kl
+ m - n, ilvient,
enposant u
=Sup (0, l
+ m -n)
et v - min
(1, m) :
Désignant
parMn (k, l, m)
le coefficientn!/k! (l
-k)! (m - k)! (n -
l - m +k) !
et tenant
compte
des contraintes sur les indices l et m, il s’ensuit que :On notera que ce résultat est
indépendant
de la nature discrète ou non de lafonction de
répartition
du vecteur aléatoire considéré. Par ailleurs si y ~ o0 onvérifie sans
peine
que :que :
et que :
k~ l 1 avec
probabilité 1;
m-k~ n - l avecprobabilité
1Ainsi en
posant P03B8(X x) = Fx (x)
on a :et
également,
avec des notationsanalogues :
Ces deux dernières
expressions
ne sont autres, bienentendu,
que les lois desstatistiques
d’ordreX(r)
etY(s) .
Il se
peut
dans lapratique
que la détermination deF(,,,,) (x, y)
entraîne des calculsfastidieux;
on pourraalors,
si l’on nedispose
pas d’autres moyens pourl’évaluer,
utiliser desapproximations numériques
telles que celles décrites dans Galambos[6].
Si l’on
désigne
parFx,y (x, y)
la loi du vecteur aléatoire(X, Y)
on a :et la densité du
couple (X(r), Y(s)),
notéef(r,s) (x, y),
a pourexpression :
2.2. Loi du
rapport X(r)/Y(s)
Nous nous contenterons de donner ici
l’expression générale
de la densité de la variable aléatoireX(r)/Y(s) (cette
dernièreétant,
parailleurs,
définie presque sûrement en vertu du fait que, dans le cadre retenu,P(Y(s) ~ 0)
=1)
Considérons le
changement
de variable suivant :La valeur absolue du
jacobien
de la transformationayant
pourexpression
|U|/V2,
il s’ensuit que la densité deprobabilité
ducouple (U, V)
est donnée par :Par
conséquent :
ou encore en
posant u,,"v -
t, il vient :De la même manière si l’on
pose
Par ailleurs si les variables aléatoires X et Y sont
échangeables,
lesstatistiques
d’ordre
X(r)
etY(r)
sontrégies
par la même loi pour tout r =1, 2,...,
n, de sorte que les variablesX(r)/Y(s)
etY(r)/X(s)
sontidentiquement
distribuées. Deplus
si r = s les variables Z =
X(r)/Y(r)
et1/Z = Y(r)/X(r)
ont même loi.Mentionnons enfin que le cadre
théorique
considérépermet,
à l’aide duchangement
de variables habituel U =Fx (X)
et V =Fy (Y) (à
ne pas confondreavec le
précédent),
de se ramenersystématiquement
au cas où les variables aléatoires suivent une loi uniforme03BC[0,1]
sur l’intervalle[0, 1].
On peut alors vérifier sanspeine
que la fonction de
répartition Fu, v (u, v)
ducouple (U, V),
est donnée par :Cette dernière
expression,
dite"représentation
uniforme" deFx,y (voir
Sklar[14],
Fréchet[5]), porte
le nom de"copule" (voir également
Kimeldorf etSampson [8]).
Notant que pour tout r, s -
1,2,...,n
lesensembles {FX(X(r))}
et{FY (Y(,» 1
ne sont autres que lesensembles {U(r)} et {V(s)}
desstatistiques
d’ordres r et s des variables aléatoires U et
V,
il vient :Outre le fait que cette
représentation
uniforme constitue un cadre communpour l’ensemble des lois
considérées,
elle permet certainessimplifications
dans lescalculs,
et s’avèreparticulièrement
intéressante dans le cas où l’on désire effectuer des simulationssi,
desurcroît,
lacopule
est archimédienne(voir Ling [9],
Genest etMacKay [7]).
Dans ce cas eneffet,
la simulation s’obtient engénérant
deux variables aléatoiresindépendantes
de lois uniformes sur l’intervalle[0,1].
3. Loi
asymptotique
durapport
de deuxquantiles empiriques
des
composantes
d’un vecteur aléatoirede R 2
Dans ce
paragraphe
de natureplus technique,
ne faisantappel cependant qu’à
des outils et des résultats
classiques,
nous montrerons la convergence en loi durapport
desquantiles empiriques p/q.
Dans le cas des loisFx,y (x, y) symétriques,
nous
présenterons
lesconséquences pratiques
de ce résultat en considérant lerapport 0,5/0,5
en tantqu’estimateur
duquotient E(X)/E(Y).
Des simulations illustrerontl’aspect asymptotique
ainsi que lescomportements respectifs,
enprésence
de données
aberrantes,
des estimateurs0,5/0,5
etX/V.
3.1. Loi du
rapport
de deuxquantiles empiriques
des
composantes
d’un vecteur aléatoire deR2
Soit
(Xi, Vi), (X2, Y2),..., (Xn, Yn )
un échantillon de taille n issu d’un modèleempirique quelconque (R2, BR2, P03B8)~n. Désignons
parp
etq
lesquantiles empiriques d’ordres p
et q obtenus àpartir
des observations(X1, X2, ... , Xn )
et(Y1, Y2,..., Yn )
des variables aléatoires X et Y. Il vient en utilisant les définitions et notations habituelles :si np est un entier sinon
et
si nq est un entier sinon
Il s’ensuit que la loi du
couple (p,q)
se déduit aisément des résultatsprécédents
etqu’il
en est de même pour la loi durapport p/q
=Rp, q .
3.2. Moments d’ordres 1 et 2 du
rapport
desquantiles empiriques
De
façon générale,
il ne sera paspossible
dedonner,
pour tout n, uneexpression simple
etexplicite
de E(Rp,g)
et de E(2p,q)
en raisonprincipalement
de lacomplexité
de la loi deRp,q.
Onpeut cependant
en obtenir desapproximations
àl’aide des
techniques
usuelles.3.2.1. Moment d’ordre 1
Le
rapport p/q s’exprimant
sous la forme duquotient
de deuxstatistiques d’ordre,
parexemple X(r)/Y(s)
=F-1X (U(r)) /F-1Y (V(s)), désignons
parle vecteur moyen du vecteur aléatoire
Z - t (U(r),V(s))
etpar E
sa matrice devariance-covariance.
Posons
g(z) = g(u(r), v(s))
=F-1X(u(r))/F-1Y(v(s)) = x(r)/y(s)
etnotons par g
(Z)
la variable aléatoire associée. Utilisant la version multidimension- nelle du théorème deTaylor,
on a, ensupposant
que les conditions de différentiabilitérequises portant
sur g soientremplies :
où z * = Jl; + t
(z - 03BC)
pour un certain te ]0,1[
Le
développement
limité à l’ordre 2s’exprime
alors sous la forme :où
Gradg|03BC
etD(2)g|03BC désignent respectivement
legradient
et la matrice hessienne de la fonction g, évalués en z = 03BC.Notant,
pour des raisons de commoditéd’écriture,
parQ (z - li)
la formequadratique
il vient :
L’espérance
de la variablealéatoire g (Z)
=X(r)/Y(s)
peut doncs’exprimer
sous la forme :
et par
conséquent
on a :Ainsi,
lesapproximations
d’ordres 1 et 2 de E(X(r)/Y(s))
sont donnéesrespectivement
par :avec y == t
(r / (n
+1), s/(n + 1)) puisque
lesstatistiques U( r)
etV( s)
sont lesstatistiques
d’ordre r et d’ordre s de deux lois uniformes03BC[0,1]
Désignons
parp
etWq
lesquantiles empiriques
d’ordres p et q déduits desstatistiques
d’ordresFx (X(i)) et FY (Y(i)) i
=1, 2, ... ,
n issues de lois uniformes03BC[0,
1].Supposons
que n, r et s tendent vers l’infini de sorte quen-1
r ~ p et quen-1s
~ q. On sait dans ce cas que sous des conditions trèsfréquemment
vérifiéesdans la
pratique (voir Serfling [12],
David[3]),
lesquantiles empiriques p
etWq
convergent, respectivement,
presque sûrement vers p et q. Ainsi nous aurons enpremière approximation :
3.2.2. Moment d’ordre 2
Afin de trouver une
approximation
de la variance deX(r)/Y(s),
considérons lafonction g (z) -
E(g (Z))
=x(r)/y(s) -
E(X(r)/(Y(s)).
Cette dernière a pourexpression :
d’où :
En élevant
l’expression de g (z) -
E(g (Z))
au carré il vient :où h
(z)
est une fonction necomportant
que despuissances
de zsupérieures
ouégales
à 3. En
prenant l’espérance
des deux membres del’égalité ci-dessus,
en isolant les termes depuissances
inférieures ouégales
à 2 des autres et en tenantcompte
du fait que E(Z - y)
=0,
on a :où E
(h’ (Z))
ne fait intervenir que des moments centrés d’ordressupérieurs
ouégaux
à 3.
Ainsi
l’approximation
d’ordre 1 dedonnée par :
Quant
àl’approximation
d’ordre 2 elle est donnée par :Rappelant
queX(r) - F-1X (U(r»)
et queY(s) = F-1Y (V(s»),
on vérifieaisément que :
et que :
De même:
Ces dérivées étant connues, il est alors
possible
d’évaluer les dérivéespartielles
de la
fonction g
et d’en déduire lesapproximations
de E(X(r)/Y(s))
et decompte
tenu du fait que :Quant
à la covariance deU(r)
et deV(s)
il est nécessaire de connaître la loiconjointe
ducouple (U(r), V(s))
pour la déterminer.Cependant,
si les variables sont non corréléesou si le
couple (U(r),V(s))
est"asymptotiquement indépendant" (voir
Srivastava[15])
les calculsprécédents
s’en trouventsimplifiés.
3.3. Loi
asymptotique
durapport p/q
Considérant la
représentation
deFX,Y (x, y)
sous la forme de lacopule FU,V (u, v) = FX,Y (F-1X (u), F-1Y (v)), désignons respectivement
parp, %, Àp
et
q
lesquantiles empiriques
d’ordre p etd’ ordre q
des variables aléatoires X et Yet des variables aléatoires U =
FX (X)
et V =Fy (Y),
déduits de l’échantillonet de l’échantillon
De
même, désignons respectivement
par03BEp,
Tiq,Àp
et Wq lesquantiles théoriques
d’ordre p et
d’ ordre q
des variables aléatoires X et Y et des variables aléatoires U et V.Appliquant
le théorème dereprésentation
desquantiles
de Bahadur[1] ainsi
que le théorème de
Slutsky (voir Serfling [12])
aux"pseudo-observations"
il
vient,
en notant queÀp
= p et que wq = q :où
F (n)
et-F" désignent respectivement
les fonctions derépartition marginales
em-piriques
des variables U etV,
oùRn
= 0(n-3/4 (Logn)3/4) avec probabilité
1 et où 1
désigne
le vecteur deR2
dont lescomposantes
sontégales
à 1. Or :donc :
De
plus
pour tout i =1, 2,..., n
on a :et par
conséquent
les vecteurs aléatoiresZi
--’ ’(I]-~,
p](Ui), I]-~,
q]( v2 ) )
sontindépendants
etidentiquement
distribués de vecteur moyen J-L =t (p, q)
et de matricede variance-covariance E donnée par :
La version multidimensionnelle du théorème central limite
appliquée
à laquantité
nous
permet
de conclure quen (1 n 03A3ni=1 Zi- 03BC)
N(0, S)
et donc que le vecteuraléatoire t (F(n)U (p), F(n)V (q))
est"asymptotiquement
normal" de vecteur moyen 03BC - t(p, q) et
de matrice de variance-covariance1 n 03A3 (propriété
que l’onnotera par le
symbole :
AN(03BC, 1 n03A3)).
Il s’ensuit alors que :Posons de nouveau :
Il résulte de la dernière
propriété
que(voir Serfling [12]) :
Or
Par
conséquent :
Nous obtenons donc le résultat suivant concernant la convergence en loi de l’estimateur
p/q
durapport ç,p/ ’T/q
desquantiles théoriques 03BEp
et 7/q :Dans le cas où p = q -
0, 5
et que deplus
la loi du vecteur aléatoire(X, Y)
estsymétrique,
le résultat ci-dessus montre que0,5/0,5
est un estimateurasymptotiquement
sans biais etconvergent
durapport
des moyennesthéoriques
E(X)/E(Y) = 03BE0,5/~0,5.
Ilpourrait donc,
enprésence
de donnéesaberrantes,
constituer une alternative intéressante à l’estimateur usuelXY
et sesubstituer,
dans ce cas, à ce dernier.3.4.
Remarque
On
peut également appliquer
le théorème dereprésentation
desquantiles
deBahadur et le théorème de
Slutsky
aux variables aléatoiresp
etq
et considérer dansce cas
l’expression :
où
F(n)X
etF(n)Y désignent,
dans ce cas, les fonctions derépartition marginales empiriques
descomposantes
X et Y. Posons :et notons que les vecteurs
Zi - t (I]-~,
çp](Xi), IT]-oo, 1]q] (Yi))
i =1, 2, ... , n
sont
indépendants
etidentiquement
distribués de vecteur moyen IL -t (p, q)
et dematrice de variance-covariance E donnée par :
Il en découle que :
et
donc (F(n)X (03BEp), F(n)Y (~q))
est un vecteur aléatoire"asymptotiquement
normal"de vecteur moyen 03BC =
(p, q)
et de matrice devariance-covariance 1 n03A3.
On peut alorsconclure que :
où :
Il vient donc :
et tenant
compte
du fait que iCe résultat n’est autre que celui obtenu par
Siddiqui [13],
maisl’approche s’appuyant
sur le théorème dereprésentation
desquantiles
deBahadur,
en rend ladémonstration
plus simple.
Deplus
dans le cas où p = q =0, 5
on retrouve le résultatde Maritz [10].
4. Simulations et résultats
Les résultats des simulations
présentés ci-dessous,
issus enpartie
des travauxde Mellal
[11],
se composent de deuxparties.
Dans lapremière partie,
et bien que cela ne soit pas directementl’objet
duprésent travail,
nous comparons, dans le casd’une
population
finie(situation
laplus fréquente
enéchantillonnage)
etuniquement
de manière
empirique,
lequotient 0,5/0,5
à d’autres estimateurs concurrents duparamètre
E(X)/E (Y).
Dans la secondepartie,
nousprésentons,
dans le cas dedeux lois bidimensionnelles
continues, quelques
résultats concernant la normalitéasymptotique
duquotient
de deuxquantiles
ainsi que lecomportement
des estimateurs0,5/0,5
etX/Y
enprésence
de données aberrantes.4.1. Cas d’une
population finie
À
l’aide destechniques
de simulationusuelles,
telles que décrites parexemple
dans
Devroye [4],
ongénère
des échantillons(xi, Yi)
i =1,2,
..., n,provenant
d’unepopulation
finie de taille 1000 issue d’une loi normale N(IL, 03A3)
où :Afin d’estimer le
rapport
des moyennes E(X) /E (Y) = 3/7
=0, 42857,
on considère les estimateurs suivants :
-
Rapport
des moyennesempiriques : x/y
-
Rapport
des médianesempiriques : 0,5/0,5
-
Rapport
des moyennestronquées empiriques : xt/yt,
où :avec
-
Rapport
des moyennes censuréesempiriques :
-
Rapport
des estimateurs deHodges-Lehmann : medz1/medz2,
où :À
l’aide de 500 échantillons de tailles n,(n
=10, 20, 30, 40, 50)
issus de lapopulation
considérée ci-dessus et pour chacun descinq
estimateursprécédents,
ondétermine la moyenne, la variance et l’intervalle de confiance
symétrique interquantile
de niveau
0, 95
des estimations obtenues. Onrépète
alors 200 fois cetteopération
afind’estimer la
longueur théorique
des intervalles de confiance et l’on détermine deplus
la moyenne
générale
des estimations ainsi que la moyenne des variances obtenues àchaque répétition.
Plus
précisément,
soit T un estimateur de 03B8 = E(X) /E (Y).
Pourchaque répétition
r(r
=1,2,..., 200),
ondispose
de 500 estimationstI,r, t2,r,
...,t500,r
de03B8 à
partir desquelles
l’on détermine les valeursempiriques
suivantes :tr = Moyenne
des estimations(ti,r) ; us 2
= Variance des estimations(ti,r)
Lr = Longueur
de l’intervalle de confiancesymétrique,
pour03B8,
de niveau0, 95
Les valeurs
numériques qui apparaissent
dans les tableauxci-après
sous lesnoms de
Moyenne,
Variance et"Longr.intervalle" désignent respectivement
lesquantités
suivantes :Les résultats des simulations montrent que le
quotient
des médianes fournit une estimation duquotient
des moyennes tout à faitcomparable
à celle que donnent les autres estimateurs et enparticulier
à ceux deHodges-Lehmann,
enétant,
desurcroît,
d’un usage
plus
aisé.Légende
RMOYT :
Rapport
des moyennestronquées
RMOYW :
Rapport
des moyennes censuréesREHOLE :
Rapport
des estimateurs deHodges-Lehmann
RMOYE :
Rapport
des moyennesRMEDE :
Rapport
des médianes4.2. Cas de lois continues
Nous
considérons,
dans cette secondepartie,
la loi normale N(p, E)
introduiteci-dessus où :
et la loi de Gumbel
Qm (ce)
deparamètre
a =0, 5
dont la fonction derépartition Fx, y (x, y)
a pourexpression :
et pour
laquelle
lesrapports
des moyennes et des médianes ont pour valeur 1. Deplus,
pour
chaque loi,
nous considéronségalement
lesrapports
desquantiles empiriques
p/q
pour les valeurs de(p, q)
suivantes :(0, 7, 0, 4)
et(0,25, 0, 75).
Les valeursthéoriques
de cesrapports
sont données par :4.2.1.
Comparaison
des estimateursX/Y et 0.5/0.5
Utilisant à nouveau les
techniques
de simulation décrites parDevroye [4],
nousgénérons,
pourchaque loi,
500 échantillons(ne
contenant aucune valeuraberrante)
de taille n(n - 30,50,100).
Les résultats des simulations sontprésentés
ci-dessous :Taille
gm (0, 5)
Moyenne
desrapports x/y
Moyenne
desrapports 0,5/0,5
Variance des
rapports x/y
Variance des
rapports 0,5/0,5
N(03BC,03A3)
Moyenne
desrapports x/y
Moyenne
desrapports 0,50,5
Variance des
rapports x/y
Variance des
rapports 0,50,5
On remarque ainsi
expérimentalement qu’en
l’absence de donnéesaberrantes,
les estimateursX/Y
et0,5/0,5
durapport
E(X) /E (Y)
se comparent fort bien l’un à l’autre et ce d’autantmieux,
que la taille de l’échantillon estgrande
cequi,
dans la
pratique,
se révèle trèsfréquent.
Onpeut donc,
dans ce cas, substituer sanscrainte le
rapport
des médianesempiriques
aurapport
des moyennesempiriques
afind’estimer le
rapport
des moyennesthéoriques.
4.2.2.
Influence
de données aberrantes sur les estimateursX/Y
et0,50,5
Afin d’évaluer
l’impact
de laprésence
de données aberrantes sur lecomporte-
ment des estimateurs
X/Y
et0,50,5,
nous avonsprocédé
comme suit :Nous avons simulé deux séries de 500 échantillons
indépendants,
de taillesrespectives
n =20, 30,
et50,
du vecteur aléatoire(X, Y)
de loi normale N(03BC, E)
où :
Dans la
première
série(Série 1),
nous avonsremplacé
auhasard,
dans le cas deséchantillons de tailles n == 20 et
30,
l’une des observationsXi
par E(X)
+7ux
et l’une des
observations Yi
parE (Y)
+7 ay,
et dans le cas des échantillons de taille n =50,
nous avonsremplacé
auhasard,
deux observationsXi
etXi,
par E(X)
+7aux
et par E(X)
+1003C3X
et deux observationsYi
etYi’
par E(Y)
+703C3Y
et par
E (Y)
+louy.
Dans la seconde série(Série 2),
nous avons conservé la mêmeprocédure
de substitution pour les observationsXi (n
=20, 30)
et pour les observationsXi
etXi, (n = 50),
alors que pour n = 20 et30,
nous avonsremplacé
au hasard
Yi
par E(Y) - 7 ay
et que pour n ==50,
nous avonsremplacé
au hasardYi
et
Yi’
par E(Y) - 7 ay
et par E(Y) - lOcry.
On trouveraci-après
les résultats des deux simulations.Série 1
Moyenne
desrapports x/y
Moyenne
desrapports 0,5/0,5
Variance des
rapports x/y
Variance des
rapports 0,5/0,5
Série 2
Moyenne
desrapports x/y
Moyenne
desrapports 0,50,5
Variance des
rapports x/y
Variance des
rapports 0,5/0,5
On constate ainsi
expérimentalement
que l’estimateurXY
estplus
sensible auxdonnées aberrantes que l’estimateur
fO,5/iio,5
et ce dernier devraitdonc,
dans lapratique,
êtrepréféré
aurapport
des moyennesempiriques,
dans tous les cas où l’onredoute la
présence
de telles données dans l’échantillon considéré.4.2.3.
Comportement
des estimateurs0,7/0,4
et0,25/0,75
En ce
qui
concerne les estimateurs de03BE0,7/
~0,4 et de03BE0,25/
~0,75, dont les valeursthéoriques
sontrespectivement 2, 35691
et0, 20752
dans la cas de la loiGm (0, 5)
et0,
50752 et0,
31722 dans le cas de la loi N(p, 03A3),
nousobtenons, toujours
à l’aide des mêmestechniques,
les résultats suivants :Taille
Gm(0,5)
Moyenne
desrapports 0,7/0,4
Moyenne
desrapports 0,25/0,75
Variance des
rapports 0,7/0,4
Variance des
rapports 0,25/0,75
N(03BC,03A3)
Moyenne
desrapports 0,7/0,4
Moyenne
desrapports 0,25/0,75
Variance des
rapports 0,7/0,4
Variance des
rapports 0,25/0,75
4.2.4. Normalité
asymptotique
À
l’aide des 500 simulations d’échantillons de taille 100précédentes,
nousillustrons dans les
figures
1à
6ci-après,
pour lesdeux
loisconsidérées,
les densitésempiriques
des estimateurs0,5/0,5, 0,7/0,4
et0,25/0,75
et nousindiquons,
entre
parenthèses,
les valeurs des variancesempiriques
et des variancesthéoriques (en
caractères gras dans lesfigures
1 à6),
déduites des loisasymptotiques correspondantes
pour n = 100.
FIGURE 1
gm (0, 5)
:0,5/0,5
(0,055526 ; 0,050517)
FIGURE 2
N(03BC,03A3) : 0,5/0,5
(0, 000142 ; 0, 000142)
FIGURE 3
Gm(0,5) :
:0,7/0,4
(0,316988 ; 0,174270)
FIGURE 4 N
(03BC, E)
:0,7/0,4
(0,000217 ; 0,000162)
FIGURE 5
Gm (0,5)
:0,25/0,75
(0,002997 ; 0,0034168)
FIGURE 6
N
(M, E)
:0,25/0,75
(0, 000140 ; 0, 000090)
5. Conclusion
Notant la sensibilité aux données aberrantes de l’estimateur
xn
durapport
des moyennes
théoriques E(X)/E(Y),
nous nous sommesintéressés,
afin depallier
cette
situation,
aurapport
de deux médianes et,plus généralement,
aurapport
de deuxquantiles empiriques.
Nous avonsmontré,
dans le cadre des loiscontinues,
que lerapport
desquantiles empiriques p/q
est un estimateurasymptotiquement normal,
sans biais et
convergent
durapport
desquantiles théoriques correspondant ç,p/1]q,
cequi,
parexemple
dans le cas des loissymétriques,
confère aurapport
des médianesempiriques 0,5/0,5
le statut d’estimateur concurrent àX/Y,
pour leparamètre
E(X)/E(Y) = 03BE0,5/~0,5
de la loi du vecteur aléatoire(X, Y).
Parailleurs,
nousavons constaté
expérimentalement
que, lerapport
des médianesempiriques 0,5/0,5
se compare fort
bien,
dans le cadreprécédent,
à certains estimateurs duquotient
desmoyennes
théoriques E(X)/E(Y), qu’il
estasymptotiquement
normal et que, desurcroît,
il est moins sensible aux données aberrantes que nel’est,
parexemple,
l’estimateur usuel
X/Y. Enfin,
pour donner suite à cetravail,
nous étudierons dansun cadre
plus formel,
l’efficacité relativeasymptotique,
la fonction d’influence et la robustesse des estimateurs de la formep/q.
Références
[1]
BAHADURR.R.,
A note onquantiles
inlarge samples,
Ann. Math.Statist.,
37(1966),
577-580.[2]
COCHRANW.G., Sampling Techniques,
ThirdEdition,
JohnWiley
&Sons, (1977).
[3]
DAVIDH.A.,
Order statistics, JohnWiley
&Sons, (1981).
[4]
DEVROYEL., Non-Uniform
Random VariateGeneration, Springer-Verlag, (1986).
[5] FRÉCHET M.,
Sur les tableaux de corrélation dont les marges sontdonnées,
Ann. Univ.Lyon, Sér.3,
14(1951),
53-77.[6]
GALAMBOSJ.,
Order statisticsof samples from
multivariatedistribution,
J.Amer. Stat.
Assoc.,70,
no.351(1975),
674-680.[7]
GENEST C. et MACKAYR.J., Copules
archimédiennes etfamilles
de loisbidimensionnelles dont les marges sont
données,
La Revue Canadienne deStatistique,
vol14,
2(1986),
145-159.[8]
KIMELDORF G. and SAMPSONA.R., Uniform representations of
bivariateditributions,
Com. Statist. 4(1975),
617-627.[9]
LINGC.H., Representation of associative functions,
Publ. Math.Debrecen,
12(1965), 189-212.
[10]
MARITZJ.S., Estimating
the covariance matrixof
bivariatemedians,
Statist.Prob. Lett.
12,
no.4(1991)
305-309.[11]
MELLALN., Rapport
desquantiles
des composantes d’une loi bidimension-nelle,
Thèse dedoctorat,
Université deSherbrooke, Canada, (2000).
[12]
SERFLINGR.J., Approximation
theoremsof
mathematical statistics, JohnWiley
&Sons, (1980).
[13] SIDDIQUI M.M.,
Distributionof quantiles
insamples from
a bivariate po-pulation,
Journal of Resarch of the National Standards-B Mathematics and MathematicalPhysics, vol.64B, no3, (1960),
145-150.[14]
SKLARA.,
Fonctions derépartition
à n dimensions et leurs marges, Publ. Inst.Statist. Univ.