R EVUE DE STATISTIQUE APPLIQUÉE
A STRID J OURDAN
C ÉLESTIN C. K OKONENDJI
Surdispersion et modèle binomial négatif généralisé
Revue de statistique appliquée, tome 50, n
o3 (2002), p. 73-86
<http://www.numdam.org/item?id=RSA_2002__50_3_73_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
SURDISPERSION
ET MODÈLE BINOMIAL NÉGATIF GÉNÉRALISÉ
Astrid JOURDAN* et Célestin C. KOKONENDJI*
* Université de Pau et des Pays de l’Adour, Laboratoire de
Mathématiques Appliquées,
Avenue de l’Université - 64000 PAU, France.
RÉSUMÉ
Le modèle binomial
négatif (BN)
est souvent considéré comme le prototype des modèlessurdispersés
pour des données discrètes. A travers certainespropriétés,
nous montrons que sagénéralisation lagrangienne, appelée
modèle binomialnégatif généralisé (BN Q),
lui offre unealternative dans ce domaine. En
particulier,
le BNG résulte aussi d’unmélange
de Poissonpar une loi absolument continue, il
possède
undegré
desurdispersion plus important
que le 13Y, et il est aussi utilisable dans le cadre des modèles (non)linéairesgénéralisés.
Deplus,
àl’aide de simulations et
exemples,
nous discutons diverspoints
tels que l’unimodalité ou bien l’influence desparamètres
sur lasurdispersion.
Mots-clés :
Surdispersion, mélange
de Poisson, modèles linéairesgénéralisés,
modèleexponentiel
dedispersion, fonction
variance, binomialnégatif généralisé.
ABSTRACT
The
negative
binomial distribution is often considered in the literature as the prototype ofoverdispersed
distributions for discrete data.Throught
manyproperties,
we show that itsLagrangian generalization
calledgeneralized negative
binomial distribution offers to us analternative in this way. In
particular
thegeneralized negative
binomial distribution is a Poisson mixture, it is moreoverdispersed
than thenegative
binomial distribution, and we can also useit for the
generalized
(non)linear models. Moreover, from some simulations andexamples,
wediscuss about
unimodality
or the parameters effects on theoverdispersion.
Keywords : Overdispersion,
Poisson mixture,generalized
linear models,exponential dispersion
model, variancefunction, generalized negative
binomial distribution.1. Introduction
L’analyse statistique
de certaines données discrètesprésente
une variabilitéplus grande
que la moyenne de l’échantillon. Cephénomène
dit desurdispersion
aété
largement
et diversement étudié dans lalittérature,
enparticulier,
en relation avecla loi de Poisson. Si un modèle
inadéquat
estadopté
enprésence
de lasurdispersion,
il
peut
y avoirperte
d’efficacité pour les différentesstatistiques en jeu.
Cox(1983)
aétudié en détail cet effet pour le modèle
poissonnien.
74 A. JOURDAN, C.C. KOKONENDJI
Dès lors que la cause de la
surdispersion
est connue, un modèleparamétrique
du
type mélange
de Poisson est souvent considéré(Breslow, 1984; McCullagh
etNelder, 1989).
Lemélange
de Poisson leplus
utilisé est sans doute le modèle binomialnégatif; lequel
est obtenu avec une loi gamma(Greenwood
etYule, 1920). Cependant,
d’autres
mélanges
aussi intéressantsqu’utiles
sontproposés
parexemple
dans Johnsonet al.
(1992,
pages328-335).
Notons aussi que le modèle binomialnégatif
est unegénéralisation
du modèle de Poisson pour lasurdispersion
dans le sensoù,
au lieu de modéliser une succession d’événementsindépendants ayant
uneespérance
constante, elle supposequ’ils
seproduisent
d’une manièrecontagieuse
et/ou dans un milieuhétérogène.
Ce modèle binomialnégatif
a bien sûr ses limites.L’objet
de cet article est de montrerqu’une généralisation
sur les entiers de la loi binomialenégative, appelée
binomialenégative généralisée (voir
Jain etConsul, 1971)
et notéeBNG,
lui offre une alternative intéressante dans le domaine de lasurdispersion.
Pourcela,
nousprécisons
tout d’abord les différentes définitions etpropriétés intrinsèques
de laBNG, puis
nous montrons enfin sesperformances
enmatière de modèle
surdispersé.
Cetteprésentation générale
du modèleBNG
estillustrée par
quelques graphiques
etexemples,
et insiste sur leparallèle qui
existeavec le modèle binomial
négatif.
2. Modèle binomial
négatif généralisé
Dans cette
partie,
nous revoyons les différentes définitions du modèleBNG,
ainsi que
quelques interprétations probabilistes
de ce modèle. Nous ferons ensuite le lien entre laBNG
et d’autres familles de lois bien connues.2.1.
Définitions
Soit
a > 0, 03BB > 0 et 0 p 1
tels que 0 a(1 - p)/p.
On ditqu’une
variable aléatoire X à valeurs dans N suit une loi binomiale
négative généralisée
BN 9 (a, A, p)
deparamètres
a,A,
p, si pour tout x E N laprobabilité
de l’ évenement X = x estégale
àoù r
représente
la fonction gamma. Cette définition estplus rigoureuse
que celle trouvée habituellement dans la littérature(e.g.,
Jain etConsul, 1971 ;
Johnson etal., 1992 ; Famoye, 1997 ;
Letac etMora, 1990).
Les
paramètres
a,A,
p, sont tels que p est laprobabilité
de succès dans uneépreuve
dont lareparamétrisation 0
= p(0)
fournit leparamètre canonique
de lafamille
exponentielle
dedispersion
associée(cf. § 2.3.2); A
est leparamètre
d’échelleou d’indice tel que
a2
=1/A
se dit dedispersion (Jørgensen, 1997),
ilcorrespond
àune
puissance
deproduit
deconvolution;
a est leparamètre
d’indice de based’après
la
généralisation lagrangienne
de la binomialenégative (cf. § 2.1.1).
Figure
1. - Densité deprobabilité
de laBN 9
pour différentes valeurs de ses
paramètres
Remarque. -
Ilsemble,
au vud’arguments empiriques,
que la loiL3jVg
soitunimodale. De
plus,
en établissant lerapport P(x + 1;
a,A, p)/P(.r;
a,À, p),
onpeut
montrer que la condition
est nécessaire pour que le mode soit en 0.
2.1.1. Généralisation
lagrangienne
Une manière de montrer les différentes liaisons entre les lois binomiale
négative (BAQ
et binomialenégative généralisée (13Yg)
est d’utiliser leurs fonctionsgénératrices
des moments. Eneffet,
si une variable aléatoire X suit uneBN(03BB,p),
de
probabilité
individuelle76 A. JOURDAN, CC. KOKONENDJI
alors sa fonction
génératrice
est donnée parAlors que si une variable aléatoire Y suit une
BNG(a, 03BB, p),
alors sa fonctiongénératrice
se met sous la formeoù h est une fonction vérifiant :
G x’
étant la fonctiongénératrice
d’une variable X’ de loiBN(a, p).
L’existence et le
développement
en série entière de la fonctionimplicite h,
est
garantie
par la formule d’inversion deLagrange (Dieudonné, 1971),
d’où laqualification
de"généralisation lagrangienne"
de la binomialenégative
par Jain et Consul(1971).
Laterminologie "généralisée"
dans binomialenégative généralisée peut
donc être considérée comme abusive dans le sens où elle serapporte uniquement
à la
généralisation lagrangienne
alorsqu’il
existe d’autresgénéralisations
de labinomiale
négative (Gupta, 1977; Kokonendji, 1994).
Letac et Mora(1990)
ontproposé l’appelation
"loi deTakàcs",
car cette loiBNG(a, 03BB, p)
est apparue dansl’article de L. Takàcs
(1962)
en théorie des files d’attente.2.1.2. Cas
particuliers
Habituellement,
la loiBNG(a, À, p)
est définie àpartir
duproduit
aApositif (Jain
etConsul, 1971 ;
Johnson etal., 1992; Famoye, 1997)
avec commeunique
caspour a
négatif : a
= -1. Cequi permet d’englober
la loi binomialeB(-03BB,p)
deparamètres -03BB
et p, où 03BB est un entiernégatif.
Pour afixé,
on retrouve d’autreslois de
probabilité classiques,
parexemple
la loi binomialenégative
avec a = 1 eten
remplaçant
dans(1)
A + xpar A
pour tout x EN,
ou encore la loi binomiale inverse deYanagimoto (1989)
avecuniquement a =
1 dans(1). Enfin, lorsque
atend vers
l’infini,
on obtient la loi de Poissongénéralisée (Consul, 1989) qui
est unegénéralisation lagrangienne
de la loi de Poissonclassique.
2.2.
Interprétations probabilistes
Nous proposons ici deux
types d’interprétations probabilistes
de la binomialenégative généralisée
en liaison une fois deplus
avec la binomialenégative.
2.2.1. Par une chaîne de Markov
Rappelons qu’une
suite(Xn)n0
de variables aléatoires estappelée
chaîne deMarkov sur
(03A9, F, P),
si pour tout n, la loi deXn+1
sachantX0 =
xo,Xn =
xn nedépend
que de Xn.Soient
Wo
une variable aléatoire de loiRV(À,p)
et(Wn)n0
une chaîne deMarkov sur N de fonction de transition
où Y suit une loi
BN(a, p). Puisqu’il
existe un certain rang àpartir duquel Wn
estnul p.s.
(e.g., Harris, 1963),
onpeut
définir la variable aléatoireet montrer
qu’elle
suit une loiBNG(a, A,p).
VoirKokonendji (1994,
Théorème4.5)
pour une démonstration
plus générale
des loislagrangiennes.
La variable aléatoire Z
représente
les descendances de l’individuWo
en théoriede processus de branchement. Par
exemple,
ellepeut
être utilisée pour modéliser laprogéniture
d’un individu asexué.2.2.2. Par des temps de visite d’une marche aléatoire
Soit
(Xk)k0
une suite de variables aléatoiresindépendantes
de même loin
BN(a,p).
On définit alors la suite(Sn)n0
parSo
= 0 etSn (1 - Xk)
Notons pour
tout k 0,
le
temps
depremier
passage deSn
enk,
et7k l’image
deTk
par x ~ x - k. Alorson a :
T1
suit une loiBNG(a, 1, p)
etTÀ
suit une loiBNG(a, 03BB, p),
VA >0,
où
BNG(a, À, p)
est la convolée À fois de la loiBNG(a, 1, p)
de7i.
Pourplus
deprécisions
sur cerésultat,
on pourra consulter Letac et Mora(1990)
ouKokonendji (1994).
Enparticulier,
on pourra trouver une extension autemps
de passage en 0(lié
à
T1)
dansKokonendji (2001).
Ainsi,
àpartir
d’une suite de loisBN
on obtient un temps depremier
passage de loiBY9. Rappelons
que letemps
de passage obtenu àpartir
d’une suite de loisgaussiennes
suit la loigaussienne-inverse.
Paranalogie,
uneBNG
peut êtreappelée
BN-inverse. C’est dans cet
esprit
queYanagimoto (1989)
aprésenté
le cas a = 1(cf.
§ 2.1.2)
comme 13-inverse.2.3. Liens avec d’autres
familles
de loisDans les
paragraphes précédents,
nous nous sommes attachés à établir un lien entre les loisBAr
etBNG.
Il existecependant
d’autres familles de loisauxquelles
peut se rattacher la
BNG
comme nous allons le voir maintenant.78 A. JOURDAN, C.C. KOKONENDJI
2.3.1. Poisson
pondérée
La
BN 9 peut
être considérée comme un casparticulier
de la loi de Poissonpondérée surdispersée
de Castillo et al.(1998).
Enfait,
laBN9
est vue dans Hassairi(1992)
comme une action du groupe linéaire sur une loi de Poisson en terme desa fonction variance. Cette action sur la densité de Poisson
permet
d’obtenir uneexpression
de la densité de laBN9
similaire à celle de la Poissonpondérée
deCastillo et al.
(1998)
avec unparamétrage adéquat.
2.3.2. Famille
exponentielle
dedispersion
Rappelons
d’abord brièvementquelques
définitions etpropriétés
des familles de lois à structureexponentielle.
Nous renvoyons le lecteur aux livres deJ0rgensen (1997)
et de Kotz et al.(2000, Chapitre 54)
pourplus
de détails. Soit 03B8 e 6 et A EA,
où 0 estgénéralement
un intervalle d’intérieur(int8)
non vide de R et A un sousensemble
de ]0, +oo[ contenant {1, 2, ...}.
On ditqu’une
variable aléatoire X suitune loi
exponentielle
dedispersion
deparamètres
03B8 et 03BB(notée
X ~ED (0, 03BB))
si sadensité par
rapport
à une mesure de référencepeut
se mettre sous la forme :La
famille exponentielle
dedispersion (FED)
associée est alors l’ensemble desprobabilités ED(03B8, À)
avec 03B8 E 0 et A E A.Pour À > 0
fixé,
la FED est unefamille exponentielle
naturelle(FEN). Ainsi,
lesparamètres 03B8
et À sontrespectivement
ditscanonique
etd’indice,
et satisfont la formule de convolutionD’où,
la famille est stable par convolution etdonc {1, 2, ...}
Ç A avec A=]0, +oo[
pour
ED(03B8, A)
indéfiniment divisible.La fonction 03BA dans
(2)
est telle que, si JL est cette mesure de référence(positive
et
a-finie)
alors03BA(03B8) = log f e03B8xc(x; 1) dJL(x). Ainsi, 03BA
est strictement convexe surint0 et, pour une variable aléatoire X N
ED(O, A),
on a :où
03BA’(03B8)
et 03BA"(03B8)
sontrespectivement
les dérivéespremière
et seconde de 03BA aupoint
03B8.
À partir
de(3)
avec A =1,
la fonction V définie sur le domaine M =03BA’(int0398)
telle que
est
appelé fonction
variance unité. Tout comme pour lesFEN,
elle caractérise la FED.De nombreuses
propriétés
ont été établies dans la littérature et, dans laplupart
descas, la fonction variance unité
présente
uneexpression plus simple
que celle de ladensité. Les fonctions variance unités les
plus
connues sont lespolynômes
dedegré
inférieur ou
égal
à 3(Morris, 1982;
Letac etMora, 1990)
dont un résumé est donnépar le Tableau 1 ci-dessous.
Tableau 1. - Fonctions variance unités
cubiques
Notons enfin que les FED sont utilisées pour modéliser l’erreur dans les modèles
(non)linéaires généralisés (McCullagh
etNelder, 1989; Wei, 1998).
Lesreparamétrisations v
=03BA’(03B8)
eta2 == 1/À permettent
d’écrire la FED comme suit :{ED(v, 03C32); v
EM,a-2
E039B}. Remarquons qu’une
FED n’est évidemment pasune FEN à deux
paramètres.
Ainsi,
pour seulement afixé,
la loiBNG(a, À,p)
est une loiexponentielle
dedispersion
de densité de la forme(2),
indexée ici par a :En
effet, l’équivalence
entre les définitions( 1 )
et(5)
est donnée par lareparamétrisation
de 0 par
avec 03B8 =
log[p(1 - p)a], 03BAa(03B8) = -a log(1 - p)
d’où l’on déduitque h-1(p) ==
p(l - p)a
eth(w)
=w[l - h(w)]-a
oùh(w)
est la fonction(implicite)
d’inversion deLagrange (e.g., Kokonendji, 1999).
Une
conséquence importante
tirée de cetteappartenance
est que la famille des loisBNG(a, 03BB, p),
pour afixé,
est caractérisée par sa fonction variancesur ]0, +oc [
m étant
l’espérance mathématique
de la loiBN 9 (a, Â,p), qui
estégale
àet
VA (m)
la variance associéequi
est aussiégale
à03BBp(1 - p)/[1 - p(a
+1)]3.
80 A. JOURDAN, C.C. KOKONENDJI
3.
Surdispersion
Le
phénomène
desurdispersion
dans le cadre de la FED se traduit leplus simplement
parpout
tout m >0,
oùVB
est la fonction variance de la famille.La condition de
surdispersion (9)
est trivialement vérifiée par la fonction variance(7)
de laBNQ quels
que soient lesparamètres a, À
et p. Onpeut
noter quelorsque
leparamètre 03BB
tend vers 0 dansl’expression
de la fonction variance(7),
alors lasurdispersion augmente
et a contrario,lorsque
ceparamètre
tend vers l’infinialors la fonction variance tend vers celle d’une loi de Poisson. De
plus,
sansperte
de
généralité
on fixe A =1,
onpeut
établir lesinégalités
suivantes sur les fonctionsvariance unités : pour tout m >
0,
où
VBN9 (resp. Vpg, VBN
etVp)
est la fonction variance unité de laBNG (resp.
PG, Z3jV
etP)
donnée par le Tableau 1.Puisque, pour À
= 1 dans(8),
m est une fonction croissante de a et de p, alors à m constant, si aaugmente,
p diminue. On remarque queplus
a estpetit plus
lasurdispersion
estgrande
et inversementlorsque
a augmente alors lasurdispersion
diminue avec comme cas limite la fonction variance unité de la loi de Poisson
généralisée (Figure 2).
Doncquels
que soient lesparamètres a, À
et p, la loiBNG
est
toujours plus surdispersée
que laPG
et afortiori
laL3Y,
sauf dans le cas de trèspetites
moyennes.3.1.
Surdispersion
etmélange
de PoissonDans cette
partie,
au lieu de montreruniquement
le casL3Yg
comme une loirésultante d’un
mélange
de Poisson par une autreloi,
nous donnons cetteinterprétation
de modèles
surdispersés
pour toutes les loisexponentielles
dedispersion
dont labinomiale
négative,
la Poissongénéralisée
et bien sûr laBNG
en fontpartie.
Commençons
tout d’abord parrappeler
brièvement cequ’est
unmélange
de Poisson.La densité de la loi de Poisson
(classique)
deparamètre
m > 0 en tant que loiexponentielle
dedispersion
est donnée par :où m =
03BBe03B8.
Lesparamètres 03B8
et À ne sont pas identifiablesséparément,
nousadopterons
donc ici la notationP(03BBe03B8)
et nonP(03B8, 03BB)
pourdésigner
la loi exponen-tielle de
dispersion
de Poisson.DÉFINITION 1. - Soit X une variable aléatoire
positive
de loiexponentielle
dedispersion ED(03B4, 03BB)
avec 03B4 ~ 0394~] - ~, 0]
et 03BB E AC ]0, +~[;
c’est à direFigure
2. -Graphes
de la fonction variance unité pour différentes lois de densitéfx(x; 03B4, 03BB)
=c(x; 03BB)exp{03B4x - 03BB03BA(03B4)}.
La variable aléatoire Y est la résultante d’unmélange
de Poisson par X sioù 0 E R est un
paramètre
convenable.[Dans
le cas où x =0, P(0)
est la loi deDirac en
zéro].
La variable aléatoire X sera ditemélangeante
et(Y, X)
lecouple
dumélange
de Poisson.Montrons maintenant que la résultante d’un
mélange
de Poissonsuit,
elleaussi,
une loi
exponentielle
dedispersion.
D’après
la définition ducouple (X, Y),
la densitéjointe
de X et Y est donnéepar
où ce = 03B4 -
ee.
Parconséquent,
la densitémarginale
de Y est, pour y ==0,1,...,
où
m(y; 03B4, 03BB)e-03BB03BA(03B4)
est le momentd’ordre y ~ N
de X.82 A. JOURDAN, C. C. KOKONENDJI
Ainsi,
laproposition
suivante devient immédiate.PROPOSITION 2. -Avec les notations de la
Définition 1,
pour tout a = 03B4 -e03B8
dans0394,
Y suit une loiED(03B8, 03BB)
avec 03B8 ~log(0394 - 03B1), 03BB
E Aet E(Y) = 03BBe03B8 03BA’(03B1
+e03B8).
En tant que
FED,
la résultante d’unmélange
de Poisson est donc caractérisée par sa fonction variance unité donnée dans laproposition
suivante.PROPOSITION 3. - Soit V la
fonction
variance unité d’unemélangeante
dePoisson X de loi
ED(03B4, 03BB)
avecE(X) =
03BB03BA’(03B4) >
0 où 03B4 E 0394.Alors,
pour a E0394,
la
fonction
variance unitéVa
de la résultante Y suivant une loiED(03B8, 03BB)
est donnéepar
pour tout v > 0, où
03A603B1
estla fonction réciproque
de t Ht03BA’(03B1
+t).
DÉMONSTRATION. -
D’après
laProposition 2,
on pose v =e03B803BA’(03B1
+e03B8)
etdonc 03B1 +
e03B8 = 1j;( v / eO) où 03C8
est la fonctionréciproque
de 6 ~03BA’(03B4)
telle que03BA" (03C8(m))
=V(m).
Enconséquence,
la formule deva
découle de(4) :
La résultante Y d’un
mélange
de Poisson parX,
est donc bien un modèle desurdispersion, puisque
le deuxième terme de la variance unité estpositif.
Parmi les FED du Tableau
1,
il est facile de formerquelques couples (Y, X) : (ËV, G), (AS, 6r), (PG, PK), (BNG, RK)
et(AC, RC),
lesparamètres
de RK destrois derniers
couples
étant différents. On remarque que lesquatre
dernierscouples
sont associés à des fonctions variance unités strictement
cubiques.
Cetype
demélange
convient mieux que les formes linéaires ou
quadratiques
pourajuster
certaines données(Efron, 1986).
Remarques. - 1)
Dansl’optique
d’étudier laBNG
comme extension naturelle de laBN,
on obtient alors uneinterprétation probabiliste
ducouple (BNG, RK)
par lecouple (BN, G)
via une loi depremier temps
de passage. Eneffet,
d’une part,nous avons
déjà
vu cetteinterprétation
pour laBY9
par laL3Y (§ 2.2.2),
et d’autrepart,
la loi RKs’interpréte
comme la loi detemps
dupremier
passage en unpoint positif
ou nul d’un processus gamma(e.g.,
Letac etMora, 1990; Kokonendji, 2001,
Théorème1)
2)
Sur l’unimodalité de la résultante d’unmélange
dePoisson, Holgate (1970)
a démontré que si la loi
mélangeante
estpositive,
continue etunimodale,
alors la loi résultante dumélange
est aussi unimodale. Ce résultats’applique
immédiatement pour lecouple (BN, G),
enrevanche,
dans le cas de laBNG,
la loimélangeante
est uneRK dont l’unimodalité n’est pas démontrée.
Cependant
de nombreuses simulations de laBN ç (Figure 1)
laissent supposer que cette loi est effectivement unimodale.3.2.
Surdispersion
etproblèmes
d’estimationDans ce
paragraphe,
nous abordons leproblème
de l’estimation desparamètres
de la
BNG,
lié auphénomène
desurdispersion.
Famoye (1997)
a étudiéplusieurs
méthodes pour estimer simultanément les troisparamètres
de la loiBNG(a, A, p).
Ils’agit
des méthodes du maximum devraisemblance,
des moments, desproportions
dezéro,
du minimum de khi-deux. Ila notamment
comparé
leur efficacitéasymptotique
àpartir
d’un échantillon simulé.Cependant,
il semble que lasurdispersion (liée
à cetteloi)
pose en soi leproblème
dela
représentativité
de cetteestimation,
ce dontFamoye (1997)
n’a pas tenucompte.
Si on se
reporte
à laFigure 2,
on constate que lasurdispersion
est inversementproportionnelle
à la valeur de a.Donc,
afin deprendre
encompte
lephénomène
desurdispersion
dansl’estimation,
nous proposons de fixer apriori
leparamètre
a. Onse ramène ainsi à une FED
(cf. § 2.3.2).
On a alors le résultat suivant sur l’estimation desparamètres
d’une loiexponentielle
dedispersion ED( 0, À).
THÉORÈME 4. - Soit une loi
exponentielle
dedispersion ED(03B8, 03BB),
de densitédonnée par
(2)
et defonction
variance unité V. Soit maintenant un échantillon aléatoire y =(y1, ··· , Yn)
de valeurs de Y suivant la loiED (0, 03BB),
où lesparamètres
o E int0398 et 03BB > 0 sont tous les deux inconnus. Nous
désignons
la moyenne et la variance de l’échantillonrespectivement
parOn a alors :
(i)
L’estimation03BB*n de 03BB
par la méthode des moments est la solution strictementpositive
de(ii)
L’estimationn de 03BB par
la méthode du maximum de vraisemblance est la solution strictementpositive
de(iii)
Sila fonction
est
définie
de]0, +~[
sur int0 avec03B80
=supf 0;
03B8 Eint0398},
l’estimation03B8*n [resp.
n]
de 03B8 par la méthode des moments[resp.
du maximum devraisemblance]
est donnéepar
On(’B*n) [resp. 03B8n(n)].
La démonstration du théorème est immédiate par une
manipulation
adroite despropriétés
des FED.84 A. JOURDAN, C. C. KOKONENDJI
CONJECTURE 5. - Sous les
hypothèses
du Théorème4,
les estimations desparamètres 0
et À par les méthodes des moments et du maximum de vraisemblance existent si et seulement sis2n > yn.
Dans le cas de l’estimation des
paramètres
par la méthode des moments, laconjecture
est vérifiée trèssimplement
au cas par cas pour les modèles du Tableau1,
en calculant
explicitement
les estimateurs. Enrevanche,
dans le cas de l’estimation desparamètres
par la méthode du maximum devraisemblance,
laConjecture
5 n’est pas aussisimple
à vérifier. Eneffet,
le cas de la binomialenégative
a étéconjecturé
dansAnscombe
(1950)
et n’a été démontré quequelques
annéesplus
tard(e.g.,
Levin etReeds, 1977).
Pour la loiBNG qui
est unegénéralisation lagrangienne
de la binomialenégative,
le résultat estprésenté
dansKokonendji (1999)
ainsi que celui de Poissongénéralisée.
Tableau 2. - Estimation de À à
partir
de 1000 échantillons de taille 100Tableau 3. - Estimation de A à
partir
de 1000 échantillons de taille 1000Les Tableaux 2 et 3 donnent l’estimation du
paramètre 03BB
de laBNG(a, 03BB, p)
par la méthode des moments
(i)
du Théorème4,
calculé àpartir
des échantillons simulésqui
sontsurdispersés (e.g., Kokonendji, 1999;
Théorème 1 pour la formuleexplicite
de03BB*n
à aconnu).
Par la suite et àpartir
de(8),
onpourrait
estimer p parp*n
==yn/ (y n ( 1 + a) + a03BB*n).
L’estimation duparamètre 03B8
de la FED associée s’obtient enfin à l’aide de la formule(iii)
du Théorème 4 ou biensimplement
à l’aide de la formule(6).
Dans ces Tableaux 2 et
3,
on remarque que pour certainsparamètres
a, p et A deBNG(a, Â,p),
tous les échantillons ne sont passurdispersés (au
senss2n
>yn).
Ce
phénomène s’explique
par le fait que dans ces cas le moment d’ordre 1(8)
esttrès faible
(ici
m0, 4 avec 03BB 0, 5).
Comme onpeut
le constater sur laFigure
2,
les courbes de variances unités(À
==1)
sont presque confondues pour m trèspetit,
d’où unrisque
non nul(dû
essentiellement aucalculateur)
desousdispersion
sur l’échantillon simulé.
3.3. Discussion
D’un
point
de vuepratique,
dèsqu’un
échantillon estsurdispersé (s;
>yn),
comment
peut-on juger
de sondegré
desurdispersion?
Autrementdit, quand peut-
on
parler
depetite,
moyenne ougrande surdispersion? L’exemple
du "nombre d’accidentsenregistrés auprès
de conducteursBelges"
décrit dans Gelfand et Dalal(1990)
pose unproblème
du choix de modèlesurdispersé adéquat;
car on a biensn
=0, 029 supérieur
àyn = 0, 021. L’avantage
du modèleBNQ
dans ce cas, est que ledegré
desurdispersion
estautomatiquement pris
encompte
par les deuxparamètres
a et À(cf.
débutde § 3).
Enfin,
laterminologie "surdispersée" prend parfois
dans la littérature un tout autre sens que celui défini dans cet article. Ellepeut
être utilisée pour dire que la variance d’un échantillon observé estsupérieure
à la variance fournie par le modèle considéré. Nous pouvons l’illustrer à l’aide del’exemple classique
de lafréquence
des mâles dans 6115
"sibships"
de taille 12 enSaxony (e.g.,
Gelfand etDalal, 1990).
On observe sur l’échantillon que
fin
=6, 23
ets2n = 3, 49 ;
on est donc dans un cassousdispersé
et le choix d’un modèle binomialenvisagé
par les auteurs semblejustifié.
Cependant,
ilsparlent
alors de"surdispersion"
car, dans ce cas, la variance du modèle binomial est sous estimée par la variance de l’échantillon :n(1 - p)
=2, 4 s2
Remerciements. - Les auteurs remercient le comité de rédaction de la revue
pour leurs commentaires sur cet article.
Références
bibliographiques
ANSCOMBE,
F.J.(1950), Sampling theory
of thenegative
binomial andlogarithmic
series
distributions,
Biometrika37,
358-382.BRESLOW,
N.(1984),
Extra-Poisson variation inlog-linear models, Applied
Statis-tics
33,
38-44.CASTILLO,
J. ETPÉREZ-CASANY,
M.(1998), Weighted poisson
distribution foroverdispersion
andunderdispersion situations,
Ann. Inst. Statist. Math.50,
567- 585.CONSUL,
P.C.(1989),
Generalized PoissonDistributions,
MarcelDekker,
New York.COX,
D.R.(1983),
Some remarks onoverdispersion,
Biometrika70,
269-274.DIEUDONNÉ,
J.(1971). Infinitesimal Calculus, Houghton Mifflin,
Boston.EFRON,
B.(1986),
Doubleexponential
families and their use ingeneralized
linearregression,
J. Amer. Statist. Assoc.81,
709-721.FAMOYE,
F.(1997),
Parameter estimation forgeneralized negative
binomial distrib-tution,
Comm. Statist.-simula26,
269-279.GELFAND,
A.E ETDALAL,
S.R.A.(1990),
A note onoverdispersed exponential families,
Biometrika77,
55-64.GIANO,
L.M. ETSCHAFER,
D.W.(1992), Diagnostics
foroverdispersion,
J. Amer.Statist. Assoc.
87,
795-804.86 A. JOURDAN, C.C. KOKONENDJI
GREENWOOD,
M. ETYULE,
G.U.(1920),
Aninquiry
into the natureof frequency
distributions
representative
ofmultiple happenings
withparticular
referee to theoccurrence of
multiple
attacks of disease or ofrepeated accidents,
J. R. Statist.Soc. Ser. A
83,
255-279.GUPTA,
R.C.(1977).
Minimum variance unbiased estimation in a modified power seriesdistributions,
Comm. Statist.10,
977-991.HARRIS,
T.E.(1963).
TheTheory of Branching Processes, Springer-Verlag,
Berlin.HASSAIRI,
A.(1992),
La classification des famillesexponentielles
naturelles surRn par l’action du groupe linéaire de
Rn+1.
C. R. Acad. Sci. Paris Sér.I 315,
207-210.HINDE,
J.P. ETDEMÉTRIO,
C.G.B.(1996), Modelling
withoverdispersion,
InStatistical
Modelling Proceedings of
the 11th InternationalWorkshop
onStatistical
Modelling, (ed. Fratra, A.),
200-207.HOLGATE,
P.(1970),
Themodality
of somecompound
Poissondistributions,
Biometrika57,
666-667.JAIN,
G.C. ETCONSUL,
P.C.(1971),
Ageneralized negative
binomialdistribution,
SIAM J.
Appl.
Math.21,
501-513.JOHNSON, N.L., KOTZ,
S. ETKEMP,
A.W.(1992),
Univariate Discrete Distribu- tions, SecondEdition,
JohnWiley
&Sons,
New York.JØRGENSEN,
B.(1997),
Thetheory of dispersion models, Chapman
&Hall,
London.KOKONENDJI, C.C. (1994), Exponential
families with variance functions~0394P(~0394):
Seshadri’s
class,
Test3,
123-172.KOKONENDJI,
C.C.(1999),
Leproblème
d’Anscombe pour les lois binomialesnégatives généralisées,
Canadian J. Statist.27,
199-205.KOKONENDJI,
C.C.(2001),
First passage times on zero and one and naturalexponential families,
Statist. Probab. Letters51,
293-298.KOTZ, S., BALAKRISHNAN,
N. ETJOHNSON,
N.L.(2000),
Continuous multi- variatedistributions,
Volume 1 : Models andApplications, Wiley, NewYork,
2nd édition.LETAC,
G. ETMORA,
M.(1990),
Natural realexponential
families with cubic variancefunctions,
Ann. Statist.18,
1-37.LEVIN,
B. ETREEDS,
J.(1977), Compound
multinomial likelihood functions areunimodal :
proof
of aconjecture
of I. J.Good,
Ann. Statist.5,
79-87.MCCULLAGH,
P. ETNELDER,
J.A.(1989),
Generalized LinearModels,
2nd ed.Chapman
&Hall,
London.MORRIS,
C.N.(1982),
Naturalexponential
families withquadratic
variance func-tions,
Ann. Statist.10,
65-80.TAKÁCS,
L.(1962),
Ageneralization
of the ballotproblem
and itsapplications
inthe
theory
of queues, J. Amer. Statist. Assoc.57,
327-337.WEI,
B-G.(1998), Exponential Family
NonlinearModels,
Lecture Notes in Statistics No.130, Springer-Verlag, Singapore.
YANAGIMOTO,
T.(1989),
The inverse binomial distribution as statisticalmodel,
Comm. Statist. -