M ARC B ARBUT
Distributions de type paretien et représentation des inégalités
Mathématiques et sciences humaines, tome 106 (1989), p. 53-69
<http://www.numdam.org/item?id=MSH_1989__106__53_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1989, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DISTRIBUTIONS DE TYPE PARETIEN ET
REPRÉSENTATION
DESINÉGALITÉS 1
Marc BARBUT
Il est constant que l’on ait à comparer entre elles des distributions
empiriques (de
revenus, depopulations urbaines,
depatrimoines, etc...)
dupoint
de vue de leur concentration ou de leurinégalité,
et de l’évolution de celles-ci dans le temps, dansl’espace,
ou dans les deux.La méthode la
plus
usitée consiste àcalculer,
pour chacune des distributions à comparer entreelles,
un indice ou un indicateurnumérique
del’inégalité,
telqu’il
en existe desquantités,
indice de
Gini,
indicesentropiques
deTheil,
indicesd’Atkinson,
deShorroks,
deKolm,
etc... ;et bien sûr le coefficient de variation et le
cp2(X2).
Dans tous les cas, le
procédé
consiste à associer àchaque
distribution un nombrequi
estcensé mesurer son écart à
l’équirépartition : plus
la valeur de l’indice estélevée, plus
il y a del’inégalité.
Bien
sûr,
onexige
dechaque
indiceproposé qu’il
satisfasse àquelques propriétés
de bonsens,
baptisées axiomes, qui
traduisent l’idée que l’on se fait de cequi
doit accroître(ou diminuer) l’inégalité :
parexemple,
un transfert du bienréparti
d’un "riche" à un"pauvre"
doitdiminuer
l’inégalité,
donc faire décroître la valeur de l’indice(principe
dePigou
etDalton) ;
oubien,
la redistribution enparts égales
d’unsurplus
à partager doit elle aussi diminuerl’inégalité.
L’utilisation de tels
indices,
très courante chez les économètres notamment,présente
deuxinconvénients
majeurs :
1 - Elle
implique
une"perte
d’information" massive par rapport auxdonnées, puisque chaque
distribution est résumée par un seul
nombre ;
pour unphénomène (l’inégalité)
si sensible à la controverse, voir à lapassion,
de ceuxqui
endiscourent,
cette réduction ne va pas sansdommage,
et souvent sans graves contresens.2 - Si les
comparaisons
fournies par un même indice sont par définition cohérentes entreelles,
iln’en va pas de même en
général lorsque
l’on utilise deux indices ouplus.
1 Ce texte est celui d’une conférence faite au Colloque Interdisciplinaire sur la Modélisation, Universités de
Lyon 1 et Lyon II,15-16 juin 1989. Il est publié ici avec l’aimable autorisation des organisateurs
La
prudence
est donc d’avoir recours non à un indicenumérique,
mais à desexpressions fonctionnelles
del’inégalité
ou de laconcentration ;
ici deux voies sontpossibles :
1 - La voie humble
inaugurée
par M.O. Lorenz et C.Gini, reprise
ensuite dans un contextedifférent,
par PaulLévy, qui
consiste à associer àchaque
distribution étudiée safonction
deconcentration,
et à comparer entre elles ces fonctions deconcentration ;
l’ordre entre cesfonctions n’est pas
total,
maispartiel.
Mais c’est souventlorsque
les courbes de concentration secoupent
que lespécialiste
duphénomène
étudié aura leplus
de choses à dire : cela met en effet enévidence une ou
plusieurs valèurs critiques
de la variable étudiée pourlesquelles
il y a renversement du sens dans lacomparaison
del’inégalité (cf. iig.1 ).
Figure
1Deux courbes de concentration de Lorentz et Gini se coupant
2 - La voie
royale, classique
enstatistique, qui consiste, chaque
fois que les donnéesempiriques s’y prêtent,
àajuster
àchaque
distributionempirique étudiée,
une distributionthéorique
d’untype
donné ;
les valeurs desparamètres
pour les distributionsajustées
fourniront alors tous les éléments utiles à lacomparaison
dupoint
de vue de laconcentration ;
cela se voit trèsbien,
parexemple,
pour lesajustements
à une distributionLog-normale.
A fortiori cette dernière voie doit-elle être
préconisée chaque
fois que l’on a en tête un"modèle"
explicatif
raisonnable duphénomène étudié,
"modèle"qui
conduit à une distributionthéorique
dutype
utilisé.Or il se trouve que pour deux
grands
types de distributionsthéoriques,
les deux voies serejoignent :
elles admettent en effet desexpressions fonctionnelles
del’inégalité qui
sont lesplus simples possibles (elles
sontlinéaires)
et fournissent uneinterprétation
évidente de leursparamètres
en termed’inégalité.
Ce sont :- les distributions en fonction
puissance,
et notamment celles de V. Pareto et P.Lévy,
définiespar :
- les distributions
exponentielles,
définies par :Ces dernières sont
d’ailleurs,
nous le verrons, un cas limite despremières.
En outre, pour ces
distributions, l’expression
linéaire de leurinégalité
fournit des méthodessimples
et efficacesd’ajustement
de distributionsempiriques
à des distributionsthéoriques
deleur type.
C’est l’ensemble de ces
points
que nous allons montrer maintenant.1. MOYENNES CONDITIONNELLES
Soit une distribution définie par sa fonction de
répartition F(x)
ou, defaçon équivalente,
parSupposons
quel’espérance
de F soit définie.La moyenne conditionnelle en x, notée
M(x)
est par définition :Dans le cas où F est une distribution de durées de
vie, M(x)
estl’espérance
de vie àl’âge
x.Lorsque
F est une distribution de revenus,M(x)
est le revenu moyen des titulaires de revenusayant
un revenusupérieur
à x.Supposons
F de typeparetien,
avec m > 1(pour
quel’espérance existe) ;
il vientimmédiatement : .
avec :
.
Ainsi,
la fonctionM(x), qui
estl’expression mathématique
de lafaçon
laplus
courante depercevoir
lesinégalités (si
mon revenu est x,quel
est le revenu moyen de ceuxqui
ont unrevenu
supérieur
au mien?)
a ici la formemathématique
laplus simple,
celle d’une fonction linéaire(ou affine),
accessible à un élève dequatrième,
parexemple.
En
particulier,
si c = 0(distributions paretiennes
depremier type :
onLe revenu moyen
M(x)
est unsimple multiple
de x ;plus
lecoefficient P
estgrand, plus
il y ad’inégalité : fi
est un bon indicateur del’inégalité.
Dans le cas
général,
deux moyennes conditionnelles :M(x) = fix
+ }i etM’(x) =
+p ’
seront
toujours
dans le même ordeque fi
et pour lesgrandes
valeurs de x ; mais il pourra arriverqu’elles
secoupent
et que pour lespetites
valeurs de x, cet ordre soit inversé :c’est,
comme supra, un cas très intéressant
puisqu’il
met en évidence un seuilcritique (de
la variableétudiée)
de renversement dans le sens de lacomparaison (fig. 2).
figure 2
Au dessous du seuil xo (pour 0 x
xo )
la distribution de moyenne conditionnelle M’(x)est plus inégalitaire que celle de la moyenne conditionnelle M(x) ;
au-dessus de ce seuil, c’est le contraire.
Inversement,
demandons-nousquelles
sont toutes les distributions absolument continues pourlesquelles
la moyenne conditionnelleM(x)
est une fonction affine de forme :Comme par définition
M(x)
est une fonction monotone non décroissante de x, et vérifie :il faut : A > 0 .
D’autre part, on montre facilement que si pour une valeur xo de x, on a :
alors la distribution F
parente
est àsupport
borné par xo :L’équation
fonctionnelle :se transforme par
dérivation,
compte tenu dedP(x) = - dF(x),
en :Premier cas. A
= 1 ,
B > 0 Il vient :le
paramètre
a étant déterminé par la conditionP(a)
= 1.Ainsi,
les distributionsexponentielles
sont caractérisées par le fait que la moyenne conditionnelleM(x)
est de forme :où B est
l’écart-type
de la distribution : le revenu moyen de ceuxqui
ont un revenusupérieur
aumien se déduit du mien par addition de la constante B. C’est cette constante, d’ailleurs
égale
àl’écart-type
de ladistribution, qui
est le bon indicateur de soninégalité.
Second cas. A >
1,
Bquelconque
On a alors :
En posant
D’où :
Ce sont les distributions de Pareto
d’exposant ce
> 1 .Troisième cas. 0 A
1,
Bquelconque positif.
B On n’a
M(x) >
x que pour xxo
=lA L’équation
différentielle s’écrit :D’où:
Il
s’agit
de distributions en fonctionpuissance
sur un intervalle borné(a,xo) ;
enparticulier,
pour Y = 1
(A = --) , c’est la distribution uniforme sur l’intervalle (a,xo).
p
-Y) ,
cRemarquons
que la moyenne conditionnelle x a icil’expression :
C’est le
barycentre,
avec lespoids
A et(1-A),
entre le revenu x et le revenu leplus
élevé xo.Si A est
proche
de1, M(x)
estproche
de x : distributionquasi-égalitaire ;
si A estproche
de0, M(x)
estproche
de xo : distribution trèsinégalitaire.
Dernier cas. Si A tend vers 1 et B vers
0,
on obtient la distribution laplus égalitaire
danslaquelle
P est de type Dirac :Si Si
Tous les revenus sont
égaux
à un même revenu a.Le
diagramme
ci-dessous résume la situation :Remarque.
Onpeut également
se poser laquestion
de déterminer les distributions pourlesquelles
c’est le revenu moyen de ceuxqui
sont moint riches que moi :qui
est une fonction affine de x. Laréponse
est laissée en exercice au lecteur.2. DEUX
GÉNÉRALISATIONS
RESTREINTES : LES MOYENNES CONDITIONNELLES D’ORDRE À.Pour une variable X à valeurs
positives,
i.e. telle que : si la moyenne conditionnelle d’ordre À en x > 0 est définie par :pour
(Log t) dF(t)
pour À = 0(moyenne géométrique) .
Ces moyennes sont définies
lorsque l’intégrale
du second membre converge ; pour À =1,
ils’agit
de la moyenne ordinaire étudiée auparagraphe précédent ; pour À = 2,
la moyennequadratique ;
pourÀ = - 1,
la moyenneharmonique.
On démontre comme on l’a fait
(par dérivation)
dans le cas À = 1 auparagraphe
1 supra, que les distributions pourlesquelles
la moyenne conditionnelle d’ordre À est une fonction linéaire :sont des distributions de Pareto du
premier
type :avec :
pour
pour
Cette
propriété
ne s’étend pas aux distributionsgénérales
detype paretien (avec
c #0).
Eneffet,
pour toutchangement
d’unité sur lavariable,
la moyenne d’ordre À subit le mêmechangement d’unité ;
par contre, cette moyenne n’est pas définie "auxchangements d’origine près".
C’est donc bien aux seules distributionsparetiennes
dupremier type (définies
au choixprès
del’unité,
mais non del’origine) qu’il
est naturelqu’elles
soient liées defaçon simple.
Pour ces
distributions,
etlorsque l’exposant
oc est inférieur ouégal
moyenne usuelle n’est pas
définie ;
maisn’importe qu’elle
moyenne d’ordre À oc restedéfinie,
est une "valeur centrale" pour les revenus
supérieurs
ouégaux
à x, et est une fonction linéaire de x.Elle est donc
adaptée
à unedescription
fonctionnellesimple
del’inégalité
de la distribution.Pour une variable pouvant
prendre
des valeurspositives
ounégatives,
la moyennelogarithmique
d’ordre À(en x)
est définie par :Si
(moyenne ordinaire)
Elle
joue,
parrapport
auxchangements d’origine,
le même rôle que la moyenne d’ordre À parrapport
auxchangements
d’unité.On vérifie facilement que :
si et seulement si :
avec :
pour pour
3.
MÉDIANES, QUANTILES
Comme on l’a
rappelé ci-dessus,
une distribution de typeparetien
n’a pas de moyennelorsque
son exposant ce vérifie : 0 1 .
Or ce cas se rencontre
parfois
dans lesapplications,
notamment enstatistique
textuelle.Par contre, la
médiane J.1
est une "valeur centrale" définiequel
que soit oc >0 ; plus généralement,
défmissons lequantile
conditionnel àq%
par tel que :La médiane conditionnelle Jl
(x) correspond
au cas :Si P est une distribution de type
paretien :
On obtient immédiatement :
Et en
particulier,
pour la médiane :De
même,
si P est une distributionexponentielle :
On a :
Et pour la médiane :
Ainsi,
comme dans le cas de la moyenne, la médiane des valeurssupérieures
à x est unefonction affine
de x :avec A > 1 pour toutes les distributions
paretiennes d’exposant
ce >0,
et A = 1 pour toutes les distributionsexponentielles.
Mais
attention, ici,
laréciproque
n’estplus
vraie.Supposons
en effetP(x)
= 1 pour x:9 a ,et telle que :
avec A > 1 et B donnés.
Donnons-nous
P(x)
monotone décroissante mais arbitraire dans l’intervalle(a, p (a))
avec :Alors
P(x)
sera définie pour l’intervalle :Par :
On
procèdera
de même pour définirP(x)
dans l’intervallea2 ~
= a3 , etc...Ce
qui
est par contre vrai engénéral,
c’est que si deux desquantiles
conditionnelsp q (x)
etavec q ~
q’
sont des fonctions affines de x, alorsP(x)
est nécessairementparetienne (ou exponentielle).
4. CENTRES ET
ÉCARTS
CONDITIONNELSLe constat que, pour les distributions
paretiennes
ouexponentielles
les moyennes conditionnelles d’unepart,
les médianes conditionnelles d’autre part, sont des fonctions affinessuggère
unegénéralisation.
Pour tout À >
1, appelons
centre conditionnel d’ordre À en x le nombreCÀ (x)
tel que :Pour À >
1,
et sous condition quel’intégrale
du second membre converge, le centreCÀ (x)
est, pour une distribution de fonction de
répartition
Fdonnée,
biendéfini ;
enparticulier
pour À =2,
c’est la moyenne conditionnelleusuelle,
étudiée auparagraphe
l..Pour À
= 1, CÀ (x)
est lamédiane,
ou éventuellement peutprendre
toutes les valeurs d’un intervalle médian.Pour tout À >
1,
le centre est la valeur de 8qui, lorsque
lesintégrales
enjeu
convergent, minimise :’PÀ (CÀ (x)),
valeur duminimum,
est l’écart moyen conditionnel d’ordre À en x, noté eÀ(x) :
Supposons
Fparetienne d’exposant a,
> 0 :Le centre est défini pour tout ordre À
1+oc,,
et l’écart pour À oc.Supposons À 1+oc,
et dansl’équation (1)
définissant le centre,opérons
lechangement
devariable de t en :
L’équation (1)
se ramène à :où l’on a posé :
Le second membre de
(3)
estl’intégrale
eulérienne :Sa valeur ne
dépend
que de ce et À et estpositive. Quant
aupremier membre,
la fonction :est une fonction
continue,
monotone décroissante de Z dans l’intervalle semi-ouvert]0,1],
avec :et
Donc il existe une valeur
ZÀ unique
telle que :et l’on a par définition :
En revenant à la définition de
Z(x),
il vient :c’est-à-dire :
avec :
Donc, quel
que soit À >1,
pour toute distributionparetienne d’exposant
ce telque À
1+oc,
le centre d’ordre À est une fonction affine de x.On vérifie sans
peine
que, pour À = 1 et ~1= 2respectivement,
les valeurscorrespondantes
fournies par
l’équation (4)
sont bien :et
Supposons
maintenant en outre que : À oc . Comme À >1,
ceci suppose quel’exposant
cede la distribution
paretienne
soitsupérieur
à 1.L’écart eX
(x)
conditionnel est défini et s’écrit : .En
opérant
le mêmechangement
de variable que supra pour les deuxintégrales
du secondmembre,
il vient :Ainsi,
l’écart moyen conditionnel d’ordreÀ, qui,
dans les cas où il estdéfini,
mesure ladispersion
des valeurssupérieures
oùégales
à x, est lui aussi une fonction affine de x.Le cas le
plus
intéressant enpratique
est celui où À = 1(écart
moyenabsolu) ;
eneffet,
il estfréquent
dans lesapplications
quel’exposant
oc soitcompris
entre dans cecas, la distribution n’a pas
d’écart-type
mais son écart moyen absolu est défini et vaut :De
façon
tout à faitanalogue,
on peut voir que si la distribution parente estl’exponentielle
(x-a)
e B
le centre conditionnel d’ordre À en x,
qui
est défini pour tout À >1,
estégal
à :où
ZÀ
est la solutionunique
del’équation :
L’écart moyen conditionnel
correspondant
est constant et vaut :5. AJUS TEMENTS
Ainsi,
pour les variablesayant
une distribution de Pareto ou une distributionexponentielle,
ondispose,
pourexprimer l’inégalité
àchaque
niveau x de la variable enfonction
de x, d’uneinfinité
de cesprocédés qui
consistent à comparer à x une "valeur centrale" des valeurssupérieures
à x ; cettecomparaison
est rendueparticulièrement intelligible
parle fait qu’il s’agit toujours
d’unefonction
linéaire ouaffine
de x.En
pratique,
la valeur centrale à utiliser est la moyenne conditionnelle si celle-ciexiste,
et lamédiane conditionnelle sinon.
Mais ces remarques fournissent de surcroît des
procédés
trèssimples,
et trèsefficaces, d’ajustement
de distributionsempiriques
à des distributionsthéoriques
detype exponentiel
ouparetien.
Soient xl,
x2,
..., xi, ..., xn des valeurs observées indiciées defaçon
que :Et
soit,
pourchaque i, g(xi)
lafréquence
observée de xi : On poseEn
particulier,
si(dans
le casparticulier :
G(xi)
etm(xi)
sont des estimations de la fonction derépartition P(xi)
et de la moyenne conditionnelleM(xi) respectivement.
x
.. B
Ajustement
à uneexponentielle Ke
Si la distribution
parente
est bienexponentielle,
les valeursempiriques
doivent être telles que les différences(m(xi) - xi)
soient à peuprès
constantes.On calcule
donc ,
pourchaque i ;
si les yi sont à peu
près
constants, on estimeB,
avec lesprécautions d’usage,
parAjustement à
une distribution de Paretod’exposant
« > 1m(xi)
Un test
rapide
de la validité del’hypothèse
consiste àregarder
si les rapports sont à peu, xi
près
constants pour lesgrandes
valeurs de xi.S’il en est
ainsi,
on a à réaliserl’ajustement
linéaire :Si cet
ajustement
est bon et si le coefficient A derégression
estsupérieur
à1,
on estime ocpar :
puis
la constante c del’expression
par :Et enfin a par :
Ajustements
à une distribution de Paretod’exposant
0 ex. 1 .Cette
fois-ci,
on se servira de la médiane. Pourchaque
xi, si :On
prendra li (xi)
=Xj.
Et on
procèdera
àl’ajustement
linéaire :D’où,
pour les estimations :Remarque. Lorsque l’exposant
oc estégal
à 1(i.e.,
a une valeurempirique
voisine de1)
lalinéarisation de
l’ajustement
à :est immédiate. En
effet,
on a dans ce cas :On peut donc
procéder
àl’ajustement
linéaire :avec
D’où
De
multiples expériences,
sur des "données"économiques (revenus
fiscauxfrançais), géographiques (surfaces agricoles
enFrance), démographiques (villes
ouagglomérations réparties
selon leurpopulation)
ou lexicales(fréquences
des mots dans destextes)
m’ontconvaincu de la
grande
efficacité de ces méthodes sisimples d’ajustement.
Resterait à étudier leurs
propriétés
dupoint
de vue de lastatistique mathématique (inférentielle) ;
mais ceci est une autrequestion.
Le
point
de vue de cette note a été celui de lastatistique descriptive :
onn’y
a pas mentionné les très bellespropriétés mathématiques,
parrapport
à l’addition des variables aléatoires et auxprocessus
stochastiques,
des distributions dutype Pareto-Lévy, propriétés qui
devraient en faireun outil
privilégié (et
trop souventnégligé
de nosjours)
de la modélisationmathématique
dansles sciences sociales
(cf.
les travaux de PaulLévy
sur les loisstables,
et ceux de BenoitMandelbrot sur la loi de
Pareto-Lévy).
En restant sur l’humble terrain de la
description statistique,
ces distributions me semblent avoir trois avantages décisifs sur tous les autres types de distributionsthéoriques
utilisées(je
pense en
particulier
à lalog-normale)
pour rendre compte desrépartitions
où lephénomène
inégalitaire joue
un rôle central :-
simplicité
etrapidité
du "test" permettantde juger
si unajustement paretien (ou exponentiel)
estraisonnable,
- linéarisation naturelle
(i.e.,
sans le recours à des transformationsfonctionnelles,
telles quele
"passage
auxlogarithmes",
parexemple)
de cetajustement,
- clarté de
l’interprétation,
en termesd’inégalité,
des moyennes ou médianes conditionnelles pourlesquelles
on réalise cetajustement.
Ce sont là des remarques de gros "bon
sens" ;
mais celles-ci ne sont-elles pas lesplus fréquemment
méconnues ?BIBLIOGRAPHIE
- Sur les lois stables et la loi de
Pareto-Lévy :
LÉVY P.,
Théorie de l’addition des variablesaléatoires, Gauthier-Villars, Paris, 1937.
MANDELBROT
B.,
ThePareto-Lévy
Law and the distribution of income. International EconomicReview, vol. 1, 1960,
79-106.MANDELBROT
B.,
The stableparetian
incomedistribution,
when the apparent exponent isnear two. International Economic
Review, vol.4, janvier
1963.EYTAN
M., Quelques propriétés
de la loi de Pareto et leurs incidences en Sciences Humaines.Mathématiques
et Scienceshumaines, n°8,1964,
21-26.- Sur les coefficients
d’inégalité :
FOSTER James
E., Inequality Measurement,
inProceedings of Symposium
inApplied Mathematics, vol.33, 1985 (Amer.
Math.Soc.),
31-68.- Sur une
application
de la méthoded’ajustement :
BARBUT
M.,
Des bons et des moins bons usages des distributionsparetiennes
enanalyse
desdonnées. Histoire et