M ATHÉMATIQUES ET SCIENCES HUMAINES
M. P ETRUSZEWYCZ
Loi de Pareto ou loi log-normale : un choix difficile
Mathématiques et sciences humaines, tome 39 (1972), p. 37-52
<http://www.numdam.org/item?id=MSH_1972__39__37_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1972, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
LOI DE PARETO OU LOI LOG-NORMALE :
UN CHOIX DIFFICILE
par
M. PETRUSZEWYCZ 1
INTRODUCTION
Présentant 2 un article de R. E.
Quandt:
"Statistical discrimination among alternativehypotheses
and some economic
regularities" (Journal of regional science,
vol.5,
nO2, 1964,
pp.1-23),
B. Leclerc[4]
écrivait: « De nombreuses distributions de
grandeurs socio-économiques positives possèdent
une pro-priété
commune: trèsdissymétriques,
elles s’étirent vers la droite. C’est parexemple
le cas de la distri- bution des revenus dans unerégion
donnée à uneépoque fixée,
ou des tailles des villes dans une airegéographique
donnée. Ces distributions ont étéajustées
à diverseslois,
lesplus
courantes étant les loisde Pareto et la loi
log-normale. »
A une certaine
époque,
on a même fait unequerelle
de la confrontation de ces deuxlois, querelle
sans conclusion à ce
jour,
mais tombée dansl’oubli,
sans doute parce que la loi de Paretoparaît
elle-même oubliée. On en citera pour preuve le fait que des
publications
très averties commeÉtudes
etconjoncture
n’offrent à leurs lecteursqu’un graphique d’ajustement log-normal
pour rendre compte de la distribution des revenusimposés
en France en1962,
parexemple.
Sans vouloir ranimer une
querelle stérile,
cet article se propose deréagir
contre cet état de choseset de montrer
qu’il
estparfois difficile,
au vu d’unedistribution,
de décider de la loiqui permettrait
d’en rendre compte au mieux.
Quandt
faisait « une tentative pour trouver un instrumentstatistique
dediscrimination entre des
hypothèses
concurrentes. Cet auteurtraitait,
au moyen d’instruments sta-tistiques classiques
ouoriginaux,
quatre séries de données concrètes confrontées à neuf lois de distri- butionparmi lesquelles
la loi de Pareto et la loilog-normale;
il fautsignaler
que la loi de Pareto à troisparamètres remportait l’avantage.
Le propos de cetarticle, beaucoup plus
modeste(on
ne considérera que ces deux derniers types dedistribution)
estcependant légèrement
différent car leproblème
seraabordé,
dans unepremière partie,
sur unplan théorique,
lesajustements
à des données concrètes n’étant étudiésqu’en
deuxièmepartie.
I. UN EXERCICE
D’AJUSTEMENTS
A PARTIR DEDONNÉES
ARTIFICIELLESOn va successivement se donner une distribution selon la loi de
Pareto, puis
une distribution selon la1. Centre de Mathématique Sociale, EPHE.
2. Je remercie M. G. Th. Guilbaud pour m’avoir suggéré d’entreprendre cette étude et Mme Carcassonne pour les conseils
qu’elle m’a dispensés.
Distribution~théorique parétienne Log Nx
= -1,8 Log
xloi )log-normale$et
essayerd’ajuster
les données ainsi obtenues au moyen de l’autre loi. Onrappellera
d’abord que
la loi
de Pareto a pour fonction cumulative :et que sa densité est:
Elle
possède
donc deuxparamètres
x,, et cc, dit coefficient de Pareto. Pour la loilog-normale,
on a:
- la fonction cumulative:
- et la densité :
Elle a pour
paramètres
m et ci. Il ne faut pas confondre 6 avecl’écart-type
de la variable xqui s’exprime,
en fonction de ces deuxparamètres
par la formule:1.1. AJUSTEMENT PAR UNE LOI LOG-NORMALE DE DONNÉES PARÉTIENNES
Sur du
papier
fonctionnelbi-logarithmique,
on trace une droite de pente oc = -1,8,
valeur du para- mètrefréquente
dans la littérature. Cette droitereprésente
la courbe cumulative d’une loi dePareto;
son
équation
est:où
Nx représente
l’effectif des individus recevant un revenusupérieur
ouégal
à x(le
caractère distribuéou
taille) (Fig. 1).
Par lecture directe sur legraphique
onrelève,
en face des effectifs enordonnées,
lesvaleurs
correspondantes
de x : ce sont les données debase, présentées
au Tableau 1.Tableau 1
Données des
figures 1
et 2Ajustement Log-normal
des donnéesthéoriques parétiennes
avec a = -1,8 (première méthode)
L’interprétation
est la suivante: 1 000 individus ont un revenusupérieur
ouégal
à16,95;
500 indi-vidus ont un revenu
supérieur
ouégal
à24,80;
5 individus ont un revenusupérieur
ouégal
à90,
etc.Ces deux
premières
colonnes du Tableau 1 vont permettre d’établir un deuxièmegraphique.
Eneffet,
si cette distribution était
présentée
à un statisticien comme ayant uneorigine empirique,
ilpourrait
être tenté de
l’ajuster
au moyen d’une loilog-normale.
La courbe cumulative d’une loilog-normale
apour
image
une droite en coordonnéesgausso-logarithmiques
dite droite de Henri. Conservant les gra- duationslogarithmiques
en abcisse(le
caractèredistribué),
on transforme les effectifscorrespondants
en
pourcentage
de l’effectif total(Tableau 1,
colonne2)
pour les porter en ordonnées(Fig. 2) lorsque
celles-ci ont un sens: on ne peut par
exemple
porter la valeur100% qui
n’existeplus.
La courbe initialeest fortement incurvée vers la droite. Il faut ici faire remarquer que,
traditionnellement,
les courbes cumulativeslog-normales
n’ont pas unepente négative
maispositive,
parce que l’on considère les unitésstatistiques
pourlesquelles
le caractère distribué est inférieur ouégal
à un certain niveau. On a choisid’adopter
la courbe cumulativecomplémentaire
par soucid’homogénéité
avec les courbes cumulativesparétiennes.
Telle
qu’elle
est, cette courbe cumulative n’est de toute évidence pas une droite de Henri. On vadonc considérer une nouvelle variable dite
log-normale généralisée
en recherchant unchangement
d’origine qui,
par lejeu
même de la transformationlogarithmique,
« redresse )> la courbe cumulative.On ne s’intéresse
plus
aulogarithme
de x mais aulogarithme
de(x
-xo). L’équation
de la droite de Henri n’est lus u xlog x - m
Henri n est
plus up(z) - - (y -- -1,
mais :Ce
faisant,
on tente unajustement
des données par une loilog-normale généralisée
à trois para- mètres : xo, m et (1. Comment déterminer leparamètre xo ?
Sa valeur maximum est cellequi
rendraitnégatif
le nombre dont onprend
lelogarithme
et même, pour ne pas nous embarrasser de valeursnulles,
on
prendra
pour xo la valeur maximum16,949.
On aessayé plusieurs transpositions
dont certaines sontdonnées au Tableau
1,
deux des courbes cumulativescorrespondantes
étantprésentées
sur laFigure
2.Si la courbe initiale T était incurvée vers la
droite,
on voit que latransposée T5
est aucontraire,
incurvéevers la
gauche :
il existe donc unpoint
d’inflexion. Laplus longue
tangente en cepoint
à la courbe serala meilleure droite de Henri que l’on
puisse
obtenir. C’est pour latransposée T3,
c’est-à-dire pour la variable(x
-16,5) qu’on peut
choisirgraphiquement
cetteplus longue
tangente.Une remarque à propos de la valeur xo =
16,5:
ceparamètre
est une estimation du revenu minimumquand
on traite des données de distribution de revenus. Cette estimation peut être trèsgrossière
en raison du peu d’influencequ’elle
a sur celle desparamètres
fondamentaux m et surtout aqui
peut être considéré comme un indicateurd’inégalité.
Cette valeurcritique
est souvent connue endehors de toute considération
statistique,
parexemple, lorsqu’il s’agit
de revenusimposables.
Ici onpeut constater directement sur la
Figure
1 que ce revenu minimum est réellement de16,9.
Pour
T,,,
la courbe cumulative relative au pourcentage de lapopulation compris
entre10%
et98%
se confond avec la droite de Henri tracée à travers le nuage depoints. Que
peut-on en déduire ?1.1.1. Si on
prend
pour référence Aitchison et Brown[1],
on constate que laFigure 41,
p.33,
est sensi- blementcomparable
à laFigure
2présentée
ici:l’ajustement
estgraphiquement
satisfaisant entre20%
et
95%
de lapopulation.
Parailleurs,
ces auteursindiquent
lestranspositions
comme uneprocédure
pour estimer xo et un moyen licite de recherche de la droite de Henri. Ils
qualifient
laprocédure
commeétant
« plus
un artqu’une science »,
mais l’admettent enpremière analyse,
à conditionqu’elle
soitappliquée
àplusieurs
échantillons.(On
neprésente
iciqu’un
seul de la dizaine d’essais effectués en variant les critères de sélection despoints
de la droite de Pareto transférés sur lepapier log-normal.)
Si on
tronque
la distribution à10%
et90%,
le critère IV d’Aitchison et Brown(dans quelle
mesurela fonction
ajustée approxime
lesdonnées)
estparfaitement
satisfait et on peut estimer quel’ajustement
est licite en ce
qui
concerne le testgraphique.
Celasignifie, toujours d’après
ces auteurs, quel’hypothèse
d’une loi
log-normale
est assez solide pour être testée au moyen parexemple,
d’unx2.
Eneffet,
on esten
présence
d’une loi à troisparamètres
et on ne peutplus
utiliser les tests propres à la loilog-normale
à deux
paramètres proposés
et tabulés parGeary
et Pearson. Parailleurs,
on ne peut estimergraphi-
quement m et 6, mais il faut utiliser les estimateurs tabulés par
Hald,
et pour les moments recourir aux tablespubliées
par Pearson et Lee. Les références à tous ces travauxfigurent
dans[1].
1.1.2. Si on se réfère à
l’ouvrage
de G. Galot[2],
onquitte
le domaine de l’art pour celui de latechnique
statistique.
L’auteur conseille deprocéder
comme si onignorait
la valeur de xo. On trace la courbe cumulativepuis
on cherche « par tâtonnements une droite[...]
telle que l’écart horizontal entre courbe cumulative et droite soitapproximativement
constantlorsqu’il
est mesuré en x. On doit alors vérifier que la droite verticale d’abcisse xo estapproximativement
asymptote»(Fig. 3).
Ajustement log-normal
des donnéesthéoriques parétiennes (deuxième méthode)
Figure
4Distribution
théorique log-normale (m
=174;
cr =2,58)
On aboutit par cette
procédure,
à une droite de Henri de pentelégèrement plus
relevée que celle de la droite choisie par lapremière
méthode. On obtient la même valeur pour xo =16,5
et la droite d’abcisse xo est effectivementasymptotique
à la branche verticale de la courbe cumulative(branche
verticale parce
qu’on
a cumulé par rapport aux valeurssupérieures
ouégales
au niveau considéré du caractèredistribué;
chez l’auteurqui
cumule dans l’autre sens, ils’agit
de la branchehorizontale).
Le fait d’avoir relevé la pente de la droite de Henri amène à tronquer la distribution un peu
plus
basque dans le cas
précédent,
à90%.
Mais on peut ici aussiadmettre, après
troncature, le caractère licite del’ajustement log-normal.
1.2. AJUSTEMENT PAR UNE LOI DE PARETO DE DONNÉES LOG-NORMALES
1.2.1. Distribution
log-normale
deparamètres
m =1,74 cr
=2,58.
La distribution est
représentée
par sa courbe cumulative ou droite de Henri surpapier gausso-logarith- mique (Fig. 4).
Par lecture directc sur legraphique,
on a retenu les donnéesfigurant
au Tableau 2.Celles-ci sont alors
reportées
sur dupapier
fonctionnelbi-logarithmique
où la courbe cumulative d’une distribution de Pareto est une droite de pentenégative
dontl’équation
estLog Nx = -
ccLog
x.Tableau 2 Données des
figures
3 et 4On n’obtient pas une droite avec les données initiales
(Fig. 5),
mais on peut, làaussi,
essayer de « redresser» en considérant nonplus
la variable x, mais une variable(x
-;-xo). Lorsqu’on
faitcela,
onajuste
les données au moyen d’une loi de Pareto à troisparamètres :
x, xo et oc. En prenant pour xo ==200,
on obtient un
alignement
despremières
valeurs et on trace la droited’ajustement
de pente oc =-1,16 ;
celle-ci sesépare
très nettement des donnéesreprésentant
à peuprès
les2,5%
de lapopulation
pourlesquels
les valeurs de x sont lesplus
élevées. Les différences constatées entre valeurs «théoriques»
etvaleurs « observées»
correspondantes,
si ces dernières étaientd’origine empirique, pourraient
amener àFigure
Ajustement parétien
des donnéesthéoriques log-normales
effectuer un test
de x2
pour cetajustement ;
la valeur obtenue6,75 (avec
7degrés
de liberté au seuil5%)
nepermettrait
pas derejeter l’hypothèse
que l’on soit enprésence
d’une loi dePareto,
à troisparamètres,
ceci sans troncature.On a pu, dans
chaque
cas,ajuster
les données issues d’une des deux lois étudiées au moyen d’une droited’ajustement figurant
l’autre loi. Il fautcependant
noter unedissymétrie:
si une distribution de Pareto à deuxparamètres
estgraphiquement ajustée
defaçon
trèssatisfaisante, après
troncature, parune loi
log-normale
à troisparamètres,
inversement une distributionlog-normale
à deuxparamètres
n’est que médiocrement
ajustée
au moyen d’une loi de Pareto à troisparamètres
mais sans troncatureet sans que l’on soit
cependant
en mesure, si l’on était en droitd’appliquer
les testsstatistiques habituels,
de
rejeter l’hypothèse.
Par
ailleurs,
on saitl’importance qu’a
la valeur 2 pour le coefficient ocquand
on rattache la loi de Pareto aux types des lois stables de P.Lévy (cf. [5]),
et il ressort de la formule du moment non centréd’ordre r
qu’oc
ne peut être inférieur à1,
pour que la distribution ait une moyenne. On est donc limité dans son choixlorsqu’on
se « donne» une distributionthéorique parétienne.
Il n’en va pas de même dans l’autre sens où l’on peut faire varier les deuxparamètres
autant que l’on voudra(si
l’on en fixe un, fairevarier l’autre revient à se donner des étendues
différentes);
on doit veiller à se donner des distributions convenables pour que,après
transfert ettransposition
on obtienne une droite de Paretoacceptable.
Une dernière remarque : oc et a étant tous deux des indicateurs
d’inégalité,
onpouvait
songer à les comparer par le biais d’un autre indicateurd’inégalité.
Eneffet,
il existe une relation bien attestée1
entre oc et la mesure de Lorenz: L
= 1
et d’autre part Aitchison et Brown ont donné pour des1 p p
valeurs de a cette mesure de Lorenz
(Table A.l,
p. 154[1]). Cependant,
cette mesure de Lorenz est unmauvais critère
d’ajustement, puisque
deux distributions très différentes relevant de la mêmeloi,
peuvent avoir même mesure de Lorenz.
Aussi,
est-ce intentionnellement que sontprésentées
une distri-bution de Pareto et une distribution
log-normale
de concentrations très différentes.II.
DONNÉES EMPIRIQUES
On va
présenter
dans ceparagraphe,
deuxexemples
de données concrètes et chacune des séries seraajustée
successivement au moyen d’une loi de Pareto et d’une loilog-normale.
Ceci poursouligner qu’il
est
regrettable
de nepratiquer systématiquement qu’un
seul de cesajustements:
que ce soit parcequ’on
se laisse tenter par le
degré
de commodité de calculs ultérieurs ou mêmelorsque
le cadreconceptuel paraît
fournir des raisons valables de penser immédiatement à l’uneplutôt qu’à
l’autre des distributionscomme
apportant
« des informations sur la structure du processusqui
conduit à l’obtention des observations»([2],
p.179).
2.1.
FRÉQUENCE
DES MOTS DANS LE RUSSE D’AUJOURD’HUIOn a utilisé la « liste
générale
des motsd’après
lafréquence
de leuremploio
du Dictionnaire desfréquences
de mots dans le russe
d’aujourd’hui,
de E.Steinfeldt, Moscou,
Ed. duProgrès,
dont onprésente
un résumédans le Tableau 4. Les
précautions prises
par l’auteur dans la constitution de son corpus(400
000 motsrelevés dans 350 textes d’oeuvres
littéraires, théâtrales, radiophoniques
etjournalistiques ;
ont étéretenus les 2 520 mots les
plus
usuels - lafréquence
minimum étant de14,
maximum 14576), permettent
de considérer cette liste comme un échantillon du russeparlé
et écritcontemporain. (Tableau 3.)
Tableau 3
Fréquence
des mots dans le russed’aujourd’hui
Figure
Fréquence
des mots dans le russecontemporain
2.1.1.
Ajustement parétien (Fig. 6).
Onobtient,
avec une loi de Pareto à deuxparamètres,
une droited’ajustement
très «classique»
en ce sens que les données réelles sont très bienajustées
en milieu de dis-tribution,
maisqu’elles
se courbent aux deux extrémités. Onadopte
alors une loi à troisparamètres
pour redresser ces courbures.
L’ajustement graphique paraissant
alorssatisfaisant,
on vaappliquer
lestests
de x2 (on
a admis que le corpuspouvait
être considéré comme unéchantillon)
et deKolmogorov (on
ne considèrera pas celui-ci nonplus
dans uneinterprétation probabiliste rigoureuse impossible ici,
mais
simplement
comme un indicateur de distance entre données et droited’ajustement).
Pour unecritique
trèsexplicite
del’application
de ces deux tests aux données de ce type on renvoie à l’article de R. E.Quandt
dans[3];
on les acependant appliqués
car ils ont amené àrejeter
leshypothèses,
onaurait eu
plus
descrupules
à le faire dans le cas contraire.Test de x2 pour v = 6 au seuil
5%: x2
=12,6;
valeur obtenue:Q2
=53,20.
Test de
Kolmogorov :
au seuil5%,
la borne £ ==0,03;
valeur obtenue: A ==0,44.
Ces tests amènent à
rejeter l’hypothèse
que la loisous-jacente
soit une loi de Pareto.Figure
7Ajustement log-normal
desfréquences
de mots dans le russecontemporain
2.1.2.
Ajustement log-normal,
à troisparamètres.
On l’aessayé malgré
lesobjections
soulevées par B. Mandelbrot[5].
Ici aussi les tests amènent àrejeter l’hypothèse (Fig. 7).
Les auteurs
qui
étudient le type de données enquestion,
on pourra s’en convaincre en lisant lesnotes de B. Leclerc
[3],
neprésentent pratiquement jamais
de testsqui
amèneraient dans lagrande majorité
des cas àrejeter l’hypothèse, ceci,
pensons-nous, parce que le modèlesous-jacent
ne convientpas. La
plupart
des auteurs neprésentent
que desajustements graphiques
sans d’ailleursparfois
observer une
grande rigueur
dans leurapplication.
On les voit alorsadopter
leplus fréquemment
la loilog-normale,
cequi
revient à s’installer dans laposition
confortable du statisticienqui dispose
de tousles raffinements de
l’analyse
et d’un modèle. Et eneffet,
dans un cas comme celui-ci:ajustements
gra-phiques acceptables,
refus des deuxhypothèses, pourquoi
ne pas le faire ? 2.2. CONCENTRATION URBAINE AUXÉTATS-UNIS
Il
s’agit
des villes deplus
de 2 500habitants,
auxÉtats-Unis
en 1910(Tableau 4).
De nombreux travaux
démographiques
ont mis en évidence le rapport existant entre la taille d’uneagglomération
et l’attractionqu’elle
exerce sur lapopulation
d’une certaine zone, c’est-à-direson accroissement. Le cadre
conceptuel
du théorème central limiteparaissant
tout à faitadéquat
dansce
domaine,
on tente enpremier
lieu un2.2.1.
Ajustement log-normal (Fig. 8) :
effectif des villes dont lapopulation
estsupérieure
ouégale
à unelimite donnée. On est amené à
adopter
une loi à troisparamètres
avec xo = 2400, qui
permet d’obtenirun
ajustement graphique
satisfaisantaprès
troncature à1%
et82%.
Distribution des villes des
États-Unis
en 1910 selon leurs classes depopulation
Source. - Historical Statistics of the United States, Colonial Times to 1957, continuation to 1962 and revision, Statistical abstract supplements, Series A 195-209, US Bureau of Census.
Figure
8Répartition
des communes aux USA 1910(ajustement log-normal)
La liste des villes américaines ne pouvant être assimilée à un
échantillon,
on n’effectue pas lex2.
On calcule la valeur de à de
Kolmogorov,
pourlequel
onrépète
les réserves ci-dessus. Si on admettaitl’application
du test, on ne serait pas amené àrejeter l’hypothèse log-normale puisque,
au seuil5%,
laborne est e =
0,02
etqu’on
a ici un à =0,015.
Figure
9Répartition
des communes aux USA 1910(ajustement parétien)
2.2.2.
Ajustement parétien (Fig. 9) :
effectif des villes dont lapopulation
estsupérieure
ouégale
à unelimite donnée. On obtient avec la loi de Pareto à deux
paramètres,
une très bonne droited’ajustement
de pente oc =-
1,06.
Seul le dernierpoint représentant
l’effectif des villes depopulation supérieure
ouégale
à 1. 106 s’ensépare.
Test de
Kolmogorov:
e =0,02 A
=0,0006 (au
seuil5%).
On n’est pas amené à
rejeter l’hypothèse
que la concentration urbaine suive un modèleparétien.
Mais
quel
modèle ? N’a-t-on pas ditqu’il n’y en
avait pasqui
soit universellementaccepté ?
Dans ce cas
précisément,
on vapouvoir présenter
un modèle déterministe carinitialement,
ces donnéesont été
exploitées
dans un cadreparétien.
On sait que la loi de Pareto établit une relation entre deuxprogressions géométriques;
les deux variables: le caractère étudié et les effectifs liés à chacun des niveauxrepérés
decelui-ci,
variant enprogression géométrique.
On renvoie à cesujet
à G. Th. Guil-baud
([4],
pp. 184 à187).
On peut considérer les variables chacuneglobalement
comme une masse à fractionner dans desproportions
différentes mais constantes: les raisonsrespectives
de chacune desprogressions géométriques.
Unexemple
trèssimple.
On a une masse M de 100 000 unités que separtage
une
population
P de 3 000 personnes. Ce partage se fait selon les modalités suivantes: le1/10
de M estaffecté aux
2/3
deP,
c’est la couche laplus
défavorisée et il reste 90 000 unités à partager entre 1 000 per-sonnes. On réitère et on affecte
1/10 (1/10
deM)
aux2/3 (2/3
deP)
et ainsi de suite(Fig. 10).
Figure
10Schéma du processus de partage
On a
alors,
pourreprésenter
le processus, trois arbres d’untype particulier
mais connu desphyllotaxinomistes qui
lesappellent « plaviotropes»:
du seul tronc seséparent
des rameaux mais ceux-cine donnent
jamais
naissance à un autre rameau. Ces trois arbres peuvent êtreappelés
les arbres desvariables et celui
qui
établit la relation entre les deuxpremiers,
l’arbre des parts ou arbre du revenu moyen parcouche,
si on étudie des revenus. LaFigure
11présente
les trois arbres pour la concentration urbaine aux USA en 1910. Si ondésigne
par 1~ uneétape
du processus, la moyenne dans la couche(k, k
-f-1) s’écrit,
si l’ondésigne
lapopulation
par P et le nombre des villes par N:Figure
11Les arbres des variables et l’arbre des parts
peut
d’inégalité a
Selon les domaines
d’application,
ce modèle rencontreplus
ou moins le sens commun; dans ledomaine de la théorie de
l’organisation
onpourrait
sans doute en trouver de bonsexemples.
S’il s’est avéréinapplicable
à la concentration urbainefrançaise, probablement
en raison dulong passé historique
dont elle constitue le
témoignage,
il s’est avéré très satisfaisant quant à la stabilité des raisons et de 8 pour la concentrationaméricaine,
comme on peut le voir sur laFigure
11.Cependant,
legraphique
del’arbre des parts ne donne
qu’un
très médiocreajustement parétien.
CONCLUSION
Pour rendre compte de distributions
empiriques
trèsdissymétriques
vers ladroite,
le statisticien a le choix entreplusieurs lois,
parexemple
la loi de Pareto ou la loilog-normale.
Ce choix est souvent difficile:on a
essayé
de montrerqu’on pouvait s’y
tromper. Se référer auplan théorique
serait une situation fort incommode: l’une deslois,
la loi dePareto,
n’a pas de fondementsprobabilistes
indiscutables et la loilog-normale
en a de sipuissants qu’il
est difficile de considérer les contraintesimpliquées
comme étantvérifiées dans de nombreux cas concrets. On voudrait donc
plaider
quel’usage
serépande
d’effectuer les deuxajustements
comme unepratique
commode etrapide
pourjuger qualitativement
une distributionempirique
et que toutesupposition
sur le modèlesous-jacent n’apparaisse qu’une
fois cepremier
critèreutilisé.
Les graphiques ont été calibrés et dessinés par J. Leconte.
BIBLIOGRAPHIE
[1] AITCHISON,
J. etBROWN,
J. A.C.,
Thelog-normal
distribution withspecial references
to its uses ineconomics, University
ofCambridge, Monograph 5, Cambridge, Mass., Cambridge University
Press, 1969,
5e ed.[2] CALOT, G.,
Cours destatistique descriptive, Paris, Dunod,
Coll.Statistique
etProgrammes
écono-miques,
1969.[3] GUILBAUD,
G.Th., Mathématiques, Paris,
Presses Universitaires deFrance,
Coll.Thémis,
1963.[4] LECLERC, B., "Applications pratiques
des lois deprobabilité (11)",
Math. Sci.hum.,
n°36, 1971,
pp. 79-89.
L’ensemble de ces études sera