M. P ETRUSZEWYCZ
Loi de Pareto et processus markovien
Mathématiques et sciences humaines, tome 3 (1963), p. 21-29
<http://www.numdam.org/item?id=MSH_1963__3__21_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1963, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
M.PETRUSZEWYCZ
L0I DE
PARETO ET PROCESSUS MARKOVIEN
A la fin du XIXe
siècle,
Paretoétudiant
la distribution des revenus dans divers pays et à diversesépoques,
y en constatait lagrande
stabilité etl’expri-
mait en une loi
empirique qu’on peut
écrire:log N(x)==~-a log
x, oùN(x) repré-
sente le nombre des individus
percevant
un revenusupérieur
ouégal
à x,et a
yun coefficient
d’inégalité.
On aremarqué depuis
quebeaucoup
d’autresphénomè-
nes
présentaient
une semblable loi derépartition:
les mots suivant leur fré- quence, y les villes selon leurpopulation,
lesentreprises
selon le nombre dessyndiqués,
pour ne citer que cesexemples.
Cette diversité pose unproblème
àceux
qui, depuis
la découverte dePareto,
rechercheraient la loithéorique
sous-jacente
carl’hétérogénéité
des domainesévoqués permet
de mettre en doute l’exis-tence d’un modèle
unique. Aucun
des modèles(1) présentés
pourexpliquer
la dis-tribution des revenus
n’a,
àce jour, emporté
une adhésiongénérale.
Cela sejus-
tifie sans doute en
partie
par le caractère trèscomplexe
duphénomène étudié,
car il semble que pour des
phénomènes beaucoup plus simples
onpuisse présenter
un schéma satisfaisant.
L’étude de certaines activités
socio-économiques
apermis
à J. Durand(2)
designaler
une attraction pour les "nombres ronds"qu’il définit,
y pour certains desexemples cités,
comme lesmultiples
etsous-multiples
de 10 ou d’unepuissance
de10,
ou la somme des deux.L’auteur étudie des relevés de vente d’articles se débitant par lots où se
remarquent
des concentrationsimportantes
sur certaines valeursprivilégiées.
Ilprésente
uneanalyse statistique
de ces séries basée sur la relationrang-fré-
quence
qu’il rapporte
à la loi deZipf
tout enrappelant
que c’est une forme par- ticulière de la loi de Pareto. J. Durandévoque
ensuite un modèle markovien àpropos de la succession des chiffres constituant les nombres et donne à
preuve
les résultats d’une simulation établie pour une série de 313 ventes de fil de fer
galvanisé.
Cette série serviraprécisément d’exemple
pour uneapplication
numéri-que du
modèle, exposé
toutd’abord,
d’un processus markovienproduisant
une dis-tribution de
type parétien.
*
* *
(1 )
Un exposé des divers modèl,es proposés se trouve dans Etudes de Comptabilité Nationale, Publica- tion du Ministère des Finances et des Affaires Economiques, Service des Etudes Economiques et Financières, Avril 1 1960, Imprimerie Nationale: THIONET - Sur la distribution des revenus et les modèles qui s’y rapportent p. 15.(2)
L’at tract’ion des nombres ronds et ses conséquences économiques - Revue Française de Soc i o 1 og i e, 1961, I I , 3, 131, 151.L’attraction des nombres ronds et quelques aspects sociologiques du nombres dans: Comptes rendu,,,
séminaire C.M.S.S., 1960-61, fasc. 1.
I - Le modèle cherche à rendre
compte
d’une série denombres,
y entendus pa,r un observateur ouprésentés
en relevés. Ces nombresexpriment
les décisions d’a,cha,tsd’agents qui
ont d’autrepart
en mémoire leur estimation des besoins les moti- vant. On reviendra sur cespoints après
avoirprésenté
leshypothèses.
Chacun des nombres est considéré comme résultant de l’énoncé successif des chiffres y
figurant.
La deuxièmehypothèse
veut que les chiffes soient énoncésou lus de
gauche
à droite. Parexemple
si lepremier
chiffre est1,
le nombredont il est le
premier
chiffre est ou biencompris
entre 10 et19~
ou entre 100et
199~
y etc...(Fig. 1).
Lepremier
chiffre détermine dans l’ensemble desFig.
1nombres entiers et "ronds" une famille d’intervalles
disjoints
dont un seul con-tiendra le nombre finalement énoncé ou lu. Si ce nombre a
plus
d’unchiffre,
lechiffre suivant détermine à son
tour,
y dans chacun des intervalles un sous-inter- valle. L’ensemble des sous-intervalles ainsi sélectionnés en contient un où setrouve nécessairement le r.ombre définitif. Si le nombre a n
chiffres,
on l’ob-tiendra au bout de n
opérations
de ce genre, c’est-à-dire à la nième subdivi-sion
du nièmeintervalle
enpartant
de lagauche.
-
Il faut ensuite définir
l’alphabet dont ,disposent
lesagents qu’on limitera, quant
à sonétendue,
d’unepa,rt
pourprésenter
un modèle trèssimple,
ma.is sur-tout pour
respecter
lephénomène
même mis en évidence par J. Durand: l’utilisa- tion des seuls chiffres:1, 2, 5,
0.L’alphabet comporte
donccinq signes;
qua- trereprésentent
ces chiffres: u,d,
c, z, et lecinquième
lesigne "stop":
per- met de délimiter l’arbre des nombrespossibles qui,
sanscela,
serait illimité.Cet arbre
(Fig. 2) comporte
troisbranches seulement au
départe
zé-ro ne
pouvant jamais
être énon- cé enpremier
maisprésente
en-suite
quatre
branches audépart
de tout carrefour. Il faut enfin introduire
l’hwpothèsP
marko-vienne : à
chaque
instantl’agent peut
choisir un nouveausigne
dans
l’alphabet
et ce choix nedépend
que du dernier chiffre choisi.Quelques
remarques ausujet
de ces
hypothèses.
Laprocédure
de sélection que décrit la secon-
de semble
valable,
y dans sa~ forme-lisation~
aussi bien pourl’agent
que pour l’observateur. Mais il
Fig.
2semblerait raisonnable d’admettre que la réalité vécue
s’accompagne
d’une con-naissance
respectivement préalable
ouquasi-simultanée
de lalongueur
de la chaî-ne. Pour
l’agent
y laprise
de conscience du besoin motivant l’achat l’amène à unedétermination de l’intervalle
qui
l’intéresse etparfois
même sonexpérience
luipermet
de se situer d’emblée dans l’un des sous-intervalles sans le secours d’un instrument de mesure, y mètre ou chaîned’arpenteur.
Pour lelecteur,
lasépara-
tion en tranches de trois chiffres par colonnes
comptables,
espace oupoint
estperçue immédiatement - dans une zone "usuelle" -, bien avant la lecture détaillée.
La dernière
hypothèse
semble assez bien rendrecompte
desapproximations
succes-sives que réalise
l’agent qui passant
pour ainsi dire de colonne en colonne comp- table n’a besoin de retenir que le chiffre énoncé en dernier s’il a en mêmetemps
une idée de la
longueur
de la chaîne.Sous ces
hypothèses,
y lediagramme
des choixpossibles peut
êtrereprésenté
par le schéma markovien habituel. On trouvera
fig.
3 le schéma des choixpossi-
bles dans la série retenue pour servir
d’application numérique.
Cediagramme
’
Fig.
3constitue un réseau dont les
cycles,
y par leur nombre et leurposition
caractéri-sent la chaîne markovienne. Leur existence
permet
à la "machine" de fonctionne indéfiniment et d’émettre des nombres arbitrairementgrands.
Pourcompléter
ceschéma il faut affecter aux transitions
permises
desprobabilités
de passage, yc’est-à-dire estimer la
probabilité
pour c, pa.rexemple,
d’avoir z pour con-séquent.
On a audépart
trois émissionspossibles ayant
pourprobabilité P1,P2,P3’
avec la condition pi +
p~
+p~
^ 1 bienentendu,
de même que l’on a :II - Le processus
décrit,
il nous reste à examiner son fonctionnement. Tout pro-cessus
engendre
une distribution dont onpeut
ici donner deux.représentations.
La
première rappelle
lesaspects linguistique
duphénomène
en cause;l’autre, graphique,
y nouspermettra
d’ensouligner
le caractèreparétien.
L’arbre des nombres émis
(Fig. 4) peut
être considéré comme lelexique
des"mots" écrits avec
les, lettres P1 p2 p~ q1 ""’s2.. ·etc...
si on définit le motcommue la
probabilité
d’un nombre obtenue en vertu del’hypothèse
markovienne parmultiplication
desprobabilités
de passage des chiffres lecomposant.
Ces motssont en même
temps
ladescription
d’un cheminement dans l’arbre des nombres émisvers des embranchements et la
désignation
codée de ceux-ci. Car on a ici en effetun code unitaire et
net,
y c’est-à-direqu’il
estpossible
de mettre uneétiquette
à
chaque arrêt,
et danslequel
la scansion estmarquée
parBt28
Audépart
on cons-tate
quelques irrégularités, puis
l’arbre se stabilise trèsrapidement
parce que le modèle étant extrêmementsimple
etl’alphabet
trèslimité,
parle jeu
de laboucle s’instaure un
régime permanent
oùn’apparaissent plus
quetri
ett2.
Poursouligner
le caractèrepériodique
duphénomène,
relevons unepartie
du diction-naire
(Fig. 5)
de ces deuxfaçons
de dire les nombres enrangeant
ceux-ci dans l’ordrenaturel arithmétique.
On cons-tate aisément
qu’ils
sont enprogression géométrique
de même que leurprobabili-
té : ·
la
progression
desprobabilités ayant
pour raison la
probabilité t 1
de laboucle.
Fig.
5 :Lexique
des nombres et desCela nous amène à. la deuxième re-
°
présentation:
augraphique
en coordon- néeslogarithmiques
oùapparaît
le car-ractère
parétien
duphénomène.
On a deuxprogressions géométriques,
y c’est-à-dire deux tablesdes puissances
successives de la base. Si nousdésignons
lespuissan-
ces successives de 10 =
uo
par y =un uo, à
chacun de ces nombrescorrespond
uneprobabilité
x =pO pn
oùpo = at2’
Si onapplique
à chacune de cette correspon- dance la transfonnationlogarithmique,
onpeut
écrire :d’où l’on tire
et l’on
peut
écrireOr a étant la
pente
constante de la droite: onpeut
écrireavec
ce
qui
entraîne quelog
p estnégatif.
On a donc
dans
l’équation
de la droitece
qui
estl’équation
de la loi de Pareto. Enportant
sur dupapier bi-logarith- mique
les nombres émis par le processus selon leur rang et en abcisses leur pro- babilité nous devons voir lespoints
obtenuss’ajuster
selon une droite où lapuissance
de x se lit directement comme lapente
constante(Fig. 6).
Fig.
6 :Graphique parétien.
Pour
porter
cesprobabilités
sur l’axe des x, il faut estimer la valeur de chacun des "mots". D’autrepart,
pour classer ces mots il y avait un ordre ob-jectif
mais il n’en est pastou.j ours ainsi,
y parexemple lorsque
lephénomène
étudié
participe davantage
de lalinguistique.
Alorss’impose
le choix d’un au-tre critère: les
fréquences d’apparition.
C’est par leur intermédiaire que nousallons,
pour l’une des sériesprésentées
par J.Durand,
estimer lesprobabilités
de passage nous
permettant
de calculer la valeur des "mots".*
. * *
On
peut,
y àpartir
des données recueillies etreproduites ci-dessous,
dres-ser l’’ arbre des ventes
(Fig. 7).
L‘’ échantillon est constitué par 313 ventes serépartissant
ainsi :107 dont le
premier
chiffre est 1122 dont le
premier
chiffreest 2
84 dont le
premier
chiffreest 5
Fig.
7 : Arbre des ventes.Ayant
inscrit les effectifs dans les casescorrespondantes
cela va nous per-mettre d’estimer les
probabilités
élémentaires. Considérons la case parexemple;
ces 84 cas constituent les100 %
des nombres dont lepremier
chiffre est 5qui
sedécomposent
en 59 commandes effectives de 5(les
nombres se terminantpar
stop
ont leurs effectifssoulignés) qui
enreprésentent
les 70%.
On estimeainsi à
0,70
la valeur de s1 . On en déduit que les 25 autres nombrescommençant
par 5
représentent 30 %
des cas, d’où la valeur0,30
pour s2. Cet effectif de 25correspond
à la totalité des réalisations de 50 d’où le chemin conduisant à lacase 1*/251
est affecté de laprobabilité 1,
l’autre chemin nepouvant
rece-voir que la
probabilité
0. Le raisonnementpeut
être refait pour chacune des bran- ches de l’arbre des ventes et nouspermet
d’établir lesprobabilités
de passage dont on trouve les valeursnumériques
au tableau I.Tableau I
Par
composition
de cesprobabilités élémentaires,
onpeut
attribuer à cha-cun des nombres émis par la machine une valeur. Ces valeurs
figurent
en troisiè-me colonne du dictionnaire
(Fig. 9) qui
range les nombres dans l’ordre arithméti- que. Pour aboutir à lareprésentation parétienne
il faut les ordonner suivantleur valeur en
fréquence, puis
onporte
en ordonnées les rangs des nombres’ou leurpopulation
cumulée et en abscisses lesfréquences qui
ont toutes été multi-pliées
par 100.000 pour s’étaler de0,1
à 39.000. Cet étalement est considérable parrapport
à celui de lapopulation,
cequi
donne augraphique
une a,llure inharbituelle,
car dans lesgraphiques
de revenus parexemple,
l’étalement maximum est situé sur l’axe des ordonnées(Fig.
6:graphique parétien).
Que
penser de cetajustement?
Il faut se poser laquestion
à deuxpoints
devue. On
peut s’interroger
sur la valeur del’ajustement
à la loiempirique
par un échantillon assezrestreint;
il aurait été intéressant dedisposer
de relevésplus
étendus. D’autrepart, l’ajustement,
aumoyen
desprobabilités estimées,
de la loide
progression géométrique dégagée
enpremière partie
mérite examen. S’il est sa-tisfaisant,
du moinsquand
on enjuge
parrapport
auxajustements
que l’onpeut
voir dans le domaine des revenus, y il n’est pas
parfait
et met enévidence
les ef-fets des
manipulations numériques.
Eneffet,
au cours descalculs,
y il a fallu"arrondir"
plusieu.rs
fois: dans le calcul despourcentages
defréquence
pour res-pecter
la conditionp2
+P3 =
1 etaussi lors
ducalcul
des valeurs numéri-ques des mots codés
qui comportaient plus
de dix chiffresaprès
lavirgule.
D’où les écarts constatés par
rapport
au strictalignement attendu,
écartsque l’on rencontre aussi dans des
ajustements
de revenus, ma,is dont onjendcompte
différemment par des considérations d’ordre
économique
etqui
ne sauraient êtreavancées ici.
*
* *
On a ici un modèle de processus markovien très
simple qui
en fonctionnantproduit
un arbre. Si sur cet arbre onporte
des valeursnumériques après
un ré-gime
transitoireirrégulier,
on voitapparaître
le caractère"périodique"
duphé-
nomène
qui
est de ce faitjusticiable
d’unajustement parétien.
Si sur l’arbre onporte
des lettres on a un code unitaire et net banal. Lephénomène
étudiéparti-
cipant
de lalinguistique
et ce motfigurant
dans letexte,
il ne faudrait pascroire que le modèle soit
linguistique.
Pourqu’il puisse
yprétendre
il seraitnécessaire de le
perfectionner
et de lecompliquer
considérablement. Telqu’il
est
présenté
le modèle semblecependant
rendrecompte
d’unphénomène
en soi mi-neur, ma,is situé dans son contexte