É RIC T ÉROUANNE
Distorsion entre deux distributions d’une variable nominale
Mathématiques et sciences humaines, tome 131 (1995), p. 29-38
<http://www.numdam.org/item?id=MSH_1995__131__29_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1995, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
DISTORSION ENTRE DEUX DISTRIBUTIONS D’UNE VARIABLE NOMINALE
Éric TÉROUANNE1
RÉSUMÉ 2014 On montre comment les outils classiquement utilisés pour parler de concentration d’une
mesure par rapport à une autre, considérée comme référence, permettent d’introduire la notion de distorsion entre deux mesures, dans laquelle ces dernières jouent des rôles symétriques. Ceci permet de résoudre divers
problèmes
posés par l’étude des inégalités : évolutionsparadoxales
de deuxsous-populations complémentaires,
évaluationde la contribution de chaque modalité à la distorsion ou à son évolution.
SUMMARY 2014 Distortion between two distributions of a nominal variable
The tools classically involved in analyzing the concentration of one measure with respect to another, considered
as a reference, are shown to allow
introducing
the notionof distortion
between two measures, in which both ofthe latter
play
symmetrical roles. This allowssolving
variousproblems
putby
thestudy
ofinequalities :
paradoxical evolutions of two complementarysub-populations,
evaluation of the contribution of eachmodality
to the distortion or to its evolution.
INTRODUCTION
Pour comparer une distribution de
fréquences
d’une variable nominale à une distribution deréférence,
on utiliseclassiquement
la courbe de concentration de lapremière
parrapport
à laseconde,
et l’indicequi
lui est associé(De
Finetti1972,
Barbut84b,
Cifarelli etal.1987).
Cesoutils sont la
généralisation
de la courbe de Lorenz(1905)
et de l’indice de Gini(1914) qui
enconstituent le cas
particulier quand
la distribution de référence est uniforme.L’analyse
de la concentration à la Lorenz - Gini confère aux deux mesures confrontées des rôles fondamentalementdissymétriques.
Parexemple,
lapremière
est la distribution réelle des revenus dans unepopulation,
et la seconde est la distribution uniforme sur cette mêmepopulation,
considérée comme le modèle d’unerépartition égalitaire.
Pour étudier l’évolution del’inégalité
des revenus, on compare alors lafaçon
dont les distributions réelles des revenus à diverses datess’éloignent plus
ou moins de l’uniforme. On a encore affaire à une situationdissymétrique quand
on utilise la courbe de concentration pour caractériser ladépendance
entredeux variables
(Scarsini 1990).
En effet on compare alors la distributionconjointe
de ces deuxvariables au
produit
de leursmarginales, qui
sert de référence en tant que modèle de l’absence de liaison.1 Département de Mathématiques et
Informatique
Appliquées, Université PaulValéry,
Montpellier ni.Par contre une telle
dissymétrie
nes’impose
pasquand
on étudie la différence entre deux distributionsréelles,
parexemple quand
on veut comparerl’origine
sociale de deuxcatégories
d’étudiants. Il semble
pourtant
que lapratique
usuelle se ramène à une visiondissymétrique
duproblème qui
consiste à étudier les concentrations de chacune des distributions parrapport
àune distribution
qui
sert deréférence,
parexemple
la distributionmarginale
obtenue enréunissant les deux
catégories
d’étudiants. L’étude de ces "courbes de concentrationsadjointes"
amène des effetsparadoxaux (Barbut 1984a, b,
Combessie1984, 85).
Or il
n’y
a, sur leplan
strictementmathématique,
aucune différence entre la concentration d’une mesure p parrapport
à une mesure q et celle de la mesure q par rapport à la mesure p.C’est
pourquoi
dans le cas d’unecomparaison symétrique
de deux mesures onpréfèrera parler
de distorsion entre elles. On propose ici une
présentation
des outils decomparaison inspirés
deLorenz et Gini
qui
met en évidence cettesymétrie
etqui
en outre facilitel’analyse
descontributions à la distorsion de chacune des modalités. Cette
présentation
permet de reformuler certainsproblèmes
soulevés par lacomparaison
desinégalités.
DISTORSION ENTRE DEUX MESURES
Soient p et q
deux distributions defréquences
d’une variablenominale,
c’est à dire deuxmesures
positives
de masse totale 1 sur un même ensemble E(de
cardinaln) dépourvu
destructure a
priori.
Pour comparer ces deux distributions onpeut représenter
dans ungraphique
orthonormé
(figure la) chaque
modalité x E E par lecouple (p(x), q(x)).
Ladiagonale (en
*pointillés) sépare
les modalitésqui
sont mieuxreprésentées
dans p que dans q(au-dessous)
decelles
qui
sont mieuxreprésentées
dans q que dans p(au-dessus).
,La
pente
du segment reliant unpoint x
àl’origine
est la densitéq(x)lp(x)
de la mesure q parrapport
à la mesure p aupoint
x(infinie si p(x)
= 0 #q(x».
Elle induit unpréordre
total surE. On
départage
arbitrairement les ex a~quo defaçon
à en faire un ordre. On notera(x,y)(q/p)
six est
plus petit
que y dans l’ordre de densitécorrespondant (comme
dans lafigure la),
soit :Figure
1.Comparaison
de deux distributions defréquence (a)
et contribution à la distorsion des modalités x et y
(b).
Intuitivement,
la distorsion entre les deux mesures est d’autantplus
forte que les modalités sontplus éloignées
de ladiagonale.
Iln’y
a pas de distorsion si p = q : les modalitéssont alors toutes situées sur la
diagonale.
La distorsion est maximale si les mesures sont de supportdisjoint :
les modalités sont alors toutes situées les unes sur un axe, les autres surl’autre.
Pour
analyser
la distorsion entre p et q, onpeut
commencer par évaluer la contribution que lui apportechaque paire
de modalités. On dira que lapaire
de modalités{a,~} n’apporte
aucune contribution à la distorsion si
l’importance
relative de ces deux modalités est la même dans les deux distributions :Dans un tel cas, les deux modalités seraient
représentées
dans lafigure
la par des segments colinéaires.Quand
elles ne sont pas ainsialignées,
les modalités x et y forment avecl’origine
la base d’unparallélogramme (figure lb)
dont lasuperficie
est :Ce
parallélogramme représente
la contribution de lapaire
de modalités{x,y}
à ladistorsion entre p et q. Il sera commode par la suite
d’exprimer
sasuperficie
comme la valeurabsolue du déterminant :
La
surface
de distorsion entre les deux mesures est la réunion desparallélogrammes
associés aux
n (n- 1)/2 paires
de modalités(figure 2a).
On dira que la distorsion entre p et q estplus
forte que la distorsion entrep’
etq’
si la surface de distorsion entre p et q contient entièrement la surface de distorsionentre p’
etq’.
Pour
quantifier
cettedifférence,
et pour éventuellement trancher au cas où les surfaces ne sont pas strictementcomparables,
on peutprendre
pour indice de distorsion lasuperficie
de lasurface de distorsion. Notée
8( {p,q}),
elle est mesurée par la somme des valeurs absolues des déterminantscorrespondants.
Cettegrandeur, comprise
entre 0 et1,
estsymétrique
en p et q :La courbe de concentration
de p
par rapport à q, au sens deLorenz,
est le contoursupérieur
de la surface de distorsion(à
unesymétrie près,
selon lesauteurs).
Le contourinférieur de la surface de distorsion est son
symétrique
parrapport
au centre du carré. Unesymétrie
par rapport à ladiagonale
enfait,
avec les mêmesconventions,
la courbe de concentrationde q
par rapport à p.On définit habituellement, à la suite de
Gini,
l’indice de concentration de la mesure p par rapport à la mesure q comme le double de lasuperficie comprise
entre la courbe de concentration de p par rapportà q
et ladiagonale.
Il est doncégal
à lasuperficie ~({p,q})
de lasurface de
distorsion,
et c’estégalement
l’indice de concentrationde q
parrapport
à p. C’estpourquoi
nousparlerons,
dans le contexte d’uneanalyse symétrique
en p et q, de l’indice de distorsion de Gini.Figure
2. Surface de distorsionentre p et
q , contributions de lapaire { x,y } (quadrillée),
et des modalités x et y
(hachurées) (a).
Lasuperficie
de cette surfaceest la différence entre les
superficies gris
clair etgris
foncé(b).
On
peut
se donner une autrereprésentation simple
de cet indice. Dans lafigure 2b,
les modalités sontdisposées,
en abscisse comme enordonnée,
selon l’ordre(qlp)
des densités. Lacourbe traversant les
rectangles diagonaux (en blanc)
est la courbe de concentration de p parrapport
à q. A toutcouple (x,y)
de modalités différentescorrespond
unrectangle grisé
desuperficie p(x)q(y).
La contribution de lapaire lxy)
à la distorsion est la différence absolueentre les
superficies
desrectangles (x,y)
et(y,x). 15( {p,q })
est donc une sommealgébrique
desuperficies,
danslaquelle
lesrectangles
entièrement situés sous la courbe(en gris clair)
sontcomptés positivement
et lesrectangles
entièrement situés au dessus(en gris foncé)
sontcomptés négativement.
On
peut
évaluer pourchaque
modalité x sa contribution à l’indice dedistorsion,
en sommant lessuperficies
desparallélogrames (ou
desrectangles) qui
laconcernent. On assortit cette sommation d’un coefficient 1/2 pour que la somme des contributions de toutes les modalités soit
15( {p,q}), chaque parallélograme (ou rectangle)
étantpris
encompte
deux fois :On
peut
donc lire cette contribution de x à la distorsion comme la moitié de lasuperficie
d’une bande de
parallélogrammes (hachurés
vers le haut à droite dans lafigure 2a),
tousconstruits sur des
segments équipollents
ausegment
x de lafigure
la.La même
quantité peut s’exprimer
comme suit :On
peut
donc lire dans lafigure
2b comme la demi-sommealgébrique (avec
lamême
règle
designes
queci-dessus)
dessuperficies comprises
dans laligne
et la colonnecorrespondant
à x.LE CAS DES FONCTIONS DE CONCENTRATION ADJOINTES
On étudie une variable nominale dans une
population qui
est par ailleurscoupée
en deuxsous-populations
A et B par un critèredichotomique (par exemple
lesexe).
Ondispose
donc detrois distributions de cette variable : on
notera pA et pB
les distributions dans chacune des sous-populations
et p la distributionmarginale,
c’est-à-dire dans lapopulation
tout entière. Barbut( 1984b)
nommeadjointes
les fonctions de concentrationde pA et pB respectivement
parrapport à p.
On compare ici les distorsionsentre pA et pB , entre pA et p
etentre pB et p.
Si a E
[4,1 ]
est laproportion
d’individus de la classe A dans lapopulation,
et 1- a laproportion
d’individus de la classeB,
on a pour tout x :Pour toute
paire ix,y)
de modalités, on a alors :et donc :
Autrement
dit,
l’ordre des densités de pA par rapportà p
est le même que parrapport
àpB , et c’est le dual de l’ordre des densités de pB par rapport
à p
ou pA . Il s’ensuit que pourtoute
paire {.x, v }
de modalités on a :Si l’on suppose
(x,y)(qlp),
lesquantités
ci-dessus sontpositives
et cette relationexprime
le fait que la contribution de la
paire { x,y }
à l’indice de distorsion estinférieure,
avec un coefficient 1-a à sa contribution à
S( { pA, pB } ).
Dans les mêmesconditions,
lacontribution de
ix,y)
à l’indice de distorsion est :D’où il découle que, pour toute
paire { x, y } :
Ce
qui
est vrai pourchaque
contribution l’est aussi pour la distorsion totale :et
et f înalement :
Cette additivité des indices de distorsion ne s’étend pas au delà de deux
catégories,
cardès
qu’il
y en adavantage
les ordres de densité de chacune des trois distributions par rapport à lamarginale
ne sont que rarement tous leségaux
ou les duaux les uns des autres.UN EXEMPLE
Baudelot & al.
(1981)
étudient l’influence de lacatégorie
sociale ouprofessionnelle (CSP)
desparents
sur l’accès desjeunes Français
àl’enseignement supérieur
en 1960 et 1976.Ils donnent ainsi
(tableau 1)
pourchaque
année la distribution des CSP desparents
pour l’ensemble de la tranched’âge
considérée ainsi queparmi
les étudiants. On en déduit la distributionparmi
les non-étudiants. On notera les distributions defréquences
associées p(Ensemble),
pA(Etudiants) et pB (Non-étudiants)
pour1960,
et de mêmep’, P’A
etp’B
pour 1976.Tableau 1. Effectifs
(en milliers)
desfrançais d’âge étudiant,
inscrits ou non dansl’enseignement supérieur,
selon la CSP de leursparents,
en 1960 et 1970
(d’après
Baudelot &al.).
Combessie
(1985), reprenant
cesdonnées,
cherche àrépondre
à laquestion : l’inégalité
des chances d’accès à
l’enseignement supérieur
a-t-elleaugmenté
ou diminué entre 1960 et1976 ? Pour ce
faire,
il compare la courbe de concentrationde pA
parrapport à p
à cellede p’A
par
rapport à p’.
Lapremière
montredavantage
de concentration que la seconde et l’auteur enconclut naturellement que
l’inégalité
d’accès àl’enseignement supérieur
a diminué. Il compare ensuite la courbe de concentrationde pB
parrapport à p
à cellede p’B
parrapport à p’ :
cettefois,
c’est la secondequi
montredavantage
de concentration que lapremière.
L’auteur enconclut que
l’inégalité d’exclusion, elle,
aaugmenté.
Etd’exprimer
ainsi leparadoxe :
"unindice
appliqué
au groupe non A donne à laquestion posée
uneréponse
contradictoire à celle queproduit
le même indiceappliqué
au groupe A".Barbut
(1985)
montre bien le "caractère inéluctable de cet effet"paradoxal","
et commentil s’étend à la
plupart
des indicateurs del’inégalité développés
dans la littératureéconomique (cf
par
exemple
Sen1973).
Le
paradoxe
naît de l’utilisation des mesures deréférence p
etp’.
On l’évite encomparant
directement les distorsionsqui
existent entre pA d’une part, entrep’A et p’B
d’autrepart.
Pour ce faire on ordonne
chaque
année les CSP selon les densitésP Afp B et P’ Afp’ B respectivement
et on établit lesfréquences
cumulées de chacune des distributions dans cet ordre(tableau 2).
Tableau 2. Pour
chaque année,
les CSP sontrangées
par ordre croissant de densité d’étudiants parrapport
aux non-étudiants.Les
fréquences
cumulées définissent lespoints
de lafigure
3.La
figure 3
montre les contourssupérieurs
des deux surfaces de distorsioncorrespondantes.
La courbe de 1960 domine presque entièrement celle de1976,
cette dernièrela
dépassant légèrement
entre les abscisses0,65
et 1. Onpeut
en conclure que les surfaces de distorsion ne sont pas strictementcomparables :
iln’y en
a pas unequi
contienne strictement l’ autre.Figure
3.Comparaison
de la distorsion entre les distributions des CSPparmi
les étudiants etparmi
les non-étudiants en 1960 et 1976.Si l’on veut
cependant trancher,
il semble bien que la distorsion soitglobalement plus
faible en 1976
qu’en 1960,
et c’est ce que confirme l’indice de distorsion de Gini(tableau 3).
Tableau 3. Pour
chaque année,
CSPrangées
par ordre croissant de leur contribution à l’indice de distorsion de Gini.L’indice de distorsion est, pour
chaque année,
la somme des indices de concentration des deux courbes considérées par Combessie pour la même année. Onpeut
donc conclure que la diminution del’inégalité
d’accès àl’enseignement supérieur l’emporte
surl’augmentation
del’inégalité
d’exclusion.On
peut analyser
le"paradoxe"
de lafaçon
suivante : on a vu que l’indice de distorsionentre les non-étudiants et
l’ensemble,
ce que Combessieappelle
la concentration del’exclusion,
est
égal
auproduit
de l’indice de distorsion"totale",
entre étudiants etnon-étudiants,
par laproportion marginale
a, c’est-à-dire laproportion
d’étudiants. En 1960 cetteproportion
estassez faible
(6,0%)
et elle aplus
que doublé en 1976(16,4%).
Cetteaugmentation
entraînecelle du coefficient de distorsion entre non-étudiants et l’ensemble parce
qu’elle
faitplus
que compenser la diminution(de 9,7%)
de la distorsion totale.Baudelot & al.
posent
leproblème,
dans le cadre de cette étude de l’évolution del’inégalité,
de lacomparaison
des CSP entreelles,
et recherchent "la mesurestatistique qui répond
réellement à laquestion posée : quelles
sont, parCSP,
les individusqui
ont leplus
bénéficié de l’évolution ?"
(p.28).
Ils écrivent un peuplus
loin : "ce sont les couches socialesqui
étaientdéjà
lesplus
favorisées en 1960qui
ont leplus
bénéficié de l’affaiblissement desnormes de sélection"
(p.29).
Ilsappuient
leuranalyse
sur lacomparaison
des différences relatives :Combessie
(1984, p.238)
se rallie à leur commentaire mais se demandelégitimement
enquoi
ce taux estplus justifié qu’un
autre. On ne tranchera pas ici entre lesmultiples
tauxalternatifs,
dont l’article de Combessie fait une revue trèsdétaillée,
mais on examineral’apport
que
peut représenter
l’étude des contributions des CSP à la distorsion.On
peut
àpartir
des tableaux 2 et 3repérer
les modalités selon leurfréquence
danschacune des deux
populations
et selon leur contribution à la distorsion entre étudiants et non-étudiants
(figure 4).
Ondistingue
ainsi trois groupes de CSP :- Des CSP
qui
ont vu augmenter à la fois leurimportance
dans lapopulation
et leurcontribution à la distorsion : Ouvriers & Personnels de
service,
Cadressupérieurs
et, dans unefaible mesure,
Employés.
- Des C.S.P.
qui
ont vu diminuer à la fois leurimportance
dans lapopulation
et leurcontribution à la distorsion :
Agriculteurs, Patrons,
Salariésagricoles
et Autres.- Une C.S.P.
qui
a vuaugmenter
sonimportance
dans lapopulation
mais diminuer sacontribution à la distorsion : Cadres moyens.
Cette classification montre que
si,
dansl’ensemble,
la distorsion adiminué,
deux CSP y font desexceptions notables,
l’une(Cadres supérieurs)
enrenforçant
sasur-représentation
dans la
population
étudiante et l’autre(Ouvriers
etpersonnels
deservice)
en y aggravant sasous-représentation.
Figure
4.Évolution
entre 1960 et 1976 de la part dans lapopulation
et de la contribution à la distorsion de
chaque
CSP.BIBLIOGRAPHIE
BARBUT, M.,
"Note surquelques
indicateursglobaux
del’inégalité :
C.Gini,
W. Pareto, P.Levy",
RevueFrançaise
deSociologie,
25(4), 1984(a).
BARBUT, M.,
"Surquelques propriétés
élémentaires des fonctions de concentration de C.Gini", Mathématiques
et Scienceshumaines, 88, 1984(b),
5-19.BARBUT, M.,
"Sur les indicateurs del’inégalité :
croissancelogistique
et mesure del’inégalité,
etquelques
effets"paradoxaux"
dans lacomparaison
desinégalités", Mathématiques
et Scienceshumaines, 90, 1985, 5-17.
BAUDELOT, C., BENOLIEL, R., CUKROWICZ, H., ESTABLET, R.,
Les études etl’emploi, Paris, Maspero, 1981.
CIFARELLI,
D.M. andREGAZZINI, E.,
"On ageneral
definition of concentrationfunction", Sankhya, 49 (B-3), 1987, 307-319.
COMBESSIE, J.C.,
"L’évolutioncomparée
desinégalités : problèmes statistiques",
RevueFrançaise
deSociologie,
25(2), 1984.
COMBESSIE, J.C.,
"Paradoxes des fonctions de concentration de C.Gini",
RevueFrançaise
de
Sociologie,
26(4), 1985.
DE
FINETTI, B., Probability,
induction andstatistics, London, J.Wiley
andSons,1972.
GINI, C.,
"Sulla misura della concentrazione della variabilità deicaratteri",
Atti del Reale Istituto Veneto di Sci. Litt.Arti,
A.A.1913-1914, 73 (II), 1914, 1903-1942,.
LORENZ, M.O.,
"Methods formeasuring
concentration ofwealth",
J. Amer. Statist.Soc.,
New