R EVUE DE STATISTIQUE APPLIQUÉE
J.-M. T RICOT
R. L ATOUR
Une approche de la comparaison de profils à l’aide du coefficient de concentration généralisé
Revue de statistique appliquée, tome 43, n
o3 (1995), p. 35-53
<http://www.numdam.org/item?id=RSA_1995__43_3_35_0>
© Société française de statistique, 1995, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE APPROCHE DE LA COMPARAISON DE PROFILS À L’AIDE DU COEFFICIENT
DE CONCENTRATION GÉNÉRALISÉ
J.-M. Tricot
(1),
R. Latour(2)
(1 ) Département
d’économétrie Université de Genève 102 boulv CarlVogt,
1211 Genève 4 (Suisse)(2)
HEC Université de Montréal 5255 ave DecellesMontréal
Québec
H3T 1 V6(Canada)
RÉSUMÉ
Nous
développons
une méthode decomparaison
de deuxprofils
à l’aide d’un coefficient de concentration despoints
d’un nuage de l’un desprofils
par rapport à l’autre. Un tel coefficientpossède asymptotiquement,
tout comme le coefficient de Gini, unéquivalent théorique
lui-même
équivalent
à la distance L 1. L’étude d’un tableau decontingence
q x r peut alors être améliorée en tenant compte descomparaisons possibles
entre seslignes
à l’aide du coefficient de concentration. On déduit ainsi d’un tel tableau, un tableau decontingence
étendu 3q x r parune
décomposition adéquate
en troisparties
dechaque profil-ligne d’origine.
On obtient, parune
analyse
descorrespondances,
unereprésentation graphique plus significative.
Mots-clés :
profil,
distance, densité,coefficient
de concentration,coefficient
de Gini,analyse
des
correspondances.
ABSTRACT
A
profile comparison
method isdeveloped using
a concentration coefficient of apoint
cloud related to a first
profile, given
a secondprofile.
Such a coefficientasymptotically
gets, like Gini’s coefficient, his own theoreticalcorresponding
formula which isequivalent
to L 1 distance.Then, a q x r
contingency
tablestudy
can beimproved by considering possible comparisons
between rows
by
means of the coefficient. Thus, we are able to derive a 3q x rcontingency
table from the
previous
table,having
made a three caracteristic partsdecomposition
of eachrow. In a
correspondence analysis,
we obtain a more detailedgraphical representation.
Ke y words : Profile,
distance,density,
concentrationcoefficient,
Giniscoefficient,
correspon- denceanalysis.
1. Introduction
On veut montrer comment il est
possible
de transformer un tableau de contin- gence binaire par unedécomposition adéquate
desprofils-lignes.
Le nouveau tableaude données ainsi obtenu est alors soumis à
l’analyse
descorrespondances
et lesrésultats
graphiques
sontplus
détaillés et doncplus significatifs.
Pour ce
faire,
il est nécessaire d’introduire les outilspermettant d’effectuer,
d’unefaçon générale,
lacomparaison
de deuxprofils
cequi
rendpossible,
dans lenouveau tableau de
données,
de comparerchaque profil-ligne
au centre degravité
desautres
profils-lignes.
A la section 2 on définit le coefficient de concentration utilisé pour mesurer un
degré d’agrégation
despoints
d’un nuageunidimensionnel;
et cecipermet
d’établir certainsparallèles
avec différents coefficients rencontrés dans la littérature. Dans la section 3 onindique
commentgénéraliser
la notion de concentration introduiteprécédemment,
d’abord dans le cascontinu,
établissant pour lecoefficient,
unéquivalent théorique,
à savoir la distanceLl ;
etensuite,
dans le casdiscret,
définissantun coefficient de concentration
généralisé
pour comparer desprofils
2 à 2. Untest
d’adéquation peut
alors être introduit. Une étudeempirique
d’un tableau decontingence
estdéveloppée
à la section 4. Dans cettesection,
les éléments decomparaison
entre deuxprofils
étantétablis, chaque profil-ligne
du tableau decontingence peut
êtrereprésenté
par trois nouveauxprofils
construits àpartir
de ladonnée
globale
des autresprofils-lignes.
Le tableau decontingence q
x r initial induit ainsi un tableau decontingence
étendu3q
x r soumis àl’analyse
descorrespondances.
La
représentation
desprofils-lignes
initiaux par destriangles
de Rr et nonplus
despoints,
facilitel’interprétation graphique.
2. Concentration d’un nuage
Le
type
de coefficient de concentrationauquel
ons’intéresse,
estdéjà présent
dans la littérature
(on peut
seréférer,
parexemple,
à[8]).
On enrappelle
la construction ci-dessous. En outre onindiquera
le lien existant entre ce coefficient et d’autrescoefficients,
enparticulier,
le coefficient de concentration de Gini.Soit X une variable aléatoire réelle de loi
px .
On suppose que lesupport
de Xest l’intervalle semi-ouvert à droite
[a, b[(a,
b EM,
ab)
et que l’ondispose
d’unn-échantillon x =
(xi, ... , Xn)(Xi
E[a, b [)
assimilable à un nuage unidimensionnel de npoints.
On mesure la concentration des
points
du nuage en considérant un recouvrementG
(appelé
aussigrille)
de[a, b[,
telle que G soit l’ensemble des intervalles semi-ouverts à droiteIk = [a
+(k - 1 ) (b - a) /n,
a +k(b - au[ (appelé
aussimaille),
pourn
k =
1,
n. Laterminologie
estempruntée
à[2].
On a :[a, b[
=U in
k=l
La
grille
G vapermettre
de mesurer une «intensité desespacements»
entrepoints
du nuage x. La concentration du nuage x s’obtient en calculant laproportion
de mailles de
[a, b[
ne contenant aucunpoint
du nuage, c’est-à-dire«inoccupées».
Ainsi,
on définit un coefficient de concentration du nuage x, noté CTn(expression tronquée
du coefficient défini enAnnexe)
comme suit :où
1£ ( .)
est la fonction indicatrice réellequi
vaut 1 sur G et 0 ailleurs.Le coefficient de concentration
CT,, (1) s’interprète
comme unéquivalent asymptotique lorsque
le nombre depoints augmente
indéfiniment du coefficient définien Annexe.
D’après
les notations enAnnexe,
G est mis pourG2
etIk
pourIk2.
On a les
inégalités 0 CT,, , (n -1 ) /n.
A propos du recouvrement G à l’aideduquel
est construit CTn(x),
on vérifiequ’il permet
de définir une dissimilarité entre lespoints
du nuage x. En effet onpeut
considérer la dissimilaritéqui,
à toutcouple
(xi, xj) (1
i n,1 j n)
associe le nombre de maillesinoccupées
et inclusessoit dans
[xi, Xj] si xi
xj, soit dans[xj, Xi]
sinon. Cette dissimilarité est d’ailleursun écart
(cf. [4]) puisque l’inégalité triangulaire
est vérifiée.Le coefficient de concentration se
calcule,
en d’autres termes, comme laproportion
de mailles du recouvrement G en «déficit» parrapport
à laprésence
d’un
point
du nuage. On va montrerqu’il
se calcule aussi comme la somme des«excédents» de
points
du nuage parrapport
à1,
dans les différentes mailles noninoccupées
de G. Eneffet,
posons :qui
est laproportion
depoints
xi tombant dansIk.
Cetteexpression
est l’estimationusuelledep (Ik).Ennotantpk
=0, l’ensemble {x’
E[a, b[n|pk(x’)
=O}etPk
> 0 l’ensemblefi’
E[a, b[n|pk(x’)
>O},
on a :ce
qui
achève la preuve.Finalement,
considéronsl’hypothèse Ho
suivante :Ho :
X suit une loi uniforme sur[a, b[,
n
etnotonspo =
1/n
=pX (Ik 1 Ho). On vérifie que Vxi
E[a, b[n, (pk(x’)-p0)
= 0k=l
et que Pk > 0 est l’ensemble
{x’
E[a, b [n Ipk (x’) - PO > 0 1;
et que, parconséquent :
Le coefficient de concentration cTn
peut
êtrecomparé
à certains indices rencontrés dans la littératureéconomique
et recensés parexemple
dans[6].
Pourcela
adoptons
lesquelques
notations suivantes : posons nk =npk(x) (fréquence
absolue des
points
dansIk )
et considérons lesstatistiques
d’ordrex[1]
> ... >x[n]
associées au nuage x.
Enfin,
notonsFn
la fonction derépartition empirique
de laloi de X et
Fo
la fonction derépartition
de la loi uniforme sur[a, b[.
Nous pouvons énumérer lesstatistiques
suivantes :1)
Le coefficient de concentration :2)
Le coefficient de Shutz :3)
Le coefficient de Gini :4)
Lastatistique
deKolmogorov
pour la loi uniforme :En termes
économiques,
considérant le nuage x comme un ensemble de revenus([a,b[~ R+),
le coefficient de concentration est obtenu en fonction d’unsystème
de
pondérations
sur des classes de revenu(nk/n)
tandis que le coefficient de Shutz est obtenu en fonction d’unsystème
depondérations
sur les revenus eux-mêmes
(Xk/ L Xk).
Le coefficient de Giniqui
estrépertorié
comme un coefficient deconcentration,
serapporte
à unbarycentre
de l’ensemble despondérations possibles
d’une classe de revenu,{(k/n, x[k]/ 03A3 Xk) |k
=1, n},
les coefficientsbarycentriques
étant despondérations
sur des revenus ordonnés. En cequi
concernela
statistique
deKolmogorov,
on trouve dans[9] l’inégalité :
de sorte que la
région critique
d’un test d’uniformité de larépartition
despoints
dunuage basé sur la
statistique
deKolmogorov,
est incluse(à 1/n près)
dans celle d’un test basé sur le coefficient de concentration. Nous auronsplus
loin desprécisions
supplémentaires
sur un tel test.3. Généralisation sur la notion de concentration
Le coefficient de concentration
cTn(x)
est, comme on l’a vu, une mesurede la déviation entre deux distributions
empiriques
dont l’une est uniforme. Onpeut,
biensûr,
le considérer comme une estimation duparamètre
depopulation
n
(1/2) 03A3 |pX(Ik) - 1/n| dépendant
d’une taille d’échantillonprédéterminée.
Enk=l
fait,
on se limitera dans leparagraphe suivant,
à un autretype d’approche théorique
concernant les distances.
3.1. Le cas continu
On suppose X absolument continue de densité
f
définie sur[a, b[
et on note gola densité de la variable
Yo
uniformément distribuée sur[a, b[.
Dans ce cas, onpeut
dire que CTn
(x) possède,
tout comme le coefficient deGini,
unéquivalent théorique c(X, Yo)
défini par :Une
généralisation
est alors immédiate : la concentrationc(X, Y)
de X parrapport
à Y où X et Y sontsupposées
absolument continues de densitésrespectives f et g
sur un sous-ensemble £ deR,
est définie par :De cette manière on
distingue
les notions de densité et de concentration par le faitqu’une
densité est définie en elle-même etengendre
une mesure sur unepartie
deR
(ici, [a, b[).
Tandisqu’un
coefficient de concentrationapparaît
comme un indice dedéviation entre deux densités. En
fait, c(X, Y)
est exactementégal
à la demi-normeLI
entref
et g. Le coefficient de concentrationthéorique
est donc une distance. Il donne une indication sur les excédents de masse attribués à desparties
dusupport
def
parrapport
à larépartition
de la masse induite par g sur cesupport.
Le schéma suivant(figure 1)
nous donne une idée ducomportement réciproque
def
et g. Dansce schéma on a
adopté
la notationsimplifiée
A =c(X, Y)
=c(Y, X).
On voit bien
sûr, qu’au
niveauthéorique,
uneanalyse
de concentrationpeut
être effectuée dans le cas d’unsupport
non borné des variables X et Y.3.2. Retour au cas discret
Un
problème pratique
va faire intervenir non pas des densités mais desprofils.
Et
plutôt qu’un support réel,
on aura des classes d’observation. Plusprécisément,
on suppose avoir deux
séries x
=(x1,...,xn)
et y =(y1,..., yt)
extraitesrespectivement
des variables X etY,
et que, pour cesdeux variables,
soit déterminéun même ensemble de r classes d’observation
disjointes, J = {Jk, k
=1, r}.
FIGURE 1
Positions
respectives
de deux courbes dedensité pour
un calcul de concentrationAlors,
paranalogie
avec le cascontinu,
on définit la concentrationc(x, y, J)
duprofil (1/n) 1Jk (xi)
k=1, r parrapport
auprofil (1/t) 1Jk (yi) )k=1,r
par :
r r
expression qui peut
s’écrire :03A3(nk/n - tk/t)+ = 03A3(fk - gk)
où nk(resp. tk)
est le nombre de
points
xi(resp. Yj)
tombant dansJk,
etfk (resp. gk),
laproportion
associée.
L’expression
dec(x, y, J) généralise
celle decTn(x) qui correspond
au cas oùr = t = n et où Vk
e {1,..., n},
Yk EJk auquel
castk/t
=1/n car tk
= 1.A
partir
delà,
unecomparaison
détaillée de deuxprofils
etplus précisément,
du
premier profil (profil 1)
au deuxièmeprofil (profil 2),
est obtenue à l’aide de trois vecteurs 1 x r :1)
un vecteur d’« excédents » duprofil
1 parrapport
auprofil
2 défini enprenant
pourkème composante
lekème
terme dec(x,
y,J) ;
2)
un vecteur de «déficits» duprofil
1 parrapport
auprofil
2 défini enprenant
pourkème composante
lekème
terme dec(y,
x,J);
3)
un vecteur de«parties
communes» des deuxprofils
défini enprenant
pourkème
n t
composante Min((l/n) L 1JK(Xi), (1/t) L 1 Jk (yj ))
= Min(nk /n, tk It)
i=l j=l
(la
somme descomposantes
de ce dernier vecteur departies
communescorrespond
dans le cas continu à l’aire notée 1 -A ;
cf. lafigure 1).
On remarque que dans le calcul des vecteurs d’excédents et de déficits du
profil 1,
lesprofils
1 et 2 afférentsà x
et yrespectivement jouent
des rôlesdissymétriques.
Une telle
comparaison
entre lesprofils
1 et 2 est identifiable à une« décomposition »
du
profil
1 en troisparties,
à l’aide duprofil
2.L’aspect
testdégagé
à la findu §2 peut
êtrerepris
maintenant. Eneffet, rappelons
que l’on a considéré nk =
npk(x),
effectif échantillonnal de lakème
classe dudécoupage
de[a, b[
à l’aidede
G. On considère maintenant(N1,..., Nr)
le vecteurmultinomial
défini,
pour lesystème
de classesJ,
parNk
=npk(X), k
=1,
r(X
étant le vecteur aléatoire de réalisation
x). Puisque l’inégalité rapportée
dans[3],
est vraie
lorsque
Vk est laprobabilité d’appartenance
àJk, soit pX (Jk),
onpeut
donc définir une valeurcritique Co
du testd’hypothèse :
Vk~ {1, ..., r}, PX (Jk)
= ~k,en
prenant 2r+1exp(-2nC20)
comme erreur a de1ère espèce
du test.On
dira,
si ’Pk est en fait calculée àpartir de y
par : ’Pk = 9k =tk/t,
que la concentration duprofil
1 parrap ort
auprofil 2 est significative
en cas derejet
del’hypothèse :
Vk~ {1,..., r}, p (Jk)
= gk, c’est-à-dire si :Dans
l’exemple
simulé enAnnexe,
on a n = r =20 et gk
=1 /n
=1 / 20.
Aveca = 0.05 on obtient
Co
= 0. 662. On déduit que la concentration despoints de x
n’estpas
significative puisque
l’on acT20(x) =
0.450. D’autrepart,
cequi
est cohérentavec le calcul
précédent,
lastatistique
deKolmogorov
admetl’hypothèse
d’uniformitéau seuil 0.05
(la
valeurcritique
estégale
à 0.294 et K =4.333/20
=0.216).
4. Un tableau de
contingence
étenduLe but de ce
§4
est de montrer l’intérêt queprésente
l’étude de concentration concernant les différentsprofils-lignes
d’un tableau decontingence
binaire pour en- suite déduire de ce tableau un tableau decontingence
étenduplus
riche en information que leprécédent.
Un tel tableau est soumis àl’analyse
descorrespondances.
Pour ce faire on va directement et succintement se référer aux données extraites d’un recensement canadien pour une étude de distribution de revenus.
4.1. Source et
description
des donnéesOn
dispose
de données collectées lors du recensement de 1986 au Canada et sélectionnées par l’InstitutQuébécois
de Recherche sur la Culture(IQRC)
sous formed’un échantillon
systématique.
Cet échantillon a été extrait de l’ensemble des revenusd’emploi
déclarés non nuls desparticuliers
des 12provinces
et territoires canadiens.Pour des raisons d’insuffisance
d’effectif,
on a écarté de l’étude uneprovince (l’Ile
duPrince-Edouard)
et deux territoires. La taille de l’échantillonreprésentant
2% de la
population
des individus(particuliers)
à revenusd’emploi positifs,
estn = 216090.
On a considéré r = 10 classes de revenu d’effectifs
égaux
en vue deprolonger
ultérieurement l’étude en
comparant
les années 1971 et 1986 : en conservant des classes d’effectifségaux
en coupelongitudinale,
on élimine engrande partie
leseffets de l’inflation et de la restructuration du marché.
Dans le tableau 1 ont été rassemblées différentes
statistiques
associées directe- ment à l’échantillon de données.TABLEAU 1
Statistiques
de base sur les classes de revenu pour 9provinces
du CanadaLa variable revenu
comprend
10 modalités-revenus{.1, .2,...,.9,1.};
et auxbornes des classes de revenu
séparant
deuxclasses,
les revenus ont été redistribués de manière àégaliser
les effectifs de classe. Lessigles
b, B,
e,$, $/e,
E.-T.et %
$ désignent, respectivement
pourchaque
classe de revenu, une borneinférieure,
une borne
supérieure,
uneffectif,
un cumul des revenus, un revenu moyen, unécart-type
des revenus et unepart
de la richesse. En marge du bas dutableau,
lescaractéristiques précédentes
sont obtenues pour la réunion des classes.4.2. Tableau de
contingence
binaire etanalyse (Étude A)
Disposant
des différentes valeurs d’échantillon on a croisé les variables qua- litativesprovince (à q
= 9 modalitéscorrespondant
aux 9provinces sélectionnées)
et revenu
(à
r = 10 modalitéscorrespondant
aux 10 classes derevenus).
Pour lesmodalités-provinces,
on a utilisé lessymboles (SYMB.) indiqués
en2ème
colonne du tableau 2.TABLEAU 2
Tableau de
contingence
croisant les variablesprovince
et revenuL’utilisation du
logiciel
SPAD.N apermis
d’effectuer uneanalyse
des corres-pondances,
que l’onappelle Étude A,
sur le tableau binaire. Ondonne,
à titreindicatif,
lareprésentation
des nuages dans leplan (1, 2)
suivi duspectre
des valeurs propres.On désire ne faire
qu’un
bilanrapide,
à ce stade del’étude,
desconfigurations respectives
des deux nuages car cetteanalyse
ne doit servir que desimple
élément decomparaison
auregard
de cellequi
suivra etqui,
dans une certaine mesure,apportera graphiquement
des conclusionsplus parlantes
voirplus complètes.
Précisons que le
plan (1, 2) représente
environ 86.5% de l’inertie totale et que la suite ordonnée des modalités de la variable revenu faitapparaître
la manière dont elleexplique
chacun des axes F1 et F2.En
fait,
l’examen des aides àl’interprétation,
conduit à différents constats. Tout d’abord lepremier
axe traduit uneopposition
entre revenusmoyens {.4, .5}
côté(F1 0),
et revenusélevés {.9, 1.}
côté(F1> 0).
Tandis que le deuxième axe traduitune
opposition
entre revenus faibles{.1, .2, .3}
côté(F2 0)
et revenus moyens-élevés {.6, .7}
côté(F2
>0).
D’ores etdéjà
nous pouvons direqu’il
existe trois groupes deprovinces
àcomportements distincts,
soient les groupes{C, A, O}, {Q}
et
{B, E, T, S, M} qui
serapprochent respectivement
des classes de revenusélevés,
moyens, etfaibles;
mais les différences entre ces groupes sont assezglobales
et peu subtiles et l’on nepeut guère
se prononcer sur lescomportements intragroupes (le Québec excepté).
Voilàpourquoi
on vaopérer
une« décomposition »
desprofils-lignes
afin de
pouvoir
affinerl’analyse portant
sur lesprovinces
sélectionnées.4.3.
Décomposition
desprofils-lignes
Chaque profil-ligne
du tableau 1 decontingence (cf. §4.2),
caractérisant uneprovince particulière,
estcomparé
auprofil
caractérisant l’ensemble des autresprovinces
et obtenu en marge du tableau decontingence après suppression
de laligne
afférente à laprovince
considérée audépart :
soitnik(1 i q, 1 k r),
l’effectif de cooccurrence de la
ième modalité-province
et de lakème
modalité-revenu.Suivant les notations usuelles de
l’analyse
desdonnées,
on pose ni. -03A3nik
etFIGURE 2
Représentation
despoints provinces
et classes de revenu dans leplan principal
On veut comparer le
profil
de laième province :
(r
=10),
avec leprofil
du Canada moins laième province :
(d’après l’exemple,
n.1 - ... = n’r =21609,
sont desfréquences
calculées pour q = 9provinces).
En se référant
au § 3.2,
on introduit pourplus
declarté,
les notations suivantes : onnote fik = nik/ni. (resp. gik = (n.k)-nik)/(n-ni.)) la kème composante de PROVi
(resp. CAN-i).
Le vecteur d’excédents dePROVI
parrapport
àCAN _
est notéEXi
=((fi1 - gi1)+, ..., (fir - gir)+).
Le vecteur de déficits dePROV
parrapport
àCAN-i
est notéDFi
=«gil - fi1)+, ... , (gir - fir)+).
Et le vecteur departies
communes des deux
profils
est notéPCi
=(Min(fi1, gi1), ... , Min(fir, gir)).
Enfinla concentration de
PROVi
parrapport
àCAN-i
est notée ci. On a :On déduit de
EXi
un vecteur(i
>-i)
d’ «excédents absolus» à l’échelle des individus de laième province :
La somme des
composantes
de(i
>-i) compte,
avec le facteur d’échelle ni., et à un arrondiprès,
le nombre d’individus de l’échantillon afférents à laième province qu’il
faudrait retrancher de cet échantillon dans les classes de revenuadéquates (et
redistribuer dans les autresclasses),
pour obtenirl’égalité
desprofils PROV i etCAN-,.
De même on déduit de
DFi
un vecteur(i -i)
de «déficits absolus» à l’échelle des individus du Canada moins laième province :
La somme des
composantes
de(i -i) compte,
avec le facteur d’échellen - ni., et à un arrondi
près,
le nombre d’individus de l’échantillon afférents auCanada moins la
ième province qu’il
faudrait retrancher de cet échantillon dans les classes de revenuadéquates (et
redistribuer dans les autresclasses),
pour obtenirl’égalité
desprofils PROV,
etCAN-i.
Enfin,
on déduit dePQ
un vecteur(i
=-i)
de«parties
communes absoluesȈ lՎchelle du Canada
(toutes provinces confondues) :
En
posant
MARGE=(n.1,
...,n.r),
on vérifie aisément que l’on a la relation(R) :
La
modalité-province
d’indice ipeut
sedécomposer
en trois sous-modalités(i
>-i), (i
=-i), (i -i)},
chacune du nom des vecteurs associés(par
abusde
notation).
Sachant quePROVi
=(i
=-i)/n
+(i
>-i)/ni. (parties
communesPCi+
excédentsEXi),
on reconstitue le tableau decontingence,
parexemple,
àl’aide de
(i
=-i)
et(i
>-i),
i =1,
r, et pour une tellereconstitution,
letriplet {(i
>-i), (i
=-i), (i -i)} apparaît comporter
une information redondante mise en évidence par la relation(R). Cependant,
un intérêt sedégage
à conserver tousles
composants
dutriplet
pour«expliquer»
lamodalité-province
d’indice ipuisque
tous ont une
interprétation primordiale
en terme decomparaison
deprofils,
c’est-à-dire en terme de concentration et c’est ce que l’on illustrera par la suite.
4.4.
Caractéristiques
du tableau decontingence
étendu etanalyse (Étude B)
À partir
de ladécomposition
en trois de laième modalité-province,
onpeut
construire un tableau decontingence
3 x r croisant letriplet f (i
>-i), (i
=-i), (i -i)}
avec les classes de revenu. L’effectif de cooccurrence(i > -i)
x k dela sous-modalité
(i
>-i)
et de lakème
classe de revenu, est un excédent d’individus de laième province
classés dans lakème
classe de revenu : ni.(nik/ni. - (n.k - nik)/(n - ni.))+.
L’ effectif de cooccurrence(i -i)
x k est un excédent de canadiens horsprovince,
autrement dit :(n - ni.)((n.k 2013 nik)/(n - ni.) - nik/ni.) +.
Et l’effectifde cooccurrence
(i
=-i)
x k est uncomplément
aux deuxprécédents
parrapport
à l’effectif de lakème
classe de revenu(différence
entre n. k et l’un des deuxprécédents effectifs,
l’autre étantautomatiquement nul).
De
là,
parsimple juxtaposition,
ondéduit,
pour toutes lesprovinces,
un tableaude
contingence
étendu3q
x rinterprétable
comme un tableau ternaire ou comme unebande de Burt : c’est un tel
type
de tableau(tableau 3)
que l’on souhaiteanalyser (cf.,
par
exemple, [5]
ou[10]).
On
peut
noter que la marge du bas de ce tableau étendu estégale à q
fois lamarge
correspondante
du tableau initial(i. e. q
MARGE avec les notations du§4.3)
etque, dans
l’analyse
descorrespondances
du tableauétendu,
le centre degravité
desprofils
des troislignes {(i
>-i), (i
=-i),
et(i -i)},
estidentique
au centrede
gravité global,
lui-mêmeidentique
au centre degravité
desprofils
deslignes
dutableau initial dans
l’analyse
descorrespondances
de ce dernier tableau.Dans la marge d’extrême
droite,
on arajouté
lespondérations
desprofils-lignes (totaux
deslignes
divisés par216090).
Elles ont toutes uneinterprétation
en termede concentration. En
effet,
si S est le vecteur 1 x r dont toutes lescomposantes
valent 1 et sachant d’autrepart
que le coefficient de concentration cipeut
s’écrire :Ci =
(PROVi - CAN-i)+S’ = (CAN-i - PROVi)+S’,
on a :et comme
(MARGE)S’
= n, on a aussi :TABLEAU 3
Tableau de
contingence
croisant lestriplets {(i>-i), (i = -i), (i -i)}
avec le revenuDonc la somme des
pondérations
desprofils
des modalités(i >-i)
et(i -i)
donne ci et la
pondération
duprofil
de la modalité(i = -i)
vaut lecomplément
à 1de ci.
Quant
à la marge dubas,
ils’agit
du vecteur MARGEqui
est la marge du bas de chacun des tableaux decontingence
3 x r concernant uneprovince
donnée. Elle est constante pour chacun de ces tableaux par construction. Deplus
chacun de cestableaux
comporte toujours
sur ses colonnes un zéro soit en1 ère
soit en3ème position.
On constate donc en définitive que, par le biais de la
décomposition
des modalités-provinces (en
troissous-modalités),
le tableau decontingence
étendu3q
x rpeut
être considéré comme résultant d’uncodage
detype barycentrique (se
référer à[1])
des sous-modalités
(i
>-i), (i
=-i),
et(i -i)
pourchaque modalité-province jouant
le rôle de nouvelle variable.4.4.1.
Quelques
considérationsgéométriques
À
ce stade del’analyse,
deux remarquess’imposent.
La
première
consiste à direqu’en
effectuant ladécomposition précédente
desmodalités et en se ramenant au cas d’un
codage
detype barycentrique
telqu’indiqué,
les
profils-colonnes
de la bande de Burt ne diffèrent passensiblement,
les uns parrapport
aux autres, desprofils-colonnes
du tableau decontingence
initial(tableau 2)
malgré
lechangement
de dimensionopéré :
sans s’étendre enexplications formelles,
ceci
provient
de la manière dont a été construite cette bande de Burt et l’on va donc retrouvergraphiquement
uneconfiguration
du nuage des modalités-revenusproche
de l’ancienne
configuration (celle
del’Étude A).
En deuxième remarque il faut mentionner que le centre de
gravité
desprofils- lignes
n’a paschangé
d’un tableau à l’autre. Ilreprésente
le Canada(à
travers lesprovinces sélectionnées).
Unprofil
de modalité(i
=-i)
sera doncreprésenté proche
du centre de
gravité
dans la mesure où laième province
associée sera trèssemblable,
dans son
profil,
à l’ensemble canadien.4.4.2.
Représentation
partriangles
On fait maintenant l’étude du tableau 3 à l’aide d’une
analyse
des correspon- dancesclassique.
Comme pour la brèveanalyse
du§4.2 (Étude A),
on se limite auxdeux
premiers
facteursexplicatifs
deplus
de 84% de l’inertie totale.En accord avec la
première
remarque du§4.4.1,
les modalités-revenus ont sensiblement la mêmeconfiguration
dans les deuxÉtudes
A et B. Une faible différenceapparente provient
d’unelégère
rotation des axes d’uneÉtude
à l’autre et d’unchangement
d’échelle. Autrementdit,
on a une similitude entre lesÉtudes
A et B dupoint
de vue desprofils-colonnes.
Mentionnonségalement
lasuperposition
de certainspoints,
à savoir .1 et .2 pour les classes de revenu;(E> -E)
et(T> -T)
d’unepart
et
(B -B)
et(M -M)
d’autrepart
pour les sous-modalités desdécompositions
des modalités-
provinces.
Comme pour
l’Étude A,
les aides àl’interprétation permettent d’expliquer
lesaxes. L’axe F1 oppose revenus élevés
{.9, 1.}
et revenus moyens{.4, .5}. Quant
àF2,
il oppose revenus faibles
{.1, .2, .3}
et revenus moyens{.4, .5, .6}.
En ce
qui
concerne la deuxième remarque du§4.4.1, précisons
que toutes les modalités(i
=-i)
pour i =1, q
ont unpoids
trèsimportant
et unprofil homogène (sans
discontinuités contrairement auxprofils
des modalités(i
>-i)
et(i -i)
très discontinus du fait de la
présence
de valeursnulles).
Voilàpourquoi
elles sontregroupées
auvoisinage
du centre degravité :
n’ont étéindiquées
que(Q = -Q)
et
(0
=-0)
pour des raisons de clartégraphique;
cequi signifie
donc quechaque province
secomporte
de manière très semblable au Canadaglobalement.
Deplus
ilfaut noter que les classes .7 et .8
qui
ont une faible inertie et se situentégalement proches
del’origine, apparaissent expliquer
le mieux la distribution du revenu pour l’ensemble desprovinces.
Lecomportement homogène
desprovinces
est confirmépar le fait que les concentrations sont faibles : la
plus grande prévaut
pour Terre-Neuveavec .104. Elles sont néanmoins toutes
supérieures
à la valeurcritique égale
à .005(cf.
la fin du§3.2).
Dans cette
Étude,
laième province
est maintenantreprésentée
par untriangle
desommets les modalités
(i
>-i), (i
=-i)
et(i -i).
On voit nettements’opposer
le
Québec
et la Colombie-Britannique, indiquant
que les classes moyennes sont trèsreprésentées
auQuébec comparativement
au reste du Canada alorsqu’elles
sont peureprésentées
en C.-B. : attirance de(C -C)
et de(Q > -Q)
dans lequadrant (FI
0;
F2>0).
Onpeut
déceler l’absencecomparative
auQuébec (toujours
en1986)
FIGURE 3
Représentation
destriplets f (i
>-i), (i
=-i), (i -i)}
et des classes de revenu dans le
plan principal
de faibles revenus
puisque (Q -Q)
est associée à{.1, .2, .3}
côté(F2 0).
Encorollaire,
paropposition
auQuébec,
nous obtenons uneprépondérance
de revenusfaibles et de revenus élevés en C.-B..
Passant
rapidement
en revue les autresprovinces,
onpeut
voir uncomportement
similaire, particulièrement
par attirance vers les classes de revenusélevés,
desprovinces
de l’Ontario(avec
lamétropole Toronto)
et de l’Alberta(pétrolière).
Concernant les
provinces
maritimes{B, E, T}
et du centre{S, M},
on a uneopposition plus marquée
avec{0, A} qu’avec {Q, C}
maisdavantage
sur les classes de revenusélevés
{.9, 1.}
que sur les classes de revenus faibles.5. Conclusion
On a mis en évidence un raffinement
possible
d’uneanalyse
des correspon- dances enpartant
d’un tableau de données usuel et en réalisant une transformation deces données faisant intervenir
empiriquement
la distanceLI
entre lesprofils d’origine.
Cette distance
possède
uneinterprétation
en terme de coefficient de concentration.Une telle transformation
revient,
enfait,
à construire un nouveau tableau de données trèsspécifique
découlant du croisement de deux variablesqualitatives
déduites des variables initiales.Une étude de
comparaison
deprofils
à l’intérieur d’un même tableaupeut
évidemment êtregénéralisée
en considérant une suitechronologique
de tableaux et encomparant
desprofils
ouprofils marginaux
d’un tableau à l’autre.Concernant les données utilisées à titre
expérimental,
il est apparuqu’elles présentaient
une certainehomogénéité
cequi
est normal pour uneanalyse
dedistribution de revenu limitée à une entité
géographique homogène, ici,
un paysparticulier.
Lareprésentation graphique proposée
était destinée à donner unegrande amplitude
à unphénomène
faiblementhétérogène.
Remerciements : Nous voulons
exprimer
notregratitude
auxspécialistes
du CentreInternational de
Statistique
etd’Informatique Appliquées (CISIA, 1,
avHerbillon,
94160St-Mandé, France) qui
ontapporté
leur soutienlogistique
dans laconception graphique.
Références
bibliographiques
[1]
CAZES P.(1990), Codage
d’une variable continue en vue del’analyse
descorrespondances,
Revue deStatistique Appliquée,
Vol38, n°3,
pp. 35-51.[2]
DE LAVALLÉE
POUSSIN C.(1950), Intégrales
deLebesgue,
Fonctionsd’Ensemble,
Classes deBaire, Gauthier-Villars,
Paris.[3]
DEVROYE L.(1987),
A Course inDensity Estimation, Birkhaüser,
Boston.[4]
DIDAYE., LEMAIRE, J., POUGET,
J. &TESTU,
F.(1982), Éléments d’Analyse
de
Données, Dunod,
Paris.[5]
JAMBU M.(1989), Exploration Informatique
etStatistique
desDonnées, Dunod,
Paris.
[6]
MARSHALL A. &OLKIN,
I.(1979), Inequalities : Theory of Majorization
andits
Applications,
AcademicPress,
Londres.[7]
SAPORTA G.(1990), Probabilités, Analyse
des Données etStatistique, Technip,
Paris.
[8]
TRICOT J.-M.(1990),
Méthode des Réseaux enAnalyse
deDonnées, Application
à
l’Analyse de Concordance,
Thèse dedoctorat, Imprimerie Nationale,
Genève.[9]
TRICOT J.-M.(1991),
Indice de concentration etstatistique
deKolmogorov, application
à des distributions de revenu, Les Cahiers duGERAD, G-91-35,
Montréal.
[10]
YOUBI A.(1989), Comparaison
entre les états desujets après
l’effort sous diverstraitements,
Les Cahiers del’Analyse
desDonnées,
VolXIV, n°4,
pp. 439-448.Annexe
On
rappelle
la définition du coefficient de concentration tellequ’on
la trouve, parexemple,
dans[8].
Soit une variable aléatoire réelle X desupport [a, b[(a,
b ER,
ab)
et un nuage de npoints x
=(xl, ... , xn)(xi ~ [a, b[)
obtenu en tirant unn-échantillon de X.
On considère une suite
(réseau)
de recouvrements de[a, b[, (Gm)m=1,2,..
telle que
Gn (grille m)
soit l’ensemble des intervalles de[a, b[
semi-ouverts à droiteIkm
=a+ k-1 nm-1(b-a),
a +k (b - a) (maille-m),
pour k =1,
nm-1(m 1).
Laterminologie
estempruntée
à[2].
Par construction on a donc :[a, b[= U Ikm
etGm
={Ikm|k
=1, nm- 1
k=l
Le schéma suivant nous montre les
premières grilles
sur[a, b[
pour un nuagesimulé de 20
points
où l’on suppose(par exemple)
que lepoint
à l’extrême droite est demultiplicité égale
à 3 :Grille
1,
constituée del’unique
maille-1[a, b
Grille
2,
ensemble de n = 20 mailles-2 :Grille 3, ensemble de
n2
= 400 mailles-3 :etc...
On remarque que pour des raisons de