HAL Id: hal-02507766
https://hal.archives-ouvertes.fr/hal-02507766
Submitted on 16 Mar 2020
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Dépendance et codages de deux variables aléatoires
Gilbert Saporta
To cite this version:
Gilbert Saporta. Dépendance et codages de deux variables aléatoires. Revue de Statistique Appliquée,
Société française de statistique, 1975, 23 (1), pp.43-63. �hal-02507766�
R
EVUE DE STATISTIQUE APPLIQUÉE
G
ILBERT
S
APORTA
Dépendance et codages de deux variables aléatoires
Revue de statistique appliquée, tome 23, n
o1 (1975), p. 43-63
<http://www.numdam.org/item?id=RSA_1975__23_1_43_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www. sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti-lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou pression systématique est constitutive d’une infraction pénale. Toute copie ou im-pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
43
DÉPENDANCE
ET
CODAGES
DE DEUX
VARIABLES
ALÉATOIRES(1)
Gilbert
SAPORTA
IUT
Informatique -
Université de Paris VINTRODUCTION
Le
point
dedépart
de cette étude est laquestion classique
suivante :une distribution
statistique
à deux dimensions est connue sous la formed’un tableau de
contingence
m x p où les distributionsmarginales
necorres-pondent
pas à des valeursnumériques
mais à des modalités de caractèrequa-litatif
(par
ex :opinion politique
et statutsocial) :
comment attribuer à cesdiverses modalités des valeurs
numériques qui
ne soient paspurement
conven-tionnelles mais aient une
signification ?
Il
s’agit
en somme de rendrequantitatives
des variablesqualitatives
par le choix d’uneparamétrisation adéquate
des diversesmodalités,
cequ’on
appelle
uncodage
[7]
(en
anglais
"scores"[6]).
Lecodage
cherché sera celuiqui
respecte
au mieux la liaison entre les deux variables décrites par le tableaude
contingence,
cequi implique
le choix d’une mesure de liaison.La résolution de ce
problème
conduit d’unepart
à étudier les diverses mesures de liaisonstatistique
et àapprofondir
la notion decorrélation,
d’autrepart
à étudier les transformations de variables aléatoires et l’influence de cestransformations sur la mesure de liaison afin d’obtenir une liaison maximale ce
qui
fournit lescodages
souhaités. Nousporterons
notre attention sur des transformations donnant des variables centrées réduites car les mesures deliaison étant insensibles aux transformations
linéaires,
les résultats sont définis à unchangement d’origine
et un coefficient d’échelleprès.
On constatera alors l’identité formelle entre cette démarche
qui
estcelle de
l’analyse
canonique
etl’analyse
descorrespondances.
La recherche de
codages
de variablesqualitatives
peut se révelerparticu-lièrement fructueuse là où l’introduction de données
qualitatives
s’accordemal avec uné
technique statistique
essentiellementquantitative
par ex :régres-sion,
analyse
discriminante.On trouvera des
développements théoriques
récents dans les travaux[9]
de M.
Masson,
ainsi que dans un article de Pousse et Dauxois[8]
dont
nous avons eu connaissance ultérieurement.(1) Article remis le 6/2/74 ; révisé le 20/5/74.
44
1 - DEPENDANCE ENTRE DEUX VARIABLES
ALEATOIRES,
VARIABLESCANONIQUES
Nous supposerons dans cette
partie
que les variablesX,
Y étudiées sontcontinues,
de densitésmarginales
f (x)
et g(y),
la densité ducouple
étant notéeh (x ,
y).
X et Y seront deplus supposées
centrées réduites afind’alléger
les notations.1/
Les indicateurs de liaisonParmi tous les indicateurs
possibles
nous étudierons les deuxplus
impor-tants : le coefficient de corrélation linéaire et le
rapport
de corrélationqui
dépendent
des valeurs des deux variables et le~2
de Karl Pearsonqui
constitueune mesure
intrinsèque
de ladépendance.
Lesrapports
entre ces trois mesuresseront établis au cours de cette étude.
a)
L’indicateur de liaison linéaire p(ou
p2)
Le coefficient de corrélation linéaire p
égal
à f f
xy h(x ,
y)
dxdy
estla mesure de liaison la
plus
employée.
On sait quep2 ==
1 entraîne que X et Y sont en relation linéaire(ici
X = Y car les variables sont centréesréduites)
et que
p2 =
0 n’est pas un critèred’indépendance
mais de nondépendance
linéaire.
D’une manière
générale
p2
mesure laqualité
del’approximation
de Y(resp X)
par une fonction linéaire X(resp
deY) :
pour des variables centréesréduites la meilleure
approximation
linéaire de Y au sens des moindres carrésest fournie par Y* =
pX
et si onpose Y =
pX
+ E on a E(e)
= 0V(e)
= 1 -p2
et V(Y*)
= p2 .
p est un indicateur
symétrique
en X et Y mais est sensible auxchangements
de variable autres que linéaires comme le montre sa définition :
b)
Les indicateurs de ladépendance
en moyenne :Les
rapports
de corrélation~2Y/X
et~2X/Y.
Si on recherche la meilleure
approximation
fonctionnelle et nonplus
linéaire de Y par X c’est-à-dire minimiser
E [(Y -
f(X))2],
La solution est donné par
f (X)
= E(Y/X).
On pose alors
et on a en
général
~2Y/X
~~2X/Y.
Si on écrit comme pourl’approximation
linéaire Y =
E (Y/X)
+ e on trouveE(e)
= 0 etV(e)
=(1 -
~2Y/X)
V(Y)
ce
qui
prouve que :45
car
l’ajustement
par une fonctionquelconque
aboutit nécessairement à unrésultat meilleur que
l’ajustement
par une fonction linéaire.D’après
la définitionon a presque surement Y =
~
(X)
cequi
n’implique
pas nécessairementd’ail-leurs X
= 03C8 (Y)
; si~2Y/X =
0 on ne peut conclure àl’indépendance
mais seulement à la
dépendance
en moyenne car alors E(Y/X)
= constante.Si Y est centré réduit
~2Y/X =
V[E(Y/X)]
et commeon constate que
~2Y/X
est insensible à unchangement
de variable sur X mais non sur Y :si 03C8
est une transformation non linéaire.Lorsque
~2Y/X = 03C12
c’est queE (Y/X)
= a X + b(régression
linéaire)
cequi
n’implique
pas queE (X/Y)
= a Y +j6 .
On dit
qu’il
y a doublerégression
linéaire sidans ce cas
ce
qui
est d’ailleurs le seul cas où les deux rapports de corrélation sontégaux.
Pour des variables centrées réduites
E(Y/X)==pX,E(X/Y)=pY.
Cette situation(double
régression
linéaire)
se rencontre si(X,
Y)
suit une loinor-male à deux dimensions mais ce n’est pas le seul cas. Toutefois on a le résultat suivant
(Bernstein,
Féron, Fourgeaud) :
"Si deux variables X et Y sont en double
régression
linéaire et si deplus
les variables e ete’
telle quesont
indépendantes
de X et de Yrespectivement
(condition
dite des "erreursiden-tiques")
alors(X ,
Y)
soit une loi normale à deux dimensions".(Référence :
Kendall et Stuart TomeII,
p.352).
Le lien entre le coefficient de corrélation linéaire et le
rapport
decorré-lation est
précisé
par le théorème suivant : ThéorèmeLe
rapport
de corrélation de Y enX,
~2y/x,
est la valeur maximale quepeut
prendre
le carré du coefficient de corrélation linéaire entre Y etn’importe
quelle
fonction de X :
46
le sup étant atteint pour
f (X)
=E (Y/X) :
Preuve :
Comme
~2y/x
=~2y/E
(Y/X)
etqu’il
y a alorsregression
linéaire de Ysur
E(y/x)
c’est que~2y/x
=p’(Y,E(Y/X)).
Par ailleurs
~2Y/X =
~2Y/f(X)
03C12(Y ;
f (X))
l’égalité
n’étant atteinte que siE(Y/f(X))
=f(X).
On
peut
aussi remarque que pour des variables centrées réduitesOn
peut
donc dire que lesrapports
de corrélation constituent des mesuresde la
dépendance
entre X et Yplus générales
que le coefficient de corrélation inéaire.c)
Le~2
de Karl PearsonEtant donné deux mesures de
probabilité
p et v sur un même ensemble Eon
peut
définir(Lancaster)
[ 1 ] la proximité
entre Il et v parrapport
à v de la manière suivante :pour une
partition
E1 ,
E2
... ,Ek
de E on calcule laquantité
dont ont étudie la limite en
passant
à despartitions
deplus
enplus
fines. Cettelimite,
si elleexiste,
est alorségale
àest la dérivée de
Radon-Nikodym
de J.l parrapport
à v. Laquantité
0’
n’estégale
à 0 que si v =li jn-presque
partout.
Dans les
problèmes
dedépendance
entre variables aléatoires on étudie en fait enquoi
h(x , y)
diffère duproduit f (x)
g(y),
c’est-à-dire laproximité
entre la mesure ducouple
et la mesureproduit
d’où ladéfinition
du~2
dedépendance
entre X et Y par :47 soit
où on reconnaît la
généralisation
en continuedu ~2
des tables decontingences.
n
02
prend
ses valeurs entre 0 et oo , et à la différence des autres mesuresde
dépendance
n’estégal
à zéro que si et seulement X et Y sontindépendantes.
Lorsque
Ydépend
fonctionneilement de X(ou vice-versa)
~2
est infini. Pour obtenir un indicateurcompris
entre 0 et 1 àpartir
de~2
oncon-sidère
généralement
laquantité
o2 -
nommée "coefficient decontingence"
qui
fut introduite par K. Pearson dans ses études sur la loi normale à deux dimensions : ainsi que nous le verronsplus
loin,
pour une loibinormale,
on aOn
voit,
sansdifficulté,
que~2
est invariant pour toute transforma-tion continument différentiable X ~ cp(X)
Y ~ 03C8 (Y)
et est doncune mesure
intrinsèque
de ladépendance
entre deux lois deprobabilité :
en effet posons U =
’P
(X)V = 03C8 (Y)
alors la densité 1(u , v)
ducouple
aléatoire(U ,
V)
vauth(x,y) ~’(X).~’(y)
tandis que les densitésmarginales
i(u)
et j (v)
valentrespectivement
donc
Pour nous
résumer,
~2
constitue donc la mesure dedépendance
entrephé-nomènes aléatoires la
plus complète
car elle nedépend
pas d’une
représentation
numérique
particulière
de cesphénomènes.
d)
Géométrie de ladépendance
entre variables aléatoires.Considérons
l’espace
vectorielL2
des variablesaléatoires(1)
de deuxièmemo-ment fini
E(X2) ~
muni duproduit
scalaireX,
Y)
= E[X Y]
et de lanorme
||X||2
=E(X2).
( 1 ) En toute rigueur dès classes de variables aléatoires presque partout égales pour la mesure
de Lebesgue.
48
L’ensemble des variables aléatoires constantes est une droite D de cet
espace passant par
l’origine
(puisque
si a E D X a ED)
et les variables aléatoires centrées déterminent un sous-espace deL2
orthogonal
à D.Dans ce sous-espace des variables
centrées,
leproduit
scalaireE (X Y)
n’est autre que la covariance et les coefficient de corrélation linéaire p est le cosinus de
l’angle
formé par deux variables aléatoires centrées.Désignons
parL 2
etL 2
les sous-espaces deL2
formésrespectivement
des variables centrées fonctions de X seul et de Y seul.On
peut
établir alors les résultats suivants : *~2Y/X
est le cosinus del’angle
entre Y etL2X
** La
projection orthogonale
de Y surL 2 x
est la variable aléatoireE (Y/X)
* * *
L2X
nL 2
= {0}
~ X~L2Y
etY ~ L2X :
nondépendance
fonction-nelle.
**** X et Y
ne sont
indépendants
que si et seulement si lesprojec-tions de
’L2 x
surL2Y
et deL y 2
surL 2 x
sont nulles.Autrement dit
L2 y
estorthogonal
àLI x
et* * * * *
soient 1T x et
1T y
lesopérateurs
linéaires deprojection
surLx
etL2Y:
alors
~2
= Trace(03C0x
o03C0y)
= Trace(TTy
o03C0x).
Les trois
premiers points
ne font que traduire dans un autrelangage
de
propriétés statistiques
bien connues, lequatrième point
se démontre àpartir
ducinquième
en effet~2 =
0(dont
on saitqu’il
estéquivalent
àl’in-dépendance)
est doncéquivalent
àl’orthoganalité
deLx
etLe
cinquième
point
sera démontré ultérieurement.La double
inégalité
~2 1/2
>p2
se déduit des remarquesprécédentes.
2/
Recherche d’une transformation simultanée maximisant la liaison de cesvariables.
La
problématique exposée
dans l’introduction de cet article nous conduità
chercher,
pour deuxphénomènes
aléatoires endépendance stochastique,
unereprésentation
numérique
de chacund’eux,
ditecodage
oureparamé-trisation,
qui
respecte
au mieux leurdépendance,
c’est-à-dire telle que leurliaison soit maximale. La non unicité des indicateurs de liaison
(faut
il choisirp ou
172 ?)
pourrait
laisser croire à des solutions différentes selon le critèreadopté ;
on montre en faitqu’il
n’en est rien et que ceproblème possède
une solutionunique indépendante
du critère retenu ; ces résultats s’étendent en cherchant une suite de transformations simultanées fournissant ce que l’onappelle
les variablescanoniques.
a) Unicité et
propriétés
de latransformation
optimale
La maximisation de p
(~ (X) , 03C8 (Y) peut
sembler apriori
plus
restrictiveque celle de
~203C8(Y)/~(X)
oun2
car p ne mesure que la49
linéarité de la
dépendance.
Leparagraphe précédent
montrecependant
l’équi-valence entre ces deux critères
puisque
~2Y/X =
supp2 (Y , f (X))
et alorsmaxi-mixer
03C12(~(X), 03C8(y);
géométriquement,
ce résultat est évidentpuisqu’il
s’agit
de déterminer les deuxéléments ~
(X)
et 03C8 (Y)
deL 2 x
et4
qui
font entreeux
l’angle
minimal(~ et 03C8
sont alors défini à une constantemultiplicative
près
cequi
entraînera par la suite une condition de normalisation si on veutune solution
unique).
Toutefois les deux critères sontméthodologiquement
diffé-rents car la maximisation de p entraîne une condition simultanée sur’fJ
et 03C8
tan-dis que la maximisation de
~203C8(Y)/~(X)
implique
que la déterminationde 03C8
n’est pas liée à celle de ~, remarque surlaquelle
nous reviendronslorsque
l’un descodages
est
imposé.
Théorème :
Les transformations cp
et 03C8
sont telles que les deux nouvelles variables1{) (X)
et 03C8
(Y)
sont en doublerégression
linéaireDe
plus
si ’P
et 03C8
sont normalisées parEn effet si ’P
(X)
et ’P(y)
forment unangle
minimalalors ~
(X)
doit seprojeter
surL2Y
selon 03C8
(y)
etréciproquement :
N.B. : Cette représentation imagée est abusive car
L2et L 2
n’ont en général que le point{0} en
commun.Si V;
(X)
et 03C8
(Y)
sont de variance unité il vient :50 d’où le résultat annoncé
plus
haut. On a alors :On
pouvait
aussi remarquer que la minimisation decos2 a
revient à celle de E[[~
(X) - ~(Y)]2
J
qui
se résoutsi,
à un facteurprès, ~(X)
est la meilleureapproximation
fonctionnelle de03C8(Y)
et vice-versa.Le théorème
précédent
constitue une condition nécessaire mais non suf-fisanted’optimalité :
deux variables en doublerégression
linéaire ne formentpas nécessairement le
couple
leplus lié,
ainsi que le montre le contreexemple
suivant,
qui
fournit au passage un cas de deux variables nongaussiennes
endouble
régression
linéaire :Soit un
couple (X , Y)
de variables centrées réduites suivant une loinormale à deux dimensions avec un coefficient de corrélation p. Alors
X2
etY2
forment un
couple
en doublerégression
linéaire : en effet :car la distribution de Y est
symétrique
parrapport
à zéro.D’après
une formuleélémentaire
E(X2/Y) =
V(X/Y)
+[E(X/Y)]2
et dans uncouple
normal centréréduit :
et
Le coefficient de corrélation linéaire entre
X2
etY2
estégal
àp2
eniden-tifiant les coefficients de la
régression
(E(03C8/~)=a~+b
entraîne quea =
p
03C303C8 03C3~).
Cette corrélation est inférieure en valeur absolue à celle de(X , Y) ;
le
couple
(X2
y2)
bienqu’en
doublerégression
linéaire n’est donc pas decorrélation maximale.
En revenant sur
l’interprétation géométrique
du théorèmeprécédent
on en déduit lapropriété
suivante :03C0x et
ir
étant lesopérateurs
deprojection
surLk
etL2
respective-ment,
alors ~(resp 03C8)
est fonction propre de 03C0x o03C0y
associé à saplus grande
valeur propre :
L’expression
desprojecteurs
1r x et1r y
s’obtient en écrivant que 1r xtrans-forme toute variable aléatoire en son
espérance
conditionnée par X :appelons
k(x ,
u)
la densitéconjointe
de X et U on a donc :51
Si on considère les restrictions de 03C0x et
TTy
àL2Y
etL2X
respectivement :
d’où
en
posant :
et
La détermination de ’P
et 03C8
est celle des fonctions propres d’unopérateur
intégral(1).
b)
Variablescanoniques
d’une distribution à deux dimensions.On peut
généraliser
lesopérations précédentes
en considérant que cpet
ne sont que lespremiers
éléments~1, 03C8
1 d’une suite de transformation(’Pl’ ~1) ;
(’P2’ ’P2) ...
définies de la manière suivante où l’on notera désormais enabrégé
’P pour cp(x) :
Les cpi
sont centrées-réduites etorthogonales
à leurprédécesseurs
danschaque
espaceL2X
etL2y
(il
s’agit
donc de deuxsystèmes
orthonormés deL2X
etL2Y
respectivement)
et telles que pour
chaque
rang i la corrélationentre ~i
etsi
soit maximale pi = E(~i
03C8i)
Les variables
(~i,
03C8i)
ainsi définies deproche
enproche
(à
uneconven-tion de
signe près)
sontappelées
variablescanoniques
et les pi sont les corré-lationscanoniques.
Comme onpeut
définir ~0 et03C80
en lesprenant
égales
à1,
il s’ensuit que les spi et
03C8i, orthogonales
aux constantes, sont centrées de fait.Propriété :
( 1 ) Si
~2
~ 7ry o 7rx et 7rx o7r y
sont des opérateurs nucléaires (trace finie)52
Les variables
canoniques
vérifiènt donc un autresystème
de relationsd’orthogonalité.
Démonstration :
Supposons j
> i. ParHypothèse 03C1i =
E[~i03C8i]
était laplus
grande
corré-lationpossible
au rang iparmi
les variablesorthogonales
auxprécédentes.
Supposons
E[~i03C8j]
~
0 =03C1itg03B8 ;
soit Z =03C8i
cos 03B8 +03C8j
sin 0. La variable Zest
orthogonale
aux03C8k
pour k i car03C8i
et03C8j
le sont, deplus
E[Z2
]
= 1Si
tg 0
est non nul on a alorsE[Z~i]
>
pi cequi
est en contradiction avecl’hypothèse
que pi est laiième
corrélationcanonique.
Réciproque :
Si les ~i et
VJj
forment deuxsystèmes
orthonormauxcomplets
surL 2 x
et
L 2
et sont tels queE[~i03C8j]
=
0 sii ~ j
alors ce sont les variablescanoniques.
Démonstration
:Si les
systèmes
sontcomplets
toute variableX’
centrée fonction de Xpeut
s’écrire de manièreunique
X’ = 03A3ai~i(x)
et toute variable centréeY’
fonction de Y :
Y’ = 03A3
bi
03C8i(Y).
Si ces variables sontréduites,
c’est que:puisque
les ’{Ji ett/I
sont aussi réduites.On a alors
en posant
E[~i03C8i]
==
pi. Si onsuppose que la numérotation
des
et des03C8i
est telle que03C1i 03C12 ...
Pk ... P(X’, Y’)
sera maximal si al 1=
b
1 =1,
les autres coefficients étant nuls : en effet
puisque
53
donc
l’égalité
nepeut
avoir lieu que si al 1= b
1= 1. Le
couple
(~1, 03C81)
est lepremier couple
de variablescanoniques,
on démontrerait de même que lescouples
(~2,
03C82),
(~3,
03C83),
sont lescouples canoniques
suivants.Les variables
canoniques
sont les fonctions propre de1ry
o 1rx et 1rx o1ry
avec pour valeurs propres03C12i
car, les variables cpi etVI’i
étant à l’ordre i lesvariables les
plus
proches,
on aLes variables
canoniques
permettent
de reconstituer la densité ducouple
à
partir
des densitésmarginales
si03A3
pf
~ selon la formule suivante : Formule de reconstitution de la densitéconjointe :
On
peut
dire que les variablescanoniques
sont cellesqui
expliquent
le mieux en
quoi
h(x,
y)
diffère duproduit
des densitésmarginales.
Démonstration
Supposons
les ensemblesorthonormaux {~i}
et {03C8i}
complets
pourL 2 x
etL2Y,
alors on sait quel’ensemble {~i.03C8i
~i,j}
estcomplet
pour l’ensembledes fonctions des deux
variables,
de carrévitégrable,
muni de la mesureproduit
f (x)
g(y)
cherchons à rendre minimuml’intégrale
en
posant
conventionnellement cpo - ~0 = 1 En dérivant parrapport
auxÀkl
il vient :soit
54
D’après
les conditions d’orthonormalisation il vient alorsavec
et il s’ensuit que pour tout entier m
minimal pour pi =
Xi
cequi
entraîne le théorème par passage à la limitepuisque
l’ensemble {
cpi x03C8j}
estcomplet
pour la mesureproduit
f(x)
g(y)
Corollaire 1
0’
estégal
à la somme des carrés des corrélationscanoniques qui
vautTrace
(1Tx
o1Ty)
ou Trace(1Ty
01Tx)
en effet :Corollaire 2
Deux variables sont
indépendantes
si et seulement si leurpremière
corré-lationcanonique
est nulle.Cette
propriété,
évidentepuisque
pourrait suggérer
deprendre
pl 1 comme indicateur de liaison entre X et Ypuis-qu’il
aurait lapropriété
d’êtrecompris
entre 0 et1,
nul si et seulement si il y a une relation fonctionnelle Y = cp(X)
ou X= 03C8 (Y) ;
cela,
à notreconnais-sance, n’a
jamais
ététenté,
sans doute en raison des difficultés de résolutiondes
équations intégrales
fournissant les cpi et lest/I
(pour
la résolution de ceséquations,
consulter la thèse de Naouri[3]).
55
On
peut
aussi démontrer les formules de dualité suivantes[1]:
On remarquera
l’analogie
entre les formules ci-dessus et les formules del’analyse
descorrespondances.
c)
A pplication à la
loi normale à deux dimensions(d’après
[2])
Soit
(X , Y)
uncouple
de variables centrées réduites suivant une loi normale à deux dimensions de coefficient de corrélation p.Nous allons montrer que les variables
canoniques
ne sont autres que lespolynomes
deHermite-Chebyshev réduits,définis
sur X et Y par les conditions d’orthonormalisation suivantes :on a
Les
polynomes
deHermite-Chebyshev
non réduitsHn (x)
sont obtenus de la manièreclassique
suivante :les conditions
autrement dit :
On passe donc des
Hn (x)
aux’Pn (x)
par la
relation~n se calculent de
proche
enproche,
lespremiers
éléments étant56
Pour démontrer que les ’Pi constituent les variables
canoniques
nous allonsappliquer
leréciproque
de lapropriété
établie auparagraphe
b)
en prouvant queE[~i03C8j] = 0
sii ~ j
Théorème 1.
Les
polynomes
deHermite-Chebyshev
réduits sont tels queles corrélations
canoniques
sont lespuissances
successives de pDémonstration :
tn
a)
Lespolynomes
non réduits sont les coefficients de-
dans dedévelop-pement
deTaylor
dee
2
:
: en effet posonsn!
d’une part, et d’autre
part
d’après
la définition deHn (x)
on a :P)
L’espérance
de e 2 2 vaute03C1tu
car la fonctiongénératrice
aucouple
(X,Y)
qui
estE[etX + uY]
vaute-1 2(u2
+ 2 ptu +t2)
03B3) Rapprochons
les deux résultatsprécédents :
En
développant
l’espérance
et en identifiant terme à terme il s’ensuit que tous les termes où m est différent de n sont nuls :les autres donnant
ce
qui
démontre lethéorème
car
57
On a alors :
Théorème 2
(Lancaster [2])
Pour un
couple
de variables centrées réduites suivant une loi normale à deuxdimensions,
il n’existe pas de transformationséparée
de ces variablespouvant augmenter
le coefficient de corrélation p. En effet~1(X)
= X et lespolynomes
deHermite-Chebyshev
forment unsystème complet
orthonormé,
les ~i sont bien les variables
canoniques.
Puisque
les corrélationscanonique
pi sont lespuissances
successivesde p :
ce
qui
démontre la relation de Karl PearsonLa formule de reconstitution de la densité du
couple
s’écrit alors :expression
connue sous le nom d’identité de Mehler(1866).
II - DISTRIBUTIONS DEFINIES PAR UNE TABLE DE CONTINGENCE A DEUX DIMENSIONS
Il
s’agira
tout aussi bien de la distribution deprobabilité
exactepij
d’uncouple
de v.a. à nombre fini de valeurs que d’un tableau defréquence
fij
d’un échantillon de taille n(ce qui
est le cas leplus
usuel).
Comme l’annonce l’introduction il
s’agit
d’affecter àchaque ligne
etchaque
colonne du tableau une valeurnumérique
(les
codages),
indépen-demment de toute information de naturequantitative
sur les distributionsmarginales,
en fonction seulement du tableau despij
58
Nous cherchons
donc
deuxsystèmes
de nombres réels(a1, a2,...am)
et
(b1, b2,...bp)
tels que les variables A et B rendues ainsiquantitatives
soient en corrélation maximale.
On
peut
évidemmentappliquer
les résultats deI,
le cas des tables decontingence
n’étantqu’un
casparticulier
du casgénéral,
les densités devenantdes lois discrètes et les
intégrales
des sommes finies : il suffit d’identifier lesopérateurs
linéaires 1( x0 1( y
et03C0y o 03C0x qui
sereprésentent
alors par des matricessur une certaine base et de les
diagonaliser. Cependant,
vul’importance
pratique
du cas des tables de
contingence,
nouspréferons
donner une solution détailléequi
nous sembleplus
concrète.1/ Codage optimal
des marges d’un tableau decontingence.
En abusant
quelque
peu desnotations,
nousdésignerons
par A et B les deux variables endépendance
ainsi que lesquantifications
cherchées de cesvariables.
Les
codages
devant être centrés réduits on a :Ainsi
qu’en
1 2a nous allons maximiser~2A/B
et17 2
/A. On a pour desvariables centrées réduites :
car
Nous nous occuperons de maximiser
~2A/B,
car lamaximisation de ~2A/B
s’en déduira aisément.
Le programme suivant est à résoudre :
59
Introduisons deux
multiplicateurs
deLagrange
À et jncorrespondant
auxdeux contraintes et le programme se transforme en :
max
Le maximum s’botient en annulant les dérivés
partielles
parrapport
aux ak soit :
ou
En sommant membre à membre on obtient :
si on écrit les sommations dans l’ordre
i, j,
k lepremier
membre s’écritOn a donc À = 0 ce
qui
signifie
que la contrainte decentrage
estauto-matiquement
remplie, propriété signalée
antérieurement pour les variablescaoniques
en 1 2b.Pour obtenir jn
multiplions
par ak et sommons les deux membres del’égalité
restante :soit :
dont le
premier
membre se met sous la formedonc Il =
771/B
Les ak sont solutions dusystème d’équations
60
si on pose
il vient
qui
s’écrit matriciellement :et R est la matrice du terme
général
a est donc vecteur propre de R
R’
associé à saplus grande
valeurpropre( 1) .
De
même,
enposant
j6j
= p.j
bj
on trouveraitque 13
est vecteur proprede
R’
R associé à la même valeur propre : on reconnaît ici leséquations
fournissant les facteurs de
l’analyse
descorrespondances
du tableaupij.
Lecodage
optimal
de A est donc fourni par lepremier
facteur del’analyse
des
correspondances,
celui de B par le facteur dual : les valeursnumériques
àattribuer aux n modalités de A sont les coordonnées des m
points représentatifs
des
lignes
du tableau sur lepremier
axe factoriel dansl’analyse
où les individussont les
lignes
et les caractères lescolonnes ;
réciproquement
les valeurs àattribuer aux p modalités de B sont les coordonnées des
points représentatifs
des colonnes sur le
premier
axe factoriel de l’autreanalyse.
Les relations de double
régression
linéaire E(A/B)
=p B et E
(B/A)
=p A
s’écrivent ici :
où 03BB
1désigne
lapremière
valeur propre.Ainsi que dans 1 2b on
peut
chercher lescouples
de variablescanoniques
suivants(A2, B2) ... (Am-1 , Bm-1)
sim p qui
seront lescouples
de facteurs successifs normalisés del’analyse
descorrespondances.
La formule de reconstitution s’écrit alors :(1) Autre que la valeur propre triviale égale à 1 qui correspond à la variable canonique d’ordre 0 (constante égale à 1)
61
formule dont la
première
mention semble remonter à R.A. Fisher ainsi quel’atteste un article de
Maung
paru en 1942 et cité par Lancaster. Les résultatsprécédents
traduisent le fait quel’analyse
descorrespondances
peut
s’inter-préter
comme uneanalyse canonique
et constitue la méthodeprivilégiée
d’analyse
de ladépendance
entre variablesstatistiques.
2/ Conséquences
etapplications
a)
Recherche d’un seulcodage
Bien que les deux
codages
optimaux
A et B soient enrelation,
ils ont été obtenusséparément :
lecodage
de A nedépend
en fait que du tableau desPij
et non des valeurs que l’onpeut
attribuer aux modalités deB ;
cettepro-priété
estparticulièrement
intéressantelorsque
lecodage
d’une des variablesest soit
imposé,
soit sans intérêt.ex)
On ne cherche pas à coder la variable B.Le
codage
de A souhaitable est celui défini par lepremier
facteur del’analyse
descorrespondances
qui
fournit la variable laplus proche
de l’es-paceengendré
par ledécoupage
de B en p modalités.Ainsi dans un
problème
de discrimination où B est le critère declassement ;
il est sans intérêt de coder les modalités de B
qui
ne fontqu’exprimer
l’apparte-nance ou le nonappartenance
à unecatégorie.
Les méthodesclassiques, analyse
factoriellediscriminante, métriques
deSebestyen,
s’appliquent
lorsque
lesva-riables
explicatives
sont toutesquantitatives
et nepermettent
pas l’introductionde
prédicteurs qualitatifs
à moins dequantifier
cesprédicteurs,
ce que l’on faitquelquefois
à l’aide decodages
arbitraires(nombres
entiers consécutifs de 1 àm).
Les résultats
précédents
permettent
alors de proposer uncodage
cohérentd’une ou de
plusieurs
variablesqualitatives
à introduire dans un modèled’analyse
discriminante : tout individu
possédant
la ième modalité d’une variablequali-tative A se verra attribuer une valeur
numérique égale
à laprojection
dupoint
représentatif
de cette modalité sur lepremier
facteur del’analyse
descorres-pondances
du tableau A x B. Cecipeut
donner une solution auproblème
de"crédit
scoring"
parexemple :
on cherche à discriminer entre bons et mauvais clients en fonction de variables telles queâge,
revenu,catégorie
sociale,
sexe etc... et les
praticiens
de ce genre d’étude cherchent à affecter un certainnombre de
points
pourchaque
modalité dechaque
variable : selon la sommedes
points
obtenus par un individu on décidera ou non de lui allouer un certain crédit. Lecodage optimal
permet
de définir unsystème
rationnel de"points"
utilisable ensuite dans une fonction discriminante.
(3)
La variable B a uncodage
"naturel"qu’on
ne veut paschanger.
C’est en
particulier
le cas desproblèmes
derégression multiple
où oncherche à
prendre
encompte
desprédicteurs
qualitatifs,
la variable àexpliquer
étantparfaitement
définie.La solution donnée par la
première
variablecanonique
s’oppose
alors à lapratique
usuellequi
est de coder les modalités de la variableexplicative
selon lesmoyennes conditionnelles de la variable
expliquée :
62
Pour
représenter
la ième classe dupréducteur qualificatif
A on code par03B1i =
03A3
Pij
bj,
lecodage
en ai est en effet celuiqui
maximise le coefficientj Pi.
’
de corrélation linéaire p entre B et A codée par a et alors
p2 =
~2B/A
tandisque le
codage
en ai issu de lapremière
variablecanonique
maximisé~2A/B
c’est-à-dire
qu’il
nes’agit
pas de la variable laplus proche
de B mais laplus proche
detoutes celles
qu’engendre
B.Il
peut
alors semblerparadoxal
depréférer
lecodage
par lapremière
variablecanonique
oucodage
par les moyennesconditionnelles ;
d’unepart
parce que laqualité
del’explication
de B par A est inférieure en termes de varianceexpliquée,
d’autrepart
parce que la maximisation de~2A/B
peut
s’inter-préter
comme la recherche d’uneexplication
de A par B alorsqu’en
régression
c’est du contraire
qu’il s’agit.
Ces deux
objections
sontcependant
discutables : outre que la notion de causalité et le sens danslequel
elle s’exerce se révèlent souvent délicates àmanier,
le fait que lecodage
en ai nedépende
pas de B peut devenir unavan-tage décisif si la
quantification
de B se révèle par la suiteinadéquate
(une
échelle de mesure
logarithmique
parexemple
peut se montrerplus
appropriée
qu’une
échellearithmétique).
Lecodage
selon lapremière
variablecanonique
(i.e premier
facteur del’analyse
descorrespondances)
nedépend
que du tableau despij,
il est enquelque
sorteintrinsèque
à ladépendance
entre les deuxvariables,
tandis que lecodage
selon les moyennes conditionnelles fait pourainsi dire la
part trop
belle à un certain modèle.b)
Analyse
des données et variables normales.Dans le cas où le tableau de
contingence
étudiépeut
être considéré commereprésentatif
d’un échantillon d’une loi normale bidimensionnelle on peutappliquer
les résultats de I2C : la formule de Pearson~2 = 03C12 1-03C12
conduit à une estimation dep2
obtenue sans aucune information sur laquantification
des
marginales
(on
prend
ici ~2
=V
03A3(pij)2-
1 ).
Si les dimensions dui j Pi.
P.j
tableau sont assez
grande,
de même que la taille del’échantillon,
les résultatsde
l’analyse
de tableau decontingence
doivent être assezproches
de ceuxobtenus pour la loi
théorique :
les variablescanoniques (ou
facteurs del’analyse
des
correspondances)
doiventêtre,
aux fluctuationsd’échantillonnage
près,
des
polynomes
dedegré
croissant en fonction de lapremière
variablecanonique :
il
s’agit
alors d’un casparticulier
de l’effet Guttman.Commentant la
propriété
établie par Lancaster[2]
(théorème
2 du 12c)
que dans une distribution normale à deux dimensions on nepeut
améliorerle coefficient de corrélation p entre ces deux variables par une transformation
quelconque,
Kendall et Stuart[5] affirment :
"Si on cherche un
codage séparé
de deux variables maximisant leurcor-rélation,
cela revient fondamentalement àfabriquer
une distribution binormaleen oérant sur les distributions
marginales".
63
L’analyse
des données ne serait elle doncqu’une
tentative de normali-sation ?Cette
propriété
a en effet pourconséquence
que s’il existe deuxtrans-formations x -
~(x)
ety
(y)
telles que la distributionconjointe de
(~, 03C8)
soitbinormale,
alors(~, 03C8)
constitue lepremier couple
des variablescanoniques,
lescouples
suivants étant despolynomes
dedegré
croissant en ’Pet 03C8
dont les corrélations sont lespuissances
successives de lapremière.
L’analyse
descorrespondances
devrait alors mener à une normalisationdes données selon le
premier
facteur et à un effet Guttmansystématique
pour les autres
facteurs,
aux fluctuationsd’échantillonnage près.
Rien ne dit
cependant
qu’une
telle transformation soittoujours possible,
on
peut
mêmefabriquer
des distributions àdeux
dimensions telles que lepremier couple
de variablescanoniques
ne soit pasgaussien,
mais la remarquede Kendall et Stuart méritait
quelque
attention etpeut permettre
àcontrario,
de
rejeter
l’hypothèse
que certainsphénomènes
obéissent à une loigaussienne
sous-jacente.
c)
Lien avecl’analyse
canonique
classique
Il est facile de montrer que les résultats
précédents
auraient pu être obtenuen faisant une
analyse canonique
opposant
le groupe de n variables indicatrices des modalités de A à celui des p variables indicatrices des modalités de B[7].
Cette remarque
permet
degénéraliser
lesprocédures précédentes
au casde
plusieurs
variables et montre que lestechniques
decodage
prennent
place
dans le cadre desanalyse
multivariées linéaires.REFERENCES
[1] H.O.
LANCASTER - "The ChiSquare
Distribution" JohnWiley (1969)
p. 85-100.