R EVUE DE STATISTIQUE APPLIQUÉE
A. P ATRIS N. C HAU B. J AMBON B. L EGRAS F. K OHLER
J. M ARTIN
Le coefficient de contingence de K. Pearson
Revue de statistique appliquée, tome 32, n
o2 (1984), p. 17-30
<http://www.numdam.org/item?id=RSA_1984__32_2_17_0>
© Société française de statistique, 1984, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
17
LE COEFFICIENT DE CONTINGENCE DE K. PEARSON
A.PATRIS(*),
N.CHAU(*),
B.JAMBON(**),
B.LEGRAS(*),
F.KOHLER(*),
J.
MARTIN(*)
(*) Section de Statistique et d’Informatique Médicale, Groupe INSERM U.115, Faculté de Médecine, UniversIté Nancy 1.
(**) O.R.S.T.O.M. détaché au Laboratoire d’Immunologie, Faculté de Médecine, Université Nancy ,.
RESUME
Dans le cas de mesures qualitatives ou mixtes (quantitatif-qualititif) on examine des
paramètres,
qui, comme le coefficient de corrélation linéaire entre variables quantitatives, puissent servir d’indicateur de la force du lien ou permettent de faire des analyses multivariées de type analyse en composantesprincipales,
coefficient de correlationpartiel...
Les auteursveulent
spécialement
attirer l’intérêt du lecteur sur un coefficient introduit par K. PEARSON, modifié quelque peu pax les auteurs qui en ont étudié le comportement par simulation et l’ont utilisé avec succès dans des analyses multidimensionnelles.1. INTRODUCTION
Pour l’étude d’un
problème
danslequel
les variables mesurées sontquantita- tives,
le coefficient de corrélation linéaire estirremplaçable,
surtout dans le cadre du modèlegaussien.
Il sert destatistique
pour effectuer les testsd’indépendance,
comme échelle de la force du lien
(échelle
que chacun "voit" avec un peud’expé- rience),
et il intervient dans les notions de corrélationsmultiples, partielles,
ana-lyse
encomposantes principales, régression linéaire, analyse
discriminante.Cet article a pour but de
présenter
un coefficient introduit par K.PEARSON,
un peu modifié par les auteurs,
qui
essaye deremplir
le même rôle dans le cas où les variables mesurées sontqualitatives.
L’utilisation de ceparamètre
sera d’autantplus justifiée
que les variables mesurées seront en faitsous-jacemment quantitatives.
Ceci est un cas
fréquent
enmédecine,
domaine danslequel
cet outil a été utilisé.On y rencontre
fréquemment
des modalités dutype "pas
du tout", "unpeu",
"beaucoup".
Dans cecadre,
le coefficient de PEARSON fournira une estimation du coefficient de corrélation linéaire entre les variables continuessous-jacentes.
Onaura ainsi une
justification théorique
pour l’utiliser comme échelle de la force dulien,
pour construire des coefficients de corrélationpartielle,
ou dans les ACPlorsque,
parexemple,
le nombre total de modalités rendimpossible
uneanalyse
des
correspondances.
Nous allons commencer par un tour succinct de
quelques paramètres répon-
dant
plus
ou moins auproblème posé.
Nous étudierons ensuiteplus
en détail lecoefficient
proposé
par PEARSON.Revue de Statistique Appliquée,1984, vol. XXXII. n° 2
Mots Clés : Variables
qualitatives,
Coefficient decorrélation,
Coefficient de contin-2. SURVOL DE
QUELQUES
PARAMETRES2.1. Le coefficient de corrélation des rangs
Si les caractères
qualitatifs
mesurés sontordonnés,
onpeut
utiliser le coeffi- cient de corrélation des rangs. Cequi
revient à codet les modalités1, 2, 3...
m.On obtient un coefficient de
corrélation,
défini aussi dans lapopulation totale,
avec
lequel
onpeut mathématiquement
utiliser les outils del’analyse
linéaire.Cependant,
lecodage peut apparaître
arbitraire.Il est bien sûr
possible
de coder autrement, en utilisant parexemple
uneanalyse
descorrespondances.
Onpeut cependant s’approcher
d’un cerclevicieux, puisque
le code obtenu sert à examiner des liens avec des variablesqui
ontpermis
de construire le code.
2.2. Le Phi-deux
Bien que peu utilisé
pratiquement
il est à la base de tous lesparamètres qui
vont suivre. Donnons en la définition : Soient deux variables aléatoires X et Y.
Soit une
mesure bi (x, y)
surl’image
de(X, Y), qui
ici sera soit la mesure deLebesgue
surR 2
soit une mesure discrète si X et Y sontqualitatives.
Soientfx, fy,
f lesdensités, supposées exister,
deX, Y, (X, Y)
parrapport
à 03BC. La définition donnée par PEARSON[6]
est :si cette
quantité
existe. C’est enparticulier
le cas si(X, Y)
suit une loigaussien
ou si X et Y ont un nombre fini de valeurs. Dans ce cas on a bien sûr :
qui
est estimée à l’airde d’un n-échantillon par laquantité :
Dans le cas
gaussien,
PEARSON[6]
a montré que la relation entre le coefficient de corrélation p etz2
était donnée par :et que l’on
pouvait
estimer1>2 après découpage
en classes en utilisant la relation(2) qui
fournit alors un estimateurconvergent
vers1>2
si les classes deviennentde
plus
enplus
fines et si le nombre d’indivisus dans chacune des cases du tableau des effectifs croisés tend vers l’infini.De manière
générale, 4>2
définit une échelle de lien variant de zéro àl’infini,
et est
égal
à zéro si et seulement si X et Y sontindépendantes.
Dans le cas discret comme dans le cas
gaussien
on obtient donc un estimateurconvergent asymptotiquement
vers unparamètre
défini dans lapopulation
totale.On
pourrait
en faire une échelle de la force du lien. Mais dans le cascontinu,
onne voit pas l’intérêt de l’utiliser en
remplacement
du coeffieint de corrélation linéaire dont tout le monde à l’habitude.2.3. Le Chi-deux
La
statistique
du Chi-deux que l’onpeut
écrire :sert naturellement pour tester
l’indépendance
entre deux variablesqualitatives.
Elle
peut
aussi servir d’indicateur de la force du lien.Cependant
c’est une échellequi dépend
de la taille de l’échantillon : s’iln’y
a pasindépendance,
le chi-deux tend vers l’infini en mêmetemps
que n. Un inconvénientanalogue
seproduit
sion utilise comme indice la fonction de
répartition
de la loi du chi-deux.2.4. Les coefficients de
Tschuprow
et de CramerCes deux coefficients ont été
présentés
par leurs auteurs comme mesure de la force du lien. Leurdéfinition,
fournie parexemple
dans[5] est
donné par:où
ml
est le nombre de modalités deX, m2
le nombre de modalités de Y et m = inf(m 1, m2)’
Les coefficients sont trèsproches,
et mêmeégaux
sim1= m2 .
Dans le cas contraire
T
nepeut jamais
atteindre la valeur1,
même si les modalités de Xpeuvent
être reconstruites àpartir
de celles deY,
contrairement àC.
Cecipeut
être unavantage
ou un inconvénient selon que l’onprend
ou non encompte
le fait que siml =1= m2
les deux variablesn’apportent
pas la mêmequantité
d’infor-mation.
Si X et Y ont un nombre fini de modalités déterminées à
priori,
C et T sontalors des estimateurs
convergents
deparamètres
définis dans lapopulation
totale.Par contre, s’il y a des variables continues
sous-jacentes
et si ledécoupage
en classesest d’autant
plus
fin que la taille de l’échantilloncroît,
on se heurte à une difficulté.En
effet, 03A62
vaconverger vers 03A62
défini en(1) (s’il
estfini),
et le nombre de classes tendant versl’infini, C
ett
vont converger vers zéro. On pourra d’ailleurs constater cephénomène
dans les simultations que l’onprésentera plus
loin. C’est donc undéfaut
important qui
interdit descomparaisons
de la force du lienquand
les va-riables n’ont pas le même nombre de modalités.
Ces deux
paramètres
sont semble-t-il assez peuutilisés. (On
pourracependant
voir une
application
médicale dans[1]).
Mais le second vient de faire une timideréapparition grâce
àl’analyse
des données.SAPORTA
[9]
a montré que dans le cas de variablesdiscrètes, 03A62
était leproduit
scalaire entre lesopérateurs d’espérance
conditionnelle(projecteurs
ortho-gonaux sur les sous espaces
engendrés
par les indicatrices desmodalités)
leproduit
scalaire de deux
opérateurs
étant la trace duproduit
decomposition
de cesopé-
rateurs. La norme d’un tel
projecteur
estégal
au nombre de modalités moins 1(on
seplace
dansl’espace
des variables de moyennenulle).
On en déduit un cosinusentre deux variables discrètes :
Ce
paramètre
fournit une véritable matrice decosinus,
etcertains,
dontl’auteur,
s’en sont servi pour faire des ACP ou desanalyses canoniques.
Les inconvé- nients de ceparamètre
sont les suivants :-
T2
est bienplus petit
que le coefficient de corrélation p. Son utilisation dansune ACP fournit alors des valeurs propres assez
petites.
- Il a été montré par DAUDIN
[3] que l’indépendance
conditionnellen’impliquait
pas que le coefficient de corrélation
partielle,
obtenu àpartir
deT ,
soit nul.Et inversement.
- Comme pour
T,
maisplus rapidement
encore, si onprend
les classes deplus
en
plus fines,
alorsT2
tend vers zéro(si
n croitsuffisamment).
C’estpourquoi
il était intéressant de rechercher d’autres coefficients.
3. LE COEFFICIENT DE PEARSON
L’idée de PEARSON repose sur le résultat que nous avons
déjà
enoncé :si l’on
dispose
d’uncouple gaussien (X, Y),
de coefficient de corrélation p, on aalors :
Si on échantillonne et si l’on met en
classes,
alors(coefficient
decontingence
dePEARSON)
converge vers
Ip 1 si
les classes deviennent deplus
enplus
fines et si n croit suffi- samment. Ce coefficient estexposé
dans[2], [5], [6], [8].
Ce
paramètre possède
àpriori
de nombreuxavantages.
Si l’on suppose l’exis-tence de variables continues
gaussiennes sous-jacentes,
on obtientquelque
chosed’assimilable à un coefficient de corrélation linéaire.
Compte
tenu de la mise enclasses,
il suffit que les variables continuessous-jacentes puissent
être rendues gaus- siennes par unebijection.
L’utilisation du coefficient de PEARSONpeut
donc être considérée comme un moyen de faire unchangement
de variableimplicite.
On sera alors en droit d’utiliser la notion de corrélations
partielles
obtenuesà
partir
de la matrice desP.
S’iln’y
a pas de modèlegaussien
le coefficientP
fournitune échelle de la force du lien
qui
seracomparable
à celle du coefficient de corré- lation linéaire. Et dans la mesure où la matrice des coefficients n’aura pastrop
de valeurs propresnégatives,
une A.C.P. auratoujours
un sens.Les
qualités
du coefficientP
étantasymptotiques,
il faut examiner soncomportement
réel. Pour cela les auteurs ont effectuéquelques
simulations et ontprocédé
àquelques analyses
deproblèmes
réels en utilisant le coefficient de PEARSON.4. SIMULATIONS ET COEFFICIENT DE PEARSON MODIFIE
Nous avons examiné le
comportement
deP, C
etT
par simulations. Elles ont été effectuées pour des tailles d’échantillon n =75, 500,
2000. Pourchaque
valeur de n nous avons simulé des réalisations d’un échantillon d’un
couple gaussien
de coefficient
Le nombre de simulations a été de :
Pour le calcul de
cP2,
nous avonsdécoupé chaque
variable en2, 3, 4,
6 et 8 classes deprobabilités théoriques égales.
Et nous n’avons calculé2
que pour unnombre de classes
identique
pourchaque
variable. Cas pourlequel
on a T = C.Chaque
simulation nous a donc fourni 5 estimations de03A62.
Dans lesgraphiques
nesont
indiquées
que celles pourlesquelles
le nombre de classes est raisonnable re-lativement à la taille de l’échantillon. Les
graphiques
fournissent les moyennes simulations ainsi obtenues.Pour
chaque point
de cesgraphiques,
si on note n le nombre de simulations effectuées pour estimer la moyenne del’écart-type observé,
alors laquantité
2s/n-1
esttoujours
inférieure à 0.015. Ceci donne une résolutiongraphique
suffisante. Il ne faut
cependant
pas oublier que les moyennes obtenuesdépendent peut-être
du mode dedécoupage
desclasses, qui
ici sont assezéquilibrées.
L’analyse
des résultatspermet
de constater que :- Le coefficient de
Tschuprow
est assezdépendant
du nombre de modalités et dansun sens
gênant : t
diminue ets’éloigne
de p si le nombre de classesaugmente.
Deplus
on obtient une échelle de la force du lien assezcompressée
vers le bas.- Le coefficient de PEARSON
dépend
lui aussi du nombre demodalités,
mais variedans un bon sens.
L’important
est de constaterqu’il
est presque une fonction affine de p et que l’estimation est d’autant meilleure que n et le nombre de clas-ses croissent. Mais il est apparu nécessaire de
l’améliorer,
car les simulations montrent que ceparamètre
aquelques
inconvénients manifestes.(voir
lesgraphes).
Soit v
= (m1 - 1) (m2 - 1)
le nombre dedegré
de liberté.Soit m
= inf (m 1, m2)
D’après [5],
vol.2,
on aasymptotiquement :
et d’autre
part
la valeur maximum de2
estégale
à m - 1. La transformationqui s’impose
consiste alors à centrer2 pour
améliorer l’estimateur auvoisinage
dep =
0,
et à normer l’estimateur obtenu defaçon
à rendre son maximumégal
à 1quand
p = 1.Soit donc :
on pose alors :
et on a fourni les simulations de ce nouveau
paramètre,
noté coefficient de Pearson modifié. On constate une nette amélioration parrapport
à P.Cependant,
il reste encore une sous estimation
systématique
de p,qui
diminuelégèrement quand
n croit. Ceci est dû au nombre fini de classes. Onremplace
en effet(1), l’intégrale
d’un carré par(2),
une somme des moyennes des carrés. Et l’estimationest d’autant
plus
mauvaise que la densité variebeaucoup
à l’intérieur d’une case, cequi
est le casquand
p estproche
de 1. Onpourrait imaginer
uneprocédure
rectifi-catrice
plus
ou moinsempirique. N’ayant
pas trouvé de moyenthéorique
pourcalculer cette
rectification,
les auteurs ontpréféré
laisser leparamètre
telquel.
Au niveau de sa moyenne,
P’ dépend
assez peu du nombre declasses,
cequi
n’est pas le cas de sa variance. Les
écarts-type
observés dans les simulations sontfournis dans le tableau I. Pour p =
0, l’écart-type
minimum est obtenu pour m =2,
et
quand
pcroit,
le minimum est obtenu pour des valeurs croissantes de m. Onpeut cependant
constater que le choix de m = 3 pour n =75,
n = 500 et m = 6pour n = 2000 fournit des
écarts-types toujours
assezproches
du minimum. Ce sont donc des valeurs à conseiller.Comparons
maintenant cesécarts-types
à ceuxdu coefficient de corrélation linéaire R
dont
quelques
valeurs sont fournies dans le tableau II. On constate enpremier
lieuque le coefficient de PEARSON modifié a un
écart-type supérieur
à celui de R saufpour p voisin de
zéro,
cequi
est dû à un effet de troncature. Lerapport
entre les deuxécarts-types
estparticulièrement important quand
pdépasse0.9,
mais diminuelorsque
n croit. Enparticulier
pour n = 2000 et m =6,
lerapport
est presquetoujours
trèsproche
de 1.TABLEAU I
Ecarts-Types
observés dans les simulations du Coefficient de PEARSONmodifié,
en fonction de la taille de l’échantillon n, du nombre de classes m et de la valeur de p.TABLEAU II
Ecarts-types
du coefficient de corrélation linéaire R en fonction de la taille de l’échantillon et de p.Dans le cas où les variables
qualitatives
mesurées sontsous-jacemment
con-tinues,
onpeut
mettre unsigne
surP’
pour serapprocher
leplus
d’une véritablematrice de corrélation. Les auteurs se sont
servis,
dans ce but du coefficient de cor-rélation des rangs dont ils ont affecté le
signe
àPB
5. UTILISATION
Depuis
environ 6 mois nous utilisons le coefficient de PEARSON modifié dansl’analyse
deproblèmes
médicaux.Son utilisation en tant
qu’indicateur
de la force du lien a donné satisfaction ainsi que le montrent les simulations dans le casgaussien.
Dans le cadre
purement qualitatif
l’échelle obtenue n’est pas sans intérêtpuisqu’il s’agit
d’une normalisation de l’échelle du03A62.
L’utilisation de la matrice des coefficients de PEARSON modifié comme matrice de corrélation pose un
petit problème
pour lesanalyses
multivariées : elle n’est pasgénéralement
définiepositive.
Pour améliorer lasituation,
on aura bien évidemment intérêt à utiliser le coefficient avec sonsigne.
L’utilisation de cetype
de matrice sur une dizained’études,
avec un nombre de variables allant de 20 à70,
a fourni des valeurs propresnégatives représentant
entre 1%
et 5%
de la tracede la
matrice,
cequi
est assez peu. Onpeut
alors considérer que lareprésentation
par une
analyse
encomposantes principales
ne pose aucunproblème.
Le cas des
analyses canoniques
et des corrélationspartielles
estplus
délicat.L’obtention des corrélations
partielles
etl’analyse canonique
nécessitent l’inversion de matrices des coefficientsÊ’ (pouvant s’interprêter
comme associéeà un
opérateur
deprojection).
Il est apparuqu’il
était nécessaire departir
d’unematrice définie
positive,
sinon lespetites
valeurs propresnégatives
vontjouer
ungrand
rôle dans la matrice inverse et vont provoquer desphénomènes inacceptables.
Il faut donc modifier la matrice des coefficients
P’.
Unepremière
méthode consiste àajouter
sur ladiagonale
unequantité légèrement supérieure
à la valeur absolue dela
plus importante
valeur proprenégative.
Pour obtenir des 1 sur ladiagnoale,
onrenormalise ensuite en divisant
chaque
terme de la matrice par la valeur commune de ladiagonale.
Une seconde
méthode,
utilisant ladéflation,
rend nulle les valeurs propresauparavant négatives.
Onrajoute
unepetite quantité
sur ladiagonale
pour ne pas obtenir de matricesingulière
et on renormalise la matrice pour obtenir une matrice de cosinus.Les
quelques
essais effectués montrent que la seconde méthode transforme moins la matrice. La moyenne des valeurs absolues des différences entre les élé- ments de la matrice dedépart
et ceux de celle d’arrivéepouvant
être parexemple
del’ordre de
0,02
dans la 2e méthode et de0,04
dans lapremière. Cependant
la pre- mière méthode fournit une transformationidentique
pour tous les coefficients cequi
n’est pas le cas de la seconde.Ceci a été utilisé dans l’étude de la
dégradation
duthymus
chez des enfants morts en état de sous-nutrition à Dakar(voir [4], [10]).
Le
thymus
est un organe où seproduit
la maturation deslymphocytes T,
cellules
ayant
un rôleimportant
dans lesystème
immunitaire. La maturation s’ef- fectue enparticulier
par l’action d’une hormonetymique,
le FTS. Cette hormone estproduite uniquement
dans deux éléments duthymus :
les cellulesépithéliales
et les corps de Hassall. En état de
sous-nutrition,
lethymus
subit uneatrophie
trèsimportante,
les effectifs de cellules "utiles" seréduisent,
laquantité
de FTS pro- duite diminue et des remaniements tissulaires seproduisent.
Un des
problèmes
abordés était de choisir entre les deux modèles(simplifiés)
d’évolution suivants. Dans le
modèle,
on suppose que la sous-nutrition entraîne direcement unedégradation
de la structure duthymus,
cequi
entraîne apostériori
la
suppression
de laproduction
de FTS. Dans le modèle2,
la malnutrition entraîne directement l’arrêt de laproduction
de FTS. L’activité duthymus
est alorspertur- bée,
et il s’ensuite unedisparition
des structuresproduisant
le FTS. Ce deuxième modèle laisse supposer quel’injection
de FTSpourrait produire
un effetbénéfique
chez les mal-nutris.
Dans la
suite,
nous noterons NI le groupe de variables mesurant l’état nutri- tionnel et sensible à desperturbations
immédiates(ex :
lerapport Poids/Taille).
N2désignera
les variables nutritionnelles mesurant desperturbations
nécessairementlongues (ex :
lerapport Taille/Age).
Le groupe FTS mesura laproduction
de l’hor-mone FTS
(quantité,
nombre de sites deproduction).
Le groupe structure mesurera lepoids
duthymus,
le nombre delymphocytes,
de corps deHassall, producteurs
ounon de
FTS,
ainsi que la fibrose.Pour des raisons
pratiques,
lamajorité
de ces variables n’a pu être mesuréequ’approximativement
par uncodage
dutype :
peu, moyen,beaucoup.
C’estpourquoi
nous avons utilisé le coefficient de PEARSON modifié.Pour choisir entre les deux
modèles,
nous avons utilisé la notion de cova-riance
partielle
que nous allonsexpliciter.
Soient X et Y deux variables centrées réduites et soientZ1,...,
Z un ensemble de variables centréesengendrant
unsous
espace
noté W.(On
seplace
dansRn,
n = taille del’échantillon,
muni duproduit
scalaireusuel).
NotonsPw
leprojecteur orthogonal
sur W. Onpeut
alors écrire :Le coefficient de corrélation entre X et Y se
décompose :
La covariance entre
X2
etY2,
notée covariancepartielle désigne
alors lapartie
de la corrélation entre X et Y dûe à desphénomènes "indépendants"
deZ1,..., Zp.
Laquantité :
est la corrélation
partielle
entre X et Y pourZ 1 ,
... ,Zp
fixées.Nous avons
préféré
utiliser les covariancespartielles
Cov(X2, y 2) plutôt
que les corrélations
partielles puisque
notreproblème
était de savoir si unepartie importante
de la liaison entre X et Y était ou nonindépendante
d’un groupeZ1,
...
Zp . L’analyse
des résultats semble en faveur du modèle 2. Les covariancespartielles
Nutrition-FTS pour structure fixée sont caractérisées par le fait suivant : les covariancespartielles
entre la nutrition et le nombre de cellulesépithéliales
oude corps de Hassall
producteurs
de FTS sont toutesplus petites
que 0.10. Au contraire les covariancespartielles
entre la nutrition et laquantité
de FTSproduite
par cellule
épithéliale
ou par corps de Hassall sontplus
élevées(de
0.10 à0.26).
Quant
aux covariancespartielles Nutrition/Structure
pour FTSfixée,
aucune nedépasse
0.08. Pour obtenir de telsrenseignements
sur les lois conditionnelles avecles
techniques
usuelles dedénombrement,
il aurait fallu étudier des croisements entreplus
de deux variables simultanément. L’effectif del’échantillon,
n =58,
interdisait une telle démarche. Le modèle
gaussien, qui paramétrise
defaçon simple
les lois conditionnelles en
permet
l’estimation. Nous n’avons pas testél’hypothèse
selon
laquelle
nos donnéespouvaient
sereprésenter
à l’aide d’une loigaussienne multidimensionnelle,
l’échantillon étant faible. Mais les conclusionsauxquelles
ona
abouti,
ont le mérite d’être cohérentes et decorrespondre
à un processusetiopa-
thogénique
connu dans d’autres domaines(pancréas, foie).
Un des
problèmes important
dans l’utilisation de cettetechnique
c’estqu’il
est
impossible
de fournir des intervalles de confiance sur les coefficients de cor-rélation
partielle.
6. MELANGE
QUANTITATIF-QUALITATIF
Bien souvent une étude
comprend
unmélange
de variablesquantitatives
etqualitatives.
Le calcul des coefficients de PEARSON modifiés nécessite la mise enclasses des variables
quantitatives
etproduit
uneperte
d’information. Dans le casde la liaison entre deux variables
quantitatives,
il est certainementpréférable
d’utiliser le coefficient de corrélation linéaire fourni par
l’échantillon, plutôt
qued’utiliser
P’ après
avoirdécoupé
en classes. On obtiendra alors une matrice de"corrélation" dont tous les éléments n’aurait pas été calculés par la même for-
mule,
maisqui
restera néanmoinshomogène.
Quant
au lien entre une variablequantitative
et une variablequalitative (sous- jacemment continue),
les auteurs n’ont pas trouvé deparamétres
aussiprécis
que
P’ :
la mise en classes sembles’imposer.
Eneffet,
si on utilise latechnique simple
del’analyse
de la variance donnant une estimation de la variancerésiduelle,
celle-ci va fournir une estimation surestimée de la vairance conditionnelle de la variable mesurée en
continu,
et ceci à cause de lalargeur
des classes de l’autre variable. Il s’en suivra une sous-estimation du coefficient de corrélation. Et la rec-tification ne semble pas
simple.
L’ordonnée à l’origine, de l’ordre de
m-1 n
est inférieure à celle obte- nue pour P.n
Cependant, quand p croit, T s’écarte d’autant plus de la diagonale que m augmente. A la limite T tend verszéro. (Quand m et n ~ ~)
Le maximum étant toujours égal à 1,
on obtient une échelle qui ressemble
assez peu à celle du coefficient de corrélation.
Moyennes des simulations du coefficient de TSCHUPROW
m désigne le nombre de classes cons- truises sur X et Y pour obtenir P.
Les graphes obtenus forment des cour- bes parallèles, se rapprochant d’autant plus de la diagonale que m croit.
Le biais à l’origine est néanmoins important, de l’ordre de m-1. Le maxi- mum possible, atteint pour *P=1, est égal
à m-1 m.
Moyennes des simulations du coefficient de PEARSON
Par soucis de clarté, seules les courbes pour les valeurs extrêmes de
m sont fournies ; les autres sont comprises entre ces deux extrêmes et sont très rapprochées.
Les courbes sont assez proches de la diagonale. On s’en rapproche d’autant plus que n et m croissent et que p est petit.
Moyennes des simulations du coefficient de PEARSON modifié
REMERCIEMENTS
Nous remercions Mr. B. SIRANTOINE et Mme A.
CROQUIN
pour l’aidequ’ils
nous ontapportée
pour la réalisation de ce travail.BIBLIOGRAPHIE
[1] COUDANE, FERY, SOMMELET, LACOSTE, LEDUC,
GAUCHER. -Aseptic loosening
of cemented totalarthroplasties
of thehip
in relation toposi- tioning
of theprothesis :
new utilization of theTschuprow-Cramer
statisticaltest,
ActaOrthop.
Scand.1981,
vol52, n°
2 page 201-205.[2]
Dos GUPTAS. - Point biserial correlation coefficient and itsgeneralization, Psychometrika, 25, 932-947,
1962.[3]
DAUDIN(1979). -
Coefficient deTschuprow partiel
etindépendance
condi-tionnelle, Statistique
etAnalyse
desdonnées, n° 3,
p. 55-58.[4]
B.JAMBON,
O.ZIEGLER,
B.MAIRE,
M.C.BENE,
G.PARENT,
A.PATRIS,
J. DUHELLE. - Tarissement de la secrétion defacteur thymique sérique
F.T.S. et involutionthymique
chez lesenfants sénégalais
décédés en étatde dénutrition
protéino-énergétique,
Communication au2e symposium
surles marqueurs de
l’inflammation, Lyon,
Juin 1983.[5]
KENDAL et STUART(1961). 2014
The AdvancedTheory of Statistics,
vol.2,
London.[6]
K. PEARSON(1904). -
On thetheory
ofcontingency
and its relation to association and normalcorrelation, Draper’s
Co.Memoirs,
BiometricSeries, n° 1,
London.[7]
Karl PEARSON’S. -Early Statistical Papers, Cambridge
Univ.Press, London,
1948.
[8]
Lothar SACHS. -Applied Statistics, Springer Verlag,
1982.[9]
G. SAPORTA(1976). 2014 Quelques applications
desopérateurs
d’Escoufierau traitement des variables
qualitatives, Statistique
etAnalyse
desdonnées, n° 1,
p. 38-46.[10]
O. ZIEGLER. - Lesconséquences
de la malnutritionprotéino-énergétique
sur la structure et le contenu du
thymus
enfacteur thymique sérique (FTS),
Thèse de doctorat en