• Aucun résultat trouvé

L'analyse des correspondances sur juxtaposition de tableaux de contingence

N/A
N/A
Protected

Academic year: 2022

Partager "L'analyse des correspondances sur juxtaposition de tableaux de contingence"

Copied!
13
0
0

Texte intégral

(1)

R EVUE DE STATISTIQUE APPLIQUÉE

A. L ECLERC

L’analyse des correspondances sur juxtaposition de tableaux de contingence

Revue de statistique appliquée, tome 23, n

o

3 (1975), p. 5-16

<http://www.numdam.org/item?id=RSA_1975__23_3_5_0>

© Société française de statistique, 1975, tous droits réservés.

L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.

sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

L’ANALYSE DES CORRESPONDANCES

SUR JUXTAPOSITION DE TABLEAUX DE CONTINGENCE(1)

A. LECLERC

INSERM, Division de la Recherche Médico-Sociale

On sait que

l’analyse

des

correspondances

est

particulièrement adaptée

à l’étude des tableaux de

contingence ;

elle

permet

alors d’étudier les relations entre deux variables

qualitatives.

Si l’on cherche à étudier les relations entre deux groupes de variables

qualitatives,

et que l’on

dispose

des valeurs

prises

par chacune de ces variables sur les mêmes

sujets,

on

peut

former un tableau

"juxtaposition

de tableaux de

contingence"

croisant l’ensemble des modalités des variables du

premier

groupe avec l’ensemble des modalités des variables du second groupe.

Nous nous demandons ici

quelles propriétés possède l’analyse

des corres-

pondances

effectuée sur un tableau de ce genre, et comment on peut

interpréter

au mieux ses résultats.

1 - ANALYSE D’UN TABLEAU DE CONTINGENCE

1 / Rappel

sur

l’analyse

des

correspondances

Pour un

exposé complet

sur

l’analyse

des

correspondances,

il faut se

référer à

(1)

ou

(2).

Mais on

peut

ici

rappeler

les

grandes lignes

de la

méthode,

en

adoptant

une

présentation

assez

simple.

Soit 1 x J un tableau que l’on suppose être ici un tableau de

contingence,

et que l’on cherche à

analyser.

On notera :

*

nu

l’effectif de la case

(i , j)

* ni

et

nj

les effectifs

marginaux :

somme des éléments d’une

ligne

ou

d’une colonne.

* n la somme des éléments du tableau : c’est ici le nombre de

sujets

*

fij = nij/n

la

fréquence

associée à la case

(i , j)

*

fi

et

fj

les

fréquences marginales : ni /n

et

nj/n fi = fu/fi et f;

=

fu/fj

les

fréquences

conditionnelles

Pour

simplifier,

on

appellera

aussi 1 et J le nombre de

lignes

et le nombre

de colonnes.

(1) Article remis en Décembre 1973, révisé en Octobre 1974.

(3)

6

On

imagine

dans un espace

RJ (espace

à J

dimensions),

muni de la

métrique

1/fj,

le nuage des

points

"i"

représentés

par des vecteurs de coordonnées

fil 1

auxquels

sont associés des masses

fi. L’analyse

des

correspondances

sera

l’analyse

de ce nuage par

rapport

à son centre de

gravité.

Il revient absolument au même de munir

RJ

de la

métrique

euclidienne

classique

et

d’analyser alors,

par rapport à leur centre de

gravité,

des

points

"i" de coordonnées

fij/fifj, toujours

munis de masses

f;, (analyse

en compo- santes

principales classique).

L’analyse

fournira des fonctions

projection

sur les axes factoriels d’inertie

(directions d’allongement

du

nuage).

On réservera le nom de "facteurs" aux

fonctions

s’appliquant,

non pas aux vecteurs de

composantes fii/fiv/’17

mais aux

vecteurs

f1

de

composantes fu/fi = fij, représentant

une loi de

probabilité

sur

J,

connaissant i. On

appellera ~Jq

une fonction de ce

type, correspondant

qu

q-ème

axe

factoriel,

et

~jq

une

composante

de cette fonction :

Une démarche

parallèle peut

être

appliquée

à

l’analyse

de

points "j"

dans un espace

RI.

On

appellera

de

façon analogue ~Iq

une fonction

s’appliquant

aux vecteurs

"j"

de composantes

fij/fj,

et

~iq

une composante de cette fonction.

Les valeurs propres des deux

analyses

sont les mêmes : on les notera

Xq

On

appellera Q

l’ensemble des indices q caractérisant des

couples

de facteurs

(~Iq, ~Jq) correspondant

aux valeurs propres

Àq rangées

dans l’ordre décroissant.

2/ Quelques propriétés

de

l’analyse

des

correspondances

Les

caractéristiques

de la

méthode, rappelées ici,

serviront de référence pour

l’analyse

d’une

juxtaposition

de tableaux de

contingence.

Toutes les for- mules

présentées

sont vérifiées en effet

quelque

soit la nature du tableau

analysé.

Seule leur utilisation en vue de

l’interprétation

peut différer.

Signification

de l’inertie totale

Les deux nuages de

points évoqués plus

haut ont même inertie par rapport à leur centre de

gravité.

Pour les

points

"i" de coordonnées

fij,

de masses

fi,

dans

l’espace R J

muni de la

métrique 1/fp

cette inertie s’écrit :

(le

centre de

gravité

est le

point

de coordonnées

fj)

L’inertie s’écrit sous une forme

plus symétrique :

La

quantité

de droite

rappelle

une

expression

connue. C’est ce que l’on calcule habituellement sur un tableau de

contingence,

et

qui

suit un Khi -

2 sous certaines

hypothèses,

d’où le résultat :

Revue de Statistique Appliquée, 1975 vol. XXIII 3

(4)

Dans

l’analyse

des

correspondances appliquée

à un tableau de contin- gence, n fois l’inertie

suit,

sous

l’hypothèse d’indépendance

entre

lignes

et

colonnes,

et à condition que les effectifs ne soient pas

trop petits,

un Khi -

2 à

(I - 1) (J - 1) degrés

de liberté.

Propriétés

des

facteurs

Ce

qui

peut s’écrire en notations condensées :

ou :

ou :

Ceci entraîne que dans une

représentation graphique, l’origine

est centre de

gravité

des

points représentant

les variables "i" affectés des masses

fi,

comme des

points représentant

les variables

"j"

affectés des masses

fj.

(5)

8

* La formule de

décomposition :

associée aux conditions

ci-dessus, permet

de démontrer facilement :

* que toute reconstitution du tableau par un sous ensemble

Q’

de facteurs res-

pectera les marges et l’effectif total du tableau :

(on

caractérise ce sous

ensemble par le sous ensemble

Q’

des indices

correspondants)

en notant :

* que l’inertie du tableau

s’exprime

comme somme de termes

dépendant

chacun

d’un facteur :

ceci permettra de tester

l’hypothèse :

"un sous ensemble

Q’

de facteurs est suffisant pour

expliquer

le tableau de

départ".

* On pourra étudier

l’apport

d’une

variable j (ou

d’une variable

i)

au

niveau’

de

l’explication

du tableau par un facteur :

Puisque

cette

quantité

pourra être

comparée

à

Xq (c’est

ce que l’on

appelle parfois

la contribution absolue d’une variable à un

facteur)

* D’autre

part,

on peut démontrer facilement :

On pourra donc comparer

l’apport

d’une

variable j

au niveau d’un facteur q à

l’apport

de cette variable dans l’inertie du tableau

(contribution relative).

II - ANALYSE D’UNE JUXTAPOSITION DE TABLEAUX DE CONTINGENCE

Nous allons voir si les

propriétés précédentes

de

l’analyse

des correspon- dances sont

transposables

à

l’analyse

d’une

juxtaposition

de tableaux de contin- gence, et si certaines notions fructueuses pour

l’interprétation (part

d’inertie

Revue de Statistique Appliquée, 1975 vol. XXIII 3

(6)

expliquée,

contributions absolues et

relatives)

ont des

équivalents

pour le

type

de tableau

qui

nous intéresse.

1 /

Notation et

exemple

I x J sera le tableau

global,

avec :

1 x J sera

juxtaposition

de L. M tableaux de

contingence

sur les mêmes

sujets.

Nous

appellerons

encore

nij

l’effectif en

(i , j) ;

ni et

nj

seront

nous noterons K la somme des éléments du tableau.

Nous noterons :

Il faut remarquer que ces

quantités, qui

avaient un sens très

simple quand

il

s’agissait

d’un tableau de

contingence (effectifs, fréquences),

n’ont

plus

ici

une

signification

évidente.

Pour

reprendre

les notations

habituelles,

nous

parlerons

de variable i

ou j ;

un ensemble

Il

ou

Jm

sera

appelé

groupe de variables bien

qu’il représente

en fait l’ensemble des modalités d’une variable

qualitative

m ou 1.

Exemple de tableau de ce type

Le tableau

précédent

est la

juxtaposition

de 6 tableaux de

contingence

réalisés sur le même échantillon de 1 558

ménages.

Ici L =

2,

M = 3. L’inter-

section d’une

ligne

et d’une colonne

représente

un effectif. Par

exemple,

la

case

(3, 6)

contient le nombre de

ménages (262) qui

à la fois :

(7)

10

- ont un dentiste

habituel,

-

appartiennent

à la

profession

2

(cadres supérieurs).

2/

Inertie du tableau

global

L’analyse

du tableau

global

sera basée sur la

décomposition

d’une inertie

calculée formellement comme si I x J était un tableau de

contingence,

mais dont la

signification

ici reste à

préciser.

L’inertie du tableau

global

s’écrit :

On va montrer que la

quantité :

est

L - 1 M

fois l’inertie telle

qu’elle

serait calculée si on considérait le tableau

Il

x

Jm

seul.

Il faut pour cela

exprimer fi’

;

f; ; f;j ; fréquences

calculées sur le tableau

Il

1 x

Jm ,

et

K1 m ,

1 somme des termes de ce

tableau,

en fonction des

quantités

fi ’ fj , fij , K :

KIm

est l’effectif du tableau

Il

x

Jm.

C’est le nombre de

sujets

concernés.

Or ces

sujets

ont été

comptés

L. M. fois dans le tableau 1 x

J,

d’où :

donc

f’i est

le

pourcentage

de

sujets

concernés par la modalité i.

Le nombre de

sujets

concernés par la modalité i est

ni/M ;

en effet dans la

ligne

i de 1 x

J,

de somme ni, ces personnes ont été

comptées

M fois. D’où :

Revue.de Statistique Appliquée, 1975 vol. XXIII 3

(8)

De même

*

Il s’ensuit :

Soit le résultat :

L’inertie du tableau

global

est la moyenne des inerties des tableaux de

contingence qui

le composent.

Ce

premier point est

encourageant quant à l’étude par

l’analyse

des

correspondances

d’une

juxtaposition

de tableaux de

contingence :

la

quantité qui

sera

décomposée

par les facteurs -l’inertie

globale-

a aussi une

significa-

tion

précise

pour notre tableau.

3/

Test sur la reconstitution du tableau

global

Non seulement l’inertie du tableau

global

est la moyenne des inerties

des tableaux

qui

le composent, mais encore, sous

l’hypothèse d’indépendance

entre les groupes de variables

11

et

Jm ,

K fois cette

quantité

suit une loi du

khi-2 à

(I - L) (J - M) degrés

de liberté.

K fois l’inertie

s’écrit, d’après

la formule

précédente :

Soit la somme de I.J termes de la forme : ,

(effectif

observé - effectif

théorique)2

effectif

théorique

les effectifs observés étant liés aux effectifs

théoriques

par un certain nombre de relation linéaires

indépendantes.

La

propriété (7)

des facteurs :

expression

de l’inertie du tableau

global

comme somme des valeurs propres est encore valable ici. On pourra donc tester,

comme on le fait

habituellement,

et avec les mêmes

réserves, l’apport

d’un

facteur dans

l’explication

du tableau

global :

on pourra se demander

si, après explication

par un ou

plusieurs facteurs,

K fois l’inertie restante

peut

être con- sidérée comme la réalisation d’un Khi-2 à

(I - L) (J - M) degrés

de liberté.

On

conçoit

que ce test n’est pas

suffisant,

ni

toujours

très intéressant : le choix des variables

qualitatives

introduites dans le tableau

peut

être assez

arbitraire,

et on aimerait en savoir

plus

sur

l’explication

par les facteurs des relations

pouvant

exister au niveau de groupes de

variables I1

ou

Jm

prises séparément.

(9)

12

4/ Moyenne

des facteurs

sur I1

ou

Jm

La

plupart

des

propriétés

vérifiées sur 1 ou J par les facteurs

cpâ ou

ne sont pas vérifiées

sur I1

ou

Jm

par des

.restrictions ~I1q

ou

cpqm

des facteurs

à Il

ou

Jm .

En

particulier,

les facteurs

~’I1q

1 que l’on obtiendrait par

l’analyse des

x

J ,

ne sont pas des restrictions

~I1q

1 des facteurs de

l’analyse globale.

Parmi les

propriétés (1)

à

(4)

des

facteurs,

seule la

propriété (3)

a un

équivalent

pour les restrictions des facteurs :

Une

fonction ~I1q est de

moyenne nulle pour la

métrique fi

Une

fonction ~Jmq

est de moyenne nulle pour la

métrique fJ

soit :

(on

aurait aussi bien pu

remplacer fi

et

fj par f’i

et

f’ fréquences

calculées

sur I1 x Jm ).

Démonstration

(Pour

une fonction

’PlI)

Soit

RJ l’espace

des lois de

probabilité

sur J. Les éléments

rJ

sont des

points

de cet espace et

~Jq ,

facteur de

l’analyse

des

fiJ

est un élément de

R J.

Comme élément de

RJ , ~Jq

est combinaison linéaire des

03B4Jj,

fonctions

qui

à un

point

de

RJ

font

correspondre

la coordonnée d’ordre

j.

Pour toutes les fonctions

8/

on a :

Cette

expression

vaut en effet :

j appartient

au groupe de variables

Jm

et dans le tableau de

contingence

I1 x Jm , on a :

Ce

qui

s’écrit en

exprimant û , 1 f , 1 , f’j

j en fonction de

fij , fi , fj :

Revue de Statistique Appliquée, 1975 vol. XXIII 3

(10)

On a donc :

qui

entraîne :

Or

~Jq (f J )

= 0

d’après

la

propriété (3)

des facteurs Donc

Ce

qui

s’écrit aussi :

.

D’après

la

propriété (2)

des facteurs

Conséquence

sur la

représentation

des résultats

Les variables sont en

général représentées

par des

points

de coordonnée

La

représentation

de résultats

d’analyse

des

correspondances

sur une

juxtaposition

de tableaux de

contingence possède

donc la

qualité

suivante :

L’origine

est centre de

gravité pondéré

non seulement de

chaque

en-

semble de

variables,

I ou

J,

mais encore de

chaque sous-ensemble Il

ou

Jm .

Il revient au même de

pondérer

une variable par son

poids

dans l’ensemble

du

tableau,

ou par son

poids

par

rapport

aux autres variables du groupe

auquel

elle

appartient.

51 Apport

d’un groupe de

variables Il

ou

Jm

On sait que dans un tableau de

correspondances,

on

peut

isoler

l’apport

d’une

variable j (ou i)

dans

l’explication

du tableau par un facteur.

Ici on isolera la

quantité :

(ou

son

équivalent

pour

Il)

On pourra comparer cette

quantité

à

Xq, puisque

la

propriété (8)

est

vérifiée sur le tableau

global :

On

parlera

de contribution absolue d’un groupe de variables à un facteur.

(11)

14

On pourra aussi comparer

l’apport

d’un groupe

Jm

de variables à

l’expres-

sion :

et l’on

parlera

alors de contribution relative d’un facteur à un groupe de variables.

On a en effet

(propriété (9)

des

facteurs)

Donc aussi :

La contribution relative

présente l’avantage

de

pouvoir

donner lieu à un

test : .

la

quantité

est en

effet,

dans

l’hypothèse d’indépendance

entre

Jm

et

chaque

groupe de variables

I1,

une variable

qui

suit une loi du Khi - 2 à

(I - L) (Jm - 1) degrés

de liberté. La démonstration est

analogue

à celle

évoquée

en 11-3.

On pourra donc comparer la

quantité :

(où Q’ représente

un sous-ensemble de

facteurs)

à un Khi-2 à

(I - L) (Jm - 1 )

dd 1

Ceci pourra permettre de

juger

de

l’apport

d’un sous-ensemble

Q’

de

facteurs à

l’explication

des relations entre

Jm

et tous les groupes de variables

Il prises

dans leur ensemble.

Ce

procédé présente

des défauts

analogues

au test

global

sur 1 x J : le

choix arbitraire de groupes de

variables I1 peut

enlever de la

signification

à l’inertie de 1 x

Jm ;

le test ne

renseigne

pas sur la

façon

dont un sous-ensemble

Q’

de facteurs

explique

chacun des

tableaux 1,

1 x

Jm .

De

plus,

on sait

qu’en

analyse

de

correspondances,

la

comparaison

de 1"‘inertie restante" à un Khi- - 2 dont le nombre de ddl est celui du tableau de

départ, prête

à la

critique.

Néanmoins,

les tests au niveau de groupes de

variables I1

ou

Jm

pourront

préciser

la structure du tableau :

Des groupes de variables

Jm

et

Jm, expliqués

par des facteurs différents

pourront être considérés comme dissemblables vis-à-vis des variables 1.

Revue de Statistique Appliquée, 1975 vol. XXIII 3

(12)

Un tableau I x

Jm

pourra rester

inexpliqué

par les

premiers facteurs,

alors

même que ces facteurs

expliquent

bien le tableau 1 x J dans son ensemble.

61

Reconstitution d’un tableau

Il

x

lm

par un ou

plusieurs

facteurs

Venons-en maintenant à un tableau de

contingence Il

x

Jm

et démontrons

la

propriété

suivante :

Toute reconstitution de I x J par un sous-ensemble

Q’ de facteurs

conserve

les marges des tableaux

Il

x

Jm

Démonstration

soit

et

(formule

de

décomposition)

On aura :

car la sommation

sur Il

de termes de la forme :

est nulle

puisque ~Iq

restreinte

à Il

est de moyenne nulle.

On a évidemment un résultat

analogue

pour une sommation sur

Jm .

Ainsi la reconstitution par un ou

plusieurs

facteurs redonne des tableaux

Il

x

Jm qui

ne diffèrent des tableaux de

départ

que parce

qu’ils expriment

des relations différentes

entre 1,

1 et

J.,

avec les mêmes effectifs

marginaux,

et en conservant évidemment le nombre de

sujets

’initial. Ceci nous permet de comparer un tableau reconstitué au tableau de

départ correspondant.

Nous pouvons considérer le tableau de

départ (Il

x

Jm )

comme notre

hypothèse nulle,

tableau de référence

indiquant

un certain

type

de relation

entre 1,

1 et

Jm , éloigné

de

l’indépendance :

la reconstitution d’un tableau

qui n’exprimerait

pas de relation

entre Il

et

Jm

ne nous intéresse pas.

Nous calculerons alors :

gij

étant le résultat de la reconstitution par un sous ensemble

Q’

de facteurs et comparerons cette

quantité

à un Khi-2 à

(Il - 1) (Jm - 1)

ddl

Ceci permet

d’apprécier,

pour

chaque

tableau

(Il

x

J m)’

sa reconstitution par un ou

plusieurs

facteurs. On pourra baser

l’interprétation

des facteurs sur

(13)

16

les tableaux

qu’ils expliquent

le mieux. On pourra

parler

de tableaux "sem- bables" s’ils sont bien reconstitués par les mêmes facteurs ou groupes de fac- teurs, et isoler les tableaux mal

expliqués

par les

premiers

facteurs de

l’analyse . (Le procédé

ne se

justifie

pas si l’effectif est trop

faible,

le

tableau Il

x

Jm

pouvant être difficilement considéré comme tableau de

référence).

Il faut noter que, l’inertie de

(Il

x

Jm )

n’étant pas

décomposable

en une

somme de termes

positifs dépendant

chacun d’un

facteur,

il peut se faire que l’introduction d’un facteur

supplémentaire

n’améloiore pas la reconstitution du tableau.

Remarques

sur les tests

proposés

Les tests visant à

juger

de

l’apport

des facteurs à

l’explication

du tableau

prètent

tous à la même

critique : l’hypothèse

nulle

qu’ils

testent

s’exprime

en fonction des facteurs

(sous

la forme : tel sous-ensemble de facteurs est suf- fisant pour

expliquer

les relations

observées),

les facteurs étant eux-mêmes directement construits à

partir

des observations. Or une

hypothèse

nulle devrait

toujours

être définie avant examen des données.

Dans

l’explication

d’un sous-ensemble du

tableau,

du

type Il

x

J,

ou

Il

1 x

Jm ,

on peut nuancer la

critique :

les facteurs

peuvent

être assez peu

dépen-

dants du sous-ensemble

considéré ;

il peut se faire

qu’une analyse

refaite en

enlevant les

sous-ensemble Il

ou

Jm

donnerait des facteurs

ayant

à peu

près

même

signification.

C’est ce

qui

se passe

quand

on

analyse

un tableau de

grandes

dimensions avec des variables redondantes.

Dans tous les cas, il convient de donner aux seuils de

signification

observés

une valeur

plutôt

indicatrice de distance entre les données et certaines

hypothèses.

BIBLIOGRAPHIE

(1)

BENZECRI

(J.P.) - L’analyse

des données

(II : l’analyse

des correspon-

dances) Dunod, Paris,

1973.

(2)

LEBART

(L.),

FENELON

(J.P.) - Statistique

et

informatique appliquées Dunod, Paris,

1973.

(3)

LECLERC

(A.) -

Etude de certains types de tableaux par

l’analyse

des cor-

respondances

Thèse 3ème

cycle,

Université Paris

VI,

1973.

(4)

DAVIDSON

(F.), CHOQUET (M.),

DEPAGNE

(M.) -

Les

lycéens

devant

la

drogue

et les autres

produits psychotropes, monographie

de l’INSERM.

1974

(exemple d’application)

Revue de Statistique Appliquée, 1975 vol. XXIII N° 3

Références

Documents relatifs

c'est une relation entre les £/, £y : il existera ainsi entre ces quantités une infinité de relations, mais il est clair qu'elles ne seront pas toutes distinctes.. Dans la pratique,

Observer les répétitions, les oppositions, les archaïsmes, les créations de mots (néologismes), les écarts par rapport à une formule toute faite (jeux d'analogie, jeux

La méthode proposée pour étudier des tableaux multiples est de choisir le tableau binaire.. &#34;optimal&#34;, c’est-à-dire ayant la plus grande variance et d’en

D’abord une classification hiérarchique de l’ensemble E des individus décrits à travers l’ensemble A des modalités - attributs où dans l’élaboration de

Et Pascal de conclure  : il n’est pas indigne de se faire estimer pour quelque rôle socialement établi, quelque honneur public que l’on aurait pu opposer aux

Si l’on s’en tient à ce raisonnement, on ne voit pas très bien la différence avec Hobbes ; il y a bien un pacte conclu par nécessité de s’arracher à la violence anarchique

Pour résumer ce concept, « relever de son propre droit », on peut dire qu’il s’agit de l’expression juridique de la puissance réelle des individus, de leur droit naturel qui

Les considérations sur l’éternité, distincte de l’immortalité, ne seront abordées que dans la cinquième partie. Dans ce scolie, c’est à l’inverse l’échec de