M
G. T H . G UILBAUD
Exercices de calcul pour préparer à l’usage raisonnable du khi deux
Mathématiques et sciences humaines, tome 14 (1966), p. 31-40
<http://www.numdam.org/item?id=MSH_1966__14__31_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1966, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
EXERCICES DE CALCUL
POUR PREPARER A L’USAGE RAISONNABLE DU KHI DEUX
G. Th. GUILBAUD
1. -
OBSERVÀTI 0N :
L’observation de
17
candidats(classés
par le centre desélection
en trois ’ *catégories A,
B ouC,
et par le centred’apprentissage
en deuxcatégories X, Y)
est
résumée
dans le tableau : .Un tel tableau extrait de: G.H. FREEMAN et J.H.
HALTON,@ (Exact
treatmentof
contingency
andgoodness
offit, Biometrika,
Vol.38, june 1951,
pp.143-145),
est ici
présenté
à titred’exemple
d’une situationstatistique tout â
fait or-dinaire.
2. - L’UNIVERS
DES POSSIBLES
On
établit
d’abord la liste des tableauxossibles ayant mêmes
marges; cha-cun d’eux sera
désigné
par unnuméro.
Le
dispositif’peut être représenté
enplan (deux libertés) :
(tous
lesalignements: 01, 06, 11, 15
ou bien05,
y10, 14, 17
etc... sontsigni-
ficatifs - on voit
aisément
ce que les tableaux d’unepareille
suite ont encommun).
3. -
PROBÀBI,LISÀTION :
Dans
l’hypothèse d’indépendance
des deuxclassifications,
il suffit de dé- nombrer les réalisations dechaque
tableau.’
Par
exemple
pour le casobservéf
n°(02) :
03 26 5 1 le nombre des
réalisations
sera :Quant
au nombre total desréalisations,
il est :d’où la
probabilité
du tableau n°(02) :
Il n’est pas
nécessaire
de refaire le calcul pour les17
autres cas: le cal- cul durapport
de deuxprobabilités est plus
facile :et ainsi de suite de
proche
enproche (car
les deuxexpressions
factorielles desprobabilités
de deux tableaux voisins ontbeaucoup
de facteurscommuns).
En
désignant
par P laprobabilité
du cas nO 2 on obtient lesrésultats
ci- dessus. Onpeut
facilement calculer toutes lesprobabilités,
etmême
les ranger d’abord en ordre croissant.Liste des Probabilités :
4. - DECISION :
La
probabilité
totale des cas,au
moins aussi"exce tionnels"
que le cas ob-servé,
estégale à 0,0882
soit presque9 %;
les auteursauxquels l’exemple
estemprunté considèrent
que ce chiffre fournit une bonne base dejugement
pour ac-cepter
ourejeter l’hypothèse d’indépendance.
5. - PROCEDURES D’APPROXIMATION
On
peut
comparer un tel verdict avec celui du Khi Deux traditionnel.Pour un tableau : ,
il est
prescrit
de calculer la somme des termes tels que :,Une telle somme, y que nous
désignerons
dans cequi
suit parreprésenter
une mesure de
l’éloignement
entre le tableau :et la moyenne de tous les tableaux
possibles :
(qu’on
pourraappeler
tableau moyen, bien que leplus souvent,
les nombresqui
y
figurent n’étant
pasentiers,
ce ne soit pas un tableau"possible").
On
peut développer
chacun descarrés
desdifférences
et obtenir :Dans le cas
présent :
a =6,
b =8, c = 3,
d =5, e = 12 ;
n =17;
et oncalcule
aisément
les dix-huitvaleurs, qui
serépartissent
ainsi :Le cas n° 11 est le
plus proche possible
de la moyenne, comme on levérifiera aisément
en calculant cette moyenne.’
Selon cette
procédure
on nedétermine plus
lecaractère plus
ou moins"excep-
ti.,)nnel" d’un
évènement
par saprobabilité
maisc’est-à-dire l’éloignement
de la moyenne. L’ordre n’est
plus
tout à fait lemême :
18, 9, 1, 16, 5, 4, 13, 17, 2, 3, 10, 8, 14, 6, 15, 12, 7, 11.
(Sg2 décroiss.) :
:18, 9, 1, 5, 4, 16, 13, 17, 2, 3, 8, 10, 15, 6, 14, 12, 7, 11.
Il se trouve
ici. cependant,
que la coupure faite par le casobservé (à
sa-voir le n°
2)
est la même pour les deuxcritères.
Pour classer tous les tableaux
possibles,
au moinsapproximativement
parrang
de
probabilité,
onpeut
aussi ut,iliser un autre indicateur que l’on nommeraX.
Pour calculer l’indicateur
d’éloignementQ
on comparechaque
effectif dutableau à sa valeur moyenne: x à
ad.
On calcule lecarré
de ladi"érence
et on nfait la somme
pondérée.
Il y a, poury.. , quelque
chosed’analogue :
mais on faitle
quotient
au lieu de ladifférence ,
et unproduit
au lieu d’une somme. Bien en-tendu on pourra
parler
lelangage logarithmique.
On
posera
donc:pour le tableau :
ce
qu’on peut
écrire aussi bien :, Avec une table de
logarithmes
le calcul estrapide.
Il existe d’ailleurs dans le commerce des tablesqui
donnent directement leproduit
nlog
n en f onc-tion de
n (ces
tables ont souvent été calculées en basebinaire, à~
cause del’usage prévue
dit"théorie
del’information",.
Mais cette base n’aiçi
aucun ,intérêt,
et si l’on veut choisir autrechose
queles
bons vieuxlogarithmes décimaux,
y on fera biend’adopter
leslogarithmes népériens.
Il est bond’avoir
sous la main une table de ces
logarithmes:
conseillons le recueilpublié
parLABORDE,
chezIDNOD, intitulé Tables numériques
de fonctionsélémentaires.
Avec detelles tables
nous formons les calculssuivants) :
Valeurs de x2.
On voit que les
rangements
parQ 2
etparx2
ne sont pas tout à faitpareils :
gt l’un comme l’autre ne
correspondent qu’ approximativement
aurangement
par pro-babilités
croissantes.Mais on constate aussi que la
correspondance entre 22
et~,2
est voisine del’égalité,
surtout pour les valeurssituées à l’intérieur
de laconfiguration
(les écarts
sont notables sur lesbords).
6 - DISTRI BUTI Oh! DE
PROBÀ Bl
LI TE - °1
On
comprendra,
parl’exemple qui
vientd’être esquissé, qu’on pourrait
re-faire tous les calculs pour
chaque
cas, yc’est-à-dire
pourchaque type
de tableaustatistique
et pour tout
système
de valeursnumériques
des marges(les a.,
y lesb.
etleur
somme
n). ~~
Dans
l’exemple,
y les nombresprésentés
n’étaient pa,s bi.engrands (n
=17).
Pour de
plus grands nombres,
on constaterait que lesapproximations
sont meil- leures(Q 2 et X 2
sont moinsdifférents
l’un del’autre,
et leur ordre crois- santcorrespond
mieux à celui desprobabilités décroissantes).
2 2
D’autre
pa,rt,
lacorrespondance
entre lesprobabilités
etQ (ou bien ’X2
dépend
peu de n(et
d’autant moins que ce nombre estgrand).
Une seule table pourra suffire pour tous les tableaux demême
format.C’est
pourquoi,
dans lapratique courante,
on ne s’astreint pas à calculer toutes lesprobabilités individuelles,
maisqu’on
estime la distribution desprobabilités
parl’approximation eulérienne (Khi
Deux dePearson,
formuleséqui-
valentes aux lois de
Poisson).
Il est
intéressant
de comparer la distributionde Q 2 (exacte)
et celle deX 2 (approchée);
dans lacomparaison
on n’oubliera pas que la seconde est continue alors que lapremière
est en escalier.Le lecteur est invité à tracer
lui-même
lesgraphiques
en utilisant les donnéesci-après (et
mieux encore en consultant des tables de Pearson ou de Pois-son).
On pourra