NOTE TECHNIQUE
RÉALISATION ET UTILISATION DE PROGRAMMES
SUR ORDINATEUR QUI PERMETTENT LES CALCULS
STATISTIQUES DE BASE SUR DES DONNÉES
BIOMÉTRIQUES
R. ROUVIER
J.-C.
CANONGEStation centrale de
Génétique animale,
Centre national de Recherches
zooteclmiques, Jony-en-Josas (Seine-et-Oise)
SOMMAIRE
Nous avons réalisé un groupe de programmes permettant d’effectuer sur ordinateur les
opérations simples
de lastatistique :
calcul desparamètres
de sériesstatistiques,
détection des données extrêmes des distributions, établissement de distributions defréquences,
test de linéarité des liaisons aveccalcul des coefficients de corrélation et de
régression.
Ces calculs peuvent être faits sur les valeurs brutes ou sur les écarts à la droite derégression.
Unepartie
des calculs(test
delinéarité)
peut se faireaprès
transformationlogarithmique
des données introduites.Nous
indiquons,
à la suite d’unedescription rapide
de ces programmes, lespossibilités
de leurutilisation et leur enchaînement, dans une étude
biométrique
élémentairepréalable
à un traitementstatistique plus
élaboré des données.INTRODUCTION
Le traitement
statistique
élaboré des donnéesquantitatives
d’observation oud’expérimentation
suppose engénéral
que certaineshypothèses
soient réalisées.Ces
hypothèses
concernent :- La distribution des valeurs observées des caractères
(distributions marginales
et
liées).
- La nature des liaisons
statistiques
entre certaines variablesprises
deux àdeux.
La vérification de ces
hypothèses, qui
semble être un travailpréliminaire impor-
tant,
peut
être uneopération
trèslongue (surtout
pour des lois àplusieurs variables) lorsqu’on
utilise des moyens de calculélectromécaniques.
Il a paru utile de concevoir et de réaliser un ensemble de programmes utilisables sur ordinateurqui permettent
de rendresystématique
ce travail. Ces programmes de calcul de la Station de Géné-tique animale, désignés
sous lesrubriques
62 or3, 62 oz4, 62 oi5, 62o16, permettent :
- le calcul de
paramètres statistiques :
moyenne,variance, écart-type,
coeffi-cient de
variation ;
- la recherche des valeurs se trouvant aux extrémités des
distributions,
etqui correspondent
soit à des animaux(ou
des groupesd’animaux) exceptionnels,
soit àdes erreurs de mesure ;
- l’établissement de distributions de
fréquences
absolues etrelatives,
cumuléeset non
cumulées, qui permettent
lacomparaison
de distributions observées à des lois deprobabilité théoriques;
- l’étude de la liaison
statistique
entre une variable considérée comme indé-pendante
et une ouplusieurs
variablesdépendantes,
par :0 observation de l’évolution des moyennes de la variable
dépendante
par classes de la variableindépendante ;
0 calcul des
paramètres statistiques simples (dont
lavariance),
dans chacune de cesclasses,
cequi
donne lapossibilité
d’effectuer un testd’homogénéité
des va-riances de la variable
dépendante
dans les différentesclasses ;
0 test de la linéarité des liaisons estimées par la droite de
régression,
entreune ou
plusieurs
variablesdépendantes
et une variableindépendante.
Ces calculspeuvent
se faire àpartir
des valeurs observées des variables ouaprès
transformationlogarithmique.
- Le calcul des écarts à la droite de
régression, comptés parallèlement
à l’axedes ordonnées. Ces écarts constituent la distribution résiduelle
lorsque
la variableindépendante
est maintenue constante. Dans le cas d’une distribution normale à deux ouplusieurs variables,
ces écarts suiventégalement
une loi normale à une ouplusieurs
variables. Ils seprêtent
donc aux calculsstatistiques qui
nécessitentl’hypo-
thèse d’une loi normale. Cela ne serait pas le cas des
rapports (variable dépendante
divisée par la variable
indépendante)
que l’on calculeparfois.
DESCRIPTION DES S PROGRAMMES
Cette
description
est donnée en détail dans les noticestechniques figurant
à labibliothèque
de laStation centrale de
Génétique
animale. Nousindiquons
les éléments de cettedescription
dont laconnaissance est nécessaire pour une bonne utilisation
scientifique
des programmes.Tous ces programmes, utilisables sur ordinateur IBM 1620
(zo 00 o positions
demémoire),
considèrent simultanément 16 variables au maximum. Ils ont été conçus en vue d’être utilisés en
séquence
(les
résultats de l’un fournissant des données pour lesuivant),
et de façonautomatique.
7!’<!)’a)w!
62 013 : Calcul deparamètres
de sériesstatistiques
Le programme calcule simultanément pour
chaque
variable X considérée un certain nombre d’éléments et enparticulier
l’effectif N, la moyennearithmétique X,
la variance s=,l’écart-type
s, et le coefficient de variation.Programme
6.3 M! : Établissement de distributions et de courbes defréquence
Un certain nombre de constantes sont introduites :
. X et
s (moyenne
etécart-type
pourchaque
variable considérée, cesquantités
étant calculées par le programme 62 or3ou fixées parl’utilisateur).
! Une valeur de
grande
borne(G. B.)
et une valeur depetite
borne(P. B.).
s s
! Un
paramètre j! qui
fixel’amplitude
de classe dedépart, égale
à4 (p
=1 )
ouz (p
= 2).! Un
paramètre q qui
a son utilité en rapport avec l’utilisation du programme 62ot5. Les calculs sont effectués en deux stades :1
° I’rernier stade
- Élimination des calculs ultérieurs et tabulation <le toute carte dont une variable au moins
présente
une valeur X telle que :- Recherche des valeurs X, avec tabulation des cartes
correspondantes,
telles que :2
° Deuxième stade.
Sur les données restantes,
2 . 1
. Calcul des
paramètres
statistiques.GRAPHIQUE i - Exemple de iracé de cotrrbe de fréquences par la machine décrire (programme 62 104).
La machine d écrire /rappe : .’
en abscisse : les numéros de classes (ro LI 33) ;
eut nrrlorznée : l’axe verlical 0 G dont la Longueur représente Irt probabilité o,gg5o ; des J.’/!!! (représentés 1<1
par des points) dont les ordorznées représentent les jréqzteraces o!<’/T! dans les classes.
l,a courbe tracée représente la variation de la fonction densité de probabilité de la loi normale centrée réduite.
La distribution observée qui est indiquée correspond à des données fournies par la Station expérimentale
d’Aviculture du Magncraud (poids de coquelets âgés de 8 semaines).
2 .
2 7?tablissenrent des
distributions
defréquence,
dans l’intervalle X - 5 s(borne supérieure
de la
première
classecomprise),
X + 5s(borne
inférieure de la dernière classe noncomprise).
- s
Si p = l, on a 42classes. Les bornes
supérieures
des classes dedépart,
de la forme X + K4 (K variant
de - 20à +20 )
sont engénéral
des fractions des valeurs observables de la variable X. Pourchaque
classe K, onindique
le nombre d’observations dans la classe, lesfréquences (par
classe,cumulées avec celles des classes
précédentes),
la bornesupérieure
de la classeexprimée
en unitésphysiques
de la variable(X!;
est la valeur observable de la variable immédiatement inférieure à-
+
s
X + K -). 4
).1 -
ors de
lasortie
des résultats, la machine à écrireindique
les courbes defréquence
dans l’inter- valle X - 3 s, X -1- 3 .r. Ces courbes peuvent êtresuperposées
à une courbethéorique
deLaplace-
( :
auss tracée à la même échelle
(graph.
1). On peut ainsiapprécier graphiquement
la normalitéde l’échantillon, dans la mesure ou l’unité
physique
de mesure utilisée est très faible par rapport àl’écart-type
s.Programme
62 015 : Test de linéarité. Corrélation etrégression
par classeOn introduit des bornes de classes d’une variable considérée comme variable
indépendante.
Les valeurs de ces bornes, sont soit fixées par l’utilisateur, soit déterminées par le programme 62 or4. Dans ce dernier cas, les effectifs Ni par classe sont tels que
Ni ;;. !,
avec la condition Ni ;;. q20
(q
est leparamètre précédemment indiqué).
Le programme calcule et donne pour chacune des variables
dépendantes
considérées simulta- nément :. les moyennes des variables
dépendantes
etindépendante,
danschaque
classe, ainsi que leurs moyennes générales ;. les éléments permettant de faire le test de
linéarité,
c’est-à-dire la valeur de h :et les
degrés
de libertécorrespondants ;
0 les
caractéristiques
.!2(carré
du rapport decorrélation),
r et r2(coefficient
de corrélation linéaire et son carré) ;0 le coefficient de
régression
par rapport à la variableindépendante ;
! les variances résiduelles de la variable
dépendante
àpartir
de ses moyennes de classes et àpartir
de la droite derégression.
Les formules de calcul utilisées sont celles décrites par MORICEet CHARTIER(r9S4).
Il convient de remarquer que le test de linéarité effectué par ce programme est, dans la
plupart
des cas,
approché
du faitqu’on
peut avoir danschaque
classeplusieurs
valeurs différentes de la variableindépendante.
Ce programme peut aussi être utilisé pour obtenir,
parmi
les résultatsprécédents,
ceuxqui
sontcalculables sur les données relatives à
chaque
classeparticulière
de la variableindépendante (la
valeur de F ne peut évidemment pas être calculée dans ce cas).
1’rogra l /ll/le 6:
!
016 :
Test de linéarité : casgénéral.
Calcul des écarts à une droite de
régression.
Ce programme permet dans une
première partie,
pour une variableindépendante
X et une ouplusieurs
variablesdépendantes
Y, de tester la linéarité de la liaison entre Y(ou Log Y)
et X (oulog X) Chaque
valeur observée de X(ou
delog
X) constitue une classe. La méthode de calcul est celle décrite par OSTLE( 19 54).
Les résultats donnés sont les mêmes que ceux du programme 6a oi5, moins les moyennes des variables par classe.
Dans une deuxième
partie,
il calcule les écarts à la droite de régression de Y(ou Log Y) en
X(ou Log
X). Soient Y la valeur observéecorrespondant
à X observée,Y
la valeur de Y estimée par ladroite de
régression,
1’ la moyennegénérale
des Y, st l’écart type résiduel de Y àpartir
de la droite derégression.
Ces écarts sont calculés suivant l’une des trois formes :(a
et 6 étant des constantesdonnées).
UTILISATION
SCIENTIFIQUE
DES PROGRAMMESPremier problème
On
dispose
d’un fichierimportant
de donnéesquantitatives (résultats
de contrôle dans les fermes ou enstations)
et l’on désire déceler les observations(animaux
parexemple) qui présentent
des valeurs extrêmes pour un ouplusieurs
caractères mesu-rés. Ces valeurs
correspondent :
- soit à des erreurs de mesures ou de
transcription (valeurs
aberrantes oudouteuses),
- soit à des animaux
exceptionnels.
La solution.
Elle consiste à : 1
° Utiliser le programme 62 013
qui
donne unepremière
estimation delà moyenne
(X)
et del’écart-type (s)
dechaque
variable. Utiliser ensuite le programme6 2 oi 4
enprécisant
de ne pas effectuer lapartie
distribution defréquence
de ce programme.Les valeurs de la
grande
borne(G.B.)
et de lapetite
borne(P.B.)
sont fixées par l’utilisateur. Onindiquera,
parexemple :
L’utilisateur pourra étudier le cas
particulier
dechaque
animal dont les résultats ont été « tabulés ».2
° L’utilisateur
peut,
s’il adéjà
une certaine connaissancebiométrique
dumatériel
étudié,
fixer lui-même des valeurs deX
et s(au
lieu de les faire calculer par le programme 62oi 3 ).
De2ixième
problème
L’utilisateur après
avoirexploré
son fichier(j er problème),
éliminé ou noncertains
animaux, corrigé
certainesvaleurs,
désire étudier la forme de la distribution dechaque
caractèremesuré,
cequi
luipermettra
d’en déduire des tr?’1.sformations éventuelles des variables.La solution.
Le fichier de base aura
probablement
été modifiédepuis
la dernièreopération
mécanographique
effectuée. Onpeut
alors :1
° Utiliser le programme 62 013.
Utiliser ensuite le programme
6 2 oi 4
en demandant la distribution defréquence :
les valeurs
X
et s(calculées
par le programme 62or 3 )
dechaque
variable sont uti-lisées pour déterminer les bornes des 42_ _ classes de travail
qui
ont pouramplitude 4
4sdans l’intervalle
(X - 5 s, X
-! 5s).
Les bornes réellesX!
des classes effectives(valeurs
observables de lavariable)
sont tabulées(voir
ladescription
du program-me 62
014).
Les nombres d’observations
(absolus, relatifs)
par classesqui
sont tabulés per- mettent(connaissant X
ets)
de testerl’ajustement
de la distribution observée à unedistribution
théorique (test
dux 2 ).
Les
fréquences
relatives cumuléespermettent
un testgraphique
de la normalitéde la distribution des valeurs brutes ou
logarithmiques (droite
de HENRI, avecpapier gausso-arithmétique
ougausso-logarithmique).
Les
fréquences
relatives par classes(regroupées
ounon) permettent
de tracer leshistogrammes.
2
° Le programme 62 014
peut
être utilisé dans le même but queprécédemment,
l’utilisateur fixant lui-même les valeurs des
paramètres X
et s, soit des valeurs Xl et sl. Celaprésente
un intérêtlorsque
l’utilisateur a une connaissanceapproximative
de
X et ;s,
oulorsqu’il préfère que s l
soit unmultiple
de l’unité de mesure, ouque Xl ait une valeur
particulière.
Le programme 62 014 donne aussi les valeurs d’une variable
particulière
cor-respondant
à des fractiles déterminés de cettevariable,
cequi
fournit des indicationssur la forme de la distribution
(symétrie
enparticulier).
3
°
Un certain nombre !2 depaquets
de cartesséparés peuvent
être traités par le programme6 2 oi 3 ,
cequi
donnera pourchaque
variable les valeurs de ncouples moyenne-écart type (X, s).
L’étude de liaison entreX
et spermettra
éventuellement de conclure sur la normalité de la distribution parapplication
du théorème de GEARy1l(« si
les variablesparentes
d’un échantillon ont un second moment et si lesstatistiques
X et s sont
indépendantes,
les variablesparentes
sont de LAPLACE-GAusso).
La forme de la liaison entre
X
et s(ou X
ets 2 ), permet
par ailleurs deprévoir
letype
de transformationapproprié
de la variable(BART!,!TT, ig.!7).
Troisième
problème
3 . 1
. - On veut connaître la forme de la liaison des variables
dépendantes
etindépendante,
et faire un testapproché
de linéarité des liaisons.3 . 2
. - On veut tester
l’homogénéité
des variances dans des classes de la va-(’) En toute rigeur, ce théorème est énoncé par DUGUE(1958) avec :
alors que le programme 62 013 calcule
riable
indépendante,
et connaître les coefficients de corrélation etrégression
danschacune de ces classes.
Solution.
Le programme 62 oI5 donne les éléments de
réponse
à laquestion 31 . Les
bornesde classes de la variable
indépendante
ont été déterminées par le programme 62 014(d’après
la valeur duparamètre q).
Lors du même passage, le programme donne enplus
du testapproché
de la linéarité desliaisons,
les coefficients de corrélation et derégression (voir
lapartie description).
Les
paquets
de cartescorrespondant
à différentes classes d’une variable(classes
déterminées par le programme
6 2 oz 4
commeprécédemment,
où toutes autres classes faites parl’utilisateur) peuvent
être traitésséparément
et enséquence
par ce pro- gramme, cequi
donne les éléments deréponse
à laquestion
32.On
possède aussi,
dans ce dernier cas, les éléments pour éLudier la relationmoyenne-écart-type
oumoyenne-variance.
Quat y
ième problème
Test exact de la linéarité des liaisons entre une variable
indépendante
et une ouplusieurs
variablesdépendantes.
Solution.
Le programme 62 or6
( I re partie) permet
ce test(voir
ladescription
du pro-gramme). L’opportunité
de la transformationlogarithmique pour
la variable indé-pendante
ou les variablesdépendantes
estindiquée
par les étudespréalables (forme
des
distributions,
évolution des moyennes parclasses,
relationmoyenne-écart-type)
ou par ce que l’on sait de la nature
biologique
des données(cas
de l’étude de l’évolution dupoids
en fonction del’âge
parexemple).
Rappelons
que le programme 62 o16 donne les variances résiduelles(la
variableindépendante
étantfixée)
réelles(à partir
des moyennes declasse)
et estimées àpartir
de la droite de
régression.
Cinquième problème
Étude
de distributions résiduelles de variablesdépendantes,
la variable indé-pendante
étant fixée.Solution.
Le programme 62 oz6
( 2 e partie)
donne les écarts parrapport
à la droite derégression. Lorsque
la liaisonpeut
être considérée commelinéaire,
l’étude de la distri- bution de ces écartsprésente
un trèsgrand
intérêt. Ilspourront représenter,
parexemple :
- le
poids
d’unepartie corporelle
des animaux àpoids corporel
total constant ;- la
production
de matière grasse àproduction
totale de lait constante ;- le
poids corporel
àâge
fixé. Parexemple,
les écarts liés dupoids
parrapport
à la droite de
régression
dupoids
surl’âge peuvent
êtreexprimés
en notespermettant
de
porter
directement unjugement
de valeur sur l’individu.Tous les
problèmes évoqués jusqu’à présent,
et leurssolutions, peuvent
êtreappliqués
à ces écarts.Il est
particulièrement
intéressant de remarquer quelorsque
la distributionmarginale
des valeurs brutes n’est pas deI,AP!,ac!-Gnuss,
il sepeut
que la distribu- tion des écarts le soit. Onpeut
donc dans ce cas faire sur ces écarts tous les calculs et testsqui supposent
que la distribution est normale.SYNTHÈSE
DESPOSSIBILITÉS D’UTILISATION
DES PROGRAMMESLe tableau i résume les
possibilités
d’utilisation de l’ensemble des programmes.Chaque ligne
du tableaureprésente
unepossibilité,
+indique
l’utilisation du pro- gramme,(-f-) indique
une utilisation facultative.Possibilité i : Solution du jer
problème : exploitation
d’un fichier. On utilise le programme 62 013 et le programme 62 014 sans lapartie
distributions defréquence.
Possibilité 2 : Solution du 2e
problème :
étude de la forme des distributions et recherche de transformationspermettant
de normaliser les distributions(l’utilisation
du programme 62 013 est
facultative).
Possibilité 3 : Solution du
3 e problème :
forme de la liaison des variablesdépen-
dantes et
indépendantes,
calcul desvariances,
coefficients derégression
et corrélation par classes(de
la variableindépendante
ou pour toutes autresclasses).
Dans laplu- part
des cas il y aura eu un passagepréalable
par les programmes 62 o13 et6 2 oz 4 .
Possibilité 4 : Solution du
4 e problème :
test de linéarité desliaisons,
sur les variables brutes ouaprès
une transformationlogarithmique (programme
62o16,
i
re
partie seulement).
Possibilité 5 : Solution du
5 e problème :
calcul des écarts à la droite derégression (programme 6 2 oz6,
ire et 2eparties).
Possibilité 6 : Solution du 5e
problème :
étude des écarts à la droite derégression.
S’il y a au moins deux variables
dépendantes
onpeut
éventuellement utiliser de nou- veau le programme 62 o16 pour ces écarts.Les écarts calculés par le programme 62 o16
peuvent
être étudiés de la mêmefaçon
que les valeurs initiales(possibilités
i à6).
Reçu pour
publication
en mai 1964.REMERCIEMENTS
Les auteurs tiennent à remercier M. B. Vissac de la Station de
Génétique
animale pour l’aidequ’il
leur aapportée
dans laconception
de l’enchaînement des calculs que les programmesprécédem-
ment décrits permettent de faire.
SUMMARY
DRAWING UP AND USE OF ELECTRONIC COMPUTER
PROGRAMS I·’OR BASIC STATISTICAL CALCULATIONS WITH BIOMETRICAL DATA
The
possibilities
offeredby
electronic computer calculation led us to the realisation of a group of programs which make itpossible
toperform
certainelementary
statisticaloperations :
calculation of the parameters of statistical series ; detection of the extreme values of the distributions ; esta-blishment of
frequency
distributions;linearity
tests and calculation of correlation andregression
coefficients. The calculation can be made on the
original
data or on their deviations from theregression
line. Some of the calculations
(linearity tests)
can beperformed
afterlogarithmic
transformation of the data.After a brief
description
of the programs, thepossibilities
of their use andapplication
in anelementary
biometricalstudy, preliminary
to a more elaborate statistical treatment of the data,are indicated.
RÉFÉRENCES BIBLIOGRAPHIQUES
13 ARTI ,
LTT :B1. S., 19-!7. L’utilisation des transformations. Biometries, 3, 39-53-
DU G
UÉ D., 1958. Traité !le statistique théorique et a/>pliqnée..4nalyse aléatoire. Algèbre aléatoire, p. 186, 3
Iassofi et Cie, Paris.
3 [ ORl
cil E., CHARTIER F., 1954. Méthode stali.rtique, deuxième partie, Analyse statistique, 344-351 et 376-
377, lyorimerie nationale, Paris.
O
STLE D.,1954. StatistÍes in Research. l3asic concepts and techniques for Research workers, 154-155, the Iowa State College Press, !mes, Iowa.