R EVUE DE STATISTIQUE APPLIQUÉE
J.-M. A ZAÏS
Analyse de variance non orthogonale.
L’exemple de SAS/GLM
Revue de statistique appliquée, tome 42, n
o2 (1994), p. 27-41
<http://www.numdam.org/item?id=RSA_1994__42_2_27_0>
© Société française de statistique, 1994, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE DE VARIANCE NON ORTHOGONALE
L’EXEMPLE DE SAS/GLM
J.-M. Azaïs
Laboratoire de
Statistique
et Probabilités, URA CNRS 745 Université Paul Sabatier, 118, route de Narbonne, F31062 Toulouse Cedex.RÉSUMÉ
En utilisant le vocabulaire de la
procédure
GLM de SAS pour dénommer les différentessommes de carrés, nous
présentons
les différentesdécompositions possibles
enanalyse
devariance non
orthogonale.
Nousexplicitons
leshypothèses
linéairessous-jacentes
et noussommes donc en mesure de
préciser
dansquelle
situationchaque décomposition
doit êtreemployée.
Le cas leplus important
est celui du modèle à deux facteurs croisés avec interaction.Le modèle additif ainsi que les modèles
hiérarchiques
sontégalement
traités.Mots-clés :
Analyse
de variance, testsd’hypothèses, fonctions
estimables,logiciels statistiques.
SUMMARY
Using
thevocabulary
of SAS GLMprocedure,
we present thepossible decompositions
in unbalanced
multiway analysis
of variance.Outlining
thecorresponding hypotheses, permits
to
explain
when each one has to be used. The mostimportant
case, is the two way model withinteraction, but the aditive model and nested models are also considered.
Ke y -words :
Unbalancedanalysis of
variance, testsof hypotheses,
estimablefunctions,
statistical
software.
1. Introduction
Y a t’il encore matière à faire un article sur
l’analyse
de variance? Un lecteurnon averti
pourrait
penserqu’il s’agit
d’unsujet
dont la théorie(le
modèle linéairestatistique)
est bien connue et dont lapratique
est devenueclassique.
Cetteopinion
se révèlerait fausse sur les deux
points.
D’abord ontpeut
citer des articles récents consacrés auxaspects théoriques
etépistémologiques
del’analyse
de variance(Speed 1987, Tuckey 1991). Ensuite,
comme nous allons le voir dans cettearticle,
la miseen
application pratique
et lacompréhension profonde
desalgorithmes
desgrands logiciels statistiques
amènent à certaines réflexions fondamentales.Un des
points
lesplus
débattus concerne la définition et le test d’effetsprincipaux
dans un modèle avecinteraction, (Searle 1987)
une fois que le test de cette même interaction a été déclaré nonsignificatif.
A-t’on le droit de se poser une telle28 J. -M. AZAÏS
question
etquelle
estl’hypothèse
linéairecorrespondante ?
Il nous a semblé nécessaire de faire lepoint
sur cesujet
en montrantpourquoi
laréponse
nepouvait
pas êtreunique
et en donnant des
interprétations
nouvelles de certainesdécompositions.
Comme nousallons le voir tout
dépend
de laphilosophie
que l’on a d’un teststatistique :
ils’agit
de savoir si on
peut
considérer le modèle additif comme un modèle réel ou si on doittoujours
le considérer comme uneapproximation,
autrement dit comme un modèleinadéquat.
Les éléments de
réponse
à cesquestions
ne se trouvent pastoujours
dans lesmonographies
carbeaucoup
d’auteursrechignent
à écrire noir sur blanc certains choix arbitrairesqui
relèventplus
d’une norme que d’une réelle démarchescientifique.
Ceschoix sont
pourtant
nécessairesquand
on veut passer àl’analyse proprement
dite decas concrets. C’est donc vers les notices des
logiciels qu’il
faut se tourner pour y lire lapratique statistique.
2. Bref
rappel
des formulesprincipales
del’analyse
de varianceDans tout ce
qui suit,
nous entendrons paranalyse
devariance, l’explication
d’une variable
quantitative
Y par une fonction d’un certain nombre de variablesqualitatives
ou facteurs avec des erreursindépendantes
centréeséquidistribuées (et
éventuellement
Gaussiennes).
C’est un modèle linéaire dans le sens où la variable Y e Rn a uneespérance qui
varie dans un sous espace[H1]
de dimension rI et une varianceégale
à0-2 ln (In
est la matrice identité de taillen).
On sait que les estimateursoptimaux
sont ceux des moindres carrés et, dans le cas où iln’ y
aqu’un facteur,
ce sont des moyennes ordinaires. Dans le cas leplus général,
ils sont obtenuspar solution matricielle des
équations
normales.Soit
Ho l’hypothèse
nulle :E(Y)
E[Ho] (espace
de dimmensionro).
Le testuniformément
plus puissant
de cettehypothèse parmi
les tests invariants est basé surla
statistique (Coursol 1980) :
avec
où
[H1]/[H0]
estl’orthogonal
de[Ho]
dans[H1]
etPE désigne
leprojecteur orthogonal
surl’espace
E.Nous allons d’abord étudier en détail le modèle à deux facteurs croisés avec
interaction car il contient dans un cadre
simple
toutes les difficultésconceptuelles.
Nous examinerons
rapidement
les autre cas en fin d’article.Nous dirons que le facteur 4 est
plus
fin que le facteur B sil’égalité
des niveaux du facteur Aimplique
celle des niveaux du facteur B. Dans notre casparticulier
l’interaction
(représentée
par le facteurproduit)
estplus
fine que les effetsprincipaux;
chaque
effetprincipal
estplus
fin que l’effet «moyennegénérale».
Nous utiliserons les conventions
classiques
«’» et «+» pourdésigner respecti-
vement la moyenne et la somme sur l’indice
remplacé.
Parexemple
si ondispose
deI
valeurs, Yl ... YI,
on a :Nous serons
parfois
amenés à citerquelques
commandes de SAS(ou
d’autreslogiciels).
Pour lesdistinguer
du reste du texte nous lesplacerons
entre lessymboles
>.
3. Trois
philosophies
différentes dans le cas de deux facteurs croisésavec interaction 3.1.
L’approche
de GLIMGLIM est un
logiciel
de modélisation et non pas unlogiciel
de modèle linéaire.C’est pour cette raison
qu’il
propose uneapproche
extrémistequand
il estappliqué
à de
l’analyse
de variance. Cetteapproche
a peu d’intérêtpratique
dans la mesureoù elle se
démarque
nettement des autres, mais elle estsimple
et constitue un bonneintroduction.
On s’interdit de tester la
significativité
d’un effet dans un modèle s’il existeun autre effet
plus
fin que lui dans le modèle. Par définition une interaction estplus
fine
qu’un
effetprincipal.
Enconséquence,
dans uneanalyse
à deuxfacteurs,
ontestera d’abord la
présence
de l’interaction. Si elle est déclaréesignificative
les deuxfacteurs sont
pertinents
et on s’arrête là. Si elle est nonsignificative,
on teste les effetsprincipaux
dans le modèle additif.Cette
approche
se trouve en contradiction avec unepratique qui
tend à faire l’unanimité sur leplan statistique :
le«non-pooling»
ou «nonregoupement» :
on ne regroupe pas les différentes sommes de carrés des effets nonsignificatifs
avec lasomme des carrés résiduelle.
3.2. Le
«Non-regroupement» point
commun entrel’approche
de GENSTATet
l’approche
américaineLa
critique
del’approche simple
3.1 est basée surl’argument méta-statistique
suivant : Une fonction de deux variables
qualitatives
n’a «aucune chance» d’être strictement additive. Le modèle additif n’estqu’une approximation.
Il fautdonc,
entestant un effet
principal, prendre
une estimation de la variancea2 qui
nedépende
pas de la
présence
d’une faibleinteraction,
non détectée par le test.Rappelons
que le dénominateur du test de Fisher estsimplement
un estimateurde
03C32.
Dansl’approche précédente, quand
on teste un effetprincipal,
onincorpore
l’interaction dans
l’espace
résiduel et donc dans l’estimation dea2.
Or cette interac-tion,
bienqu’ayant
été déclarée nonsignificative, peut
exister et biaiser l’estimation.Pour éviter cela on ne regroupe pas
(«non-pooling»)
l’interaction avec la résiduelle et on utilise l’estimation dea2
du modèle interactif.30 J. -M. AZAlS
3.3.
L’approche
de Genstat et deSplus
Elle est basée sur la
philosophie
de Nelder : leshypothèses
testées sont définiespar une succession de modèles. Dans le modèle à deux
facteurs,
onajuste
d’abord lepremier,
ensuite de manière additive le second et enfin l’interaction. Les différences de sommes de carrés définissent les numérateurs du test de Fisher. Pour respecter leprincipe
du«non-regroupement»,
le dénominateur est calculé àpartir
de la résiduelle du modèle leplus grand :
le modèle avec toutes les interactions. On trouve cetteapproche
dans la directive ANOVA> de Genstat pour le caséquilibré
et dans lamacro AUNBALANCED> pour le cas non
équilibré.
Dans laphilosophie
deSAS,
ils’agit
d’unedécomposition
detype
1(cf4.2).
DansSplus,
la directive AOV> donne la mêmedécomposition
et par l’intermédiaire de la directiveDrop>
on obtient cequi
sera ensuiteappelé
ladécomposition
detype
II(cf 4.3).
3.4.
L’approche
deSAS,
BMDP et SYSTATElle repose sur les mêmes
prémices
quel’approche précédente :
le modèleadditif est forcément
inadéquat.
Mais maintenant on va, non seulement en tirer desconséquences
pour l’estimation de la variance03C32, mais
encore pour la définition des effetsprincipaux
dans le modèlecomplet.
Si la démarche
qui
consiste à définir un effetprincipal
enprésence
d’uneinteraction
qu’il
compose peutparaître étrange,
remarquonsqu’elle
est courammentemployée
dans toute lapartie
de lastatistique qui s’occupe
desplans
factoriels(John
1971).
Dans
l’exposé
de cette dernièreapproche
nous allons considérer trois niveaux decomplexité.
- Le cas
équirépété : chaque
combinaison desdeux facteurs
estrépétée
le mêmenombre r
de fois.
- Le cas non
équirépété
mais avec toutes les «cellules» observées. La modalité i dupremier facteur et la modalité j
dusecond facteur
sont observées rijfois
avec rij > 0.- Le cas de «cellules» non observées : rij = 0 pour certaines valeurs.
4.
Analyse
de variance à deux facteurs croisésquand
toutes les cellules sont observées(rij
>0).
4.1.
Décomposition
detype
IIIOn a mesuré les variables
Yijk : kème
observation de la modalité i dupremier
facteur
(que
nousappellerons A)
avec lamodalité j
du second facteur(que
nousappellerons B),
Il est bien connu que la
présentation
des formules estplus simple
en travaillantau niveau du facteur croisé
(i, j) plutôt qu’en
introduisant dès le début les effetsprincipaux.
On pose donc le modèled’analyse
de variance à un facteur(i, j).
dont l’estimateur est
Oij = Yij.
Le modèle(1)
estrégulier,
toute fonction est doncestimable. On définit ensuite les effets
principaux,
la moyennegénérale
et l’interaction par les formulesclassiques :
- moyenne
générale 03BC =
O..- effet du
premier
facteur(A)
ce, =Oi.
- 0..- effet du second facteur
(B) (3j
=O.j -
0..- effet de l’interaction
(A*B)
rij= Oij - Oi. - 0 j.
+ 03B8..qui
seront estimés par les mêmesquantités
avec unchapeau.
Ladécomposition
ci-dessus sera
appelée : décomposition (D).
Cas
équirépété (rij
=r)
Les tests de la nullité des effets 03B3, 03B1,
/3
issus de ladécomposition (D)
définissentrespectivement
le test de l’interaction et les tests sans«regroupement»
des effets Aet B. La seule alternative existante est le test «avec
regroupement»
de A et B dans le modèleadditif,
suivant laphilosophie
GLIM.Cas non
équirépété
Commençons
par une remarque trèsimportante.
Iln’y
aqu’un
seul test del’interaction.
Quelle
que soit lasituation, l’hypothèse
«la fonctionOij
est additive»ne
peut s’exprimer
que comme la nullité de tous les 2 x 2 contrastes :pour tout
Par contre il y a
plusieurs
tests de laprésence
d’effetsprincipaux
car leurdéfinition n’est pas
unique.
La
décomposition (D)
est ladécomposition
detype
III de SASqui
estéquivalente
dans notre cas au«Weighted
squares of means» de Yates(1934).
Le testde l’effet A se traduit par le test de la nullité des
paramètres
a de ladécomposition (D),
c’est-à-dire :03B8i.
est constant.Ce test est
également proposé
comme choix standard par BMDPAV2 et par SYSTAT.32 J. -M. AZAÏS 4.2.
Décomposition
detype
1Si les données ne sont pas
équirépétées,
il convient de savoirpourquoi
etquel
sens ont alors les effectifs rij. Souvent ils n’en n’ont aucun, car ils sont
conséquence
de données
manquantes,
departies
del’expérience qui
n’ont pu êtreconduites,
ou d’uneplanification
fantaisiste. Dans ce cas, il vaut mieux utiliser ladécomposition
detype
III. Mais dans les cas où les effectifs traduisentl’importance
réelle des différentescellules,
on calculera les marges du tableau(Jij
en utilisant lespoids
rij. On testera donc :Dans ce modèle la combinaison des
pondérations implique :
et il est facile d’en déduire que le numérateur du test de Fisher de
l’hypothèse (2)
estle même que celui du test de l’effet A dans une
analyse
de variance à un seul facteur.Ce test est obtenu dans SAS comme le test de
type
I de A dans un modèle où A estplacé
enpremier.
Dans SAS un test de
type
1 est un testajusté
pour tous les termesprécédents
dans l’écriture du modèle. Dans le modèle
A1, A2,..., An,
le test detype
1 de l’effetAi
est le test del’hypothèse
nulle : «laprojection
deE(Y)
surl’orthogonal
deA1
+A2
+... +Ai-1
dansA1
+... +Ai
est nulle». Enconséquence
dans le modèleA, B,
A *B,
l’effet A n’estajusté (dans
les sommes de carrés detype I)
que pour la moyennegénérale (ce qui
estimplicite).
4.3.
Décomposition
detype
IILes tests de
type
II sont les tests detype
1 où l’effet considéré estplacé
endernier par
rapport
aux effetsqui
ne sont pasplus
fins que lui. Enconséquence
letest de
type
II de A est maintenantajusté
pour la moyennegénérale
etpour B (mais
pas pour A * B car A * B est
plus
fin queA).
Ce test a même numérateur que le test de A dans le modèle additif. Ils ne diffèrent que par le«non-regroupement»
pour l’estimation de0’2 .
L’hypothèse
testée nepeut s’exprimer simplement
en fonction desréponses
cellulaires
(Jij
du modèle(1).
Eneffet,
les estimateurs du modèle additif n’ont pas, dans le casgénéral,
uneexpression simple
sous forme de moyennes, ilsdépendent
dela solution matricielle des
équations
normales(ces hypothèses peuvent
être obtenues dans SAS/GLM parl’option /e2
>(fonctions
estimables detype 2)
dans laligne model>).
Enconséquence,
en considérant le modèle additif commeinadéquat,
on. ne sait pas très bien ce que l’on teste avec les sommes de carrés de
type
II.Cependant
on ne
possède
pas decontre-exemple flagrant
oùl’hypothèse
testéeperdrait
tout sens.4.4. Autres
types
dedécompositions
Il
peut
exister unepondération
pij del’importances
des différentes cellulesqui
soit
distincte,
à la fois des effectifs(analyse
detype I)
et de lapondération
uniforme(pij
= cste;analyse
detype III).
Dans ce cas, on définit les effetsprincipaux
commedes moyennes utilisant ces
pondérations.
Pour tester l’effet A on testeral’hypothèse :
Ce
type d’analyse
n’est pasdisponible
de manière standard dans leslogiciels statistiques.
Une utilisation astucieuse et laborieuse de la directive contrast> de SASpermet cependant
derépondre
à laquestion.
NB : Dans le cas où toutes les cellules sont observées la
décomposition
detype
IV
qui
sera définie à la section 5 est strictementéquivalente
à ladécomposition
detype
III.Exemple :
considérons le cas leplus simple
de deux facteurs à deux niveauxet la table d’effectifs :
La non
présence
d’effetligne
se traduitrespectivement,
dans lesanalyses
detype
1(avec ligne
enpremier)
II etIII,
par la nullité du contraste suivant sur(Jij.
Quand n
vaut 1 toutes cesquantités
sontégales. Quand
n tend versl’infini,
leur limite vaut :5.
Analyse
de variance à deux facteurs croisésquand
certaines cellules sont absentes(rij
=0)
Remarquons
d’abord que leproblème
de définition des effetsprincipaux
estmal
posé
dans la mesure où onpeut
avoir desréponses
arbitrairementgrandes
ou34 J.-M. AZAÏS
petites
dans les cellules non observées. Il n’est donc paspossible
d’estimer les moyennesmarginales (03B8i.
parexemple)
définies en 4.1. Celan’empêche cependant
pas l’existence de
réponses pratiques qui exigent
toutefois unepropriété
minimale dumodèle,
la connexité : c’est-à-dire que le modèle additif soit estimable. Dans tout cequi
suit nous supposerons que cette condition est vérifiée.Remarquons
encore que le test de l’interaction ne teste pas la totalité del’ espace
d’interaction de la table
complète,
maissimplement
une souspartie qui correspond
à
l’orthogonal
del’espace
des fonctionsadditives,
dansl’espace
des fonctions des cellules observées. Si ce test esttoujours unique,
il n’en est pas de même du test des effetsprincipaux.
5.1.
Décomposition
detype
IISa définition est la même que dans le cas ou toutes les cellules sont observées.
Elle ne diffère donc du modèle additif que par l’utilisation d’un estimateur de la variance
a2
sans«regroupement».
Cetteapproche
est conseillée par certain auteurs(Searle 1987)
pour éviter les méthodestrop complexes.
En effet tous lesparamètres
étant définis
grâce
à laconnexité,
elle pose très peu deproblèmes conceptuels.
Cependant,
comme pour touteanalyse
detype II,
il est difficiled’exprimer simplement
leshypothèses
testées en fonction desparamètres 03B8ij. (SAS/GLM
permet de voir les formes de ceshypothèses
danschaque
casparticulier
en affichant les fonctions estimables detype
II parl’option /e2
> dans laligne model>).
Dans le cas où certaines cellules sont
absentes,
ladécomposition (D)
nepeut
être utilisée car des moyennes associées à des niveaux différents du facteur A(par exemple)
sont calculées sur des ensembles de niveaux différents du facteur B. Ellesne
peuvent
donc êtrecomparées.
Nous allonsprésenter
deuxdécompositions (type
III et
IV) qui,
dans le cas où toutes les cellules sontobservées,
coincident avec ladécomposition
vue en 4.1 maisqui
sont différentes de ladécomposition(D)
dans lecas
général.
5.2.
Décomposition
detype
IVC’est
l’analyse
laplus
séduisante apriori,
mais nous allons voir que sa miseen oeuvre par SAS pose certains
problèmes.
Considérons une table croisée 4 x 5 de la forme :où les cases hachurées
correspondent
aux cellules non observées. Pour comparer les niveaux 1 et 2 du facteurligne,
on le fera dans la sous-table obtenue avec les niveaux3,
4 et 5 du facteurcolonne,
cequi
donne une sous tablecomplète.
Par contre pour comparer les niveaux2,
3 et4,
on utilisera la sous-tablecomplète
obtenue avec lesniveaux
1,
2 et 3 du facteur colonne. De manièregénérale
on compare deux niveaux dans laplus grande
sous-tablecomplète qui
les contient.Cette
approche présente
un inconvénientmajeur :
il y a I x(I - 1)/2 comparaisons
entre les Ilignes qui correspondent
chacune à la nullité d’un contraste detype
IV. La nullité de tous ces contrastes définit un espacequi
est engénéral
dedimension
plus importante
que I - 1qui
est la taille que l’on s’attend à trouver pourl’espace
de l’effetprincipal ligne.
L’algorithme
SAS ne considère que les I - 1comparaisons
avec le dernierniveau. Ces
comparaisons
sont libres car ellesportent
sur deslignes
différentes. Ona donc bien défini un espace de taille
requise,
mais ildépend
de l’ordre decodage
desdifférents niveaux du facteur. On
peut
le vérifier dansl’exemple
du Tableau 1 où le F de l’effetligne peut
passer de 528 à zéro à la suite d’une numérotation à l’envers des niveaux.Comment trouver la
iè"
fonction detype
IV selonSAS,
associée à l’effetligne (par exemple)?
On considère le nombre k de colonnes communes à laligne
i et laligne
I. Onplace
les coefficients1/k
sur laligne
i et les colonnes communes et lescoefficients - 1/k
sur laligne
I et les colonnes communes. La combinaison linéairecorrespondante appliquée
auxOij
définit laième
fonction estimable de type IV. La nullitéconjointe
de ces(I - 1)
fonctions estimables définitl’hypothèse
detype
IV d’absence d’effetligne.
Voici deuxexemples
sur des tables 3 x 3 où sontreprésentées
les deux fonctions
estimables,
l’une enitalique
et l’autre en gras.Dans le
premier
cas l’absence d’effetligne
se traduit par :On voit bien que si l’on
applique
cette méthode à la table donnée en introduction duparagraphe,
les contrastes detype
IV decomparaison
deslignes 2,
3 et 4correspondront
bien à l’idée de se ramener à une sous-tablecomplète.
Mais celan’est
plus
vrai pour le troisième contrastequi
compare les niveaux 1 et 4.L’inconvénient
majeur
des contrastes(ou
fonctionsestimables)
detype
IVpeut
être deviné sur lesdiagrammes
ci-dessus : si l’on renverse parexemple
l’ordre deslignes
dupremier
tableau enmiroir,
les fonctions estimablesporteront
maintenantrespectivement
sur la deuxième et la troisième colonne. C’est sur cette considérationqu’est
construit lecontre-exemple
du tableau 1. Depart
et d’autre on areprésenté
36 J. -M. AZAÏS TABLEAU 1
Variation de
l’analyse
de type IV de SASquand
onchange
l’ordre de numérotation d’un
facteur.
Les
parties
communes ont étéplacées
enposition
médiane.deux
analyses identiques
d’un même corpus de données. La seule différence est que dans un des cas le facteur trait est numéroté de manière croissante et dans le second de manière décroissante. Lesparties
communes ont étéplacées
enposition
médiane.En conclusion l’utilisation de sommes de carrés de
type
IV estdangereuse
dèsqu’elles
ne sont pasuniques.
Remarque :
Notre définition des fonctions estimables detype
IV n’est pascomplète puisque
nous n’avons pasprécisé
cequi
se passe dans le cas où k = 0.La
réponse
n’est pas claire. Cela n’estexpliqué
nullepart
dans la documentation SAS et lecomportement
del’algorithme
dans ce cas est difficile àcomprendre.
Detoutes
façons, l’exemple
montre que l’on nepeut
se satisfaire d’une utilisationaveugle
des sommes de carrés de
type
IV surtoutquand
elles ne sont pasuniques (on
peutobtenir les fonctions estimables
correspondantes
parl’option /e4
> dans laligne model>).
5.3.
Décomposition
detype
IIIComme on le vérifie dans
l’exemple
du tableau1,
les sommes de carrés detype
III sont
indépendantes
de l’ordre. Onpeut
les définir de lafaçon
suivante(Goodnight 1978):
On considère
l’espace 03B5
des fonctions réelles définies sur les cellules observées.Cet espace est de dimension inférieure à I J. On définit 03B6 et C comme les sous espaces vectoriels de E
composés
de fonctions constantesrespectivement
parlignes
et par colonnes. On définitl’espace
4 des fonction additives 4 = 03B6 + C. Comme la table est connexe,dim(03B6) = I, dim(C) = J, dim(A)
= I + J - 1. On considère lamétrique qui
donne despoids égaux
à toutes les cellules observées et despoids
nulsaux autres. Pour cette
métrique,
on définitJ : l’espace
de l’interaction(de
la tabledonnée)
comme étantl’orthogonal
de A dans 03B5. Enfin on définit pour l’effetligne
L’espace x, qui
est de dimensionI -1,
définitl’espace
des fonctions estimables detype
III associées à l’effetligne :
à tout élément h de H on associe la fonctionestimable de
type
IIILa nullité
conjointe
de toutes ces fonctions définitl’hypothèse
detype
III. Par construction ces fonctions nedépendent
- ni d’un effet colonne
- ni d’une interaction
(du
sous espaceparticulier
associé à latable) rajoutée
aux données.
Interprétation
L’intérêt de la
première propriété
est évident : on évite la confusion entre les deuxfacteurs;
c’est unepropriété
minimale.L’intérêt de la seconde l’est
moins,
mais dans le cas où les effectifs rij non nulssont
égaux (ou
presqueégaux),
le résultat suivantqui
semble nouveau fournit uneinterprétation.
Proposition :
Soit N l’ensemble des cellules nonvides,
· >et
leproduit
scalaire et la norme sur 03B5 :
soit h un élément de
’H,
38 J.-M. AZAÏS
alors h est de norme minimale
parmi
toutesles fonctions
v de 03B5 telles quesi la
réponse 03B8ij
est unefonction
additive :03B8ij
= ai +bj.
En
particulier,
si leseffectifs
non nuls rij sont touségaux, la fonction
estimablede type III :
est de variance minimale
parmi
toutes lesfonctions
estimables ayant la mêmeespérance
sous le modèleadditif.
Remarquons
quel’expression (4)
estindépendante
des valeursbj.
Démonstration. Soit v
appartenant
à 03B5 et satisfaisant(4).
Les contraintesimpliquent
queCette somme est
orthogonale.
En utilisant le théorème dePythagore :
d’où la minimalité de la norme de h.
Quand
tous les effectifs sontégaux (rij
=r)
la variance de la fonction estimable associée à v vaut :(03C32/r)~03BD~2.
Si la norme de h estminimale,
la variance de la fonctionestimable associée l’est
également.
DRemarque : l’interprétation
ci-dessus constitue uneréponse
auxcritiques
deMilliken et Johnson
(1984
p.185).
Pour trouver
numériquement
les fonctions detype III,
onorthogonalise
lesfonctions de
type
IV. Considérons parexemple
la table :Une des fonctions de
type
IV vautSi on lui
ajoute
laquantité
suivantequi appartient
àl’espace
de l’interaction(qui
est de dimension1)
On obtient la fonction suivante dont on
peut
vérifierqu’elle appartient
à H.NB : Il est bien-sûr clair que dans le cas de
dispositifs
contenant très peu de cellulesmanquantes,
on aura intérêt à estimer lesquelques
données manquantes pour utiliser les résultats de lapartie
4.6. Autres modèles
6.1. Le modèle
hiérarchique
àdeux facteurs
Dans ce modèle on ne considère que deux effets : l’effet
principal
dupremier
facteur
(noté A)
et l’effet hiérarchisé du second facteur(noté B(A)) qui
regroupel’effet
principal
de B et l’interaction de ladécomposition précédente.
Iln’y
aqu’une décomposition possible :
la somme des carrés du modèlecomplet (1) ajustée
pour l’effet de A teste lapertinence
de l’effet hiérarchiséB;
la somme de carrés de Aajustée
pour la moyennegénérale
teste lapertinence
de A. La seulequestion
estl’estimation de
u 2
dans ce dernier test : laplupart
deslogiciels proposent
par défautun estimateur sans
«regroupement».
40 J. -M. AZAÏS 6.2. Le modèle
additif
Bien que notre
philosophie
soit de penser que ce modèle ne devrait pas êtreemployé
car il n’estqu’une approximation,
nous ne pouvons éviter d’enparler
dansla mesure où
quand
rij est constant etégal
à 1 on nepeut
utiliser un autre modèle.On pose donc dans le modèle
(1)
Deux
décompositions
sontpossibles :
- La
décomposition
detype
IIqui
est la seule raisonnable(comme
iln’y
a pasd’effet
plus
finqu’un
autre, lesdécompositions
detype
III et IV sont sansobjet
et sontdéfinies par convention comme
égales
à celle detype II).
Chacun des deux facteursest
ajusté
pour l’autre. Pour lepremier
facteur parexemple
on teste :ai =
Cte; quand
i varie.- La
décomposition
detype
1 donne deshypothèses
bizarres. Pour lepremier facteur,
on teste(Searle
1987p 121) :
6.3. Modèles à
plus
dedeux facteurs
Quand
le modèle n’a que des facteurscroisés,
onapplique
lesprincipes
de lapartie
4 en définissant les moyennesmarginales
successives du tableau des moyennes associées au facteurproduit.
Quand
un modèlecomprend
deux facteurs hiérarchisés A etB,
on définit l’effet de A et l’effet de B hiérarchisé à A. Leproblème
est d’abord de savoir si le facteur B estpertinent.
On teste donc si onpeut remplacer,
dans le modèlecomplet,
le facteurcroisé A * B par A seul :
Si oui on enlève l’effet hiérarchisé Si non on pose le modèle avec A * B seul.
Dans les deux cas on ne conserve
qu’un
seul facteur : A ou A * B et onpeut
seramener au cas
précédent
où tous les facteurs sont croisés. Pourrespecter
leprincipe
du
«non-regroupement»,
l’effet hiérarchisé n’est pasincorporé
dans la résiduelle dans le cas où l’on conserve A seul.7. Conclusion
Pour un
dispositif déséquilibré
et dans le cas d’un modèle non strictementadditif,
la définition d’un effetprincipal
est délicate. Plusieursréponses
sontpossibles.
SAS a le mérite de poser le
problème
et de donnerplusieurs réponses.
Cela estdéroutant pour le
débutant,
mais cela ne masque pas les difficultés par des choix arbitraires. Fort heureusement dansbeaucoup
de cas, les différentstypes d’analyses
donnent des résultats concordants et il
n’y
a pas lieu d’étudierplus
finement leproblème.
Dans les autres cas, il faudra déterminer avec soin ladécomposition qui correspond
le mieux auproblème pratique
étudié.Références
COURSOL J.
(1980), Technique statistique
des modèles linéaires.Cimpa,
Nice.GOODNIGHT J.H.
(1978),
Testof hypotheses in fixed effects
linear models. SAS technicalReport
R-101.JOHN P.M.W.
(1971),
Statisticaldesign
andanalysis of experiments.
Mac MillanCompagny,
NewYork,
1971.MILLIKEN
G.A.,
JOHNSON D.E.(1984), Analysis of messy
data vol 1. Van NostrandReinhold, N.Y.,
USA.SEARLE S.
(1987),
Linearmodels for
unbalanced data.Wiley,
New York.SPEED T.D.
(1987),
What is ananalysis of
variance ? The Annals ofStatistics,
15(3), 885-910.
TUCKEY J.W.
(1991),
Thephilosophy of multiple comparisons.
StatisticalScience, 6(1),100-116.
YATES F.
(1934),
Theanalysis of multiple classifications
withunequal
numbers inthe
different
classes. J. Amer. Stat.Assoc, 29,
51-66.Références des
logiciels
BMDP : DIXON
W.J.,
BROWNM.B.,
ENGELMANL.,
JENNRICH R.T.(1990).
Bmdp
StatisticalSoftware
manual.University
of CaliforniaPress, Berkeley.
U.S.A.
GENSTAT : PAYNE
R.W.,
LANEP.W.,
AINSLEYA.E.,
BICKNELLK.E.,
DIGBYP.G.N.,
HARDINGS.A.,
LEECHP.K.,
SIMPSONH.R.,
TODDA.D.,
VERRIERP.J.,
WHITER.P.,
GOWERJ.C.,
TUNNICLIFFE-WILSONG.,
PATERSON L.J.(1987).
Genstat 5Reference
Manual. OxfordUniversity Press, Oxford,
U.K.GLIM :
Payne
C.D.(1987).
The GLIM system.N.A.G.,
Oxford. U.K.SAS : SAS Institute Inc
(1989), SAS/STAT2
User’sguide,
version6,
Fourthedition, vol 1 & 2, Cary,
NC : SAS Institute INC. U.S.A.Splus :
BECKERR.A.,
CHAMBERSJ.M.,
WILKS A.R.(1988).
The new Slanguage.
Wadsworth,
PacificGrove,
California. U.S.A.SYSTAT : WILKINSON L.