M ATHÉMATIQUES ET SCIENCES HUMAINES
J EAN -M ARC B ERNARD
Analyse descriptive des données planifiées
Mathématiques et sciences humaines, tome 126 (1994), p. 6-98
<http://www.numdam.org/item?id=MSH_1994__126__6_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1994, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
AVERTISSEMENT
Ce numéro
spécial
s’adresse essentiellement à ceux dontl’analyse
de la varianceconstitue le
pain quotidien, et,
en toutpremier lieu,
aux chercheurs et étudiants enPsychologie expérimentale.
Il s’inscrit dansl’entreprise
deRouanet, Lépine (1977)
avec leparti-pris
de mettre lesaspects
formels de la théorie au secondplan
auprofit
de sesaspects opérationnels : Que
nous ditl’analyse
descomparaisons
pour,concrètement, analyser
desdonnées
planifiées ?
D’oùl’importance
accordée auxexemples
et aulogiciel EyeLID,
undes instruments que cette théorie a
engendré.
De cepoint
de vue, ce numérospécial
relèveplus
du courant de’Informatique
et Sciences humaines" que de celui de"Mathématiques
et Sciences humaines ".
Ce numéro est
composé
desept chapitres,
les référencesbibliographiques
étantregroupées
en fin de numéro. Leschapitres
I et IIprésentent
les notions de base pourcomprendre,
à lafois,
lelangage
LID et la notion deprotocole dérivé, ob jets qui
sont tousdeux au coeur du
logiciel EyeLID.
Leschapitres
III et IV traitent del’analyse descriptive
de
plans
decomplexité croissante,
etconstituent,
en mêmetemps,
une introduction aulangage
LID parl’exemple.
Lechapitre
V établit lajonction
entre lepoint
de vue desprotocoles
dérivés et celui descomparaisons.
Lechapitre
VI fournit une introduction àl’analyse
inductive. Lechapitre VII, enfin,
estd’avantage
tourné vers lapratique;
après
une brèvedescription
dulogiciel EyeLID,
suitl’analyse
deplusieurs exemples
dedonnées réelles issues de la
Psychologie expérimentale,
selon laligne méthodologique, qui je l’espère,
se seradégagée
deschapitres
antérieurs. Le lecteurpressé
d’en arriver au but pourra commencer par ce dernierchapitre, jusqu’au moment, où, peut-être,
sa curiositéle ramènera à chercher à mieux en
comprendre
les bases.a
Les parties de texte introduites ainsi ne sont pas indispensables en première lecture. Elles constituenten
général,
soit des parenthèses concernant des points plus théoriqueset/ou
techniques, soit des anticipations par rapport aux chapitres ultérieurs qui s’adressent au lecteur plus averti.Les
chapitres
III et VII sont abondamment illustrés de sorties dulogiciel EyeLID qui,
on le
comprendra vite,
si ce n’estdéjà fait,
est notre outil deprédilection
pourl’analyse descriptive
des donnéesplanifiées.
Le lecteurconquis
par lespossibilités
dulogiciel
pourrase le procurer
auprès
de la société INDIA S.A.. Pour l’autrelecteur,
en voie d’êtreconquis,
une
disquette comprenant
une version de démonstration dulogiciel
et utilisable sur tous lesexemples
donnés dans letexte,
estdisponible gratuitement auprès
de INDIA S.A. :EyeLID-2,
~ version 2.04 poursystème MSDOS @
Logiciel d’analyse
de données structurées multidimensionnelles par J.-M.Bernard,
H. Rouanet et R.Baldy
édité et distribué par
Interface &
Dialogue (INDIA)
S.A.22 rue de
Douai,
75009 ParisTel. :
44.53.26. ?0,
Fax. : 46.62.02.32Remerciements : Je tiens à remercier chaleureusement les
collègues
et amisqui
ont -avec
attention, intérêt,
et surtout courage -relu,
commenté etcritiqué
constructivement lespremières
versions de ce texte : DenisCorroyer,
Tiziana Keller et PierreVrignaud,
sans oublier
Henry Rouanet,
ainsi que Charlotte Carcassonne pour sa relecture attentive du texte définitif.Jean-Marc BERNARD
i i i
1. STRUCTURE DES
DONNÉES, DONNÉES PLANIFIÉES*
RÉSUMÉ -
La structure desdonnées,
décritesf ormetlement
comme un"protocole
debase ",
et les
questions guident l’analyse statistique.
Dans cechapitre,
onexplicite
les structures et lesquestions typiques
des donnéesplanifiées.
Ce cadre servira de base auxdéveloppements
des autreschapitres
de ce texte : uneapproche descriptive
del’analyse
de la variance et del’analyse
descomparaisons,
danslaquelle
le concept central est celui de"protocole
dérivé" et l’outilprivilégié
est le
langage
"LID "(implémenté
dans lelogiciel EyeLID).
SUMMARY - Structured
data, planned
data.The structure
of
thedata, formally
described as a "basicprotocol",
and thequestions guide
thestatistical
analysis.
In thischapter,
wefocus
onplanned data,
andanalyse
the structures andquestions
that arise in this context. Thisframework
will serve as a basefor
what isdeveloped
in the
following chapters :
adescriptive
viewof
ANOVA andof
theanalysis of comparisons (ANACOMP),
where the central concept is thatof
"derivedprotocols"
and theprivileged
tool isthe "LID "
language (implemented
in theEyeLID
computerprogram).
1. DES STRUCTURES ET DES
QUESTIONS
AUXMÉTHODES STATISTIQUES
Tout ensemble de données est
structuré, qu’il s’agisse
de données d’observation ou de donnéesexpérimentales
recueillies selon unplan complexe. L’explicitation
de cesstructures,
ainsi que celle desquestions qu’on
pose aux données fournit unguide
sûrpour le choix des méthodes
statistiques pertinentes.
L’importance
d’unedescription
formalisée est clairement apparue avec la construction del’Analyse
desComparaisons
dûe à H. Rouanet et D.Lépine (1977) :
formalisation ensembliste pourl’expression
des structures(Lépine,
1977a et1977b),
et formalisation linéaire pourl’expression
desquestions (Rouanet, Lépine, 1976).
Cette formalisation est riche deconséquences :
d’abord elle fournit un cadre unifié pour décrire destypes
dedonnées ou des
problèmes apparemment différents,
ensuite ellepermet l’expression
desstructures et des
questions
à l’aide d’unlangage.
Celangage
a étél’objet
de mises enoeuvre
informatiques : langage
desplans
et des demandes decomparaisons
deslogiciels
VAR3
(Lebeaux, Lépine, Rouanet, 1976)
et PAC(Lecoutre, Poitevineau, 1992), langage d’interrogation
des données(LID)
dulogiciel EyeLID (Bernard, Baldy, Rouanet, 1988 ; Bernard, Rouanet, Baldy, 1993).
*Ce numéro spécial de la revue Math. In f. Sci. hum. n° 126, intitulé "L’analyse descriptive des
données
planifiées"
estcomposé
de septchapitres,
dont celui-ci. Il a étérédigé
par J.-M. Bernard,Groupe
Mathématiques etPsychologie,
CNRS et Université René Descartes, Sorbonne, 12 rue Cujas, 75005 -Paris.
Dans cette
section,
nousrappelons
brièvement lesgrandes lignes
de cette formalisa-tion ;
ce cadregénéral
nouspermettra
depréciser l’objet
de ce texte. Un certain nombre denotions,
introduites "aupassage",
seront définies au§2..
1.1. Structure des données :
protocole, support U,
espace d’observables VConsidérons un
questionnaire
danslequel
un ensemble d’individus(IND)
estinterrogé
sur son salaire
(SAL)
et son niveau d’études(NIV).
Le terme"protocole" désigne
ladescription
formalisée d’un tel ensemble dedonnées,
comme uneapptication "U->V",
d’unensemble U d’unités
statistiques, appelé
lesupport
duprotocole,
iciU=IND,
vers un espace d’observablesV,
ici leproduit cartésien,
V=SAL x NIV : àchaque
individu deIND,
onassocie un
couple
de valeurs de SAL x NIV. Les deux ensembles U et Vpeuvent
chacunêtre munis de structures
particulières :
e Le
support
Upeut
être un ensembled’individus,
commeici,
mais aussi devilles, d’entreprises,
etc.. Ilpeut également posséder
une structureplus complexe.
Si ons’intéressait aux différences de salaires selon le sexe et
l’année,
on considéreraitdes
individus emboîtés dans leur sexe(SEX)
et croisés avec un ensemble d’années(AN).
Lesupport
serait alors un ensemble de"Individus-Années",
décrit par lesfacteurs IND,
SEX et
AN,
cequ’on
noterait : "INDSEX>*AN".e
L’espace
d’observables Vpeut
être anivarié ou multivarié :ici,
on a 2variables,
SALet NIV. On
distingue
diverstypes
de variables : binaires(ou dichotomiques,
ou en{O, 1} ), catégorisées (ou nominales), ordinales, métriques,
ounumériques (Rouanet,
Le
Roux, Bert, 1987).
Laspécification
de l’échelle de mesure détermine lesprocédures statistiques applicables.
Bien
entendu,
onpeut simplement baptiser
"variable" tout cequi
estsusceptible
devarier. Tous les ensembles mentionnés sont de telles "variables au sens
large".
Maissi,
àune
étape
del’analyse,
laquestion posée porte
sur les variations du salaire selon le sexeet le niveau
d’études,
pour une annéedonnée,
on introduira unedissymétrie
entre desvariables
explicatives (IND,
SEX etNIV),
et des variables àexpliquer (SAL),
et on décrirale
protocole
parl’application :
"INDSEX&NIV> -> SAL".Ainsi,
la structure des donnéesn’est pas
figée
dès leurrecueil,
etpeut dépendre
desquestions qu’on
se pose.1.2. Les
questions
et les méthodesSchématiquement,
onpeut distinguer
deuxgrandes catégories
dequestions,
intimementliées,
comme on vient de levoir,
à la structure duprotocole adoptée
à un instant donné :e
Lorsqu’il
y abeaucoup
de variablesexplicatives (U complexe),
celles-ci sont considéréescomme des
facteurs structurants,
ousimplement
desfacteurs,
et untype
dequestion privilégié
est l’étude del’effet
de cesfacteurs
sur les variables àexpliquer.
Ceci conduitaux méthodes
d’analyse
de la variance(ANOVA)
et del’analyse
descomparaisons
(ANACOMP).
e
Lorsqu’il
y abeaucoup
de variables àexpliquer (V complexe),
untype
dequestion privilégié
est l’étude des corrélation entre variables. On recherche alors de nouvelles variables résumant les variablesinitiales,
par des méthodes de rédaction dimension- nelle : e.g.analyse
descorrespondances
etanalyse
encomposantes principales.
. Ces deux
catégories
dequestions
-comparaison
et corrélation - ne sont pasexclusives,
U et Vpouvant
être tous deuxcomplexes,
et certaines méthodesparticipent
des deux
approches
à la fois : enparticulier l’analyse
des données multidim e nsio nn elles(Bernard
etal., 1989 ; Rouanet,
LeRoux, 1993)
etl’analyse
de la variance multivariée.1.3. Données d’observation et données
expérimentales
Du
point
de vuestructurel,
les deuxtypes
de données - d’observation etexpérimentales
-
peuvent
être décrits avec la formalisation ensemblisteesquissée précédemment.
Une des différences
principales
entre une observation et uneexpérimentation est,
que dans cettedernière,
on cherche à contrôler un certain nombre de variablesexplicatives
a
priori ( e.g.
en décidant de faire variersystématiquement
leursmodalités,
ou enles maintenant
constantes)
dans le cadre d’unplan d’expérience 1.
De cefait,
dansl’expérimentation,
la structure des données est presque entièrementimposée
par leplan
de recueil des données. Au
contraire,
dansl’observation,
certaines variablespeuvent
être considérées commeexplicatives
ou àexpliquer,
selon laquestion posée
à uneétape
donnéede
l’analyse.
Ceci a une
conséquence importante
surl’interprétation
des résultats. Le contrôle des facteurs dansl’expérimentation,
notammentlorsque
leurs modalités sontaffectée
auxsujets, permet l’interprétation
des effets trouvés en termes de causalité. Par contre la notion d’ "effet" pour des données d’observation n’a engénéral qu’un
sensmétaphorique.
1.4. De la
description
à l’inductionUne
première étape
pourrépondre
à unequestion
donnée estl’ étape descriptive,
danslaquelle
on cherche à résumer lesdonnées,
à en fournir unedescription
condensée. A l’issue de cetteétape,
ondisposera
de conclusionssynthétiques
maisqui portent
seulement sur lesdonnées observées.
Cependant, souvent,
les données ne constituentqu’une partie
d’unepopulation plus
vaste de donnéespotentielles.
Le but del’étape
inductives est alors degénéraliser
lespropriétés
trouvées au niveaudescriptif,
soit à des donnéesfutures,
soit àl’ensemble de la
population.
La distinction des deuxétapes, descriptive
etinductive,
estessentielle
(Rouanet, Bernard,
LeRoux, 1990 ;
Rouanet etal., 1991).
2. STRUCTURATION DES
DONNÉES PLANIFIÉES
Le panorama
général
que nous venonsd’esquisser permet
depréciser l’objet
de ce texte :l’analyse descriptive
des donnéesplanifiées.
Par donnéesplanifiées,
on entend des donnéesoù la
dissymétrie
entre variablesexplicatives
et variables àexpliquer
estposée
audépart.
Cette
dissymétrie provient toujours
desquestions qu’on
pose auxdonnées,
que cesquestions président
à leur recueil -- comme dans les recherchesexpérimentales,
ou dans lesrecherches d’observation à caractère confirmatoire -, ou
qu’elles
soientposées
aposteriori
- dans le cadre d’une recherche d’observation à caractère
exploratoire. Ainsi,
même si lesexemples
traités dans la suite de ce texte relèvent surtout del’expérimentation,
lechamp d’application
des méthodesexposées
estplus
vaste.L’accent sera donc mis sur les données dans
lesquelles
lesupport
U estcomplexe;
mais on
envisagera
aussi bien des espaces d’observables univariés que multivariés. Les variablesexplicatives
seront icitoujours catégorisées,
et les variables àexpliquer toujours numériques.
Selonl’usage
enexpérimentation,
onparlera
def acteurs (ou quand
ils’agit
de variables
manipulées,
de variablesindépendantes)
pour lespremières,
et de variablesdépendantes
ousimplement
de variables pour les secondes.1 Mais,
comme l’argumente Reuchlin(1992),
le contrôle parfait est chose rare, et la plupart desrecherches se situent plutôt, en fait, sur un continuum dont les deux pôles extrêmes sont "observation"
et "expérimentation".
La notion de
protocole
estsimplement
la formalisation d’un ensemble de données à traiter. Dans cette section nousrappelons
les élémentsqui
interviennent dans cettedescription formelle, (pour plus
dedétails,
voirEhrlich, 1975 ; Hoc, 1983 ; Rouanet, Lépine, 1977).
Deuxconcepts
sont ici essentiels : la Structure ensembliste duprotocole,
i. e. lastructure du tableau dans
lequel
onpeut
ranger lesdonnées, qui
seraexprimée
par leplan
du
protocole ;
et sa structurestatistique qui
ouvre la voie de l’induction.L’ensemble de données à traiter est
qualifié
deprotocole
de baselorsqu’il
est considérécomme
primitif.
Comme on le verra, unequestion spécifique
amène souvent à en considérerseulement une
"partie"
ou un"résumé",
i. e. unprotocole
dérivé. Dans cettepremière section,
iln’y
a pas lieu dedistinguer
et onparlera
de"protocole"
sansprécision.
Nous illustrerons ce texte à l’aide de deux dossiers
expérimentaux,
le dossier"Négligence" présenté ci-après
et le dossier"Horloge" présenté
au§2.4..
Ils serviront d’abord à illustrer leschapitres plus théoriques (I
àVI),
mais seront aussil’objet d’analyses plus poussées
auchapitre
VII.2.1. Le dossier
"Négligence"
Cette recherche
porte
sur la"pseudo-négligence" (Chokron, Imbert, 1993) qu’on
observechez des
sujets
normaux etqui présente
des similarités avecl’ "héminégligence"
desujets
atteints d’une lésion cérébrale. La tâche des
sujets
consiste à déterminer le milieusubjectif
d’une
baguette
de 24cm avec la seule aide d’informationskinesthésiques.
Lapseudo- négligence
se traduit par une déviationsystématique
vers la droite(pour
desdroitiers)
dece milieu
subjectif
parrapport
au milieuobjectif
de labaguette.
Les données
portent
sur 24sujets (des
femmesdroitières) répartis
selon 2 conditions(12 sujets
pourchacune) :
"active"(ci)
où lesujet peut
librementdéplacer
sondoigt posé
sur un curseur mobile le
long
de labaguette ;
ou"passive" (c2)
où lesujet
commande unmoteur déclenchant le mouvement de la
baguette
dans un sens ou dansl’autre,
alors queson
doigt
nebouge
pas.Chaque sujet
exécute cette tâche dans 6 situationsexpérimentales
obtenues par le croisement de : la main
utilisée, gauche (ml)
ou droite(m2) ;
et l’orientation duregard,
30° àgauche (ol),
0°(o2)
ou 30’ à droite(03).
Pourchaque sujet
etchaque situation,
on mesure la déviation en cm(notée DEV)
entre le milieusubjectif
et le milieuobjectif
de labaguette.
Une déviation à droite est notée par une valeurpositive,
àgauche
par une valeur
négative. L’objectif principal
del’expérience
est l’étude de l’effet de la condition sur ladéviation,
et despossibles
variations de cet effet selon l’orientation. Le tableau des données seprésente
sous la forme suivante :2.2.
Description
d’unprotocole, facteurs,
variables2.2.1. Facteurs et variables
Décrire la structure du
protocole
consiste d’abord àdistinguer
lesf acteurs
et les variables.e Les
f acteurs
sontparmi
les "variables au senslarge"
cellesqui
décrivent les conditions d’observation. Ici les facteurs sont au nombre de 4 :S,
lessujets
à 24modalités, ( s 1, s2 , .. , s24) ;
C,
les 2 conditions(cl active,
c2passive) ;
M,
les 2 mains(ml gauche,
m2droite) ;
0,
les 3 orientations(oi, 30°
àgauche; 02, 0° ;
ouo3,
30° àdroite).
e Les variables
dépendantes,
ousimplement
lesvariables,
sontparmi
les "variables ausens
large"
celles dont on observe les variations d’une condition à l’autre. Ici on aune seule variable
numérique,
notéeDEV,
la déviation entre milieusubjectif
etobjectif
mesurée en cm,
qui peut
valoir entre -l2crn et 12cm(de gauche
àdroite).
Aux facteurs
déjà indiqués,
onpeut toujours adjoindre
le facteur Uqui
indexe les 144 unités(24 sujets
x 6situations),
et estappelé
lesupport
duprotocole.
Unedescription complète
des conditions d’observation doitégalement
faire intervenir tous les facteurs maintenus constants dansl’expérience; ici,
il y aurait parexemple
le sexe dessujets
(féminin),
lalongueur
de labaguette (24cm),
etc.. Il est commode dedésigner
l’ensemblede ces
facteurs constants,
par un facteurunique
Z à une seule modalitézi, qu’on
pourra lire "unitéayant participé
àl’expérience".
Les deux facteurs U et Zjouent
un rôleimportant
à la fois sur le
plan
formel et sur leplan méthodologique.
2.2.2.
Application-protocole
etapplication-description
Le
protocole
est décrit par deuxapplications : l’application-description
va de U vers leproduit-cartésien
desfacteurs,
et associe àchaque
unité sadescription
selon cesfacteurs ; l’application-observation
va de U versl’espace
d’observables V(ici V=DEV),
et associe àchaque
unité une valeur observée(numérique
oumultinumérique
si V estmultivarié) 2.
On
intègre
ces deuxcomposantes
dansl’application-protocole :
"US&C&M&0> -> DEV". Achaque
unité(i.e, u9),
décrite par une certaine combinaison de modalités(s2clmlo3),
onassocie une valeur observée
(1.55) (cf.
tableau desdonnées, p.10).
Parrapport
au tableau desdonnées,
oùchaque
"case"correspond
à uneunité,
ces deuxapplications
ont uneinterprétation simple : l’application-description
décrit la structure des marges dutableau, l’application-protocole
décrit le contenu des cases.2.3. Des facteurs élémentaires au
plan
2.3.1. Facteurs élémentaires
Les facteurs
précédents,
donnés dans ladescription
duprotocole,
sont dits élémentaires.Par facteur
élémentaire,
onentend,
à la fois l’ensemble de sesmodalités3,
parexemple C={cl , c2},
et aussil’application qui
va dusupport
U vers cet ensemble de modalités.De
façon équivalente,
le facteur se définit par un ensemble de classesdisjointes,
une parmodalité,
d’éléments deU ;
c’est lapartition
de U associée aufacteur ; ainsi,
pour le facteurC,
les 144 unités se divisent en 2classes,
les 72premières
unités décrites par la modalitéc 1,
et les 72 autres décrites par c2.2La notion
générale
de protocole fait également intervenir des poids associés aux unités(cf. II.§2.3.).
’Quand
les modalités sont ordonnées, on parle aussi de niveaux.2.3.2. Facteurs
composés
Un
facteur composé
de deux facteurs élémentaires est l’ensemble des modalitéscomposées
des deux
facteurs ;
parexemple
le facteurcomposé
de M et de0,
noté à l’aide dusymbole
de lacomposition ’&’ (lire
"et" ou"composé avec"), M&0,
est l’ensemble :Imlol,mlo2,mlo3,m2ol,m2o2,m2o3l.
Un facteurcomposé
définit aussi unepartition
deU,
ici en 6 classes de 24 unités de base chacune. La notion de facteurcomposé
s’étendà la
composition
d’un nombrequelconque
de facteursélémentaires, qu’on
noteraC~M&0, S~C&M~O,
etc..Formellement,
iln’y
a pas de différence entre facteur élémentaire et facteurcomposé :
à chacun est associé un ensemble de modalités et unepartition
des unités de base.Ainsi,
par lasuite,
le mot "facteur" sansprécision désignera
tout facteur élémentaireou
composé.
2.3.3. Relations entre
facteurs : croisement, emboîtement, confusion
Le facteur
composé
M&c0comprend
toutes les combinaisonspossibles
de modalités de M et de modalités de 0. Dans ce cas, les deux facteurs M et 0 sont ditscroisés,
et le facteurcomposé
M~0 estappelé
uncroisement,
cequ’on
note M*O.Le facteur
composé
S&C a autant de modalités que S seul(24), puisque chaque sujet
est affecté à une seule condition. Ceci définit la relation non
symétrique
d’ emboîtement :"S est emboîté dans
C",
cequ’on
note SC>. Les éléments de Speuvent
êtrerangés
dansdes "boîtes"
étiquetées
par chacune des modalités de C. Ici l’emboîtement estéquilibre
il y a autant de
sujets (12)
dans chacune des 2 conditions.Deux facteurs sont en relation de
confusion,
notée ‘N’(lire
"confonduavec" ),
s’il existeune
bijection
entre eux. Dans le cas d’une relation de confusionA-B,
un des facteurs Aou B
peut
être considéré commesuperflus :
onpeut
1"‘oublier" pourl’analyse (mais
nonpour
l’interprétation
desrésultats !).
L’étude de la structure du
protocole
se fait en considérant les relations entre facteurs élémentairespris
2 à2, puis
3 à3,
etc.. Pour les relationsbinaires,
on trouve ici :SC>, S*M, S*0, C*M, C*01
M*O. Pour les relations d’ordresupérieur,
on trouve :SC>*M, SC>*0, S*M*O, C*M*0, puis SC>*M*0 4.
2.3.4.
Partitions,
treillis definesse
despartitions
Un facteur décrit le
protocole
avec une certainefinesse :
le nombre de classes danslesquelles
ilpermet
de ranger les unités. Lesupport
Uest,
pardéfinition,
un facteur d’une finesse extrême : il divise les 144 unités en 144 classescomprenant
une unité chacune. Al’opposé,
le facteur Z est leplus grossier :
il range les 144 unités en une seule classe de 144unités.
Chaque
autre facteur est intermédiaire entre U et Z. Encomparant
entre eux les facteursquant
à leur finesse ou leurgrossièreté réciproque,
on définit le treillis definesse
des
partitions (Duquenne, 1986 ; Lépine,1977a ; Duquenne, Monjardet, 1982) présenté
àla
figure ci-après.
4 Un certain nombre de
règles
formelles, découlant depropriétés
ensemblistes, permettent de passer des relations binaires à certaines relations ternaires : AB> et à*C # B*C et AB>*C ; AB> et BC> # AC> et ABC» ; AB>, AC> et B*C => AB*C>. Par contre, le croisement 2 à 2 deplusieurs
facteurs(A*B,
A*C et
B*C) n’implique
pas le croisementglobal (A*B*C) ;
uncontre-exemple
en est fourni par la relation de carré-latin. Une situationtypique
de carré-latin est celle de lapassation
de deux conditions avec"contrebalancement des ordres" : les facteurs "condition", "ordre" et "essai" forment alors un carré-latin.
[tj Un
treillis sur un ensemble(ici
celui des partitionsassociées aux
facteurs)
est une relation d’ordre partiel(ici
la
finesse)
qui posséde un suprémum(ici U),
et un infimum(ici Z) :
pour tout facteur A, on a u%à-u et A~Z~A. L’étude des relations entre facteurs est équivalente à celle du treillis : le facteur composé A~B est le premier(en montant)
élémentdu treillis à la fois
plus
fin que A et plus fin que B ; AB>ssi A est plus fin que B, 1.e. ssi il y a un chemin toujours
descendant de À vers B ; A~H ssi les partitions associées à A et à B sont identiques ; A*B ssi la partition associée à AM
possède A x 8 classes.
2.3.5. Notation indiciée des
facteurs
La notation indiciée d’un facteur
permet
de retrouver son nombre de modalités :S24
Indique
que le facteur élémentaire S a 24modalités ;
M2*03
Indique
que le facteur M a 2modalités,
et0,
3 modalités. Leproduit
des indicesdonne le nombre de modalités du facteur
composé
M*O : 2 x 3 = 6.SI2C2>
Indique
que le facteur élémentaire S est emboîté dans le facteur C à 2modalités,
avec 12 modalités de S par modalité de C. En cas d’emboîtement
déséquilibré,
l’indice de S serait omis. A nouveau, le
produit
des indices donne le nombrede modalités du facteur
composé
SC> : 12 x 2 = 24.2.3.6. Plan d’un
protocole
Un
plan
d’unprotocole
est un facteur associé à lapartition
laplus fine,
i. e.qui comporte
autant de modalités que U. Bien entendu U constituetoujours
unplan,
maison cherchera
plutôt
unplan riche,
i.e.qui
fait intervenir leplus grand
nombre de facteursélémentaires,
ici SC>*M*0. Unplan correspond
à unedescription
des observationsqui permet
d’identifier chacune d’elles defaçon unique.
Avec la notation indiciée duplan,
S 12C2>*M2*03,
on voit que le facteurcomposé
S~C&M&0comporte
12 x 2 x 2 x 3 = 144unités,
comme U.Un
plan
est unplan quasi-complet (PQC)
s’ilpeut
être décrit par uneformules unique qui
ne fait intervenir que des croisementset/ou
des emboîtements. Pour lesPQC,
unplan correspond
à unesimple
lecture de la structure des marges du tableau de données : le tableaup. 10
seprésente
comme le croisement de 24lignes (facteur SC>)
et de 6 colonnes(facteur M*0~,
d’où leplan
"SC> * M*0".2.3.7. Structure ensembliste du
protocole
On résume la structure du
protocole
en décrivant lesupport
U par unplan (voire plusieurs plans)
aussi riche quepossible
et enindiquant,
à droite de la flèche‘->’,
la ou les variablesdépendantes,
soit ici :On
parlera,
pour cettestructure,
de la structure ensembliste des données - les données sont décrites à l’aide des ensembles que constituent les facteurs et les variables ---, àdistinguer
de leur structurestatistique (cf. §2.7.).
2.4. Le dossier
"Horloge"
Le second dossier
qui
illustre ce texteporte
surl’exploration
mentale d’un environnementimaginé (Amorim, Stucchi, 1994).
Lesujet
voit la lettre "F" sur un écran(tridimension- nelle, projetée
en 2dimensions)
et doitimaginer
que la lettre se trouve au centre d’unehorloge.
Dans la condition ci"sujet-centrée",
onindique
ausujet
l’heure àlaquelle
il setrouve sur
l’horloge,
et la tâche consiste à donner l’heure àlaquelle pointe
lalettre ;
dansla condition c2
"objet-centrée",
onindique
l’heure àlaquelle pointe
la lettre et lesujet
doit donner l’heure à
laquelle
lui-même se trouve. Les 24sujets
del’expérience passent
chacun les deuxconditions,
avec 12 essais par conditionqui correspondent
au croisementde : 6
angles
quepeut
faire la lettre avec lesujet ( 15°, 45’, 75’, 105’, 135’, 1 fi5° ) ;
et 2côtés
possibles, gauche
ou droit5.
Enfin lessujets
sontrépartis
en 4 groupes, de 6sujets chacun,
obtenus par le croisement de : 2 dimensionssuggérées
del’horloge,
3m ou30m ;
et 2 ordres de
passation
des 2 conditions. Achaque essai,
on mesure : l’erreur(ERR)
endegrés,
une erreurpositive indiquant
unesurestimation ;
et letemps
deréponse (TR).
Lesobjectifs
del’expérience portent
avant tout sur l’étude du facteur"angle",
et ensuite surcelle des facteurs "condition" et "dimension". z
Les facteurs du
protocole
sont les suivants :S,
les 24sujets ; L,
les 2 côtés(latéralité) : gauche (11)
et droit(12) ;
C,
les 2conditions ; G,
les 4 groupes desujets ;
E,
les 12essais ; D,
les 2 dimensions : 3m(dl)
et 30m(d2) ;
A,
les 6angles ; 0,
les 2 ordres : cl-c2(ol)
et c2-cl(02).
Un
premier plan
découle de ce que lesSujets,
les Conditions et les Essais sont croisés dans leurensemble, S*C*E,
cequi représente
24 x 2 x 12 = 576 unités. On obtient les autresplans
en tenantcompte
des emboîtements et des confusions entre facteurs :SG>, "chaque sujet n’appartient qu’à
un seul des 4groupes" ; GND*0,
"les groupescorrespondent
au croisement de la dimension et de
l’ordre" ;
etENA*L,
"les essaiscorrespondent
aucroisement de
l’angle
et du côté". En omettant les facteurs G etE, superflus
et introduitsuniquement
pourplus
declarté,
leplan
leplus
riche estquasi-complet :
SD*0>*C*A*L.La structure ensembliste du
protocole
est ainsi :2.5.
Aspects méthodologiques
liés à la structuration des données 2.5.1. Statut desfacteurs ;
structurestatistique
des donnéesAu niveau
ensembliste,
seulaspect
considéréjusqu’ici,
tous les facteursjouent
des rôlesanalogues (à part
les facteurs U etZ).
Des considérations d’ordreméthodologique
amènentà introduire des distinctions entre facteurs élémentaires
qui
seront essentielles lors del’analyse
des données(pour plus
dedétails,
voir e.g. Ehrlich1975) :
La
première
distinction renvoie auxobjectifs
del’expérience :
lesfacteurs principaux
sont ceux
impliqués
dans leshypothèses
ou lesquestions
del’expérience ;
lesfacteurs secondaires,
les autres :e Dans le dossier
"Négligence",
les facteursprincipaux
sont d’abord la "condition"C, l’objectif
essentiel étant de comparer les conditions "active" et"passive" ; puis
5Les données initiales comprennent en fait 144 essais, car on a ici moyenné sur un facteur secondaire
"heure" à 12 modalités, l’heure
indiquée (position
du sujet en ci, ou celle de la lettre enc2).
1"‘orientation" 0,
un secondobjectif
étant d’étudier d’éventuelles variations de l’effet de C selon 0. Les facteurs M et S sont secondaires.e Dans le dossier
"Horloge",
lesobjectifs
de la rechercheportent
d’abord sur le facteurA, puis
sur les facteurs C etD ;
ces trois facteurs sont doncprincipaux.
Les facteurs S et 0 sont clairement secondaires.Enfin,
le statut du facteur L estintermédiaire;
iln’y
a pas
d’hypothèse précise
leconcernant,
maisplutôt
unequestion
ouverte.La seconde distinction tient au mode de recueil des modalités d’un facteur : les modalités d’un
f acteur systématique
sont choisies pour elles-mêmes et nonéchangeables ;
les modalités d’un
facteurs
de groupe sontéchangeables,
et constituent engénéral
unepartie
d’unepopulation plus
vaste. Dans les deux dossiers"Négligence"
et"Horloge",
seul S
(les "sujets" )
est facteur de groupe, comme souvent enPsychologie Expérimentale.
Les modalités d’un facteur de groupe sont traitées de
façon symétrique.
Lors del’étape descriptive,
cela se traduira par le calcul destatistiques
de groupe, e.g. moyenne,variance,
etc.
(Rouanet, Lépine, 1973).
Lors del’étape inductive,
on cherchera àgénéraliser
lesconclusions à la
population.
L’adjonction,
à la structure ensembliste duprotocole,
de la distinction entre facteurs de groupe et facteurssystématiques,
définit sa structurestatistique.
2.5.2. Facteurs constants et
confusion
defacteurs
Les facteurs constants n’interviennent pas dans
l’analyse
mais leurprise
encompte
est essentielle pourpermettre
dedégager
laportée
des conclusionsdescriptives
ou inductivesde
l’expérience.
Parexemple,
dans le dossier"Horloge",
les conclusions nepourront,
entoute
rigueur,
être émises que pour la lettre"F",
et ne sauront être étendues à d’autreslettres,
voire à d’autressituations, qu’en
recourant à deshypothèses psychologiques
provenant
parexemple
de résultatsexpérimentaux
antérieurs.Dans le cas où certains facteurs sont confondus entre eux,
l’interprétation
se heurtera àla
difficulté,
voirel’impossibilité,
d’attribuer un effet à un facteurplutôt qu’à
un autre. Unproblème
similaire intervient si certains facteurs sont corrélés entre eux(la
confusion enest un cas
extrême) ;
ceci seproduit
notamment pour tous les facteurs dont les modalités sont seulement observées et nonaffectés
auxsujets,
etqui sont,
parnature,
confondusou corrélés avec de nombreux autres
(voir
e.g.Abdi, 1987,
pp.26-35 ; Reuchlin, 1992).
2.5.3.
Objectifs
de la recherche etplanification
Lors de la
planification
d’uneexpérience
seposent
certains choixcruciaux, qui
sont éclairéspar les considérations
précédentes.
Nous ne faisons ici que lesévoquer :
e Choix des modalités des facteurs
systématiques :
d’un choixtrop "étriqué" parmi
toutes les valeurs
possibles
d’une variablepeut
résulter une sous-estimation de soneffet,
un choixtrop "large" risque
au contraire de masquer l’effet d’autres facteurs.e Choix du
plan :
l’idéal de toutexpérimentaliste
est leplan complet, qui permet
d’étudier l’effet dechaque
facteurpris isolément,
et toutes leurs interactions. Mais cet idéal est rarement réalisable. Ilpeut s’agir
d’uneimpossibilité logique :
lessujets
sont nécessairement emboîtés dans leur sexe; d’une
impossibilité méthodologique :
l’effet
d’apprentissage
d’une condition àl’autre, oblige
àpréférer
l’emboîtement dessujets
dans lesconditions,
ou bien à introduire un facteur "ordre depassation"
danslequel
lessujets
sont nécessairementemboîtés ;
ouenfin,
d’uneimpossibilité pratique :
l’idéal conduirait à un