M ATHÉMATIQUES ET SCIENCES HUMAINES
H. R OUANET D. L ÉPINE
Note méthodologique. Statistiques de groupe, groupes d’observations
Mathématiques et sciences humaines, tome 41 (1972), p. 31-36
<http://www.numdam.org/item?id=MSH_1972__41__31_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1972, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme
NOTE MÉTHODOLOGIQUE
STATISTIQUES DE GROUPE, GROUPES D’OBSERVATIONS
par
H. ROUANET1 et D.
LÉPINE
2RÉSUMÉ
Cette note se situe dans le cadre d’un travail
méthodologique
en cours, sur laformalisation
desprocédures
élémentaires
d’analyse
de données 3. Nous nous bornerons ci-dessous(§ 1)
àrappeler
les notions de base nécessaires à lacompréhension
de cette note.En sciences
humaines, l’expression
de"groupe
d’observations" est souvent utilisée commequasi-
synonyme de
"famille d’observations",
mais avec une connotationplus
restrictive : un groupe est unefamille
d’observations considérée comme"formant
un tout" surlaquelle
on doit apriori
travailler defaçon séparée, quitte
à se livrer ensuite à des"regroupements".
Plusprécisément
encore,quand
onparle
degroupe, c’est
qu’on
traite les observations "defaçon symétrique" :
cette remarque va nous conduire à proposerune
définition formelle
de la notion de groupe d’observationscompatible
avec cet usage; dans le même mode depensée,
nousdéfinirons
auparavant la notion destatistique
de groupe, dont nous donnerons unecaractérisation.
S UMMAR Y
This note is part
of
a current programof methodological
research on theformalization of elementary
pro- cedures in dataprocessing
3. Here(§1)
we willonly
recall the basic notionsneeded for
theunderstanding of this
note.
In the human sciences, the term
"group of
observations" isfrequently
used asquasi-synonymous
with
"family of
observations", but with a more restricted connotation : a group is afamily of
observations considered to "constitute a whole", on which one should apriori
workseparately,
with thepossibility of subsequently proceeding
with"regroupings".
Moreprecisely,
onerefers
to groups when one treats observa- tions "in asymmetrical
manner" : this remark leads us to aformal definition of the
notionof group
of observa- tionscompatible
with this usage ; in the same context, webegin by defining
the notionof group statistics,
which we also characterize.
1. UER de Mathématiques, Logique Formelle et Informatique, Université René Descartes (Paris).
2. Laboratoire de Psychologie expérimentale et comparée, EPHE (3e Section) et Université René Descartes, Associé au
~CNRS (Paris).
3. Cf. en particulier référence [1] / Cf. in particular reference [1].
1. NOTIONS DE BASE
Étant
donné un ensemble d’observationspossibles,
ou espace d’observationU,
nousappellerons protocole-
de support I à valeurs dans U toute famille
(Xt)
d’éléments de U indexée par l’ensemble I, c’est-à-diretoute
application
de I dans U. Dans la suite on supposera que I est un ensemblefini
d’indices. D’autre part, tous lesprotocoles
que nous considérerons auront même espace d’observation : l’ensemble des,protocoles possibles,
ou espace desprotocoles,
sera donc UI. Apartir
de la notion deprotocole
on définitcelle de
sous-protocole (cf. [1]
pour une définitiongénérale) ;
dans ce texte nous n’utiliserons que les sous-protocoles qui
sont des restrictions d’unprotocole
à unepartie
J du support I. Toutsous-protocole
estun
protocole.
Enfin, une
statistique
est définie comme uneapplication 1
dont l’ensemble dedépart
est UI. Enparticulier,
nousappellerons
iièmestatistique
élémentaire, ouiième observation,
lastatistique-projection
Xi: UI --~ Uqui
à toutprotocole x :
J 2013~ U associe la valeur xi. La familleI,
desstatistiques
élémentaires est une
statistique, qu’on
identifiera avec lastatistique identique (celle qui
à toutprotocole.
associe ce
protocole lui-même). Z,
etZ,
étant deuxensembles,
si S est unestatistique
à valeurs dansZ,
et h uneapplication
deZl
versZ,, l’application
h S est unestatistique (à
valeurs dansZ2) :
onnotera
également
cettestatistique
h(S)
et on diraqu’elle est fonction
de lastatistique
S. Toutestatistique
est fonction de la famille des
statistiques élémentaires,
soitplus
brièvement : est fonction des observations.II. SOUS-PROTOCOLES INDUITS L’UN DE L’AUTRE
Deux
sous-protocoles y’
ety"
de même support J(où
Jc I)
seront dits induits l’un de l’autre(par
unepermutation
de leursupport)
s’il existe unepermutation
p de J telle quey"
=y’
p. Il est immédiat que la relation entresous-protocoles
de même support « être induits l’un de l’autre» est une relationd’équivalence
surl’espace
de cessous-protocoles,
etégalement
une relationd’équivalence
surl’espace
des
protocoles.
Si p est une
permutation
de J, on lui associe unepermutation p*
de I définie par :p* (i)
= p(i)
J,= 1
pour 1 g J.
Étant
donné unprotocole x
de support I onappellera protocole
induit de x par lapermutation
p de J(partie
deI)
leprotocole
x’ = xo p*.
III. DISTRIBUTION DES EFFECTIFS ET PERMUTATION DU SUPPORT :
PROPRIÉTÉ
FONDAMENTALE
A tout
sous-protocole
y : J -> U on associe sa distribution deseffectifs,
c’est-à-dire la mesure sur Uqui prend
sur toutepartie {
u } à un élément la valeur n(u)
== 8(y-1 (u)),
où 8désigne
la mesure sur I1. Cette application est le plus généralement caractérisée par une règle opératoire permettant de « calculer» (au sens large)
la valeur de la statistique pour le protocole considéré.
qui
à toutepartie
de I associe soneffectif ;
la distribution des effectifs d’unsous-protocole
est donccaractérisée par une
application n :
Ï7 -~ N(densité
discrète de ladistribution).
La distribution des effectifs d’un
sous-protocole
de support J peut être considérée comme la valeurprise
par unestatistique
que, par extension delangage,
onappellera également
distribution des effectifs dessous-protocoles
de support J. Cettestatistique
est caractérisée par uneapplication
deUI --~
N U que
nous noterons E. La distribution des effectifs d’unsous-protocole
y(restriction
dex)
ne
dépend
que de y ; par extension de notation nous ladésignerons
par E(y).
Propriété
Pour que deux
sous-protocoles
de support J aient même distributiond’effectifs, il faut
et ilqu’ils
soientiraduits l’un de l’autre :
Démonstration
1) Supposons qu’il
existe unepermutation
p de J telle quey"
=y’ o
p, ouy’
=y7 - p-1.
On endéduit,
en
désignant
encore par p l’extensioncanonique
de p à fi(J) qui
à tout K E f1J(J)
associe p(K) :
Pour tout
donc:
L’égalité 8 (y’-1 (u))
= 8(y "-1 (u) ) exprime que y’ et y ~
ont même distribution d’effectifs.2) Réciproquement,
supposons quey’
ety"
ont même distribution d’effectifs : pour tout u EU,
8
(y’-1 (u))
= 8(y "-1 (u)).
On peutalors,
pour tout u, construire uneapplication bijective
de l’ensembley "-1 (u)
sur l’ensembley’-1 (u) ;
en effectuant une telle construction pour chacune des classes de= { y "‘1 (u) /
u c-y" (J)
}, on définit unepermutation
p de J.Soit alors i ~ J. Si i E
y "-1 (u),
de par la construction de p : p(i)
Ey’-1 (u),
doncy’ ( p (~))
= u.Or : u =
y n (i).
Donc :y’
o p =y ".
Il résulte de cette
propriété
que les deux relationsd’équivalence
entresous-protocoles
« êtreinduits l’un de l’autre » et « avoir même distribution d’effectifs » coïncident.
IV.
STATISTIQUE
DE GROUPE POUR UN SOUS-PROTOCOLEDéfinition
Nous dirons
qu’une statistique
est unestatistique
de groupe pour lessous-protocoles
de support J si elle estinvariante par le groupe des
permutations
de ce support.Si y est un
sous-protocole
de x,y’
lesous-protocole
induit de y par unepermutation
p de J, et x’le
protocole
induit de x par cettepermutation
p, on peut traduire la définition par la relation : Sstatistique
de groupe pour J ~(y’
= y(x)
= S(x’)).
(S statistique
de groupe pour(J))
« S(x)
= S(x’)
Formulation
équivalente
Une
statistique
est unestatistique
de groupe pour lessous-protocoles
de support J si elle est unefonction symétrique
des observations de cesous-protocole.
En
général,
si J est strictement inclus dans I, unestatistique
de groupe pour lessous-protocoles
de support J n’est pas une
statistique
de groupe pour lesprotocoles
de support I.Exemples
Pour les
sous-protocoles
de support J :- Les
statistiques
élémentaires(observations)
Xi ne sont pas desstatistiques
de groupe ;- Si V c U :
y-1
n’est pas unestatistique
de groupe ; en revanche 8(y-1 ( !~))
est unestatistique
de groupe ;
- Les
statistiques :
distribution des effectifs et distribution desfréquences
sont desstatistiques
degroupe.
Pour un
sous-protocole
à valeurs dansR,
lesstatistiques
usuelles sont desstatistiques
de groupe: aussi bien lesstatistiques
linéaires(moyenne,
variance,etc.),
dont la définition fait ressortir immédiatementqu’elles
sont des fonctionssymétriques
desobservations,
que lesstatistiques
non-linéaires :médiane, quantiles,
maxXi,
max minXi,
etc.iEJ ~J
Si x est un
protocole numérique,
leprotocole
dérivé constitué par les moyennes deplusieurs sous-protocoles disjoints
est unestatistique
de groupe pour chacun de cessous-protocoles,
mais n’estpas une
statistique
de groupe pour leprotocole complet.
V.
STATISTIQUE
DEGROUPE, CARACTÉRISATION
Il résulte de la
propriété
fondamentaledu §
3 lapropriété caractéristique
suivante desstatistiques
degroupe :
Pour
qu’une statistique
soit unestatistique
de groupe pour lessous-protocoles
de support J, ilfaut
et ilqu’elle soit fonction
de la distribution deseffectifs
de cessous-protocoles.
(En
d’autres termes, unestatistique
est de groupe pour unsous-protocole
si et seulement si sa valeurpeut être calculée à
partir
de la distribution des effectifs de cesous-protocole.)
Démonstration
1)
Par définition :S
statistique
de groupe pour2) y" = y’
o p ~ E( y’)
= E(y~) (propriété § 3).
3)
D’où par substitution dans(1) :
S
statistique
de groupe pour(J)
«(E (y’)
= E(yn)
~ S(x’)
= S(x")).
La relation E
( y’)
= E(y")
~ S(x’)
= S(x ") exprime
que si S : UI -Z,
il existe h : N U -~ Z tel que S = h o E : lastatistique
S est fonction de lastatistique
E.De la
propriété précédente,
il résulte que si au lieu de se donner unsous-protocole (application),
on se donne seulement la distribution des effectifs
correspondante (mesure
surU),
on ne pourra calculer que desstatistiques
de groupe pour cesous-protocole.
VI. GROUPE D’OBSERVATIONS
1)
Vis-à-vis d’un ensemble destatistiques :
Si un ensemble de
statistiques
est constitué destatistiques
de groupe pour unsous-protocole,
on diraque celui-ci est un groupe d’observations
(relativement
à l’ensemble desstatistiques considérées).
2)
Vis-à-vis d’un modèleprobabiliste satisfaisant
à la condition desymétrie :
On dira
qu’un
modèleprobabiliste
del’espace
desprotocoles
UI satisfait à la condition desymétrie
pour les
sous-protocoles
de support J si cetteprobabilisation
est une fonctionsymétrique
des obser-vations de ces
sous-protocoles.
La fonction caractérisant la distribution dessous-protocoles (densité discrète,
ou fonction derépartition,
ou densité deprobabilité
selon lecas)
est alors une fonctionsymé- trique
des xi(i
~J) :
lessous-protocoles équivalents
de support J(au
sens du§ 3)
ont alors la mêmeprobabilité (lorsque
U estfini)
ou la même densité deprobabilité (lorsque
parexemple,
U = R ouR k)
1.On vérifie que la condition de
symétrie
estéquivalente
à la condition suivante: la distribution dessous-protocoles
conditionnellement à une distributiond’effectifs
estuniforme:
en d’autres termes, si la distribution d’effectifs est caractérisée par l’ensemble des valeurs x1, x2, ..., xk observéesrespectivement
k
n
ni, n2, ..., nk fois
(avec j=1 £ nj
=n)
chacun desn1,
n2, ...,nk sous-protocoles possibles ayant cette
distribution a la probabilité
conditionnelle
i
1. La propriété pour un modèle de satisfaire ou non à la condition de symétrie est souvent liée aux options sur le caractère aléatoire ou systématique des facteurs associés aux variables contrôlées (distinction classique en analyse de la variance).
On peut
exprimer
cettepropriété
en disant que la distribution des effectifs est lastatistique
exhaustive minimale pour tous les modèles
satisfaisant
à la condition desymétrie.
Un cas
fréquent
de modèles satisfaisant à la condition desymétrie
est le modèled’échantillonnage
au
hasard,
danslequel
lesous-protocole
est considéré comme la réalisation d’une famille de variables aléatoiresindépendantes équidistribuées ;
le schéma d’urnecorrespondant
est celui destirages
non-exhaustifs. On remarque d’ailleurs que le modèle
correspondant
au schéma d’urne destirages
exhaustifssatisfait
également
à la condition desymétrie.
Uncontre-exemple
usuel est celui d’unsous-protocole
considéré comme la réalisation d’un processus, par
exemple
markovien.Vis-à-vis d’un modèle
probabiliste
satisfaisant à la condition desymétrie
pour lessous-protocoles
de
support J,
on dira que leprotocole
observé de support J est un grouped’observations,
cequi
conduiraà ne
calculer,
dans le cadre de cemodèle,
que desstatistiques
de groupe pour cessous-protocoles.
Remarque
Si on
interprète
le support J d’unsous-protocole
comme un ensemble denuméros,
une caractéristisationopérationnelle
de la notion de groupe d’observations est que lenumérotage
des observations de ce sous-protocole
est arbitraire.BIBLIOGRAPHIE