R EVUE DE STATISTIQUE APPLIQUÉE
A LAIN B ACCINI A LAIN P OUSSE
Segmentation aux moindres carrés : un aspect synthétique
Revue de statistique appliquée, tome 23, n
o3 (1975), p. 17-35
<http://www.numdam.org/item?id=RSA_1975__23_3_17_0>
© Société française de statistique, 1975, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
17
SEGMENTATION AUX MOINDRES CARRÉS :
UN ASPECT SYNTHÉTIQUE(1)
Alain
BACCINI etAlain POUSSE
Laboratoire de statistique Université Paul Sabatier - Toulouse
INTRODUCTION
Nous considérons ici la
segmentation
comme unetechnique
departition
d’une
population
par dichotomies successives au moyen de variablesexplicatives
et par
référence
à uncritère,
ou variable àexpliquer.
Nousn’envisagerons
doncpas les méthodes de
segmentation s’apparentant
à la classification par l’absence de variable àexpliquer (comme
parexemple [ 18 ]).
On se propose dans ce cadre de donner une vue
synthétique
de la segmen- tation enl’envisageant
sous unaspect
nouveau. On s’intéresseprincipalement
à la
segmentation
dite "aux moindres carrés".Divers
problèmes
se trouventposés
dèsqu’on
aborde cetype
desegmenta-
tion : le choix de lamétrique (pourquoi
la distance duX2
l’utilisation des variablesexplicatives (une
à une, et nonsimultanément),
... Laprésentation envisagée ici,
outre sonaspect plus général, permet d’apporter
à cesquestions, déjà développées
parailleurs,
de nouveaux éléments deréponse.
Au lieu de se
placer
sur des espaces d’individus et d’utiliser des critères propres à chacun de ces espaces, on seplace
surl’espace
desvariables ;
celapermet
de retrouver laplupart
des méthodes usuelles tout en lesprésentant
dans un cadre
homogène.
Celapermet
en outre d’en étudier defaçon plus complète
lespropriétés,
d’obtenir une définitionplus originale
faisant unlien avec la
régression,
et de proposer diversesapproximations.
Après
avoirprésenté
la nature duproblème abordé, puis rappelé
l’essen-tiel des méthodes les
plus
courantes, on exposera lepoint
de vuepermettant
de traiter lasegmentation
sous unangle plus global,
et l’on montrera alorscomment sont ainsi
synthétisées
lesprincipales techniques,
avant de terminer par lesapproximations proposées.
I - PRESENTATION DU PROBLEME ABORDE 1.1 Données et notations :
On
dipose
d’un ensemble 1 de nindividus,
ou unitésstatistiques,
i(1) Texte remis en Mars 1974, révisé en Mars 1975.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
18
à chacun
desquels
est associé unpoids
pi >0
pi =1 ),
et surlesquels
onobserve d’une
part
une variablestatistique
Y à valeurs dans un ensemble E et pouvant être soitquantitative (dans
ce cas E est l’ensembleRq ,
q EN*)
soit
qualitative (E
est alors un ensemblefini,
ordonné ou pas, non contenu dansR),
et d’autre part une suite de p variablesstatistiques X, X2 , ... , Xp
toutes
qualitatives.
Soit X l’unequelconque
de cesvariables ;
on note m le nombre de modalités de X.La variable
statistique
Y estappelée
"variable àexpliquer" (ou parfois critère),
et les variablesstatistiques
X "variablesexplicatives" (ou parfois facteurs).
A
chaque
X est associée unepartition l"
de 1égale
à{G1 , G2
,...Gm}
(m
variant avecX)
oùGk ;
k E K= { 1 , 2 ,
... ,m},
est l’ensemble des in- dividus de 1présentant
la keme modalité de X.1.2. Le
problème
abordé et laprocédure générale
utilisée :La
segmentation
a pour butd"’expliquer"
la variablestatistique
Y aumoyen des variables
statistiques X,
en utilisant les observations de chacune de ces variables sur I. Pour cela elle consiste à rechercher :- une
partition
de 1 en sous-ensemblesqui
soient entre eux "lesplus
différents
possible" (condition 1),
et chacun "leplus homogène possible "
(condition 2),
ceci relativement à Y et en un sens que l’onprécisera
ultérieu- rement ; on convient d’obtenir cettepartition
par dichotomies successives deI,
chacune étant induite par une dichotomie des différentes modalités de l’une des variablesexplicatives X. ;
-
simultanément,
un classement des variablesexplicatives
X par ordre décroissant "d’influence" sur Y.La
procédure
desegmentation opérant
par dichotomies successives de I permet d’obtenir un "arbredichotomique"
de lafaçon
suivante :Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
19
Il
: ensemble des individus de 1présentant
certaines modalités deXa ; 12
: ensemble des individus de 1présentant
les autres modalités deX03B1 ; ils
: ensemble des individus deIl présentant
certaines modalités deX03B2 ; 112 :
ensemble des individus deIl présentant
les autres modalités deX. ;
et ainsi de suite ...
On notera que la même variable X
peut
se trouver surplusieurs
branchesdifférentes et revenir
plusieurs
fois sur la même branche(cf.
pourexemple [13], [5], etc...).
Plus une variable
explicative
est hautplacée
dans l’arbredichotomique, plus
elle estinterprétée
comme influente sur Y.La fixation d’une
règle
d’arrêtpermet
d’obtenir lapartition
cherchéelorsque
laprocédure
s’est terminée sur chacune des branches de l’arbre dicho-tomique.
Enpratique
cetterègle
doits’appliquer
assez vite pour éviter d’obtenirun arbre
trop complexe
et difficile àinterpréter.
Remarque :
Diversesrègles
d’arrêt sontutilisées,
que nous ne discuterons pas ici. On peutciter, parmi
lesplus
courantes, les suivantes :a)
Onpeut
arrêter laprocédure
sur un sous-ensemblel’
de I si la dichotomieoptimale {Fi ,I’2}
de ce sous-ensemble est telle que l’effectif de l’élément de cardinal minimum(inf (card (I’1),
card(riz )))
soit inférieur à un seuil no fixé apriori (le
choix de nodépendant
de l’ordre degrandeur
den).
b)
Larègle
d’arrêtpeut
être liée à une distance. Parexemple
oncalcule, lorsque
Y estqualitative,
la distance duX2 (cf. [3])
entre les deux groupes de modalités de Xpermettant
de former1’1
etI’2,
et onpoursuit
les dichoto- mies tant que cette distance est assezgrande (dépasse
lequotient
par n de la borne de la table dux2 correspondant
à un seuil que l’on se fixe apriori).
c)
Certainesrègles
sont fondées sur un indice mesurant la perte relatived’information",
liées au test de FISHER-SNEDECOR(cf. [17]).
d)
Il existe encore diverses autresrègles
d’arrêtplus
ou moinssimples (cf.
parexemple [13] ,
p.429).
Pour
chaque
niveau desegmentation (correspondant
à uneligne
duschéma
ci-dessus),
et pourchaque
sous-ensemble de 1figurant
à ceniveau,
la méthode de recherche de la dichotomieoptimale
de cet ensemble esttoujours
la même : déterminer la variableexplicative
et la dichotomie de ses modalitésoptimisant
un certain indicequi représente
"l’influence" des va-riables
explicatives
sur la variable àexpliquer.
Pour cetteraison,
la recherche d’une dichotomieoptimale
sera par la suitetoujours
décrite sur l’ensemble1 lui-même.
Remarque :
Bienqu’elle
soitparfois
utilisée dans cebut,
lasegmentation
n’est pas une méthode essentiellement
prédictive.
Elle s’attache surtoutà
expliquer
une variablestatistique
par un certain nombre de caractèresqualitatifs.
L’obtention d’unepartition
de 1 dontchaque
sous-ensemble soit leplus
différenciépossible
relativement à Y peut certes être utilisé pour faciliter une éventuelleprédiction,
mais ce n’est pas le butpremier
de la méthode. On trouvera une illustration de cette remarque en 4.4..Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
20 II - RESUME DES METHODES USUELLES
On expose ici les méthodes de
segmentation
aux moindrescarrés, qui
sont les
plus développées
et lesplus
courantes, ainsi que lasegmentation
par
analyse discriminante, qui
nouspermettra
d’illustrer la différence entresegmentation
etprédiction.
Citons aussi pour mémoire lasegmentation
par la théorie de l’information
(cf. [Il] ] par
ex.,chap. 11.2.).
Toutes ces méthodes sont fondées sur le
principe
des dichotomies suc-cessives
présenté plus haut,
leur différence résidant dans la nature du critère de sélection de la dichotomieoptimale
àchaque
niveau.2.1. La
segmentation
aux moindres carrés :Y étant à valeurs dans E
quelconque (cf. 1.1.)
on choisit unereprésen-
tation des individus dans un espace euclidien
H, grâce
à uneapplication
f : 1 - H
qui
factorise à travers Y : f =g o Y, où
g est uneapplication
deE dans H déterminée suivant la nature de Y. On note d la
métrique
sur H.Dans
H,
on définit lebarycentre A
de toutepartie
A def (1)
par :Ceci
permet
de considérer sur lesparties
def (I) :
- l’indice
intragroupe
D(A) de
toutepartie A, qui
est le moment d’inertiede A par
rapport
à sonbarycentre A :
- L’indice
intergroupe GJ (A 1 , A2 )
de deuxparties A
1 etA2, qui
est lasomme des moments d’inertie de
Al
etA2
affectés despoids P (Al)
etP (A2 )
par
rapport
aubarycentre AI
1 UA2
deA
1 UA2 :
(A1 ,A2) - P(A1) d [A1, A1 U A2] + P (A2) d2 [A2 A1 U A2 ] .
Le théorème de KOENIG-HUYGENS
permet
alors de remarquer que pour toutcouple (A 1 , A2 )
departies disjointes
def(I),
on a :On retient
alors, parmi
toutes lesdichotomies (Il , I2}
de Icorrespondant
à une dichotomie de
{G1 ,... , Gm} (cf. 1.1.),
celle pourlaquelle [f(I1) , f(I2) ]
est
maximum,
cequi répond
à la condition 1 de1.2.,
ou, cequi
revient au mêmed’après (1),
celle pourlaquelle D[f(I1)] + D[f(I2)]
estminimum,
cequi répond
en moyenne à la condition 2 de 1.2..Le
développement technique
de cetteprocédure
vadépendre
de la naturede la variable à
expliquer
Y :a)
La méthode E.L.I.S.E.E.(Exploration
des Liaisons et Interactions parSegmentation
d’un EnsembleExpérimental) :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
21
Cette méthode
s’applique
dans le cas où la variable àexpliquer
Y est qua- litative(nous
la supposerons à qmodalités). Chaque
individu est ici affecté dumême
poids
-, et H estl’espace
Rq muni de lamétrique
duX2 (cf. [2]),
admet-tant sur la base
canonique
la matrice D =diag - , Pl Pq
oùPQ
est la.sommedes
poids
des individusprenant
la Q-ième modalité de Y.L’application
f fait corres-pondre
à un individu prenant la Q-ième modalité de Y(Q ~ L ,
L= {1 , 2 , ... , q})
le Q-ième vecteur de cette base de Rq .
X étant une variable
explicative quelconque
à mmodalités,
on notenkQ (k ~ K, K={1,2,...,m}, x ~ L)
le nombre d’individus de 1prenant
la modalité k de X et la modalité deY ,
et :Parmi toutes les
partitions
de 1 en deuxsous-ensembles Il
et12,
avecon cherche celle
qui
maximise p(Il , I2).
En posant :il vient
(cf. [3]) :
où
03A62
a été défini par Cramer et Lancaster(cf. [12]).
b)
La méthode A.I.D. : Celle-cis’applique
dans le casoù
Y estquantitative
unidimensionnelle : H est alors
R,
etchaque
individu i de 1 estreprésenté
par le
point
Y(i)
affecté dupoids
pi .On cherche encore la
partition {Il, I2}
de I définie comme en(2)
rendantminimum :
où
c)
Généralisation de la méthode A.I.D. au cas où Y est multidimensionnelle : H est dans ce cas Rq muni de lamétrique
de MAHALANOBIS(la
dimen- sion de Y est q >1)
de matriceA-
1 sur la basecanonique,
où A est la matricedes covariances de Y =
(Y 1 , Y2 ,
... ,Yq ).
Onnote ~.~ (
la norme de cetespace.
Chaque
individu i de 1 estreprésenté
par lepoint
Y(i)
de Rq affecté dupoids
pi(cf. [3 ]).
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
La
partition {I1, I2}
cherchée minimise alors :Remarque :
La recherchepratique
de la dichotomieoptimale {I1, I2}
de 1consiste dans tous les cas
exposés
ci-dessus à calculer les indicesappropriés
pour chacune des dichotomies
possibles.
2.2. La
segmentation
paranalyse
discriminante :Introduite par BELSON
(cf. [1]), puis
par[19],
cette méthode "S.P.A.D."s’applique
seulement au cas où Y estqualitative
à deux modalités. On construitune dichotomie des modalités de chacune des variables
explicatives
X en faisantcorrespondre
à sa k- ième modalité la modalité ~ de Y pourlaquelle nk~
estn. Q maximum
(k ~ K ; ~ ~ L ; L = {1 , 2}). Séparant
alors les modalités de Xauxquelles
on a faitcorrespondre
lapremière
modalité de Y de cellesauxquelles
on a fait
correspondre
ladeuxième,
on obtient unedichotomie {K1 , K2}
deces modalités induisant une dichotomie
{I1, I2}
de I.[ 19 ]
associe alors àchaque
variableexplicative
X un indice de discrimina- tion d défini par :et retient celle des dichotomies de 1 associée à la variable
explicative
pourlaquelle
d est maximum.III - AUTRE APPROCHE DE LA SEGMENTATION On considère
l’espace probabilisé (I, R(I) , P) ,
où : 2013 R(I)
est la tribu desparties
de1
- P est la
probabilité
sur(I, R(I))
définie par : P[{i}] =
pi , i E 1 On fait ici de lastatistique descriptive,
et l’on n’introduit cet espaceprobabilisé
associé à 1que
par commoditémathématique.
Il nes’agit
doncpas d’une structure
statistique
tellequ’on
l’entend enstatistique
inférentielle.Toute variable aléatoire réelle X de
L2 (1 , R(I), P) (que
l’ondésignera
par
L2 )
sedécomposant
defaçon unique
sur les n indicatricesli
i des{i}
n
sous la forme X
= 03A3 X(i) 1 i , L2
est un espace vectoriel réel de dimensioni= 1
n
qui
sera identifié à Rn . Lamétrique
de cet espace euclidien est définie par leproduit
scalaire :Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
22
23
C’est sur cet espace
L2,
identifié à Rn muni de lamétrique Dp,
que l’onse
placera
dorénavant pour aborder lasegmentation.
Soit j5 la sous-tribu
de R(I) engendrée
par une v.a.(variable aléatoire)
X
qualitative
à m modalités. C’est une tribu sur l’ensemble finiI, qui
estengendrée
par lapartition {G1 ,
... ,Gm}
de I. Toute v.a. réelle 63-mesurableappartient
àL2(I , J5, P)
etpeut
alors s’écrire comme une combinaison linéaire des indicatrices desGk.
On noteraXk
l’indicatrice deGk , (k
EK),
v.a.appelée parfois
"indicatrice de la k-ième modalité deX".{ Xi ,
... ,Xm}
formeune base de
L2(I, B, P),
parrapport
àlaquelle
onrepèrera
toute v.a. 63-mesurable.R emarque :
On ditparfois
que l’on a"représenté"
la variablestatistique quali-
tative X par la variable
statistique quantitative (X 1 ,
... ,Xm ),
alorsqu’on
asimplement
choisi ici une base deL2(I , j3,P).
Eneffet,
les v.a.qualitatives
étant à valeurs dans des espaces
probabilisables quelconques (non réels),
on ne s’intéresse pas aux valeurs
qu’elles
prennent, faute depouvoir
les utiliser, Le seul élément que l’onpeut
considérer est la tribuengendrée,
Si l’onchange
la
représentation
à ceniveau,
on obtient une autre base deL2 (1 , B, P),
etdonc
simplement
unchangement
derepérage
des v.a.qui
lecomposent.
Si Y est
qualitative
à qmodalités,
on considère de même les q v.a. indi- catrices des éléments de lapartition H, Hq engendrée
par Y sur I.On note
{1,
... ,Yq}
ces indicatrices.On se
place
donc maintenant dans le cas où Y estquantitative
de dimen-sion q
(q E N*), auquel
on a ramené le casprécédent,
etqui
constitue ainsi lecas le
plus général.
Y est alors(Y1 ,
... ,Yq ). Désignant
par X l’unequelconque
des variables
explicatives,
soitFx (resp. Fy )
le sous-espace vectoriel de Rnengendré par X1, X2 , ... , Xm (resp. Y1 , ... , Yq et e = li). (Fx0
estencore
L2 (I, B, P));
Le vecteur eappartenant
ainsi à la fois àFx0 (car 03A3 Xk = e)
k=l
et à
FY0,
onappelle Fx (resp. Fy )
le sous-espace vectoriel deFx (resp. Fy )
orthogonal
à e ;Fx (resp. Fy ) représente
donc.le sous-espace vectoriel des variables centrées deF Xo (resp. Fy ).
On cherche alors une v.a. de BERNOULLI de
Fx (c’est-à-dire
dutype
avec :
qui
soit normée et de distance àFy
minimum.Ce
problème
admet au moins une solutionpuisque
les v.a.X’
normées sonten nombre fini.
Ainsi,
àchaque
variableexplicative Xj
se trouve associée une(au moins)
v.a.particulière Xj
dont on connaît la distance àFy ;
on retientalors celle des
Xj,
soitX’j0, minimisant
cette distance. Il luicorrespond
unedichotomie de 1
"respectant"
les modalités deXjo (c’est-à-dire
neséparant jamais
2 individusprésentant
la même modalité deXj0).
On obtient ainsi par itérations successives un arbre
dichotomique
commedécrit en 1.2..
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
24
Remarque :
Dans le cas où la minimisation de la distance entreX’
etFy
nedonne pas une solution
unique,
on devraitthéoriquement
considérer sur le mêmeplan
les différentes dichotomies de 1correspondant
aux différentes v.a.de BERNOULLI
X’ obtenues,
et continuer laprocédure
surchaque
dichotomieséparément,
cequi
conduirait àplusieurs
arbresdichotomiques
différents et parconséquent
àplusieurs partitions optimales
différentes de I.En
pratique,
il estpréférable
de ne conserver que celle de ces dichotomies minimisant la distance deX’
àFy
àl’étape précédente (l’ensemble
des individusayant
étémodifié).
On va
développer
maintenant cetteprésentation
danschaque
casparticulier,
suivant la nature de
Y,
et montrerqu’elle englobe
les diverses méthodes desegmentation
aux moindres carrés.IV - DEVELOPPEMENTS
TECHNIQUES
ET COMPARAISON AUX ME- THODES USUELLESPour des raisons de commodités
techniques,
on commence ici pardévelop-
per le cas où Y est une v.a.
qualitative,
on étudie ensuite celui où elle estquantitative unidimensionnelle,
pour terminer par le cas où elle estquantitative multidimensionnelle,
ce casconstituant,
comme on l’adéjà
vu, le cas leplus général.
4.1. La variable à
expliquer
Y estqualitative :
Pour toute variable
explicative X,
considérons ici les deux sous-espaces vectorielsFx
etFy
deL2 (I , R(I) , P).
Soit
X’
une v.a. de BERNOULLI normée deFX.
etsoit À
le coefficient de corrélationcanonique unique
del’analyse canonique
deX’
et deFy.
Ladistance d de
X’
àF y
vérifie :Or,
onpeut
ici écrire(cf. [4]
p.140,
etplus géneralement [12]) :
Comme
d’après 2.1.a.,
on a :Il est par
conséquent équivalent
de maximiser 6D(Il , 12 )
ou de minimiserd2 ;
on voit donc que la recherche de la v.a. de BERNOULLI centrée et normée laplus proche
deFy
va conduire à la mêmedichotomie {I1 , Ij
de 1 que laméthode E.L.I.S.E.E..
La
procédure exposée
ici al’avantage
deremplacer
les notions d’indiceintragroupe
et d’indiceintergroupe (qui
ne sont pas desdistances)
par celles de distance entre éléments deL2 (I ,
R(I) , P)
cequi permet
d’utiliser des outilsmathématiques plus
efficaces. Ilapparaît
ainsiplus naturel,
comme dans beau-coup de méthodes
d’analyse
desdonnées,
de raisonner sur les variables queRevue de Statistique Appliquée, 1975 vol. XXIII N° 3
25
sur les
individus,
la transition se faisant ici commodément par les tribusengendrées.
4.2. La variable à
expliquer
Y estquantitative
unidimensionnelle :Y est ici une v.a. réelle définie sur
(1 , ci, (I), P), appartenant
donc aL2 (I,
R(I), P). Fy
est le sous-espace vectoriel deL 2
de dimension 1engendré
par la seule v.a.
Y-E (Y).
La natureparticulière
de Y permet decompléter
dans ce cas les considérations
générales
sur leproblème
de lasegmentation.
a) Aspects complémentaires
de lasegmentation :
Comme il adéjà
étévu, on
cherche,
pour chacune des v.a.X,
la v.a.X’
réelle de’BERNOULLI,
B-mesurable etnormée,
laplus proche
deFy
dansL2 (I , R(I) , P).
Il estéquivalent
de chercher à minimiser la distance deX’
à Y-E(Y)
ou la distance deX’
àFy,
cela revenant dans les 2 cas à maximiser la corrélation entreX’
et Y-E(Y).
En notant C la sous-tribu de 63
engendrée
parX’,
cela revient à chercherune sous-tribu e de B
qui
soit de BERNOULLI(engendrée
par un élément de B autre que 1 ou0),
etqui minimise :
En
effet,
pour edonnée,
la v.a. e-mesurable laplus proche
de Y estEc(Y) ,
espérance
conditionnelle à ede Y.Cela revient encore à chercher la fonction réelle mesurable f telle que
f (X), qui engendre
G donc neprend
sur 1 que deux valeursdistinctes,
rende~Y - Ef(X)(Y)~ I minimum,
donc rende le rapport de corrélation de Y etf (X)
maximum
(cf. [9] chap. 6).
La tribu e conduit à une
partition {Il , I2}
de1 ,
et on retient finalement lapartition
et la v.a. pourlaquelle ~Y 2013 Ee (Y)II
est leplus petit. Par
itérationssuccessives,
on obtient alors l’arbredichotomique
considéré en 1.2..A chacune de ses branches est associée une suite croissante de sous-tribusde
Le choix apriori
d’unerègle
d’arrêt(qui, mathématiquement, permet
de définirun
temps
d’arrêt-cf.[14] chap. II)
permet de cesser, surchaque branche,
les itérations. Cette remarque,qui apparaît
naturellementici,
n’est pas propre à ce casparticulier,
mais demeure valablequelle
que soit la nature de Y.Remarque :
Onpourrait
chercher la fonction réelle mesurable de tous lesXj
rendant1 IY - Ef(X1,..., Xp)~ minimum,
avec ou sans contraintes dutype BERNOULLI,
ou autres,Ce
type
deproblème,
deportée beaucoup plus générale,
ne sera pas abordé ici.b) Explicitation
etéquivalence
à la méthode A.LD. Si G est la sous-tribu de BERNOULLI de CD
engendrée
par lapartition {Il, I2}
de 1 associée à lapartition {Kt, K2}
deK,
la v.a. e-mesurable laplus proche
de Y est :(avec
les notations introduites en 2.1.b)).
Revue de Statistique Appliquée, 1975 vol. XXI II N° 3
26
D’après a),
oncherche
la sous-tribu6,
ou, cequi
revient aumême,
Ki
1 etK2, rendant IIY - Ee’(Y)II I
minimum.Posant W = Y -
E (Y) ,
on a :Ee(W)
=E"(Y) - E (Y),
etpar conséquent :
Comme d’autre
part I IW - Ec(W)~2
+~Ec(W)~2
=~W~2,
il est doncéquivalent
de minimiser~Y - Ec(Y)~
ou de maximiser~Ee(W)~2. Ee(W)
s’écrivant
WK1 03A3 Xk
+Wk2 03A3 Xk
et étantcentrée, puisque
Wl’est,
on
peut
écrire :WK2 = - WK1 P1 P2 ,
d’où l’on déduit :Si on
considère,
sur l’axeréel,
lesWk,
moyennespondérées
de W surGk,
on saitqu’alors
la dichotomieoptimale
est de la forme :On cherche donc C
(d’où
apriori_m - 1_dichotomies possibles) associé
à lapartition {K1 , K2 } qui
maximise -WK2 WK2 , 1 ou
encorequi
maximiseOA 1 OA2 , où A
1(resp. A2 )
est lebarycentre
de{Wk ;
k EK1}), (resp.
de{Wk ;
k EK2})
d’où la méthodepratique
de dichotomisation.Il est clair que la dichotomie obtenue est invariante par translation
ou homothétie sur Y.
La v.a.
Ec(Y)
obtenue minimiseIIY - Ee(Y)~2. Or,
enexplicitant :
C’est là la somme des indices
intragroupes de Il
et12 (cf. 2.1.b)),
etl’on retrouve
donc,
sous une nouvelleprésentation,
la méthode A.I.D..4.3. La variable à
expliquer
Y estquantitative
multidimensionnelle :A
chaque étape,
on considère une v.a.qualitative
X à mmodalités, qui engendre
la sous-tribu Bde R(I),
et la v.a. Y à valeurs dans(Rq BRq),
où
BRq désigne
la tribu des boréliens de Rq . DoncY = (Y1, ... , Yq),
et pour
tout ~ ~ L = {1, 2, appartient
àL2(I , R(I) , P). On
suppose
également
que chacune desYQ
est centrée et normée. On verra par la suite(cf.
4.3.B-a))
que cettehypothèse
n’enlève rien de sagénéralité
àcette
étude,
lasegmentation
étant invariante par cette transformation.La méthode
générale exposée
en III. nous conduit à considérer le sous-espace
Fy
deL2 engendré
par les v.a.Y1 , ... , Yq .
Ce sous-espace est de dimension q,YI,
... ,Yq
étant linéairementindépendantes (on
aura éventuel- lementsupprimé
certainesv.a.).
On cherche alors la v.a. de BERNOULLIX’, engendrant
la sous-tribu de BERNOULLI e de63’, qui
soit normée et centrée, etqui
soit laplus proche
deFy.
On va étudier tout d’abord un casparticulier, auquel
on se ramènera dans le casgénéral.
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
27
A - {Y~}~~L forme
une base orthonormée deFy :
Soit
Y’
laprojection orthogonale
deX’
surFy. Y’
est la somme desprojections orthogonales
deX’
sur chacun dessupports
deYQ ,
donc :Or,
laprojection orthogonale
deYQ
sur lesupport
deX’
étantEe(yQ),
il vient :
n
On cherche
X’,
donce,
rendant~X’
-Y’ I minimum.
Or :Cela revient donc à chercher
e,
sous-tribu de BERNOULLI deB, qui
maximise :
a) technique
derecherche
de e :On a vu en 4.2. que
YQ
étantcentrée,
où Y~K1 (resp. Y~K2) désigne
la moyennepondérée
deY~ sur I1 (resp. 12 = I - I1), partie
de 1qui engendre
e. D’où :La recherche de e se ramène donc à la recherche de la dichotomie
{K1 , K2}
de Kqui
minimise :Comme en
4.2.,
on calculera S pourchaque
dichotomie{ K 1 , K2} séparant
en deux sous-ensembles de H = Rq le nuage des centres de
gravité
des éléments Y(Gk)
de lapartition engendrée
par X sur Y(I).
b) équivalence
à lagénéralisation
de la méthode A.LD.(cf. 2.1.c))
:D’après 4.2.,
il vient :où
D~(I1) (resp. D~(I2))
est l’indiceintragroupe
de laprojection
surYQ du
nuage
Y(I1) (resp. Y (12))
depoints
de H(H,
identifiable au dual deFy,
est
appelé généralement "espace
des individus"(cf. [4]
tome 2chap. 7)).
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
28
On cherche
e, donc Il
et12 , qui
minimise :soit encore :
ou :
Comme H est muni dans ce cas de la
métrique
euclidienne de matrice unité(de façon générale,
de lamétrique
deMAHALANOBIS ;
cf. 2.1.c)),
il vient :
On cherche donc
C,
ou encore{Il, I2}, qui
minimiseD (I1 )’
+D(I2),
somme des indices
intragroupes de Il
etI2.
On aboutit donc à la même dicho- tomie que lagénéralisation
de la méthode A.I.D. au cas multidimensionnel.c) présentation équivalente
de lasegmentation :
On a vu au 4.2. que, pour Y
réelle,
lasegmentation
est, àchaque étape,
la recherche de la sous-tribu de BERNOULLI e de 63 rendant
IIY - Ee(Y)11
minimum. On
peut reprendre
cette définition àcondition,
Yappartenant
ici à(L2 )q ,
de définir unemétrique
sur(L2)q.
Dans le cas le
plus général,
on définira lamétrique
de(L2 )q
associée à unemétrique
de matrice A del’espace H,
en posant pour toutcouple (U , V)
de v.a. centrées de(L 2)q :
d’où :
Comme ici H est muni de la
métrique
euclidienne de matriceunité,
ilvient :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
29
et,
commeil vient :
q
Donc chercher e
qui, d’après a),
maximiseV ~E (Y~)~2 estéquivalent
Q=
1à chercher
e,
sous-tribu de BERNOULLIde B, qui
minimise1 JY - Ee(Y)~(L2)q,Iq.
Remarque : E e (Y) désigne
ici la v.a. à valeurs dans Rq decomposantes
(E e (Y 1 ) , ... , E e (Y q ))
généralisation
à(L2)q
del’espérance
conditionnelle de v.a. réelle.(cf. [16]).
B -
(Y~}~~L forme
une base non nécessairement orthonormée deFy :
Soit
{Z~}~~L
une base orthonormée deFy,
et M la matrice de passagede {Y~} à {Z~}.
En confondant Y et Z avec les matrices colonnes de leurscomposantes,
on peut écrire Z = MY.a)
Le sous-espaceFy engendré
par{Y~}~~L
étant confondu avec celuiengendré par { Z~}~~L,
lasegmentation
faite enprenant
Z au lieu de Y commecritère conduit au même
résultat, puisque
danschaque
cas on chercheX’,
v.a. de BERNOULLI de
Fx
laplus proche
du mêmeFy .
Defaçon générale,
la
segmentation
est invariante par transformationlinéaire, bijective
de la variableY,
ainsi d’ailleurs que partranslation, l’espace Fy
étantengendré
par les v.a.YQ - E(Y~), ~ ~ L.
D’après A,
on cherche donce,
sous-tribu de BERNOULLI de B,qui
maximise 03A3 ~Ee(Z~)~2.
Q= 1
b)
Lagénéralisation
de la méthode A.I.D.représente
les individus par lespoints Y (i)
dansH, qui
est alors muni de lamétrique
de MAHALANOBIS de matriceA -1 ,
où A est la matrice des covariances de Y. Cela revient à munirl’espace
vectoriel des v.a.,qui
est le dual duprécédent, isomorphe
à Rq etrapporté
à la base{Y~}~~L, de la métrique
de matrice A.Soient U et V deux v.a. de cet espace
vectoriel, représentées
par les matrices colonnes R et T dans labase {Y~}~~L et R’ et T’
dans labase {Z~}~~L.
Alors : et :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
30
Donc la
métrique
considérée a pourmatrice,
dans labase {Z~}~~L, MAtM,
qui
est la matrice des covariances deZ,
c’est-à-direIq,
matrice unité. Dans labase {Z~}~~L,
c’est donc lamétrique
euclidienne de matrice unité.D’après A,
on a donc :On retrouve donc encore la
généralisation
de la méthode A.I.D.. On établitde
plus
son invariance par transformations affinesbijectives
du critère Y.c)
La norme de(L2 )q
associée à lamétrique
de matriceA-
1 de H estdéfinie,
si N est la matrice colonnereprésentant
la v.a.W,
par :D’où,
en confondant encore les v.a. avec les matrices colonnes de leurscomposantes
aléatoires :or :
d’où :
et donc
Donc, d’après A,
chercher equi maximise Y ~Ee(Z~)~2 est équivalent
à chercher e
qui
minimiseD’où le résultat :
Dans le cas le
plus général,
lasegmentation
est donc larecherche
de lasous-tribu de BERNOULLI e de d3
qui
minimiseI IY - Ee(Y)~039B -1
dans(L 2)q .
..Remarque
1 : Dans le cas où Y estqualitative,
on aremarqué
que la segmen- tation nedépend
que de latribu 03B1 engendrée
parY. {Y~}~~L étant
l’ensembledes indicatrices associées à cette tribu
(indicatrices
introduites auIII),
on considère la v.a.y
de(L2 )q
decomposantes (Y1,
... ,Yq).
CommeFy,
défini au
III,
est le sous-espace vectoriel des v.a. centréesengendré
par(Y 1,...,
Y q),
on voit que la
segmentation
obtenue enprenant
pour critère Y estanalogue
à celle obtenue enprenant
pour critèrey).
Elles’obtient,
àchaque étape,
en cherchant la sous-tribu de BERNOULLI
e, de 63 qui
minimise~y1 - Ee(y1)~
dans
(L2)q-1, où y
1 est obtenue àpartir de y
ensupprimant
Yq parexemple (pour
obtenir des variables linéairementindépendantes)
et en centrant et normantRevue de Statistique Appliquée, 1975 vol. XXIII N° 3
31
les autres
YQ (Q
=1 ,
... , q -1). On peut
donc ainsigénéraliser
au cas d’un critèrequalitatif
la définition donnée enc)
ci-dessus de lasegmentation.
Remarque
2 : Cette définition fait clairementapparaître
la différence entresegmentation
etrégression :
larégression
est larecherche,
une sous-tribu e étant donnée(tribu engendrée
par une v.a. X engénéral),
de la v.a. deL2()
la
plus proche
d’une v.a. donnéeY,
cequi
conduit àEe(Y). Lorsqu’on
neconsidère que la
régression
linéaire(par exemple
enanalyse
desdonnées), L 2 (e)
estremplacé
par un autre sous-espace vectoriel(le
sous-espace engen- dré par lescomposantes
deX),
mais leproblème
reste le même. En segmen-tation,
parcontre,
c’est la tribu equ’on cherche, qui
minimise~Y 2013 Ee(Y)1I I
sous certaines contraintes.
4.4.
Remarques
sur la méthode S.P.A.D. :Cette méthode ne traite que le cas
particulier
où Y est une variablestatistique qualitative,
avec q = 2. Soient Y’ 1 etY2
les deux indicatricesobtenues,
et nk~(Q
=1 , 2 ;
k =1 ,
... ,m)
le nombred’individus, à chaque étape, présentant
la k -ième modalité de X de la ~-ième modalité de Y. Onpeut prendre
comme variablegénératrice
deFy : U = n.2 Y1 - n.1 Y2,
d’où :
La v.a.
X’
de BERNOULLI deFx qui
conduit à ladichotomie_optimale
pour la méthode
présentée
ci-dessus est obtenue en ordonnant lesUk
sur ladroite réelle et en les
séparant de façon appropriée (cf.
4.2.b)).
Comme U estcentrée,
lebarycentre
desUk
estl’origine.
Parailleurs, d’après l’expres-
sion des
Uk,
laméthode
S.P.A.D. revient à lesséparer
en le groupe desUk positifs
et celui desUk négatifs (cf. 2.2.). Or,
comme nous allons le voirsur un
exemple,
ce n’est pas là engénéral
la dichotomie àlaquelle
conduitla méthode
proposée
ici(donc
àlaquelle
conduit la méthodeE.L.I.S.E.E.).
Exemple :
Soit X à 3modalités,
et le tableau d’effectifs suivant :Nous
obtenons, à
une homothétieprès
derapport
- :
d’où le schéma :
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3
32
La méthode S.P.A.D. conduit donc à la
partition :
modalité 1 de X d’unepart,
modalités 2 et 3 d’autre part.Or,
si on revient au critère défini en 4.2.b),
il vient ici pour la dichotomieproposée
par la méthode S.P.A.D. :Pour l’autre dichotomie
possible,
on obtient :C’est donc la seconde dichotomie
qui
estoptimale, regroupant
les modalités 1 et 2 de X d’unepart,
la modalité 3 de l’autre.Du
point
de vue de lasegmentation,
les modalités 1 et 2 de X ont, relativement àY,
uncomportement plus proche
que 2 et3,
cequi
n’estplus
le cas dans une
optique purement prédictive.
Pour revenir au cas
général,
onpeut
remarquer que la méthodeproposée
dans cette étude regroupe les modalités de X les
plus proches
au sens de lamétrique
duX2 (la métrique
surL2 correspondant ici,
comme enanalyse
des
correspondances,
à lamétrique
duX2
-cf.[4]
tome3, chap. 14).
La méthode S.P.A.D. est donc
optimale
comme méthode deprévision (au
sens BAYESIEN - cf.[19] Chap. A2),
mais non comme méthode de seg- mentation.Cela
rejoint
diverses remarques de BELSON.(cf. [1]).
V - APPROXIMATIONS POSSIBLES DE LA METHODE PROPOSEE . Ces
approximations
ont pour but de fournir unesimplification
de laméthode
exposée
auxparagraphes
III etIV,
essentiellement pour les cas où des donnéestrop importantes
nepermettraient
pas de traiter cette méthodeavec des moyens limités en calcul
automatique,
encore que sontraitement numérique
neprésente généralement
pas de difficulté sur les ordinateurs actuels.Le
principe
de cesapproximations
est deremplacer
la variable àexpli-
quer Y par un "résumé
optimal"
en fonction de X. Ellespeuvent
ainsi per- mettre de traiter le cas où Y estquantitative
multidimensionnelle en ne dis-posant,
parexemple,
que des programmes traitant le cas d’une variable àexpliquer
unidimensionnelle.5.1. Première
approximation :
Elle se fait en deux
étapes :
a)
Y étant à valeurs dans Rq(cas
leplus général),
pourchaque
variableexplicative X,
on cherche lecouple (X* , Y*)
deFx
xFy,
tel que :Y* soit à distance minimum de
Fx,
avec~Y*~ = 1 ;
Revue de Statistique Appliquée, 1975 vol. XXIII N° 3