• Aucun résultat trouvé

Classification factorielle hiérarchique optimisée d'un tableau de mesures

N/A
N/A
Protected

Academic year: 2022

Partager "Classification factorielle hiérarchique optimisée d'un tableau de mesures"

Copied!
35
0
0

Texte intégral

(1)

CLASSIFICATION FACTORIELLE HI´ ERARCHIQUE OPTIMIS´ EE D’UN TABLEAU DE MESURES

Jean-Jacques DENIMAL

1

R´ESUM´E

L’analyse d’un tableau de mesures est g´en´eralement bas´ee sur l’utilisation de l’analyse en composantes principales et de techniques de classification appliqu´ees aux lignes et aux colonnes du tableau. Le d´epouillement des r´esultats g´en´er´es par ces analyses et surtout leur synth`ese repr´esentent souvent pour l’utilisateur un travail long et p´enible principalement lorsque les dimensions du tableau sont ´elev´ees. La m´ethodologie propos´ee dans cet article permet de construire conjointement les axes factoriels et les noeuds des hi´erarchies, facilitant ainsi leurs interpr´etations. Des

´etapes d’optimisation et d’´elagage permettent d’obtenir les meilleures hi´erarchies possibles restreintes `a leurs noeuds significatifs. Un exemple d’application est

´egalement propos´e en fin d’article.

Mots-cl´es : Classification hi´erarchique, Optimisation, Elagage, Validation crois´ee, Test de permutation, Plans factoriels.

ABSTRACT

The analysis of an ordinary table crossing units and variables is generally obtained from the use of different statistical techniques : Principal Component Analysis, Classifications applied to rows and columns of the table. When the dimensions of the table become large, the study of all the results given by these procedures and more particularly their synthesis may represent a long and tedious work. In the methodology proposed in this paper, factorial axes and hierarchy nodes are jointly built , making easier their interpretations. Optimization and pruning techniques allow us to obtain the best possible hierarchies restricted to their significative nodes.

An application of the methodology to Russett data is proposed at the end of the paper.

Keywords : Hierarchical classification, Optimization, Pruning techniques, Factorial representations, Cross-validation, Permutation test.

1. Universit´e des Sciences et Technologies de Lille1, e-mail : jean-jacques.denimal@univ- lille1.fr

Journal de la Soci´et´e Fran¸caise de Statistique, tome 148, n2, 2007

(2)

1. Introduction

L’objet de cet article n’est pas uniquement de fournir une nouvelle m´ethode de classification mais d’unifier dans une mˆeme approche les diff´erentes analyses r´ealis´ees classiquement sur un tableau de mesures afin d’extraire d’une mani`ere rapide et ais´ee l’information significative contenue dans un tableau de mesures.

La d´emarche propos´ee permettra de r´ealiser rapidement la synth`ese des r´esultats g´en´er´es par les repr´esentations factorielles et par les classifications des individus et des variables.

Nous rappelons ci-dessous la suite classique des analyses r´ealis´ees sur un tableau de mesures :

a) Analyse en Composantes Principales du tableau : (Rao, 1964).

b) Classification des observations obtenue soit par une technique hi´erarchique (Benzecri, 1976 ; Jambu et al., 1978) soit une technique de partitionne- ment : (Diday, 1979).

c) Classification des variables : (Varclus, SAS ; Lerman, 1991 ; Qannariet al., 1999).

d) Aides `a l’interpr´etation ´etablissant les relations existant entre les axes factoriels extraits, les classes-lignes et colonnes (Jambu et al., 1978) ; Lerman, 1979 ; Benzecriet al., 1980).

Concernant les ´etapes b) et c), le couple des partitions sur les lignes et les colonnes du tableau peut ˆetre d´etermin´e ´egalement par des m´ethodes de classification crois´ee (Govaert, 1983), d´eriv´ees des nu´ees dynamiques de Diday.

Des g´en´eralisations introduisant un mod`ele probabiliste (mod`ele de m´elange) peuvent ˆetre aussi utilis´ees (Celeux, 1988 ; Bencheikh, 1992 et 2004).

La m´ethode propos´ee dans cet article poursuit trois objectifs principaux : Le premier objectif est d’harmoniser les r´esultats de l’analyse factorielle et ceux des classifications.

En effet, plus les dimensions du tableau deviennent ´elev´ees, plus la synth`ese des diff´erents r´esultats g´en´er´es par les analyses des quatre ´etapes pr´ec´edentes peut s’av´erer laborieuse.On concoit alors qu’une m´ethodologie qui ferait en sorte que les axes factoriels et les noeuds des hi´erarchies soient construits conjointement faciliterait grandement la tache de l’utilisateur.Cette id´ee n’est pas nouvelle.Sous le nom de«correspondances hi´erarchiques», Benzecri (1976) et Cazes (1984) proposent un ensemble de tableaux th´eoriques pour lesquels les axes factoriels extraits sont en compl`ete concordance avec les noeuds d’une hi´erarchie donn´ee `a priori.

Le second objectif est de d´efinir un crit`ere dont l’optimisation fournira la meilleure hi´erarchie possible.

En effet, l’utilisation des m´ethodes de classification hi´erarchique oblige souvent l’utilisateur `a am´eliorer la partition obtenue apr`es coupure de l’arbre par un algorithme d’´echange ou par des it´erations `a centres mobiles (proc´edure de consolidation dans le logiciel SPAD).La cons´equence est que l’on obtient une partition et que le caract`ere hi´erarchique est perdu.Dans la m´ethodologie que

(3)

l’on propose, une phase d’optimisation permettra par un processus it´eratif du type k-means d’am´eliorer la hi´erarchie elle mˆeme.

Le dernier objectif est d’assurer la signification statistique des noeuds et par cons´equent des axes factoriels retenus.La d´etermination du nombre d’axes factoriels `a retenir ainsi que la coupure de chacun des arbres obtenus sont r´ealis´ees par des techniques de validation crois´ee (hi´erarchie des variables) ou par des tests de permutations (hi´erarchie des individus).

La m´ethodologie propos´ee se d´ecompose en 8 ´etapes : – Classification hi´erarchique initiale des variables (´Etape 1).

– Optimisation de cette hi´erarchie par une technique du type k-means (´Etape2).

– ´Elagage de l’arbre obtenu par une technique de validation crois´ee (´Etape 3).

– Repr´esentations factorielles des individus et des variables dans diff´erents plans factoriels en totale association avec les noeuds de la hi´erarchie des variables (´Etape 4).

– Classification hi´erarchique initiale des individus en totale association avec les noeuds de la hi´erarchie des variables (´Etape 5).

– Optimisation de cette hi´erarchie par une technique du type k-means (´Etape 6).

– ´Elagage de l’arbre obtenu par l’utilisation de tests de permutations (´Etape 7).

– Interpr´etation des classes d’individus obtenues par l’utilisation de tests de permutations (´Etape 8).

Chacune de ces 8 ´etapes est d´etaill´ee dans la suite de l’article.Un exemple d’application de la m´ethode aux donn´ees de Russett (1964) est ensuite propos´ee.

2. Hi´ erarchie initiale des variables (´ Etape 1, Denimal, 2001)

On consid`ere un tableauY =

yij

j∈Ji∈I

croisant un ensembleI denindividus et un ensembleJ depvariables suppos´ees centr´ees et r´eduites.On se propose de construire une classification ascendante hi´erarchique sur l’ensembleJ des variables.

Chaque individui sera muni d’un poids pi v´erifiant les conditions usuelles : pi>0 et

i∈Ipi= 1.

La classification propos´ee repose sur l’algorithme g´en´eral de construction d’une classification ascendante hi´erarchique, le crit`ere d’agr´egation mesurant l’´ecart entre deux classes ´etant ´egal `a la seconde valeur propre issue de l’analyse en composantes principales (ACP) du tableau d´efini par les deux variables repr´esentatives de ces deux classes de variables.

(4)

Une s´erie de vecteurs de coefficients deRp,a0, a1, a2, ..., ap1,sera ´egalement d´efinie le long des (p1) ´etapes de l’algorithme.

Ce dernier vecteur ap1, not´e simplement a dans la suite, permettra de recalculer les autres vecteursak avec 0kp−2.

Ce vecteurajouera un rˆole important car toute classeq de la hi´erarchie sera repr´esent´ee par le vecteurzq =

jq

aj

jq

(aj)2

.yj. Une phase d’optimisation

de cette hi´erarchie initiale (´Etape 2) sera, par la suite, engag´ee recalculant de mani`ere it´erative ce vecteur a de fa¸con `a ce que globalement l’ensemble des classes de la hi´erarchie ait la meilleure variable repr´esentative possible.

D’autre part, comme chaque classe q admet une variable repr´esentative d´efinie par la formule donn´ee ci-dessus, on en d´eduit que, pour chaque noeud (q1, q2), les variables repr´esentatives des trois classes q1, q2, q1∪q2, sont toujours coplanaires.Il sera alors possible d’obtenir des repr´esentations planes visualisant individus ou variables (´Etape 4).Une interpr´etation graphique du noeud pourra donc ˆetre men´ee facilement.

De mani`ere plus pr´ecise, la proc´edure de construction de la hi´erarchie initiale est la suivante :

2.1 Algorithme de construction Etape 0´ : On posea0=

a0j

j∈J telle quea0j = 1∀j∈J.

Etape 1´ : Pour chaque couple de variables (yj1, yj2), on effectue l’ACP du tableau `a 2 colonnes form´e par ces deux variables.Les deux variables ´etant standardis´ees, les ACP de cette ´etape sont donc norm´ees.Cette analyse g´en`ere deux valeurs propresλ1(j1, j2)λ2(j1, j2) telles que :

λ1(j1, j2) =

i∈Ipi α1yj1i +β1yij2 2

=var(α1yj1+β1yj2) avecα21+β12= 1.

λ2(j1, j2) =var(yj1) +var(yj2)−λ1(j1, j2) =var(β1yj1−α1yj2)

On d´etermine ensuite le couple (j1, j2) pour lequelλ2(j1, j2)est minimum.

On en d´eduit alors la s´erie de coefficients a1.



a1(j1) =α1

a1(j2) =β1

a1(j) =a0(j) ,j=j1 ,j =j2

L’indice du premier noeudn1= (yj1, yj2) vaut :ν(n1) =λ2(j1, j2)

La variable repr´esentative de ce noeud n1est : z{j1,j2} = a1(j1).yj1 + a1(j2).yj2.

Etape k´ : (k [2, p1]).Chaque classe q obtenue apr´es (k1) ´etapes est repr´esent´ee par la variable : zq =

jq

ak−1(j).yj.Pour chaque couple de variables

zq1, zq2

, on r´ealise l’ACP non norm´ee du tableau associ´e.Les deux valeurs propres extraites sont not´ees :λ1(q1, q2)λ2(q1, q2).

(5)

λ1(q1, q2) =

i∈Ipi.k.ziq1+βk.ziq2]2=var(αk.zq1+βk.zq2) avecα2k+βk2= 1 λ2(q1, q2) =var(zq1) +var(zq2)−λ1(q1, q2) =var(βk.zq1−αk.zq2).

On d´etermine alors le couple

zq1, zq2

pour lequelλ2(q1, q2) est minimum.

On d´eduit alors :

– une nouvelle s´erie de coefficientsak = akj

jJ telle que



akj =αk.akj1, j∈q1 akj =βk.ak−1j , j∈q2

akj =akj1, sinon

– l’indice du nouveau noeud form´e :ν(nk) =λ2(q1, q2).

– La variable representative la classe q1 ∪q2 : zq1∪q2 =

jq1q2

akjyj = αk.zq1+βk.zq2.

Par d´efinition, la s´erie ap1 obtenue lors de la derni`ere ´etape de l’algorithme sera simplement not´ee :a= (aj)jJ.Autrement dit,∀j ∈J, aj=ap−1j . La variable repr´esentative de la classe compl`ete J , zJ =

jJ

aj.yj, a donc la mˆeme interpr´etation que la premi`ere composante principale issue de l’ACP du tableau initialY.

Cons´equences : Chaque noeud de la hi´erarchie regroupant deux classes q1 et q2 de variables est d´efini `a partir de l’ACP non norm´ee du tableau form´e par les deux variables repr´esentatives zq1et zq2.Le premier axe factoriel est dirig´e par la variable repr´esentativezq1q2de la r´eunionq1∪q2.Nous verrons plus loin que les trois variables zq1, zq2, zq1∪q2 peuvent toujours ˆetre choisies de fa¸con `a ce qu’elles soient positivement corr´el´ees.

Ce premier axe s’interpr´ete donc comme un axe de compromis entre les deux classes q1 etq2. Le deuxi`eme axe sera dirig´e par la variablez(q1,q2) = βk.zq1−αk.zq2 et s’interpr`ete comme un axe visualisant les diff´erences entre les deux classes q1 etq2.

L’ensemble desnindividus peut ˆetre ´egalement repr´esent´e dans ce plan et se r´epartit suivant ces deux axes.

FIG1. — Plan factoriel associ´e au noeud (q1, q2).

(6)

2.2. Propri´et´es li´ees au vecteur a

PROPRI ´ET ´E 1.—∀k∈[1, p1],q´etant une classe form´ee `a l’´etape k,

a)

jq

akj2

= 1 En particulier,

jJ

[aj]2= 1 b)∀j∈q, akj =εq. aj

j∈q

[aj]2

o`uεqvaut+or−1et est ind´ependant du choix de la variable j dans la classe q.

D´emonstration

a)Le r´esultat est obtenu par r´ecurrence :

– Pour le premier noeudn1={j1, j2}, on a :

j∈n1

a1j2

= (α1)2+ (β1)2= 1 Les autres classes q={j}sont des singletons.Donc,

jq

a1j2

= 1, (puisque a1j =a0j= 1)

– Si la propri´et´e est vraie jusqu’`a l’´etape k-1, et si q1 et q2 sont les deux classes qui fusionnent au niveauk, on a :

jq1q2

akj2

= (αk)2.

jq1

ak−1j 2

+ (βk)2.

jq2

ak−1j 2

= (αk)2+ (βk)2= 1 Pour toute classeqdiff´erente deq1∪q2 ,

j∈q

akj2

=

j∈q

akj12

= 1.

Le cas particulier

j∈J(aj)2= 1 est obtenu quandk=p−1.

b)∀k∈[1, p1], etq une classe obtenue au niveauk.

De la construction de la hi´erarchie, on d´eduit l’existence d’un r´eel Γq d´epen- dant uniquement deqtel que :

∀j∈q, aj= Γq.akj (o`uaj=apj1).

En utilisant la propri´et´e pr´ec´edente a), on obtient :

jq

(aj)2= (Γq)2.

jq

akj2

= (Γq)2. D’o`u, Γq =εq.

jq

(aj)2 avecεq=∓1.

et finalement,∀j∈q, akj = aj

Γq =εq.aj jq

(aj)2 .

(7)

PROPRI ´ET ´E2.— ∀k∈[1, p1],chaque classeqform´ee `a l’´etapekpeut ˆetre repr´esent´ee par la variablezq =

j∈q

aj

j∈q

(aj)2 .yj.

D´emonstration.— Par construction, la variable repr´esentative de la classeq est :

j∈qakj.yj=εq.

j∈q

aj

jq

(aj)2 .yj.

(La derni`ere ´egalit´e s’obtient par l’aplication de la propri´et´e 1b) ci-dessus).

La variable repr´esentative de la classe q = (q1, q2) est par d´efinition la premi`ere composante principale issue d’une ACP particuli`ere.Comme le signe qui lui est attribu´e est arbitraire, la variablezq =

jq

aj

jq

(aj)2

.yj peut ˆetre

choisie comme variable repr´esentative de la classeq.

Cons´equences et d´efinition :Ainsi, `a l’issue de l’algorithme de construction de la hi´erarchie, le vecteuraest obtenu et chaque classeqpeut ˆetre repr´esent´ee par la formule zq =

j∈q

aj

j∈q

(aj)2

.yj (Propri´et´e 2).Par d´efinition, dans la

suite de l’article, chaque classe qsera repr´esent´ee par cette variablezq.Dans ces conditions, siq est un singleton {j}, on a :zq = aj

|aj|.yj. Autrement dit, yj sera muni du signe du coefficientaj.

Ce syst`eme de variables repr´esentatives v´erifient alors la propri´et´e suivante

PROPRI ´ET ´E 3.—∀k∈[1, p1], q1 etq2 ´etant les deux classes fusionnant `a l’´etape k,

a) On a :



α2k = aq1

aq1+aq2

β2k= aq2

aq1+aq2

o`u aq =

j∈q[aj]2. b) Les variables repr´esentatives

zq1=

j∈q1

aj

j∈q1

(aj)2

.yj et zq2 =

j∈q2

aj

j∈q2

(aj)2

.yj sont toujours positi-

vement corr´el´ees D´emonstration

a) Les variables repr´esentatives des classes q1, q2, q1∪q2 sont choisies en utilisant la propri´et´e 2.

(8)

En cons´equence,

zq1q2=

j∈q1∪q2

aj

j∈q1∪q2

(aj)2 .yj=

jq1

(aj)2

j∈q1∪q2

(aj)2.zq1+

jq2

(aj)2

j∈q1∪q2

(aj)2.zq2.

Donc,zq1q2 =αk.zq1+βk.zq2 avecα2k= aq1

aq1+aq2 etβk2= aq2 aq1+aq2. b) En utilisant ce dernier r´esultat, on peut ´ecrire : zq1q2 =αk.zq1+βk.zq2 avecαk0 etβk 0. On consid`ere cette fois l’ACP r´ealis´ee au niveaukde la hi´erarchie comme celle du tableau compos´e des deux variables zq1 et zq2. Dans cette ACP, les deux vecteurs axiaux deR2associ´es aux valeurs propres λ1λ2 sont :u1k, βk) etu2k,−αk).En cons´equence, les coordonn´ees de zq1 et zq2 sur les deux axes factoriels sont respectivement : (

λ1αk,√ λ2βk) et (

λ1βk,−√

λ2αk). La covariancecov(zq1, zq2) ´etant le produit scalaire de ces deux vecteurs pour la m´etrique des poids, on d´eduit :

cov(zq1, zq2) =√ λ1αk.√

λ1βk +

−√ λ2βk.√

λ2αk

= (λ1−λ2).αkk. La covariance est donc positive ou nulle.

2.3. Interpr´etation du crit`ere d’agr´egation utilis´e

PROPRI ´ET ´E4.—Sink est le noeud obtenu au niveaukregroupant les classes q1 etq2,l’indice de ce noeud peut encore se mettre sous la forme suivante : ν(nk) = aq1.aq2

aq1+aq2.

i∈Ipi

j∈q1

aj

aq1.yj

j∈q2

aj

aq2.yj 2

avecaq=

j∈q[aj]2,q∈ {q1, q2}.

D´emonstration. — Ce r´esultat se d´eduit facilement de l’´egalit´e ν(nk) = var(βk.zq1−αk.zq2), o`uβk et αk sont remplac´es par leurs valeurs donn´ees `a la propri´et´e 3.

En effet, les deux r´eelsβk et αk sont toujours positifs, compte tenu du choix de la variable repr´esentative de chaque classe q(Propri´et´e 2).On peut donc

´ecrire (Propri´et´e 3) : βk.zq1 =

aq2

aq1+aq2.

jq1

aj

√aq1.yj

etαk.zq2 =

aq1

aq1+aq2.

jq2

aj

√aq2.yj

βk.zq1−αk.zq2 =

aq1.aq2 aq1+aq2.

jq1

aj

aq1.yj

jq2

aj aq2.yj

Cons´equence:

R|I|´etant muni de la m´etrique des poidspides individusi(i∈I), on consid`ere le nuage deR|I|compos´e des pointstj= yj

aj,j∈J,munis des poidsmj =a2j. Dans ce cadre, l’indice d’agr´egation du noeud nk s’´ecrit alors :

(9)

ν(nk) = mq1.mq2

mq1+mq2.tq1−tq22o`umq =

jq

mj ettq =

jq

mj

mq.tj.

Par cons´equent, si les coefficientsaj ´etaient connus au d´ebut de l’algorithme de construction de la hi´erarchie, celle-ci serait obtenue par l’application de la m´ethode classique de Ward appliqu´ee aux points tj munis des poids mj.L’ensemble des propri´et´es v´erifi´ees par le crit`ere de Ward sera ´egalement v´erifi´e par la pr´esente classification.

PROPRI ´ET ´E 5.—

a) La s´erie des indices d’agr´egation (nk)/1kp−1} est croissante.

Autrement dit,la hi´erarchie ne pr´esentera pas d’inversions.

b)ν(np−1)var(

j∈Jajyj)o`u le second membre repr´esente la variance de la variable repr´esentative de la classe compl`ete.

c) p=

jJ

var yj

=var(

jJ

aj.yj) +

p1 k=1

ν(nk)

D´emonstration

a)La propri´et´e a) est une propri´et´e classique du crit`ere de Ward.

b)On sait que sinest un noeud regroupant les deux classesqet q, on a : ν(n) =λ2(q1, q2) =var

zq1

+var(zq2)−λ1(q1, q2)

En cons´equence, siq1 etq2 sont les deux classes fusionnant au dernier niveau k=p−1, on a :

ν(np1) =var(zq1) +var(zq2)−var(

j∈Jaj.yj) Comme par construction on a : var(zq1) var(

j∈Jaj.yj) et var(zq2) var(

j∈Jaj.yj),

on en d´eduit : ν(np−1)var(

j∈Jaj.yj).

c) On consid`ere le nuage de R|I| compos´e des points tj = yj

aj, j J, munis des poids mj = a2j de la cons´equence expos´ee ci-dessus.Dans le cadre du crit`ere de Ward, on sait que la somme des indices des noeuds redonne l’inertie totale, `a savoir dans ce cadre

jJ

mjtj−t2avect=

jJ

mj.yj aj =

jJ

aj.yj. L’application du th´eor`eme de Huyghens nous permet d’´ecrire :

j∈Jmjtj2=

j∈J mjtj−t2+t2.En cons´equence, la somme des indices des noeuds vaut :

j∈Jmjtj2−t2=

j∈Jvar yj

−var(

j∈Jaj.yj).

(10)

Remarque 1.— La diff´erence entre la somme des variances

j∈Jvar yj

et la variance var

jJ

aj.yj

de la variable repr´esentative de la classe compl`ete repr´esente la perte de variance lorsque lespvariables initiales sont remplac´ees par cette variable repr´esentative.La propri´et´e pr´ec´edente montre que cette perte de variance se d´ecompose sur les noeuds de la hi´erarchie.

Remarque 2.— Dans le cadre du crit`ere de Ward, des techniques particuli`eres permettant l’acc´el´eration de la construction de la hi´erarchie ont ´et´e propos´ees : La technique des graphes r´eductibles (Bruynhooge 1978) ou la technique des voisins r´eciproques (Juan, 1982).En cons´equence, ces deux approches peuvent ˆetre ´egalement appliqu´ees dans ce cadre.Ce qui permet de classer rapidement un grand nombre de variables.La m´ethode des graphes r´eductibles a ´et´e appliqu´ee dans le logiciel mettant en oeuvre la technique expos´ee dans cet article.

2.4. Base orthonorm´ee deRp associ´ee `a la hi´erarchie

DEFINITION´ et PROPRI ´ET ´E6.—Soita= (aj)jJ un vecteur deRp etH une hi´erarchie surJ.

On consid`ere le syst`eme suivant depvecteurs

e1J, e2J, ...., epJ

deRp : ∀k [1, p1], si nk = (q1, q2) repr´esente le noeud obtenu `a l’´etape k et fusionnant les deux classesq1andq2,on pose :

ekJ(j) =











−βk.ak−1j =

aq2

aq1.(aq1+aq2).aj, j∈q1 αk.ak−1j =

aq1

aq2.(aq1+aq2).aj, j∈q2 0, ailleurs

∀j∈J, epJ(j) =aj.

Dans ces formules, la notationaq pour une classeqsignifieaq =

jq

a2j, (q=q1 ouq2).

On montre facilement queBJ=

e1J, e2J, ...., epJ

est une base orthonorm´ee de Rp, celui-ci ´etant muni de la m´etrique euclidienne classique.

On consid`ere, `a pr´esent, la hi´erarchie initiale construite pr´ec´edemment sur J et ale vecteur de coefficients associ´e.On d´eduit alors facilement la propri´et´e 7 suivante ainsi que sa cons´equence.

PROPRI ´ET ´E 7.—Soit Fk(i)la coordonn´ee du vecteur yi repr´esentant l’indi- viduidu tableau initialY sur le vecteur de baseek.

a) ∀k∈[1, p1],Fk(i) =−βk.zq1i +αk.ziq2=znik

o`u nk = (q1, q2) repr´esente le noeud obtenu au niveau k et o`u z(q1,q2) repr´esente la deuxi`eme composante principale issu de l’ACP d´efissant le noeud q= (q1, q2).

(11)

b)Fp(i) =

j∈Jaj.yji Cons´equences

En utilisant la base orthonorm´eeBJ =

e1J, e2J, ...., epJ

,on peut ´ecrire :

∀i∈I, yi= p k=1

Fk(i).ekJ

Ce qui s’´ecrit encore :∀j∈J,yj= p k=1

ekj.Fk=aj.Fp+

p1 k=1

ekj.znk

Ainsi, chaque variable yj se d´ecompose sous la forme d’une combinaison lineaire de la variable repr´esentative de la classe compl`eteJ et des secondes composantes principales des ACP d´efinissant chaque noeud.

De plus,∀k∈[1, p1], var(znk) =λ2(nk) =ν(nk)

o`unkest le noeud form´e au niveauket o`uλ2(nk) etν(nk) sont respectivement la seconde valeur propre de l’ACP r´ealis´ee `a ce niveau et l’indice du noeud correspondant.

D’apr´es la propri´et´e 5, on a : var(Fp) var(znp−1)var(znp−2) ...

var(zn1)

Ces in´egalit´es peuvent s’interpr´eter comme traduisant l’importance d´ecrois- sante des variables intervenant dans la combinaison lin´eaire d´efinissant yj. Cette suite d´ecroissante de variances s’interpr´ete aussi comme la suite des inerties projet´ees du nuage des individus sur les vecteursepJ, epJ1, ..., e1J.

3. Optimisation et ´ elagage de la hi´ erarchie des variables

La phase d’optimisation de la hi´erarchie initiale a pour but de recalculer le contenu des classes et le vecteur de coefficientsa= (aj)jJ de fa¸con `a ce que la variable repr´esentative zq =

j∈q

aj

j∈q

(aj)2

.yj de chaque classe q soit de

variance maximum.

3.1. Optimisation de la hi´erarchie des variables (´Etape 2)

Une hi´erarchie peut ˆetre vue sous la forme d’une succession de partitionsP0, P1, . . . Pp−1,o`uP0 etPp−1 sont respectivement la partition des singletons et la partition compos´ee de la seule classe J.Chaque partitionPk correspond `a un niveau de la hi´erarchie mesur´e par l’indiceν(k) du noeudnk form´e `a ce niveau et obtenu lors de l’´etape de la hi´erarchie initiale.

Le crit`ere que l’on se propose de maximiser est : Q=p−1

k=1

ν(k).

q∈Pk

var(zq) avecaq=

j∈q(aj)2

(12)

et zq =

j∈q

aj

j∈q

(aj)2

.yj=

j∈q

aj

√aq.yj

ν(k) s’interpr´ete comme l’importance (ou«poids») de la s´eparation r´ealis´ee au niveauk consid´er´e.

Remarques :

1) Les poids ν(k) des diff´erents niveaux, ´egaux aux indices des noeuds de la hi´erarchie initiale, resteront constants lors de la phase d’optimisation.Leur rˆole est de favoriser les niveaux les plus hauts qui marquent les principales s´eparations.

2) Pour la classe compl`ete q = J obtenue `a l’´etape p−1, d´eterminer a = (aj)jJ tel que var(zq) soit maximum sous la contrainte

j∈Ja2j = 1 revient `a rechercher le vecteur propre de la matrice tY.Y associ´e `a la plus grande valeur propre (ACP de Y).

3) Pour chaque classeqde variables, on noteYq la matrice de dimensions (n, p)

´egale `aY `a l’exception des colonnes associ´ees aux variables n’appartenant pas

`

a qqui sont remplac´ees par 0.

On peut alors ´ecrire Q sous la forme : Q=

p1 k=1

ν(k).

q∈Pk

(

ta.tYq.Yq.a

ta.Iq.a )

o`uIq est une matrice diagonale telle queIq(j, j) =

1, j∈q 0, ailleurs PROPRI ´ET ´E 8.—∀k∈[1, p1],on a:

q∈Pk

var(zq) =p−

q∈Pk

j∈qa2j yj

aj

j∈q

aj

aq..yj

2

D´emonstration. —∀q∈ Pk,on consid`ere le sous nuageNqcompos´e des points yj

aj ,j∈q, munis des poidsa2j: Nq =

yj aj, a2j

/ j∈q

En appliquant le th´eor`eme de Huyghens, on peut ´ecrire, avecaq =

jq

(aj)2:

jq

a2j yj

aj

2=

jq

a2j yj

aj

jq

a2j aq.yj

aj

2

+aq.

jq

a2j aq.yj

aj

2

Commeyj2=var(yj) = 1, on d´eduit que : Card(q) =

j∈qa2j yj

aj

j∈q

aj aq.yj

2

+

j∈q

aj

√aq.yj

2

(13)

En sommant surq∈ Pk, on a finalement :

p=

q∈Pk

j∈qa2j yj

aj

j∈q

aj

aq.yj

2

+

q∈Pk

var(zq)

Cons´equences :

1) La quantit´eQ`a maximiser devient donc : Q=

p−1

k=1

ν(k)

!

.p−p−1

k=1

ν(k)

q∈Pk

jq

a2j yj

aj

jq

aj aq.yj

2

Q=

p1 k=1

ν(k)

!

.p−p1

k=1

ν(k)

q∈Pk

jq

a2j yj

aj −√1 aq.zq

2 MaximiserQ´equivaut `a minimiserQ =

p−1

k=1

ν(k)

q∈Pk

jq

a2j yj

aj −√1 aq.zq

2 2) La quantit´eQest donc major´ee par

p−1

k=1

ν(k)

!

.p, et donc parp2.

3) ∀j∈J,on poseqj(k) la classe de la partitionPk contenantj, la quantit´e Q s’´ecrit encore :

Q =

jJ

a2j. p1

k=1

ν(k). yj

aj −√a1qj(k).zqj(k) 2

Processus d’optimisation

Ce processus recherche une hi´erarchie surJet un vecteuraassoci´e maximisant la quantit´eQ.

Ce processus se traduit par la succession de trois ´etapes appel´ees ci-dessous agr´egation ou affectation :

– ´Etape d’agr´egation 1

La hi´erarchie sur J ´etant fix´ee, on recherche un vecteur a maximisant Q sachant que

jJ

a2j = 1.

Il s’agit donc de rechercher un vecteuratel que (voir remarques 3) ci-dessus) : Q=

p−1

k=1

ν(k).

q∈Pk

(

ta.tYq.Yq.a

ta.Iq.a ) soit maximum avec la contrainte

jJ

a2j = 1.

Ce probl`eme d’optimisation est trait´e en annexe.

– ´Etape d’affectation

Le vecteur a ´etant fix´e, on recherche la meilleure hi´erarchie associ´ee.On utilisera le fait que maximiser Q ´equivaut `a minimiser Q.Cette ´etape dite d’affectation peut s’interpr´eter comme celle d’une proc´edure de type k-means.

Afin de simplifier les notations employ´ees, nous supposerons que les classes terminales de la hi´erarchie initiale consid´er´ee sont constitu´ees des singletons de la partitionPo.A chaque classe terminaleq={j}de la hi´erarchie initiale, on

(14)

peut associer une suite de noyaux constitu´ees des (p1) classes des partitions P1, . . . Pp1contenantq. Nous noterons alors :

Nj ={qj(k),1kp−1} l’ensemble des noyaux associ´es `a la variablej.

NJ ={Nj/j∈J}

La quantit´eQ `a minimiser s’´ecrit (voir Cons´equences 3) ci-dessus) :

Q =

jJ

a2j. p−1

k=1

ν(k). yj

aj −√ 1

aqj(k).zqj(k) 2

Pour chaque variablej ∈J, on recherche, parmiNJ,la suite de noyaux N ={q(k),1kp−1} minimisant

p−1

k=1

ν(k). yj

aj −√1

aq(k).zq(k) 2

. La variablej est alors affect´ee `a cette suite de noyaux.

Une nouvelle hi´erarchie surJ est ainsi construite.La succession des partitions associ´ees sera not´ee :

P0,P1, ...Pp1,o`uP0 etPp1sont respectivement la partition des singletons et la partition compos´ee de la seule classeJ.

– ´Etape d’agr´egation 2 :

A l’issue de l’´etape d’affectation, la quantit´` eQ `a minimiser s’´ecrit : Q =

p1 k=1

ν(k)

q∈Pk

j∈q

a2j yj

aj −√1 aq.zq

2 o`u qest l’ancien noyau associ´e `a la nouvelle classe q.

Par l’application du th´eor`eme de Huyghens, on minimise `a nouveau Q en rempla¸cant1

aq.zqpar le centre de gravit´e1

aq.zq =

jq

a2j aq.yj

aj.On obtient alors :

Q =

p1 k=1

ν(k)

q∈Pk

j∈q

a2j yj

aj −√1 aq.zq

2

Ces partitionsP0,P1, . . . Pp−1 d´efinissent un nouvel ensembleNJ permettant de relancer l’´etape d’agr´egation 1.

Crit`ere d’arrˆet :

Le processus s’arrˆete d`es que le rapport Qt+1−Qt

Qt devient inf´erieur `a un certain seuil, Qt (respectivement Qt+1) ´etant la valeur de Q `a l’it´eration t (respectivement t+ 1).Dans le logiciel, ce crit`ere est appliqu´e `a l’issue de l’´etape d’agr´egation 1.

Remarque.— L’indice d’un noeudn= (q1, q2) ´etait d´efini dans la hi´erarchie initiale par la quantit´e :var

zq1

+var(zq2)−var zq1q2

. Il est possible qu’apr´es la phase d’optimisation, les valeurs de cet indice, rang´ees du sommet vers le bas de la hi´erarchie, ne forment plus tout `a fait une suite d´ecroissante et

Références

Documents relatifs

N'est- il pas nécessaire et judicieux que soit menée une construction de nouveaux indicateurs et/ou l'amélioration de ceux utilisés en vue d'une plus grande souplesse à même de

En 2000, la Suisse a versé 479,5 millions de francs de contributions multilaté- rales dans le système de l ' O N U , y compris les versements aux institutions financières de

Dossier soumis à un jury pour la délivrance du certificat Cléa, obtenu dès lors que les 7 domaines de compétences sont validés. En cas de validation incomplète, vous bénéficiez de

Au début du XX° siècle, 20% de la population mondiale avait un revenu environ trente fois supérieur à celui des 20% les plus pauvres. De nos jours, en 2001, le

Habité par cette conscience de la terre qu’il a héritée de sa mère, Wu Sheng s’est investi dans l’agriculture, bras et pieds nus, la houe et la charrue à la main.. Des

Le Conseil fédéral a présenté en août 1998 le rapport sur le renforcement de la coopération avec l'Europe de l'Est, avec une analyse des mesures prises de 1992 à 1997, ainsi que

L’objet de la m´ ethode propos´ ee est d’unifier dans une mˆ eme approche, l’ana- lyse des correspondances d’un tableau de contingence et les deux classifications

Commentaires/Eléments clés : Les principes relatifs aux activités de prévention, de traitement et de prise en charge du VIH/SIDA et des IST en Afrique du Sud ont été adoptés dans