• Aucun résultat trouvé

Segmentation multidimensionnelle

N/A
N/A
Protected

Academic year: 2022

Partager "Segmentation multidimensionnelle"

Copied!
31
0
0

Texte intégral

(1)

Statistique et analyse des données

H. A L N ACHAWATI

Segmentation multidimensionnelle

Statistique et analyse des données, tome 9, n

o

2 (1984), p. 1-30

<http://www.numdam.org/item?id=SAD_1984__9_2_1_0>

© Association pour la statistique et ses utilisations, 1984, tous droits réservés.

L’accès aux archives de la revue « Statistique et analyse des données » im- plique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/

conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

. 1 .

Statistiques et Analyse de Données 1984 - Vol. 9 n

3

2 - pp.1-30

SEGMENTATION MULTIDEMENSIONNELLE AL NACHAWATI H .

Equipe de Reconnaissance des Formes et Microscopiê Quantitative

Laboratoire TIM 3 C.E.R.M.O.

B*> N°68

38402 St-Martin-d'Hères Cedex

Résumé : La segmentation est définie depuis i960 corrmê une méthode de parti-*

tionnement d'un ensemble E, par dichotomies successives, au moyen de varia- bles explicatives et par référencé à une variable "à expliquer". Après avoir résumé la démarche de plusieurs méthodes de segmentation un élargissement de la définition initiale est proposé* Cette définition permet d

f

associer une étape de fusion à chaque étape de partitionnement et d'utiliser plus d'una variable " d expliquer ".

L'utilisation d'un processus d'interrogation séquentiel non arborescent per- met d'améliorer la typologie des individus en regroupant les sous-ensembles qui ne sont pas significativement différents. Par ailleurs, plusieurs cri- tères d'optimisation de l'étape de fusion sont présentés et font appel à la technique de l'analyse de la variance multidimensionrielle (ou analyse de la dispersion), pour comparer des partitions n'ayant pas le même nombre de classes,

La méthode est interactive et permet, par l'utilisation d'un terminal grd~

phique, de contrôler l'évolution des résultats à travers une analyse en composantes principales,

Abstract : Since 1960, the segmentation has been defined as a methûd of

partitioning a set E, whioh is sucessively divided by dichotomy using ex*-

plicative variables and referring to a variable "to be explained"*,

(3)

. 2 .

The ma-ùn fsature s of many of thèse are reviemed, an extenâion of thèse appvonr ches ia proposed. The new définition dllows to associate an y partitioning step to a fusion steps .by referring to more than one variable "to be expiai™

ned".

The use of an interrogation sequential non arborescent process leads ta iœ~

prove the typology of individuels by regrouping the eventual non significant subsets• On the other hand, sevsral optimisation criterion of the fusion ste- ps are presen-ced and allcnj to compare the partitions which hâve not the senne number of classes, on the basis of the multivariate analysis theory*

When using a graphie terminal, the proposed approach is interactive and , the user can contrat évolution of the resuit s by applying the principal components analysis.

Mots c l é s : Segmentation, processus nonarborescent£ analyse de la uariance multidimensionnelle,

I - INTRODUCTION

S o i t E un ensemble d ' i n d i v i d u s ou d ' o b j e t s * Qn dispose 3es "ariab:es Q > . . . » Qm ( c a r a c t è r e s ) , divisées art deux g^ejees ;

- J . = f Q , . . . , Qs }ensemble d i t "'à esp n c j e r " , -es variables

1 s

Q , , . . , Q prennent 1 ?urs valeurs da~; l'ensemble ctes réels (va- r i a b l e s quanti t a " i vas } „ eu dans vr> ?" semble d i s c r e t ^ f n i (varias les q u a l i t a t i v e s ) ,

- J? = { Qs* 9 . . , , Q^ } ensemble d i t " e x p l i c a t i f " , les v a n ?b les (questions) QJ ( j = s + 1 , . . . . m) sont q u a l i t a t i v e s (1)

Chaque v a r i a b l e de J« d é f i n i t une p a r t i t i o n pJ* | q ^ t, . „ . q ' i . l de E.

A t o u t e p a r t i t i o n P = { E , , . . . , E., . . ,9 Er } de l'ensemble E des individus en p c l a s s e s , on associe les v a r i a b l e s X. . égales à la valeur du caractère GJ, QJ £.J^ pour l ' i n d i v i d u M de l'ensemble g. 9

où : J i J = * » • • • I S

" • ! , . . . , card (Ejî » n.

(4)

Remarque (1) : Si les variables explicatives de l'ensemble Jg sont quanti ta*

tives, i l s u f f i t de les rendre qualitatives en u t i l i s a n t l'un dés a l g o r i - thmes classiques de discrétisations comme par exemple l'algorithme de FISHER. W.D.C19J. •

Dans la pratique :

1) on veut construire une p a r t i t i o n de l'ensemble E, en sous-ansémbles E.f • . . , E.t . . . . E à l'aide des questions 0JaJ2 d e t 5^e façon que : a) chaque ensemble E. soit aussi "homogène" que possible v i s - à - v i s de l ' e n -

semble des variables de J , .

b) les ensembles E. soient aussi "hétérogènes" que possible entre eux* v i s - à-vis de l'ensemble des variables de J^*

2) On souhaite de plus u t i l i s e r un nombre minimum de questions 3e J * en choisissant les plus discriminantes.

3) On veut pouvoir affecter les individus supplémentaires aux classes de cette partition» par exemple en u t i l i s a n t une méthode de reconnaissance des variables.

On rencontre ce type de problèmes notamment dans les sciences humaines où le besoin, est grand de pouvoir mettre en r e l a t i o n des variables de compor- tement et des variables d ' a t t i t u d e , et trouver une p a r t i t i o n de E expliquée par les variables p r i v i l é g i é e s , ainsi que dans les domaines biologique et médical et économique, etc . . . . MOUSTAFA M. et BR'JGAL G. T29L GAUVAÎN C.

t21]»0PFERMANN M. [ 3 0 ] , Exemple :

Les incidents banquiers :

Les deux groupes des caractères considérés sont :

- le groupe J, des incidents banquiers r e l a t i f s à n clients et concernant : . le nombre de chèques sans provision ;

• les retards de paiement ; . le nombre d'erreurs ; . etc . . .

(5)

A.

- le groupe J

2

des caractéristiques des clients, concernant : . la catégorie socio-professionnelle ;

. 1'ancienneté ;

. la région d'origine ; . etc ...

Le but sera ici :

1) de'sélectionner si possible, les variables de J

2

(caractéristiques des clients) qui permettent de décrire le mieux possible le groupe J^ (les in- cidents banquiers).

2) l?e faire une partition de E, qui fournit une typologie de la clientèle, 3) de pouvoir affecter un individu anonyme, par exemple un nouveau client»

à l'une de ces parties, en utilisant ses variables (qusstîons} ïss p"îus discriminantes que T o n a choisies de l'ensemble J«-

2 - QUELQUES METHODES DE SEGMENTATION

Le développement des prié th ode s es. ^g^erits'eion es* re'îat'^^on.^ récent, On peut le dater, en çros

t

autour des années i960,

La segmentation est, au départ, définie comme une irêthode de cartition- nement d'une population par dichotomies successives au moyen de variables explicatives et par référence à une variable "à expliquer". En 1975, cette définition a été élargie, pour obtenir des partitions à plus de deux clas- ses et pouvoir utiliser plusieurs variables explicatives â chaque étape du processus de partitionnement. Plus récemment en 197S

ft

de nouvelles néficdes ont été développées, elles utilisent non seulement des étapes de partition*

nement mais aussi des étapes de fusion entre les ensembles des partitions

précëdement obtenues. Rappelons brièvement ces méthodes,.

(6)

.5.

2.1 - Méthodes u t i l i s a n t un processus arborescent

Sélection typologique des variablss DIDAÏ S. £18, 17, 16"]

I l s'agit de détecter simultanément le (ou les) questions de l'ensemble J - les plus explicatives de l'ensemble des variables de J , et la p a r t i t i o n de E en r classes (r ici est un nombre de c'asses donné à l'avance) qui o p t i - misent un certain c r i t è r e . Cette méthode contient plusieurs méthodes clas- siques comme par exemple :

- La méthode de ELISEE

(Exploitation des Liaisons et Interactions par Segmentation d'un Ensemble Expérimental ) BOURROCHE J.M. et TENENHAUS M. {:9,8]

Cette méthode s'applique dans le cas où la variable "à expliouer" est qualitative ; e l l e contient a son tour 1* méthode de 8ELS0N W.A.E5]où la variable "à expliquer" n'a que deux modalités.

- La méthode de AIO

(Automatic Interaction Detector) MORGAN *:.N et SONOUIST J.A. C28]

Cette méthode s'applique dans le cas OL la variable "à expliquer" est quantitative.

Pour ces deux dernières méthodes, nous renvoyons le lecteur à la thèse de BACCRII A. [ 5 ]

La méthode de WILLIAM tt.J et LAMBERT J.M 13?]

Les variables ou les questions de l'ensemble J2 ont chacune deux modalités.

On veut sélectionner la question la plus discriminante, c ' e s t - à - d i r e , Celle qui apporte le plus d'information sur les autres variables de J2.

Cette méthode est en f a i t une segmentation sans variable "à expliouer" ou plutôt une segmentation où toutes les variables sont "à exDliquer", ( c ' e s t - ce qu'on appelle une méthode monothétique sans variable "à expliquer").

Le princioe consiste à sélectionner la variable qui fournit la meilleure dichotomie des objets à classer ; leè critères â optimiser sont fondés sur des calculs de X2 (WILLIAM et LAMBERT C373 ou sur l'information mutuelle (MOLLER F. C27] et CAPECCHI V. C i l ] ) .

(7)

.6.

2.2 - Méthodes u t i l i s a n t un processus non arborescent

I l s ' a g i t d ' e x p l i q u e r une v a r i a b l e à T a i d e des questions de Tensamble J?

e t de trouver une p a r t i t i o n optimale en minimisant un c e r t a i n c r i t è r e .

La rnêzkcde de reconnaissance d'une variable continue TERRITOIRE M, et TOUiVISSOUX D. [ 3-5 j

On a vu que l a méthode de AID cherche la dichotomie la plus " l i é e " à la v a r i a b l e "à e x p l i q u e r " . Le c o n t r ô l e de la q u a l i t é de l ' e s t i m a t i o n des va- leurs moyennes dt» la v a r i a b l e "à e x p l i q u e r " sur les parties de E3 conduit à renoncer â la s t r u c t u r e arborescente et à c o n s t r u i r e un processus de partitionnement de E non arborescent qui améliore les estimationsE

TERRENOIRE a t TOïlNISSOUX ont i n t r o d u i t une étape de fusion antre les étapes de partitiGnnement, a r r i v a n t a i n s i à une p a r t i t i o n optimale par rapport à un c e r t a i n c r i t è r e .

I l s ont proposé d ' u t i l i s e r le t e s t du FISCHER-SfiEDECQR peur f u ' s i ^ f î e r les p a r t i e s qui ne sont pas s i g n i f i c a t i v e m e n t d i f f é r e n t e s , ,

La méthode de reconnaissance d'une variable discrète BOUVIER J.L. P 3 TOUiVISSOUX D. [3,3

Pour l a même raison que p r é c é d è r e n t3 sQUIïER J0L„ a m o c ^ l é •<?. méthode d'ELÏSEE, qui chercha, comme on T a vu les c'ïacses d'i*;diyidus les olus

" e x p l i c a t i v e s " d?;s modalités d'une v a r i a b l e qv.» * i ta^i>a p-,rt:co^ .5re "à e x p l i q u e r " e t a u t i l i s é un processus non erocrescant pour a r r i v e r à une d é c i s i o n optimal**.

Ils ont proposé d'utiliser le test du X comme critère de fusion. 2

3 - LA METHODE DE SEGMENTATION KULTIDIMENSIONNELLE

Cette méthode a déjà été présentée dans ALNACHAWATI H, [1, 2, 3, * ] .

Elle va permettre de traiter les deux oroblèmes suivants :

(8)

. 7 .

3.1 - Reconnaissance de plusieurs variables "â expliquer"

On veut déterminer les variables de Jp qui expliquent le mieux, pour un certain c r i t è r e , les variables de l'ensemble J , (card ( J i ) x 1) â l'aide d'une partition de l'ensemble E dont le nombre de clauses n'est pas f i x é . Le cas d'une variable "à expliquer" qu'on a rappelé précëdement, est un cas p a r t i c u l i e r de cette méthode.

3.2 - Segmentation typologique d'un ensemble d'individus

L'ensemble des variables 0 , . . . . Qm (m > l ) n'est pas i c i partagé en deux sous-ensémbles J , et J ^ / On veut plus simplement construire une p a r t i t i o n de E, en u t i l i s a n t un nombre minimum de questions de J (où J = JiUJ?) et en optimisant un certain c r i t è r e .

On va u t i l i s e r pour cela un processus d'interrogation séquentielle non ar- borescent, (voir graphique {1 )),qui consiste à engendrer une suite de par*

titions P. = {t.. t, . . . , E. } de E, chaque p a r t i t i o n étant déduite de la p a r t i t i o n précédente en deux phases :

- l'une "descendante" pour sélectionner les questions discriminantes ce l'ensemble J~ qui donnent pour chaque partie ou p a r t i t i o n , une p a r t i t i o n optimale pour un certain critère sur l'ensemble J , . Cela se f a i t pour une étape k par le croisement entre P k - l , a k * i e t 1 a P ^ ^ t i o n

PJk * {q'jk, . . . , qJk } déduite de la question QJkf où ( ^ e N )

* l'autre "ascendante" pour fusionner les parties qui ne sont pas s i g n i f i - cativement différentes ou qui ne caractérisent pas une partie (par exemple si card (Efe 1-)<nn) a u s e n s statistique du terme.

(9)

. 8 .

POPULATION GLOBALE

Qj2 P H A S E PS D i V i S i O N

Graohique 1 : Schéma grapnique de la rêthode

- on utilise la question Q

J

1 pour engendrer la partition £. ,, E.

2

de E Q

J

2

on utilise O^K pour enaendrer la oartition £. ,,.,., E, &. de E

(10)

.9.

Ainsi, division et fusion sont réalisées alternativement, pour sélectionner les questions discriminantes de l'ensemble de J - et arriver à une p a r t i t i o n optimale de l'ensemble E, vis-à-vis de l'ensemble des variables de J , , dont le nombre de parties est ni trop p e t i t ni trop grand, et bien s i g n i f i c a t i f au sens statistique de ce terme.

On va proposer deux ensembles de c r i t è r e s , le premier pour le cas ou les variables de J , sont quantitatives (table des mesures), le deuxième pour le cas où elles sont qualitatives (table de questionnaires)

4 - A PROPOS DES CRITERES "A OPTIMISER" EN SEGMENTATION

Les critères dans les méthodes de segmentation doivent prendre en compte les idées suivantes :

- comment mesurer les proximités entre un groupe de variables de J . (quan- t i t a t i v e s ou qualitatives) et une variable q u a l i t a t i v e , c'est-à-dire une partition de E ?

- comment comparer ces mesures si toutes les partitions ont le mÊme nombre de classes ou si ce nombre varie d'une partition à l ' a u t r e ?

4.1 - La proximité entre des variables quantitatives et une variable qualitative

Le cas où les partitions ont le même nombre de classes

Les critères qu'on va proposer seront u t i l i s é s dans les phases descendantes » où on compare des partitions ayant le même nombre de classes.

Supposons que, à l'étape k, on dispose des partitions (Pj* ; j s Lk) , L.

est un ensemble f i n i d'entiers, r e s t le nombre de classes et on veut compa- rer ces partitions au sens d'un certain critère calculé sur l'ensemble de variables de J , pour choisir là meilleure de ces p a r t i t i o n s .

Les critères à optimiser découlent de la relation de HUYGEMS. La dispersion totale T de la population E est égale à la somme de la dispersion i n t r a -

(11)

.10.

classe W et de la dispersion inter-classe B T = W + 8

avec W = Z W. où W. est la dispersion de la classe E. . r

On a donc :

r n.

W

lh = .=. *\ (

X

i l v '

X

n . > (

X

i h . -

X

i h . )

1-1 v = I

Bi h - ï ni <xn . -x. i . > ( xi h . -x. h . )

FRÎEOMAN H.P., RUBSN J . C 20 Dont proposé et discuté pour leur méthode les cinq c r i t è r e s s u i v a n t , ^u'on peut u t i l i s e r :

Mînimisati.on de la tracé de la matrice W :

ûP. - Min { t r a c e (W) = Z (X-, - *n )2}

k jsLK i l v

où l ^ est un «snsemb^s f i n i d ' e n t i e r s

Mi.niïïisat'Co*

1

du c^^ff'-a-l^nt de WÏL&Z :

P • i . H | T |

ÛP. « Min ,iW,,où |W| => nwi a c I + W B = — \

^ e s t valeur proDre de T_1W

P . 1

Maxi/rrCsat-ùon- de la trace Z y . de W 3 .

1 = 1 1

- î

Mazxmisation as la plus grande valeur propre v, de W B

- R 1

M-ùnimisation de |w[ - " \\L | (Scott e t Svrcons J32hj)

i = l

1

(12)

,11.

Le choix de l'un de ces critères dépend du temDS de calcul, de la standar- disation des variables et de la connaissance que l'on a a priori de la structure des groupes Ek ^

L'utilisation de la trace de ( W ) implique que l'on cherche des groupes sphériques avec standardisation préalable des variables.

Les critères!—|, trace (W 3) sont invariants par les transformations linéaires des données (CHANDON et PINSON [12] donnent plus de détails sur ces critères).

Remarque :

Si les variables de l'ensemble de J . sont corrélées e t s i on connaît la matrice j L où T est la matrice de covariance emoirique de ces v a r i a b l e s ,

la norme l l x l l = X' T" X se ramène au c r i t è r e trace (W) c i - d e s s u s .

Cas où les partitions n'ont pas toutes le même nombre de classes.

Les c r i t è r e s qu'on va proposer peuvent s ' u t i l i s e r s o i t dans un processus arborescent, s o i t dans les phases descendantes d'un processus non-arbores- cent dans les cas où les p a r t i t i o n s produites ont des nombres de classes d i f f é r e n t s .

Ces c r i t è r e s mesurent aussi l'homogénéité à l1i n t é r i e u r des classes e t l'hétérogénéité entre les classes.

Supposons qu'on a i t , à étape K, des p a r t i t i o n s possibles P. , P. , . . . , P., , . . . , P. et qu'on veut comparer ces p a r t i t i o n s au sers d'un

^s r K , ctj.

c e r t a i n c r i t è r e calculé sur l'ensemble de variables de .J. pour c h o i s i r la meilleure de ces p a r t i t i o n s .

A toute p a r t i t i o n P. . on associe les variables X . . comme on l ' a f a i t

K » r T j y

précédement et on pose :

i e {l,...,r}

Y

iv

X

U ,

Xi s ,

+ £ .

{!,...,n.}

où les vecteurs aléatoires e. sont supposés indépendants, gaussiens centrés et, pour tout \J, de matrice de variance . .

Var ( c1 v) = Z.

(13)

. 1 2 .

On va u t i l i s e r diverses s t a t i s t i q u e s de t e s t de l'hypothèse H0:y", * Up- . . . -v contre sa négation.

(avec l'hypothèse supplémentaire E. = Z~ = . . . E^ = l)

A chacune de ces s t a t i s t i q u e s de t e s t R(r) de l o i p r o b a b i l i t é Q/w.Y, on associe l e nombre TC = Q ( [ 0 , R ( r ) ] ) où R ( r ) est la valeur observée de R(r) sur l ' é c h a n t i l l o n (à r c l a s s e s ) .

Nous suggérons les s t a t i s t i q u e s de t e s t suivantes :

Test de WILKS (OAGUZLIZ [ K l ;

Le t e s t de WÎLKS u t i l i s e la s t a t i s t i q u e j y | où W et 3 sent indépendantes e t suivent des l o i s de WISHART. On peut u t i l i s e r 1'approximation de RAO :

i Wi

la l o i de | H peut ê t r e assimilée à la l o i : B2 ( s ( r - l ) , mÇ+ 1 - 3 ( r - l ) / 2 ) avec

2 S2( r - I )2- 4 m = N - l - ( s + r ) / 2 Ç = ~9 «

s S ( r - I ) - ~ 5

on pose ïTr = 32 ( s ( r - l ) , m ç + l - s ( r - l ) / 2 J !DrR(rj]

i / ç

R ( P )

W 1 w^ s ( r - l )

1- |Ï|1/C mç • l - s ( r - i ) /

e t on prend la p a r t i t i o n P, ~ i£. , , . , . P £. J qui v é r i f i e

r e s t de ROY : (V. PCGET Cl Si , DAGNELLE lu 1)

Ce t e s t u t i l i s e la plus grande valeur propre v, du p r o d u i t 3W"* ; alors

*1

(14)

. 1 3 .

On pose 7?r = ROY (min ( r - 1 , s ) , H - l - s ' - l , H'r£s'1) [ 0 , R ( r ) l et on r e t i e n t la p a r t i t i o n ?r^t t e l l e que :

/Tt = Max fïï*r ; r = a p . . . , <Xy).

Test de LAWLEÏ et KOTELLING (DAGNELIE, Ll4Ï) Ce t e s t u t i l i ;

s t a t i s t i q u e :

Ce t e s t u t i l i s e la somme des valeurs propres de BW c ' e s t - à - d i r e la

- 1 m

R(r) = trace (3W l) = z v

1-1 i où m = min ( r - 1 , s).

La loi de R(r) est une loi de Hotelling généralisée (DAGNELIE. Cl4] p.72.) On procède comme précédemment pour le choix de fi"

Choix de Â" utilisant un modèle d'analyse de la variance à deux facteurs (AL NACRAWAT1 [I ] )

A toute partition P. ^ on associe les variables X.. définies précédem-

K » r 1 J y

ment e t on suppose i c i que : X«« • = U + a •i j v + 8 • + Y "• • + e • •

M ui Dj M j Ei j y

avec E a^ = 0 ; z S; • 0 et z Y. . = 0 et où les e. . sont des

i 1 j J i,j 1 J 1JvJ

variables a l é a t o i r e s supoosëes gaussiennes indépendantes de même variance o . Soit R ( r ) l a s t a t i s t i q u e de t e s t usuelle pour le t e s t de l'hypothèse H0 : a j ' . . . = ar = 0 contre sa négation d é f i n i e par :

irj v( Xi jv " Xf j . ' R(r) =

s fa n; (X l - X . . . ) ' ,2

(15)

.14.

On sait que R(r) est une statistique de loi de probabilité.

6* (r-1. s f n. - rs)

1

i - 1

1

i

r

pose A = B

?

(r-1, s

E

n

r

r s ) - [0, R(r) ]

r

^ 1-1

On

et on retient la position p. telle que :

* "t = M a x ' { ^r > r » al f . . . . <%kï

4.?.. Proximité entre des variables q u a l i t a t i v e s e t une v a r i a b l e q u a l i t a t i v e

Cas où les partitions ont le même nombre de classes

2

Les c r i t è r e s qu'on va proposer u t i l i s e n t s o i t l e calcul du X s o i t l a t h é o r i e de l ' i n f o r m a t i o n pour c h o i s i r la meilleure p a r t i t i o n de (PJ „.,j£i,.,J où L. e s t ensemble f i n i d ' e n t i e r s , r est l e nombre de clesses.

Critère de ruxinrùsation du X 2

On pose :

à? * Max { £ x ^ / l = l , • • • • s>

1

s r rpi r,.; , r! n

à? » Max { — . S £ S — r— ( r / - • V... - }e} J|c j e Lk " • • 1=1 t = l i - 1 n* n l ^ U n!

2 s

n &P. e s t un x d ' o r d r e ( r - 1 ) ( E m , - S )

" Jk 1=1 '

où L. e s t un ensemble f i n i d ' e n t i e r s .

n ^1 t e s t la fréquence d ' a s s o c i a t i o n entre deux modalités

t i . t ^

m-j e s t l e nombre de modalités du paramètre 1

(16)

,15.

Critères utilisant la théorie de l'information On pose :

fi t

i?L = Maxf E h. = E E Z f} l g? }

jLkU = l J l 1=1 t = l 1=1 i t 2^1 fl J

-1 ni t 1

f = ; n = E n.

i t n i , t

h.^ est l'information mutuelle entre .i et 1 Référence : LANCE et WILLIAM C23 ]

Critère de MOLLER &Sl On pose :

i T J hi i s hn l 1/2

AP. = Maxf I ( j ) . - f ( ï J l ) ( E J L ) I

Jk j£Lw 5 L 1=1 H, 1=1 Hj J ou

h.^ est l'information mutuelle entre j et 1 K. est 1'entropie de j

L'entropie définie par DAROCZY [25"]

On pose :

s i mi 1

P, - Min f t [ J (0-L.f [

(

thl-f . T]] }

k j

^ 1 = 1 t-l " " 1-1 nit où 3elo.lt

TERRENOlREet TOUNISSOUX [34] donnent un exemple d'utilisation de ce

critère pour une variable "à expliquer" qualitative.

(17)

. 1 6 .

Cas où les partitions n'ont pas toutes le nêne norrbve de classes : Les c r i t è r e s qu'on va proposer peuvent s ' u t i l i s e r s o i t dans un processus arborescent, s o i t dans les phases descendantes d'un processus non arbo- rescent dans l e cas où les p a r t i t i o n s u t i l i s é e s ont des nombres de classes d i f f é r e n t s .

On u t i l i s e pour cela l ' u n des c r i t è r e s proposés par l a s t a t i s t i q u e i n f é r e n - s

t i e l l e , par exemple c e l u i de la p r o b a b i l i t é d u x ^ à ( r - 1 ) (E m,-s) decrés 2 2 1-1 ' * de l i b e r t é , d ' o b t e n i r un X supérieur au X calculé sous l'h/pothèsa

d'indépendance" des v a r i a b l e s .

Transformation des variables qualitatives de J- en des variables quantita- tives

Pour f a i r e c e t t e t r a n s f o r m a t i o n , on applique l'analyse des correspondances m u l t i p l e s qui d é f i n i t un codage q u a n t i t a t i f et on applique las c r i t è r e s et les t e s t s paramétriques proposés précédemment aux variables q u c n t l t a u v e s obtenues.

Remarque :

On peut f a i r e la transformation en sens c o n t r a i r e et transformer les v a r i a - bles q u a n t i t a t i v e s de J , en variables q u a l i t a t i v e s par les réthod.= s de d i s - c r é t i s a t i o n classiques e t appliquer ïes c r i t è r e s proposés ci-dessus.

5. LES ALGORITHMES

Nous a l l o n s d é c r i r e successivement deu^ algorithmes de segmentation. Le premier e s t arborescent et n ' u t i l i s e que des étaoes de p a r t i t i o n n è r e n t de E avec des p a r t i t i o n s de plus en plus f i n e s . Le second est non arborescent e t i n t e r c a l e une étape de fusion de sous-ensembles de E entre deux étapes de p a r t i t i o n n e m e n t .

5.1 - Algorithme "descendant"

On f a i t des p a r t i t i o n s successives. On r é p a r t i t l'ensemble E en classas de plus en plus f i n e s . A chaque étapes on sélectionne la question QJk qui

(18)

.17.

explique le mieux l'ensemble de variables de J . .

Ainsi, à l'étape k, on dispose d'une partition p = fE. , . , . , E. }

k"1'ak - l k"l'ak - l

e n c tk - l s0"5"6"5 6^ "1 6 5 r o n vides, construite aux étapes précédentes à l ' a i d e des questions Q * , . . . . QJk-1 extraites de l'ensemble J2. On construit une partition P^ Q =( E^ ^ , . . . , Ek a ) de E à l ' a i d e d'une nouvelle question QJ

Par croisement de Pfe et de p, k . ( q j * . . . . . qç J k} la p a r t i t i o n dëdui-

j " J'k

te de la question Q k où j^ef s + 1 m} - [ j ^ . . . . j ^ j

choisie de façon à optimiser un certain c r i t è r e , t e l que celui qu'on a proposé précédemment.

5.2 - Algorithme non arborescent

A chaque étape de l'algorithme descendant, on fusionne les sous-ensembles de la p a r t i t i o n P^ a. que l'on considère comme homogènes ou qui ne sont pas caractéristiques au sens statistique du terme, par exemple si card (E. .)

< n0 . On peut u t i l i s e r les critères de fusion suivants :

Critère utilisant un test statistique

Pour tout entier r, 2«. P<0 J C-1 • on construit: toutes les partitions en r sous-ensembles possibles déduites de P. 0 par fusion de parties et on choisit, pour chaque r, une p a r t i t i o n P. en r classes qui optimise l'un

K , r

des critères proposés (§ 4.1 ou 4.2): à toute p a r t i t i o n K on associe nombre / T , qui est un indice d'homogénéité des parties de fr et d'hétê

K, r

rogénéitë entre les parties et on choisit la meilleure p a r t i t i o n pour ce

critère.

un

Critère utilisant les distances entre les vecteurs moyens.

On fusionne les deux parties Ek h, Ek u, si la distance dar\s fRs entre les

(19)

.18.

vecteurs y. = ( X ^ , ..., X^

s

) et u

u - (X ^ , ..., X^s

) est inférieure à une seuil fixé a priori pour le critère utilisé.

Fus-ion des parties trop petites

Pour ne pas avoir de parties trop oetites avec un effectif inférieur à un nombre n^ fixé à l'avance, on fusionne une telle partie avec ta partie la plus proche pour le critère utilisé.

6 - CRITERE D'ARRET

6.1 - Dans l e cas où on u t i l i s e un t e s t s t a t i s t i q u e :

Dans un processus non arborescent3 l ' a l ç o r i t h n e s ' a r r ê t e de lui-même quand â l ' i s s u e de l ' é t a p e K + l , la p a r t i t i o n obtenue après la fusion est i d e n t i - que à l.i p a r t i t i o n de l ' é t a p e précédente*

Dans un processus arborescent, on donne un s e u i l d ' a r r ê t sur la valeur du c r i t è r e à o p t i m i s e r ou sur le nombre des étapes,

5.2 - Oj_ns les autres cas, on peut se donner j n s e u i l ''a p r i o r i '6 sur la valeur du c r i t è r e a o p t i m i s e r ou sur la rorcfcre des étapes, avt»ç toutes les d i f f i c u l t é s que posent toujours le choix d'un t e l seuil selon la nature des données é t u d i é e s .

7 - INTRODUCTION D'INDIVIDUS SUPPLEMENTAIRES

i

L'application de la méthode précédente sur E fournit ur. ensemble J« des questions discriminantes. Le problême de reconnaissance consiste pour tout individu i (on connaît les valeurs de i dans l'ensemble J^) à affecter cet individu à une classe et à donner les valeurs en i des variables appar- tenant â J, selon le critère utilise.

Pour répondre à ce problème, il suffit de suivre la procédure précédents,

(20)

. 1 9 .

en affectant l'individu à la classe d ' i d e n t i f i c a t i o n de la p a r t i t i o n de E, et on peut estimer les valeurs en i de la variable (r e J i t par X. . (si l'on u t i l i s e la trace de W comme c r i t è r e ) .

Remarques ;

Pour optimiser le temps de calcul quand le nombre de variables â expliquer

J, est important, on peut déterminer au préalable lesP(en choisissant P au mieux) premières composantes principales de ces variables et appliquer les critères à la base associée aux P axes principaux ainsi construits.

- au lieu de poser la même question pour toutes les partitions de E pour une étape donnée, on pourrait poser une question différente pour chaque partie de E.

- on peut f a i r e la même étude pour r facteurs.

- on peut appliquer cette méthode sur les données d'un tableau de contin- gence •

- on pourrait étudier l'influence du facteur question et fusionner les ques- tions qui ne sont pas significativerrent différentes par la rrêne technique.

-Si l'ensemble des variables de J - est q u a n t i t a t i f , au lieu de transformer J en des variablesqualitative, c'est-à-dire en des p a r t i t i o n s P i j q ' j , . . . ,

— i • q"<j! , on courrait fabriquer, toujours à l ' a i d e de QJ ej^ u n e p a r t i t i o n

P,, en partitionnant les sous-ensembles de la p a r t i t i o n P, . , ,par l ' u t i l i s a t i o n d'une des méthodes de discrimination.

8 - LE PROGRAMME

Le système i n t e r a c t i f de la méthode de segmentation multidimensionnelle, permet l ' u t i l i s a t i o n d'un terminal graphique grâce auquel l ' u t i l i s a t e u r peut se rendre compte de l'évolution des résultats (en appliquant ACP) au cours des phases.

(21)

.20.

9 - EXEMPLE

Nous a l l o n s donner une idée sur les avantages du processus non arborescent en segmentation en t r a i t a n t un exemple élémentaire.

1 2 3 Supposons qu'on a i t deux groupes de variables J , * |Q , 0 | e t J« = î 0 ,

Q } observés sur 25 i n d i v i d u s .

[ 1 Q ' 4

5 10 13 15 19 13 14 17 19 I H

13 11 1 17

13 16 16 6 4 4 5 4 3 6

^2

Q

9 10 9 4 4 5 6 5

7

5 6 7 14 13 15 14 14 12 10 10 7 8 9 8 7

«3 Q

ï 1 1 Z 2 2

2

2

2 2 2 2 2 Z

2

Z 2

f *• • " • • •

rt

4 1 Q

2 ï 1

\

!

2 ! 2 !

2

i

2

2 1

2 ;

2 1 2

«••L .|->W..!»t..»L „ H . - L J

Dans un premier e s s a i , on a u t i l i s é un processus arborescent (des p a r t i t i o n s successives) en optimisant le c r i t è r e trace (W) sur j . , pour sélectionner les questions d i s c r i m i n a n t e s de l'ensemble de J2„ U s r é s u l t a t s sont sché- matisés dans les f i g u r e s 1 et 2 ; la première f i g u r e (1) présente la pre- mière étape, c ' e s t - à - d i r e , la première p a r t i t i o n et pour laquelle Q est la

(22)

.21.

0 , 8 9 1

0,016

-0.858

- 1 . 7 3 0

'20

•23

'24 «3 ^ 9

21 '22 '25

l12

A1Q

L14 A 16

18

17 '15

- 1 . 2 8 0 -0.220 0.828 1 -880

Fiflure 1 : Le olan des axes 1-2 oour la oremiëre étan».

0.891

0,016

- 0 . 8 5 8

- 1 , 7 3 0

-1.280 -O.220 0.828

Figure 2 : Le plan des axes 1-2 rp-jr la aexiêrce étane.

1 .880

(23)

.22.

meilleure question discriminante, de l'ensemble J~ ; la figure (2) présente une partition en 4 classes obtenue â la deuxième étape à l'aide de la ques- tion 0 .

On peut résumer les résultats dans le graphique 2 suivant :

7 P ~ jEtape

trace

H Résultat du processus

9.750

3.948

1.421

4.9SE-17

2,04E-?5

Graphique 2 ; graphique représentant le déroulement du processus arbores-

"

~

/

3 4

cent en utilisant les 2 questions Q

9

Q .

Dans un deuxième essai, on a utilisé un processus non arborescent qui fusion- ne les classes qui ne sont pas significativement différentss

8

en optimisant le critère du test de WILKS (approximation de RAO). Las résultats sont sché- matisés dans les figures 1 et 3.

A la première étape, on a obtenu les mêmes classes E, ,

?

E, * que précédem-

ment (figure 1 ) . A la deuxième étape, la phase descendante redonne les mêmes

ensembles E

2

±

9

E

2

?, ^z 3' ^3 4

que

P

r é c â d e

^

m e n t

»

mais

^

a

fusion regroupe

(24)

. 2 1 .

1 O

00

o

O

I

00 en

03

O O

03

"3 C

CL

Si X ro

o

a. .D

c X

S

ai I

O

00

co

oo œ i

^r

*

*

(25)

.24.

E« i et E« -. Le graphique ci-dessous résume ces résultats

3

E t .

Trace W

Résultat du Drocessus

2ci

9.750

.948 4.98E-17

1.421 2.04E-25

23 1.510 L.58E-Z5

Graphique 3 : représentation du déroolèvent eu ^rocessys r.on arborescent an 2 4

u t i l i s a n t les questions 0S Q .

Le t e s t de WILKS*qui mesure la s i g n i f i c a t i o n d'hétérogénéité entre les clas- ses e t l'homogénéité à l ' i n t é r i e u r cies classes conduit au regroupement des classes E« , et E« ~. Ca regroupement étant celui qui minimise le c r i t è r e parmi tous les regroupements p o s s i b l e s .

* On t e s t e si les moyennes d'au moins deux grouses parmi les croupes sont d i f f é r e n t e s de façon s i g n i f i c a t i v e .

(26)

.25.

10 - CONCLUSION

Après avoir rappelé l'essentiel de la démarche de plusieurs méthodes de segmentation et avoir donné un élargissement de la d é f i n i t i o n de la segmen- tation pour t r a i t e r plus d'une variable "à expliquer", nous avons montré que l ' u t i l i s a t i o n d'une fusion de sous-ensembles obtenus après une étape de partitionnement dans l'algorithme, permet d'améliorer la typologie des i n - dividus en regroupant les sous-ensembles non significativement d i f f é r e n t s . Par a i l l e u r s , plusieurs critères d'optimisation de la fusion ont été présen- tés et i l l u s t r é s . L ' u t i l i s a t i o n des méthodes et des critères iâsus de l'ana- lyse de la variance multidimensionnel le permet d'appliquer cot algorithme non arborescent de partitionnement pour comparer des partitions n'ayant pas le même nombre de classes.

IL - REMERCIEMENTS

Je tiens à exprimer mes plus vifs remerciements à M. Bernard VAN CUTSEM pour le soin avec lequel i l a examiné ce travail et son aide précieuse ; ainsi qu'à l'Equipe de Microscopie Quantitative où ce t r a v a i l a été r é a l i s é .

12 - BIBLIOGRAPHIE

Cl] AL NACHAWATI (h) (1983)

"Classification et sélection des paramètres à l ' a i d e de l'analyse de la variance à deux facteurs" - I.M.A.G. R.R. N°355

E2] AL NACHAWATI (K) (1983)

"Classification et sélection des questions à l ' a i d e de l'analyse de 1a variance"

Congrès européens des sociétés de classification PARIS

[3] AL NACHAWATI (h) (1983)

"Segmentation multidimensionnelle"

IMAG-TIM3, R.R. n°413

[4] AL NACHAWATI (h) (1984)

"Segmentation multidimensionnelle" Journées statistiques MONTPELLIER

(27)

.26.

ES] BACCINI (A) (1975)

"Aspect synthétique de la segmentation et traitement de variables qualitatives à modelites ordonnées"

Université Paul Sabatier de Toulouse - Thèse de 3ène cycle

E6 3 BELSON (W.A.) (1959)

"Matcfting and p r é d i c t i o n on the p r i n c i p l e of b i o l o g i c a l c l a s s i f i c a - t i o n "

Applied S t a t i s t i c s , v o l . m

C7] BENZECRI (J.P) & Collaborateurs (1980)

"L'analyse des données" Ounod

C81 BERTIER (?) et BOUROCHE (J.M.) (1975)

"Analyse des données rrnil t i d î m e n s i o m s l les"

Presses u n i v e r s i t a i r e s de France

[ 9 ] BGlïRCCHE (J.M.) e t TENCNHAUS (h) (1970)

"Quelques méthodes de segmentation'5

Revue française d ' I n f o r m a t i e u e e t de Recherche ODé^tiocirnille - - / o l , V-2.

ClOl CATLLÏEZ (F) et PAGES ( J . P . ) (19.75)

" I n t r o d u c t i o n à l'analyse des c!oorJt=s"

SMASH, Paris

C i l ] CAPECCHI (V) (1964)

"Une méthode de c l a s s i f i c a t i o n fondée sur ] ' e n t r o p i e ' " , Revue Française de Sociologie - V o l . V. 290-306 C Î Z J CHANOON ( J . L . ) et PINSON (S) (1931)

"Analyse typologique"

MASSON

[ 1 3 J CHAPOUELLE (?) (1973)

" P l a n i f i c a t i o n et analyse des expériences"

MASSON

(28)

.27.

[14] 0AGN1ELIE (1970-1975)

"Théorie et méthodes de statistiques"

3Vol. GEMBLOUX PRESSE AGRONOMIQUE [15] OAROCZY (1970)

"Generalized information functions"

Information and control, 16, page 16

[16] OÏOAY (E), LEMAIRE (J), POUGET (J) et TESTU (F) (1982)

"Eléments d'analyse de données"

DUNOO

[17] DIDAY (E) (1972)

"Nouvelles méthodes et nouveaux concepts en classification automati- que et reconnaissance de formes"

Thèse d'état-.Pans VI.

[ I f i l DIDAY (E) (1976)

"Sélection Typologique des paramètres"

Rapport Laboria 183

[19] FISHER (W.D.) (1958)

"On grouping for maximum homogeneity"

JASA Vol. 53 PP 789-798

[20] FRIEDMAN (H.D.) et RUBIN (J) (l!967)

"On some invariant c r i t e r i a for grouping data"

JASA -Vol.52 ,1159-1178.

[21] GAUVAIN (C) (1984)

"Application de l'instrumentation et des méthodes d'analyse d'images à l'étude de la maturation et de la p r o l i f é r a t i o n dans la lignée érythroblastique humaine normale".

Thèse de 3ëme cycle - Grenoble 1

(29)

.28.

T 2 3 HUGUES (M) (1970)

"Segmentation et typologie"

Bordas

[23] JANCE (G.N.) et WILLIAMS (W.T.) (1968)

"Note on a new information statistic classification progran"

The computer Journal, 11, 195-197 [24] LAUMON (8) (1979)

"Méthode de reconnaissance de formes pour l ' e s t i m a t i o n d'une v a r i a - b l e continue : a p p l i c a t i o n à la docimologie"

Thèse de Docteur-Ingénieur LYON C 25] LECHEVALLIER (Y) (1975)

:1 Cl as s i f i cation automatique optimale sous contrainte d'ordre t o t a l "

Rapport Laboria 2QQS INRIA [ 2 6 ] MARTEL (1979)

Cours DEA LYON 1 , (non publié)»

C27] MOLLER (F) (1972)

11

Ar. expérimental desiçn for évaluation in cluster analysis'"

"'First National Meeting of ths coeration Research Scc

:

ety"

NEU ORLEANS

[28] MORGAN (J.N.) et SCNQUIST (J.A.) (1963)

"Problems'in the analysis of survey data and a oroposal"

JASA Vol. 58 N°302 - PP. 414-433 [29] MOUSTAFA (Y) et 8RUGAL (G) (1984)

"îmagaanalysis of cell prolifération and differeatiaticn in the thymus of the new pleurcdeles watlii. Mi chah, by SAMBA 200 cell image processor "

W. ROUX Arch. Dep. Biol (sous presse)

(30)

.29.

[301 OPFERMANN (M) (1984)

"Application des méthodes de la Cytologie Quantitative aux tumeurs de seins"

Rapport DEA Biologie Cellulaire et Moléculaire TIM3 GRENOBLE

[31] ROUTHIER ( J . L . ) (1973)

"Un processus d'interrogation l a t t i c i e l - application à l ' a i d e du diagnostic des modules thyroïdiens"

Thèse de 3ème cycle - LYON 1

[32] SCHEFFE (h) (1959)

"The analysis of variance"- J . WILEY

[32b] SCOTT (A.J) SYMONS (M.J) (1971) Biométries, 27, 217-219 [33] TERRENOIRE (H) et TOUNISSOUX (D) (1979)

"Processus non arborescent pour la reconnaissance d'une variable continue" - 2ëme congrès AFCET-IRIA "Reconnaissance des formes et Intelligence a r t i f i c i e l l e "

TOULOUSE PP. 410-417

[34] TERRENOIRE (M) et TOUNISSOUX (D) (1981)

"Sample size sensitive entropy" in "pattern récognition and a p p l i - cation"

Edited by Dr. J . KITTLER et a l . , Reidel publishing company

[35 ] TOUNISSOUX (D) (1980)

"Processus séquentiel adaplatif de reconnaissance de formes pour 1'aide au diagnostic"

Thèse d'état LYON 1

[36] VO KHAC (K) et NGHÏEM (PH.T.) (1968)

"Etude sur les aspects théorique et pratique de la segmentation aux moindres carres"

Revue française d'Informatique et de Recherche opérationnelle, Vol. y - l .

(31)

. : o .

[ 3 7 ] WILLIAMS (H.T.) and LAMBERT (J.M.) (1959)

" M u l t i v a r i a t a methods i n p l a n t acology"

Journal of Ecology, v o l ; 47, P. 83-101

Références

Documents relatifs

Votre professionnel de la santé peut vous aider à choisir un pansement avec un adhésif plus doux ou vous suggérer une méthode différente pour maintenir le pansement sur la

Les lymphocytes B (LB) portent sur la membrane plasmique des molécules appelées anticorps qui leur permettent de reconnaître les antigènes produits par les

Notre programme va interroger le capteur de lumière du Hub et allumer une diode ou une lampe lorsque la valeur lue correspond à une ambiance trop sombre ( 50 ), puis l’éteindra

Pour cela, il su¢ t d’établir l’existence d’un couple (x; y) qui ne satisfait pas la

3 Tracer un champ de gradients et des lignes de niveau d’une fonction de plusieurs variables..

Professeur de Mathématiques en deuxième année de CPGE filière ECS au Lycée Louis Pergaud (Besançon) Page personnelle : http://mathieu-mansuy.fr/.. E-mail

Nous proposons maintenant un autre critère, associé à un autre modèle probabiliste, et pour lequel la méthode de segmentation associée satisfait aux propriétés d'invariance

Concrètement, plus les variations des variables sont faibles par rapport à la « courbure » de la fonction (sensibilité du taux de variation à la modification des valeurs des