HAL Id: tel-01775952
https://hal.univ-lorraine.fr/tel-01775952
Submitted on 24 Apr 2018
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Classification automatique et modèles
Yamina Bencheikh
To cite this version:
Yamina Bencheikh. Classification automatique et modèles. Mathématiques générales [math.GM]. Université Paul Verlaine - Metz, 1992. Français. �NNT : 1992METZ002S�. �tel-01775952�
AVERTISSEMENT
Ce document est le fruit d'un long travail approuvé par le jury de
soutenance et mis à disposition de l'ensemble de la
communauté universitaire élargie.
Il est soumis à la propriété intellectuelle de l'auteur. Ceci
implique une obligation de citation et de référencement lors de
l’utilisation de ce document.
D'autre part, toute contrefaçon, plagiat, reproduction illicite
encourt une poursuite pénale.
Contact : ddoc-theses-contact@univ-lorraine.fr
LIENS
Code de la Propriété Intellectuelle. articles L 122. 4
Code de la Propriété Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
o
o
o
m IUIATIIEMAffiQIjE DE METZ
THESE
lhéscnté,c et souttntu p"ôttpuntcnt àTUNTYERStrEDE METZ
lPow tohttttton tiltxant d.
DOCTEUR DE L'UNTWRSITE DE METZ
SPE CIALITE : TUIATTIETUIATIQUES APPU QUEES
MENTION.. AAIALYSE DE DONNEES ET INFORMATTQUE
Por
YAMINA
BENCHEIKH
S$ct
CLASSIFICATION AUTOMATIQUE ET MODELES
Soutenn h 10 fétrier 1992 {avont h commissiofl {e4omen:
Président : G. GOVAERT, Professeur à I'Université de COMPIEGNE. Rapporteurs : E. DIDAY, Professeur à l'Université de PARIS.
I.M. PROTH, Directeur de recherches à I'INRIA de iùdETZ. Examinateurs : D. ARNAI Professeur à I'Université de METZ.
b?q L,L\
o
o
o
o
o
o
o
o
o
lo
o
o
s/nZ-I-ABORATOIRE DE RECTIERCITE
EN INFORMATIQUE
ET IUIATTIEMATTQUE
DE METZ
THESE
lhésntlc ct touuut p6i4urcnt à
LI,INIIZERSITE
DE METZ
lPou.r tohtcntîofl t$graio t4
DOCTEUR DE L'TTAIII/ERSITE
DE METZ
SPECIAJJTE : IUIATHEIUIAfiQUES APPI,IQIIEES
ME TTION: AI,IALYSE DEDONNEES ETINFORMAfiQUE
pol
YAMINA
BENCHEIKH
Sujct
CLASSTFTCATION
AUTOMATTQUE ET MODELES
Souætuu f. fi féofur 1992 taoo* to conniçsiott tctç1taun:
PÉsident : G. GOVAERT, Professeur à I'Université de COMPIEGNE. Rapporteurs : E" DIDAY, Professeur à I'Université de PARIS.
I.M. PROTH, Directeur de redrerchee à I'INRIA de METZ. Examinateurs : D. ARNAL, Profeeeeur à I'Université de METZ.
À ROUX, Professeur à lfUnlvereité de IùlEiIZ
slb erl
t,
o
o
o
o
o
o
o
o
o
o
Oo
o
o
o
o
o
*ÂxGacrE,*g,t tfs
Afr{orchs ç. çu)aat' @æscur à ttlnknæité {t Conpîlgw.
ilous m'oocd aeapilti æu sgmpattic ct hianocifrw,c, oous aûtt 6iar tut* na conseil[er et m'aiûr {$rs k ililtsotion & ca truniL Qt'it nu soit paais tt wus cryriner nngrotituia ct trw prcfonlt rcroflînirsotna.
Sogez æsuré {2, nor proford r6pect. Qu ootn troiru.rc et lottc compéænce ,ne sernent tc4cmpte pou.r otttituuî ,rum ctcmin dans h ncûcrrlp, quÉ u fait qru oorrr.rnztrtcr.
A tu{ouiatrlE. Dùhy thdesscur à t'Ilnioedtl tt eatis.
.flæc ûeastoup [. hiaweil[arce ct flrsîtîé oos nomûrascs ohtigatiotts pmfusbnrct[cs, vous oæz æcepté & jryer cc ffiooit ilcuiIIcz tlotlttî ici tcryressbr dt, ru oiæ drtration et nn prcfonû ncoflrraissoluc.
A frtonsittl1.M. hotfi, Dittcættr tt rcr,tailræ ù |IWA tt ntlffiZ.
lPanuttaa-rrro| ù toccasion tc cctæ soutctûtcc f,i, wus mailfesær touti tunt atmirotion p(rut ws quaûtfs funuinas ct pofcssionfl.tts, ootîx tynmisnet et tntre gentil[asse. le vow
remercb prcfoalénunt tt, tfrontuul llru ttous m'arnca fait cn rccaptaflt tt juger cc tfloail.
A fitonsiar D. tb7ut, @usar ù t'Ilniærcité tt rrtElIZ
func ûcmoup û gattikssc ct t ryx,ryatfrfu, oous aæz æccpté û juger cc trarmil, je oou cryinu à cctu occasion flo profofl{. ft,cotffiaissa$a et rnlr oifs ramxiafluflts. Qt'if ru soit pcrmis tc ootts crythwr toutt ,ra gimtitutr {oooir æccptl, naffi ws nultip(ts tâcûts, ttorct tt ootn prlscttu cc jtuy tc t$èsc.
A frtorcbu A- ROIDç $cssew ù fÛniursitl dt *tca.
ilors m'oûct fait b grarri fromout cn portî.cipwtt ù (t commission tc4men tt cetæ tfièse, je votts pia û 6icn oouhit æcaput tcryræsiott tt nn ?rofoflf. gntiadt' cfl rnus nmercimt pour tinthêt *u oans poîtt. ù æ tntmil.
Att gotrwtwrrufl.t A[tcfit r
Qi sw sor aiû fiothic(h, ca tunil n'usait pas ût h jour. lc ooru cryrinu à cette ocesion nn p{oatra fl,corunisJa$a ct ,rr.s oifs nrcrcîorrunts.
o
O A tous tttos cd[èguaç û twoût, y. l,,taæfutti, *t. î{gûf ct y. r-crrnin .
ilow étiaz nujous pdscnas srzc r,tonttîtu ûffui[ts, vous ,fi'aûcz houté et cotseilté sorc
pcitu, ni n[fu$u. lc rc sattmiç ou"6(hr wtrc oita ct ûottt soutiztt nnm[ qui tu m'ont jamais
, fais téfottt
o
'Ilrc pensh Wticulifre à uu (æ runhts fu tlpnunnt tinfonwû4ttt û fitca cn partiailizr à messîcttrs ts. t{atûltug ,Inf t" tépææmett ct gû. Çranhwugitt tirecætn t$ étuûs pour [eur gettil[csc ct [ow tispotihiûtl ù nuæ épaun.
o
)o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
lo
o
o
o
o
o
o
o
o
TABLE DES MATIERES
INTRODUCTION
PARTIE A .. CZÂSSIFICATION SIMPLE
CHAPITRE I :
CLASSIFICATION AUTOMATIQUE ET MELANGES Introduction
1 .
2.
Classifi cetion automatique 1.1. Notations
1.2. I,a,dthodc des Nuées Dynamiqucs
1.3. Lalgorithre Les mélanges
2.1. Formalisation du problème
2.2.1-a,dthodÊ de reconnaissancc des composants d'un mélange
2.2.1. Défrnition de !V 2.2.2. Définition de f 2.2.3. Définition de g Généralisation
3.1. Ende des liens enEe lcs critèrres mériques et les critères p'robabilistes
dans le cas continu 3.1.1. Gitère métrique 3.1.2. Gitère prrobabilisæ
3.1.2.1. Identification d un dlange
3. 1.2.2. Approche clas sification
3.1.3. Enrde des liens entre les deux critè,res
3.1.3.1. GitèrË mériquc associé à un critèreprobabiliste
3.1.3.2. Gitèrcs probabilistcs et métriques équivalents
3.1.3.3. Condition pour qu'un qitère métrique soit associé à un critèrc probabilisæ
3.1.3.4. Gitère probabilisæ équivalent à un critère méuique
l l l 2 t 3 L4 l 5 1 5 1 6 16 t7 t 7 1 8 I t 1 8 19 l9 20 20 20 2l 2 l 22 22 22 3.
o
)o
).26 27
o
23 23 24 25 25 25 26o
o
n
n
28 28 29 29 29 30 30 30o
o
3.1.4. Mérique quadratique et lois gaussiennes
3.1.4.1. Métrique quadratiqrrc fixe et identique pour toutes les classe
3.1.4.2. Métrique quadratique variable et dépendante de chaque classe
3.1.5. Métrique euclidienne et lois gaussiennes
3.1.6. Métrique de type L1
3.1.6.1. Distance fixe et identique pour toutes les classes
3.l.6.2.Distance Lt variable et dépendante de chaque classe
3.2. Etude des liens entre les critères métriquas et les critères probabilistes dans
le cas discret
3.2.L. Gitère rnétrique associé à rm critère probabilisæ
3.2.2. Condition pour qu'un criêre rÉtrique soit associé à un critère
prrobabilisæ
3.2.3. ChiÈrcprobabilisæ équivalent à un critère mérique
3.2.4. Mériqræ Lr et distibution de Bernouli
3.2.4.l.Distance L1 fixe ct identique Pour toutes les classes
3.2.4.1. Distance L1 vriable et dépendanæ de cluque classes
3.2.4.3. Distance adaptative L1 idcntique pow toutes les classes
3.2.5. Dotutécs qualitatives nominales
3.2.5.l.Distancc fixe et idcntiqw pour toutes les classcs
3.2.5.2.Distance variablc et dQcndante de chaque classe
3.2.6. Données qualitatives o,rdinalc
CHAPITRE 2 z
CLASSIFTCATION ET MODELES SUR DONNEES QUALTTATTVES
Introduction 32
l. Les tableaux disjonctifs complets 33
l.l. Exemple 33
1.2. Notations etdéfinitions 34
1.3. Critères dc classification 35
1.3.1. Gitère d'information 35
1.3.2. Critère du Khi2 36
1.3.3. EtudÊ du lien enup les deux critères 36
|.4.L^méthodc Ivff{DaAL 37
1.4.1. Lalgcithme 37
1.4.2. Autres expressions du crière 38
1.5. Approchc modèlc 39
o
o
o
o
)o
o
o
o
o
o
o
o
1.5. 1. Première approche 1.5.2. Deuxièmc approche 1.5.3. Troisième approche 1.5.3.1. Notations 1.5.3.2. Modèle de Celeux 1.6. Conclusion2. I.es tableaux de modalités
2.1. Notations et définitions
2.2.La,méthode MNDDU
2.3. Approche modèle
2.3.1. La formule générale
2.3.2. Choix de la famille de disuibution
CIIAPITRE 3 :
CLASSIFICATION BINAIRE ET Introduction
La méthode MNDBIN l.l. Exemple
Modèle associé aux données binaires z.|.Laformulc gfuéralc
2.2. Clrcnx de la famille de disuibution
2.3. Etude du mélange M2
2.4. Etudedu mélangc M3
3. Problèmes de dégénérescence
4. Applications et comparaison des méthodes 4.1. Données réelles
4.1.1. Dcscription des données 4.1.2. hemière stratégie 4.1.3. Deuxièrc sratégie 4.1.4. Troisième stratégie 4.2. Donnée.s simulês
4.2.1.Iæ P'rogrammc
4.2.2. Lcs trois fichiers de donnécs
DISTANCE LT ADAPTATIVE 39 4 l 42 42 42 43 4 4 4 45 47 47 48 l. 2.
o
5 0 5 l 52 5 3 54v
55 57 5 9 6 2 62 62 63 63 & & & 65o
lo
65 6 6 6 6 9
o
o
4.2.3. Résultas obtenus4.2.3.1. Les données simul 1
4.2.3.2. Les données simul2
4.2.3.3. Les données simul 3
5. Conclusion
PARTIE B .. CI.ASSIFICATION CROISEE
CHAPITRE 4 : CLASSIFICATION Introduction CROISEE ET MELANGES l. Le classification croisée 1.1. Rappels et notations
t.2.Le, prirrcipc dc la classification croisée
1.3. Lalgorithmc
2. Modèle de mélenge croisé 2.1. Excrylc illusuatif
2.2. Modèle général
2.2.l.Idcntification d un mélange "croi$é"
2.2.2. Problèmc à resoudre 3. Approche classification
3.1. Alguithme
3.2. Position int€rmédiair€
Transformation d'un modèle de mélange croisé en un modèle de mélange simple
Applications pratiques
5. 1. Lois gaussiennes unidinensionnclles 5.2. Lois de Bcrnoulli
o
o
o
o
o
o
7 l 7 3 73 73 74 4. 5. 7 5 75 77 77 7 8 7 8 79 808 2
t 5
85
86o
l.
o
o
o
o
o
o
o
o
4. 5. 6.o
CHAPITRE 5 :CLASSIFICATION CROISEE ET MODELES SUR fntroduction
l. La méthode CROBIN 1.1. I-e problème 1.2. Ualgorithme
1.2.1. Les étapes inærmédiaires
1.2.2. Convergence de I'algorithme
1.3. E:remple
2. Modèle associé aux données binaires 2.1. La, formule gâÉrale
2.2.Clrorx dc la famillc dc distribution 3. Extension du modèle binaire
3.1. Eude du mélangc M2
3.2. Ende du dlangc M3
3.3. Eudedu mélange Ma
DONNEES BINAIRES
Problèmcs de dégénérescence
rnterprétation des bons résultats obtenus par la méthode CROBTN sur des données simulées
Conclusion
CHAPITRE 6 :
CLASSIFICATION CROISEE ET MODELES SUR DONNEES QUANTITATIVES Introduction l. La méthode CROEUC l.l. Notations l.2.I.e, problèrc 1.3. Lalgorithme 1.4. Cas particulier t 8 t 9 90 9 l 9 l 93 93 9 4 95 95 9 6 96 98 99 1 0 1 102
1 0 s
1 0 6 107w7
108r09
1 1 0Jo
o
o
a
o
o
o
o
o
o
2. Modèle associé aux données quantitatives 2.1. La forrrule gérrcrale
2.2. Choix de la famille de distribution 3. Conclusion CONCLUSION ANNEXE 1 ANNEXE 2 ANNEXE 3 ANNEXE 4 BIBLIOGRAPHIE 1 1 1 1 1 1
1 n
l 1 6 l l E 1 2 l 128 1 3 3 1 3 6 1 4 0l.
o
o
o
o
o
o
o
o
o
Io
I)o
o
o
o
o
o
o
o
o
o
INTRODUCTION
A I'heure acoelle les modèles mathématiques ont reçu leurs lettres de noblesse dans
de nombreux domaines des sciences et des techniques, mais certains esprits,
notamûrent des médecins, des sociologues, des économistes affirment encore que les
phénomènes étudiés sont trop complexes pour êtrc adéquatement exprimés par des
méthodes mathématiques.
I-e mdèle mathématique est une représcntation sinptifiée de la réalité. Tout lart de la
modélisation est de savoir quoi, où, quand et comment simplifier. Létude d'un
modèle pnobabilisæ peut êû€ ærduiæ de deux façons :
Par les méthodcs mathématiques issues de la théonie des probabilités et de la
sutistique, ou par la reprodrction du fonctionnemcnt de ce modèle sur ordinateur ; le
sccord procédé s'appelle simuluion statistiqrrc.
La simulation statistique est un puissant outil de manipulation des modèles probabilistes à touæs les étapes de la recherchc. En théonie dcs files d'attente, par
excmple, c'cst la principalc méthode de résolution des systèmes complexes. En
statistique classique, cbst I'unc des méthodes d'étude de la stabilité des estimations par rapport au fluctuations des hypothèses de base ; elle est utilisée seule ou
conirinæment à des méttrod€s analytiques asyrytotiques.
Les modèles probabilisæs sont un puissant instrument de description qualitative des
relations liant les phénomènes et faits observés, d'énrde des propriétés des systèmes
envisagés, de choix d'un appareil statistique pour le traitement des données et I'organisation de la collecte des données. Tout modèle mathématique est une représentation simplifiéc dc la réalité et tout l'an du chercheur est de conjuguer la
paramétrisation la plus simple du modèlc à une description adQuaæ de la réalité, en
d'autre tcnnes, il doit " compresser " au ma:cimum la réalité sous une forme
mathématique siryle.
La procédure de modélisation peut être conventionnellement partagée en cinq étapes
prhcipales:
ro
o
o
o
o
o
o
o
o
Inndrctionl/ Définition des objectifs de la rnodélisation, des variables du modèle et de leur rôle .
? Analyse de la nature physique du phénomène étudié, collecæ et formalisation de
I'information initiale.
3/ Modélisation proprcment diæ (détermination de la forme générale du modèle).
4/ Analyse statistique du modèle : estimation des paramètres participant à la description du modèle.
5/ Vérification du modèle.
Une condition nécessaire pour le bon fonctionnem€nt d'un modèle est la réalisation
d'une analyse minutieuse de la nature du phénomène étudié afin de recueillir une
infamation initiale fiable et d'en tirer lc mcilleur parti pour la déduction (ou le choix)
de la foræ générale du modèle cherché.
Un nombre croissant d'auteurs comrnencent à s'intéresser aux rapports de ces modèles
avec les méthodcs dc classification automatique. Ces méthodes donneng à paltir d'un
échantillon multidimensionnel, une description de la population qui doit ensuiæ êtne
interp'rétée par le paticien et le statisicien ; selon la technique utiliséc, cette description
peut être un graphe d'analyse factorielle ou bien une partition ou encore une
arborescence issue d'une classification. On distingue grossièrement deux æchniques
dc classification:
- Tcchniqucs dc classification hiérarchique (Johnson 196i|, Lance et Williams 1967,
Iadinc ct Sibson 196E, Sokal et Michner 1968, Lerman 1981).
- Tcchniçes dc classification non hiérarchique (Ball ct Hall 1965 et 1967, Forgy 1965, Régnier 1965, Mac quccn 1967,Diday ln2,Anderberg L973).
Ces méthodes ont étés conçues dans un cadre gômérique sans référence en général à
des modèles probabilisæs.
D'auft part, lc problème peut être posé, d'adapter par une technique convenable un
modèle stochastiqrrc à un ptÉndrrc observé.
Par exemplc, si K cst le nombre de composants d'un mélangc et ( f(., X)/ À e L ) est
la famille & lois de p'robabilité à laquelle appartiennent les distributions des différents
composants, la dcnsité du mélange s'écrit :
o
,o
K
I P r
k=lo
Inndrction f ( x ) = f (x /tdoù f (x / Xd est la densité de la kÈttt composante du mélange et f (x) esr la densité de
la loi de probabilité résultante, lrrest la probabilité à priori d'apparition dans un échantillon aléatoire d'une observation de la loi f (x/Àr), (c'est à dfue le poids spécifiquc de telle obsenation dans la population générale ), k est le nombre de
composantes du mélange .
L'analysæ est confronté à de ælles lois de probabilité lorsque, par exemple, il est
amené à analyser une population générale composée de plusieurs sous-populations qui
tout en étant hcnogènes dans un certain sens (ce qui peut s'exprimer par exemple, par
la nature unique de la loi de probabilité f(x/ld sont fondamentalement différenæ I'une
de I'auûe ( par exemple, par la valeur du paradtre L ). Iæ paramètre L peut définir
aussi bien lecenûp dc rcgrouperent des obsenations correspondanæs (arquel cas
il s'intcrpèæ comnrc un paramère de localisation) que le degré de leur dispersion
aléatoire (il est alcs inærpété cornme un paramère d'échelle). On peut trowerde plus
amples infamations sur les mélanges de lois dans @iday E. ct collaborateus 1980).
Lc problèæ consisæ àestimer le nmbre de composans du mélange et les paramètes
inconnus ((pk, U) k = l, K) au w dc l'échantillon. Ce problèmc a été étudié par de nombreux auteun sous des hypotlÈses plus ou moins restrictives et sous deux
appochcs foncièrement différenæs.
L approche la plus ancienne et la plus répandue consisæ à voir là un simple problème
destimation dc paramètres,le problème ainsi posé est celui dans les articles angle
saxons traitent sous le nom de " Mixtrrtts Résolution ". Un nombre important de
æchniques existent pour résoudre les " Mixtures ". On distingue grossièrement deux
tlPes:
- Iæs techniques d'estimation, qui posant à priori le modèle cidessus, en cstiment les
paramètrcs à I'aidc d'estimnteus calculés sur les obseivations : citons la méthode des
momnts (Fearson l8%) avec cstimaæurs du maldmum de rraisemblanoe, @ao 1948,
Day 1969) avec estimaæur du Khi2 minimun" Ces méthodes s'appliquent cn général
aux mélanges gaussiens ct sont souvçnt rcstreintes aux distributions unidimensionnelles.
o
o
o
o
o
o
o
o
Ilo
4o
o
o
o
o
o
o
a
o
IntrdtrctionLa méthode de Cooper et Cooper (1964), estiment les paranètres inconnus du rnodèle
à panir des moments de la distribution globale observée, cette approche est
sensiblemcnt différenæ duproblème d'estimation du modèle précédenr
- Les techniques de type bayesien, d'apprentissage, etc... qui procède par
approximations successives, liées à I'introduction des observations pour estimer le
mdle précédent. Cions les travaux de Patrick et Hancock (1966), Patrick et Costello
(1970), Agrawala (1970) qui sont des æchniques d'estimation bayesienne et les
trayaux de Agrawala (1970), Patrick QnZ), Duda et Hart Qn3) qui formalisent le
problème de la ésolution des rnélanges en tennes d'apprcntissage avec ou sans maître.
Dans le cas particulier des mélanges gaussiens unidimensionnels, Benzécri (1972)
prCIpos€ une méthode baséÊ sur une série de déconvolutions successives.
I-a deuxième approche considère qu'il s'egrt d un problèmc de classification, citons les
travalrx de Scott et S)'mons (1971). Wolfc (1970) formalisc dc façon originale le problèrc dc la classification en tennes d'analyscs de mélanges, Schroerder (\974) proposc une m,étlrodc itératif détccunt parallèlement une partition en classes de
léchantillon obserr,é et des distributions associées à ces classcs.
Cetæ idée de la recherche simultanéc d'une partition et de "noyaux" caractéristiques
des classcs & cene partition a été initialeænt utiliséc en classificuion automatique non
hiérarchique : il s'agit de la méthodc des Nuées Dynamiqucs dûe à Diday ; les noyaux
sont alors des élémcnts d'un échantillon à classer. Diday QnD expos€ la méthode et
propos€ I'utilisatiolt du mêrc schéma avec des noyaux de diverses tlrycs cn vue de ésoudre des problèmes spécifiques : par exemple, en prenant cornrne noyaux les
éléments principaux dinertie des classes, la méthode fournira des analyses facorielles
læales à fqtes inertie (Analyse factcielle typologique (Diday E, Schroeder A et OK Y
1974n. Si les noyaux sont des polynômes d'interpolation d'un point moyen des
classcs, lalgorithmc permet de reconstituer les données manquantes d'un tableau en
tenant compte des donnês préscntes pour regouper les observations cn classes et
réduire ainsi le nombrc d'interpolation à effectuer. Les noyaux peuvent être des
métriques (Classification avec distances adaputives (Diday et Goya€rt 1977)) ou des
distributions de probabilités (A new approach in mixed distributions detection (Diday
et Schroder 1976)).
L'algorithme proposé par Schroeder (1974) utilise des méthodes d'estimation
classique, intervient cn particulier celle du maximum de vraisemblance qui permet
o
o
o
Intdttction
I'optimisation dun critère de waisemblance. La méthode aété généralisé de façon à
pouvoir optimiser ce mêmc critère dans les mélanges de disnibutions dont les
palamètres inconnus ne peuvent être calculés par le maximum de nraisemblance, par
exemple les mélanges de lois gamma (Schrceder
lnq-Dans notre travail, nous insisterons particulièrement sur I'approche " Classification ".
Cetæ approche présenæ bien des avantages car elle p€nmet de voir d'un angle nouveau
les méthodes de classification automatique et de justifier de manière rigoureuse des
constatations faites de manièrcs empirique. En revanche elle pésente quelques
inconvénients, car elle induit, en général un biais qui peut être important dans
I'estimation des paramètnes du fait de la connexité des classes. Ce biais persiste
lorsque la taille de l'échantillon ænd vers I'infini (Bryant et rililliamson 1978, Marrion
1975). Pour que ce biais soit négligeable, il faut, d'une part, que les composants du
mélanges soient asscz séparés, d'autne part, quc les féquences d'apparition des
coryosants du mélanges soicnt du même oûdt€.
Lcsqu'il est possible de trouver un modèle dc lois dc probabilité tel que I'estimation
dcs paramètres du modèle par I'approche classificuion (Scott L971, Schroeder 1976,
Celeux lgtE, Govaert 1988) conduisent à I'optimislissl d'un critke numérique de
classification, on obtient un éclairage nouvcau dc ce critère et de la métrique
sous-jacenæ p€nm€ttant de les justifier ou évenurcllænt dc les rcjct€r; par exemple Celeux
(1988) a donné une signification au critère d'inertie interclasse, utilisé pour la classification d'individus décris par des variables quantitatives, pour le modèle de
mélangc gaussien où les matrices dc variances covariances ont toutes la dme forme
T.h où Tcst un réel et h la matrice identité. Il a aussi apputé une interprétation en tennes probabilistes pour le critère d'information utilisé pour la classification
dindividus déqits par de.s variables qualitatives, pou le modèlc des classes laæntes.
Dans le mêre cadrt, Bock (1986) montrc que les critères classiques d'information s'inærprètent coûrme des vraiscmblances classifianæs de modèles log-linéaires et Govaert (1988) rmntre que le critùe optimisé par la méthode MNDBIN pour les dmrÉes binaircs carespona à un dlange issu de bi de B€ntoulli ; cn faisant varier le
paramèue dc tirage de cette loi, il proposc une extensiolt de I'algcithæ MNDBIN qui
utilise des distancca edeptatives dc type L1. Govaert s'est aussi intéressé aux
liens qui exisænt cntne les critères métriques et les critères p'robabilistcs et a w que la
coryaraison de ces critèr€s apporte un éclairaç nouveau sur dc nombrpuscs méthodes
de classifrcation. Cela à permis dc justificr a posteriori certaines contrainæs imposées
souyent pour des raisons techniques d'optimisation, de proposer de nouveau critères,
mais peut êtrc encorc plus, cettc comparaison pennet d'expliquer l'intérêt et la
souplesse dc la métlrodc des NrÉes Dynamiques dont I'idée essentielle était Ïutilisation
o
o
o
o
o
I
o
lo
6o
o
o
o
o
Oo
Intrductionde la notion de noyau associé à une classe ; ce noyau correspond lout naturellement,
avec le critère probabilisæ, aux paramètres de la loi de probabilité associé à chaque
classe.
Lc travail que nous présenons dans cette thèse sc situe à mi-chemin entre I'approche
géométrique (dthodes de classification automatique) et I'approche probabiliste (les
modèles). Nous proposons une application des liens existant entre ces deux types
dapproches, sur quelques méthodes de classification automatique. Nous généralisons
ces liens au cas où les données nr€ttent en jeu dcux ensembles ; c'est le cas de la
classification croisée.
Dans le premier chapitre, nous rappelons le princrpe général de la méthode des Nuées Dynamiques (Diday 1972). Nous examinons ensuite une application de cette
méthode aux p'roblème des mélanges Schroeder (1974). Nous terminons ce chapitre
par unc généralisation des liens exisunt entne l'apprcche géométrique et I'approche probabiliste aux cas où les données sont continues Govacrt (19E9) ou discrètes
Crovaert (1990).
Le &uxième et le roisière chapitrc pqæ srr l'éude de la notion de modèle darrs le cas
de la classificæion siryle.
Dans le deuxième chapitre, nous proposons des interprétations en tennes
probabilistes de quelques critères liés à la classification dc données décrites par des variables qualitativcs. Nous étudions, dans un premier tcmps, les tableaux disjonctifs complets ct la méthode MIIDaAL (Ralambondrainy 1988) qui est une méthode de classification sur tableau disjonctif complet utilisant la métrique du Khi2 pour classer les dqnnées. Nous proposons plusieurs approches pour cette méthode suivant l'optique statistique dans laquelle on se place ; si nous travaillons sur I'ensemble des profils que l'on plonge dans l'espace continu RtE ( où m est le nombre total de modalités ) munie de la métrique du Khi2 (que I'on considèrc conrme une métrique quadratique), nous montrons que le critèr€ du Khi2 cst lié à un mélangc de lois
gaussiennes multidimcnsionnclles de dmc matricc dc variances covariances ayant
toutcs la forme t Ia où T est un réel ct Io est la mauice identité. Si maintenant nous
travaillons direcæment sur les données du tableau qui sont des vecteurs binaires de
modalités apparænant à I'espace discret {0, l}t, nous urontrons qu'il n'existe pas
de modèle prrobabiliste lié au critère du Khi2 minimisé par la méthode MNDaAL.
Celeux (lgEE), cn travaillant sur les mêmes données (initiales), à apporté une inærprétation en tennes probabilistes au critère dinformation qui est une quantité
prrochc de celle du Khi2. Nous éurdions ensuiæ la méthode MNDDU (Marcheni l9E9)
o
Io
)i.
7o
o
o
o
o
o
o
Innductianqui s'applique à un tableau de modalité, ut'lisp la distance prcpoÉ par Marcheui (1989)
qui permet de prrendre comme distance entr€ deux modalités la valeur 0 si on a la même
mdalité et I sinon. Contrairement à la méthode MNDaAL, la méthode MNDDIJ
utilise des noyaux ayant la même stnrcture que les données initiales c'est-àdire que
nous imposons aux noyaux dêtre des vecteurs binaires de modalités. Nous montrons
alors que dans, ce cas nous pouvons supposerque les données du tableau proviennent
dun mélange de produit de p lois binomiales (où p est le nombre total de variables
qualitatives que I'on suppose mutuellement indépendanæs).
Le troisième chapitrc comporte essentiellement une étude comparative entre les
algaithmes adapatifs et les alguithæs non adaptatifs. Ceue sera faiæ en
utilisant la notion de modèle pnobabilisæ appliqué à un tableau binafu€ ; nous rappelons
tout d'abord le modèle proposé par Govaen (1988) poru la méthode MNDBIN ; ce dernier à non seulercnt pennis de justifier, d'une part le choix du critère, dautre part I'utilisation de la distance Lt et des noyaux binaires, mais aussi de proposer par son
extension un nouvel algorithme utilisant des distances adaptatives de tlpe L1. Nous
présentons donc ce nouvel algorithæ appelé algorithme MI\IDBIN adaptatif qui
n'cst autre que I'ancien algorithme MNDBIN ruquel s'ajouænt deux varianæs pou la
distance ; la première consiste à pondércr la distance par des coefEciens dépendana
dcs variables, la seconde par des coefficients dépendant des variables et des classes ;
ce dernier système dc pondérations favorise les variables déséquilibrées. Nous prcposons ensuiæ d'appliquer les tnois varianæs de I'algorithme MNDBIN adaptatif sur deux t'ryes de données, des données réelles et des données simulées, et de
comparer les partitions obænues. Nous rcmaquons alors que quelques problèmes de
dégénérescence apparaissent au niveau du calcul du critère. Nous proposons des
méthodes pour les résoudre, et nous verrons I'avantage quc pÉsente I'algorithme
MNDBIN adapatif en paniculier sur les données simulées.
Nous prloposons dans les rois derniers chapitres de ce travail, détendre les liens qui
exisænt entr€ les méthodes de classification et les modèles probabilistes au cas où les
données meuent en jeu deux ensembles.
Dans le quatrième chapitre, nous nous intéressons aux liens qui existent entre les
modèles probabilistes et les méthodes de classification croiséc. Ces méthodes
consisænt à subdiviscr la population des individus et la population des variables en un
petit nombre de groupes ou classes homogènes dans un certain sens.
Nous monmns comnrent la méthode de classification croiséc (Govaert 1983) peut êEe
vue coûrmc une solution à un problèmc d'esnmation dc paramètrcs d'un modèle de
mélange croisé. Il s'en est suivi l'établissement des liens entre les méthodes de
I
o
Io
I,o
8o
o
o
o
o
o
o
Innductionclassification c:roisée et les modèles probabilistes. Cette étude nous permettra
dapporter un éclairage nouveau sur les méthodes de classification croisées.
Lc cinquième chapitre est consacré à l'étude de la notion de dèle lié à la
classification croisée de données binaires. Nous montrons que la méthode CROBIN
(Govaert 19E3), qui est une méthode de classifrcation croisée sur des tableaux binaires
correspondant à un mélange de lois dc Bernoulli ayant le même paramète qui mesure
l'écart d'une classe à son centne et ne tient compte ni de la partition en lignes ni de la
partition en colonnes. ce qui, dans certaines situations, peut s'avérer irréaliste. Nous proposons une extension de ce modèle en considérant trois autres mélanges, le mélange Mz (dont le paradtre dépend de la partition en lignes), le mélange M3 (le
paramèue dépend dc la partition en colonnes) et le mélange Ml (le paradre dépend
dc la partition en lignes et en colonnes) ; en outre, en nous appuyons sur des varianæs
de ce modèle, nous proposons de nouvsaux algorithmes de classilication croisée
utilisant des distances adaptatives binaires. Quelques problèmes de
dégénéresccnce apparaissent alors au niveau du calcul des critères. Nous ferons une
énrdc dc ces problèmcs et nous prcpoeons dcs solutions pour les ésoudre.
Dans le sixiènre chapitre nous inærpréons la méthode CROEUC (Govaert l9E3) qui est une méthode de classification ctoisée sur tableaux décrits par des variables quantitarives, une approche modèle est proposée où nous montrons que le critère dinertie associé à la méthode CROEUC correspond à l'hypothèse d'une population
issue d'un mélange dc lois gaussiennes unidimensionelles.
I
o
t , Ii o
Ilo
9o
o
o
o
o
o
o
Io
t Io
)o
o
o
o
o
Oo
o
CHAPITRE 1
CLASSIFICATION AUTOMATIQUE ET
MELANGES
INTRODUCTIONfusqu'à présent, deux ændances parallèles se sont dégagées dans le développement et
la pratiqw du traitcment statistique des données analysées. I-a première met en jeu des
dthodes qui envisagent la possibilité d'une interprétation probabiliste des données traitées et des ésultas statistiques fournis par le traitement. La deuxième
ændancc fait inærvenir une classc assez vaste de méthodes de traiæment statistique de
I'information initiale, plus exactement I'ensemble des méthodes qui à priori ne
s'appuient pas sur la nature probabilisæ des données traitées, telles les méthodes de
classification eutomatique qui ont été conçues dans un cadre géométrique sans
faire awune référencc à la notion de modèle.
Wolf (1970), Scon et Symons (1971), Diday et Schrocder (1976), Celeux (1988) ont
exploités ces deux tendances pour transformer lc prcblème de la classification
automatiqrrc en un problème de statisique inférentielle.
I-e pnoblèmc de lareconnaissance des composants d'un mélange, s'il est constamment
posé dans la pratique, est loin dêtne résolu complètemenr Lalgorithme proposé par
Schroeder (1974) présenæ vis à vis des techniques existantes un€ certaine souplesse
dans le choix du nombre dc composants, du type de lois recherchécs dans le mélange,
et dans la dimension de la population observée. Cet algorithme p€rmet de détecter,
dans un échantillon donné, I'existence possible de sous-ensemblcs qui seraient
échantilons de lois de probabilité dun type connu ; oette app'roche a été d'une grande
utilité pou beaucoup dc chercheurs du mêmc domainc qui sc sont servis de cet
algorithrc pour apport€r dcs éclairages nouveaux sur de nombreuses méthodes de
classification aurcmatique. I
o
I ) l lo
Iio
o
o
o
o
a
o
o
C lzrl,slicatian autonutiqæ et mélanges
Ce chapire coûrnence par un rappel des méthodes de classification auomatique. Nous
avons rctenu la méthode des Nuês Dynamiques @iday 1972) pour le rcste de notre
travail pour les nombrpux avantages qu'elle présenæ.
Dans le deuxième paragraphe, nous montrons courment la méthode des Nuées Dynamiques à été utilisée par Schroeder pour proposer une solution à un problème d'estimation de paramètres d'un mélange, en proposant une méthode de
reconnaissance des composants dun mélange. Celle-ci nous à permis de remarquer
que souvent il exisæ un lien énoit entre les méthodes de classifrcation auomatique et
lcs modèles probabilisæs conc€rnant le choix des critàps numériques optimisf,s par ces
dthodes. Govaert (1989 et 1990) a orploité cete idée pou faire une étude détaillée de
ces liens; cete étrde fera I'objetdu dernierpragraphe & cæ chapiue.
l. LA CLASSIFTCATION AUTOMATTQUE
Par classification auomatique, on entend essentiellercnt I'ensemble des æchniques qui fournisscnt directeûrent une ou plusieurs partitions d'un cnsemble ; certaines d'cntrc clles, ditcs de classification hiérarchique, pennettant d'obænir des partitions qui sont pésentées sous forme d un arb're de classification. Les grands calculaæurs
ont été à I'cigine de la p,rolifération dcs méthodes de classification automatique qui se
révèlent très utiles pour appréhender les gros fichiers de données ; elles penneûent de
fractionner l'enscmble des individus considérés en lots grossièrement homogènes que
l'on peut analyser ensuiæ plus finement à I'aide d urc analyse factcielle par exemplc.
Iæ but de la classification automatique est de définir sur un ensemble d'objes une
sutrcturc qui respecæ au mieux les ressemblances enure ces objes. Les structures qui
sont envisagées peuvent êue uès variées :
- Recherche de hiérarchie (Sokal et Sneath (1963), Roux (1968), Jambu (1971)).
- Rcctrerche de partition (Ball et Hdl (l%5), Regnier (1965), Diday (1972)).
- Reclrerche de classes eryiéanæs.
Dans notne travail, nous nous lrommes limités à la recherche dc partitions. Les méthodes de classifrcation auomatique quc nous envisageons sont des méthodes portant sur Ïensemble des individus (ou cclui des variables). Nous nous intéressons en particulier à celles dont la mise en placc docssite la définition d un critère rn€surant laqualité dc laputition obtcnue.
) . I )
o
)ro
t2
o
o
o
o
o
o
o
Classifrcation autùratique et n'élange s
Plusieurs dthodes ont été proposées pour résoudre le problème de la classification :
des méthodes qui recherchent la partition qui optimisc une fonction numérique définie
sur l'enscmble des partitions, appelée en général critère de classification ( Regnier
(1!)65), Ruspini (1969), Jensen (1969)), ou encor€ des méthodes algorithmiques, telle
que la mértrode de Ball et Hall (1965) qui dépend d'un certain nombrc de seuils donnés
à pnori. Ou celles de Forgy (1965) et Macc QUeen (1967). Ces dernières méthodes
nresurent la qualité d'une partition par la somnr€ des inerties des classes par rapport à
leur centre de gravité. Rappelons que ce critère ne pennet pas de comparer des partitions n'ayant pas l€ mêræ nombre de classes.
Sous le nom de méthode des Nuées Dynnmiques, Diday (1972) a proposé une technique de classification qui présente de nombreux avantages. Lidée de base de
cetc méttrcde est la suivantc :
Au lieu de regrouper les élérens de I'ensemble I à classifier autour d'élémens, qui
n'appartiennent d'ailleurs pas nécessairement à I'enscmble I comme c'est le cas pour
les méthodcs proposées par les autcu$ cités précédemment, on fait un rcgrioupenrent
autour d'enscmble délércnts, appelés noyaux, qui seront des parties de I. Une classe
dunc partition de I, au lieu d'êtnc représcntée par un scul élércnt, tcl son ccntre de
gravité, le scra par plusieurs de scs éléments 0e noyau dc la classe) ; s'ils sont bien choisis, ces éléments seront "tlpiques" de la classe et en forme,ront un résumé plus riche que peut l'être un centre de gravité. Cette façon de procéder, qui admet de
nmbrcuses variantcs, pésente bicn des avantages, prircipale'ment :
- Une grandc souplesse : des contraintes peuvent êtne imposées aux noyaux dont les
élércnts parexemple peuvent êue choisis parmi des éléments paniculiers de I.
- Des facilitées au niveau de I'interprÉtation des résultats qui peut être faite en
examinant les seuls noyaux.
Pour ces raisons, la plupan des méthodes de classification automatique proposées jusqu'à présent r€poscnt sur le principc dcs Nuécs Dynamiques. Ce prfurcipe a été
rcpris par Diday ct al (19E0) sous la fqmc suivanæ :
I.I. NOTATIONS
On suppose dans tout cc uavail quc les données initiales sont fournies sous la forme
d'un tableau r€ctangulaire de n lignes et p colonnes contcnant les valeurs prises par n
individus définis parp variablcs.
i'
o
I
io
o
o
o
o
o
o
o
o
t o
o
Classifrcuion autotnatiqrre et mélanges
Soient:
I: un sous-ensemble fini de Rp contenant n éléments.
Pr : L'ensemble des partitions de I en K classes, les éléments de Pr seront appelés
k-partitions et notés P = (Pr,..-Pd.
L : Uespace des noyaux qui seront associés arrx sous-ensembles de I comme une
carætéristique de ces sous-ensembles variant selon I'application de I'algoithme.
L1 : L'ensemble des K-uples délément de L, noté : L = ( Xr, ..., Ir)
où V k e (1,..., K) Ire L
1.2. Lt METHoDE DEs NUEES DYNAMTQUES
Considénons un ensemble I de n individus re,présentés pax un ensemble de n points
inclus dans un espace E (par exemple Rp). On définit I'ensemble des noyaux L, une
distance D enre les éléments & E et les noyaux dc L. I-e critère TV de la classification
est alqs le suivant :
K
W(P,L)= E l, D(x,Xd
k=l repl
or) P = (Pr,...,Pd une partition dc I'cnsemble I.
L = (Ir,...,14) I'enscmble des noyaux dcs classcs de la panition P.
L'algorithme construit itérativement une suite de F, Lo, Pl, Ll, ..., F, Ln de partitions et_de noyaux en minimisant à chaque étape le critère. Cene construction
reposc sur la définition des deux fonctions suivantes :
La lonction d'qlfectation I : consiste à affecter chaque individu à I'une des classc dc la partition dc manière à optimiser, à chaque fois, le critère W(f(L), L). Elle
dépent bien sûrre du choix de la disance D.
Nous obtenons :
f(L) = f(Ir, ..., Xd = P = (Pr, ..., Pd).
où P1= (xe I / D(xÂd S D(x/l&) avec kck' en cas d'égalité)
La classc P1 sÊra donc constituée des élércnts de I qui seront plus proche de L au
sens dc la distance D que de tout autre noyau dc L.
Lt lonctlon de représcntation g .' pcnnet de déterminer les noyaux de la partition do manièrc à optimiser, à chaquc fois, lc critère W(P, g(P)).
B(P) = g(PI,.., Px) = ( Àr,..., Xd = L.
o
o
o
o
o
o
o
Classifuuion autonatiquc et mélange s
1.3. L'er,GoRrrHME
L'algorithme utilisé dans la méthode des Nuées Dynamiques consiste en la
constnrction de 2 suites:
t V " / n e N ) : s u i æ d e L r x P i , c ' e s t à d i r e q u e : V n V n = ( L t , F ) .
t U"/ n e N ) : suite éelle de valeurs du critère sur les Vr,, c'est à dire :
V n I J n = V [ ( L ' , F ) = W ( % ) .
Si Po est une panition initiale quelconque prise au hasard ou choisie, et si Lo est
I'ensemble des noyaux qui lui sont associés (Lo = g(F')) alors :
v6 = (Lo, Po ) = (g(F), Po)).
La suite (VJ estensuiæ définie prrécrrrence :
si Vr, = (Ln, F) alors Vn+l = Pn+I, Pol ) où F+l = f(Ln) ct Ln+l = g(F*l) = gof(Lt).
On montre que sous cefiaincs conditions (Diday ln2, Schroeder 1974, Govaert
195), la suiæ Un = T9(Vn ) décront, converge et atteint sa limite :
3 M e N : V n à M U n = U * .
le couple V* = (Lt, P* ) æl que V9(V*) = U* sera appelé qtimum local.
Poru abo'rder le problème des mélangcs de distributions de probabilités, le même
schéma que celui des Nuées Dynamiques scra à nouveau utilisé en prenant comme
noyaux dcs disributions de pobabilités. Dans nou€ étudc nous nous somnres limités à
une fqme particulière de I'algoithme utilisant la méthode d'estimation du maximum
de vraisemblance et optimisallt un critère de vraisemblance.
2. LES MELANGES
On désigne par I l'ensemble des n individus que nous considérons comme un échantillon de taille n à valeurs dans Rp. Nous chcrchons donc àdétecterdans
cet échantillon lbxisænce possible dc sous+nsembles qui se,raient échantillons de lois
dc probabilité dun type sonnu , dont la disribution globale aura la forme suivanæ :
lo
r f
K k=l
o
Classifu ation autornatfurc et mélanges
f (x) = f ( x / l t )
Dans laquelle f (x ll,ù et f (x) sont les densités (dans le cas continu) ou les
polygones de @uence (dans le cas dismet ) respectivement de la klme composante
du mélange et de la loi de probabilité ésultante.
pk: I-a probabilité à priori d apparition dans un échantillon aléatoire dune observation
de la loi f(x/â&), (cbst à dire le poids sffcifique de ælle observation dans la population
générale ), k le nombre de composans.
2.I. FORMALISATION DU PROBLEME
L'ensemble I défrni précédemment représente un ensemble de n observations sur
lesquelles p ûresurcs ont été effectuées ( I g Rp). On se donne une famille de densités
de probabilités f(., X) r.L à laquelle on supposc que les distributions des
différents composants appartiennent : l, est un paradtne éel ou vectoriel et L son
espace de définition L Ç Rr ( par exemple si p = l, la famille f(., X) peut être celle des
distributions gaussiennes unidimensionnelles avec I = ([r, o) ; s = 2 |
-RxR+ ç R2 ).
I-e problèmc à résoudre est al6s le suivant :
On chcrclu à trouver un couple (P, L) où L = ( LI, ..., A"ç) avec A,2eL pour tow
k et P = (Pt,...,Px) où les P2fonnent unc partition de I tel que : Pour tout
ke {1,..., K} ; Ptpuisse être considérée en un sens statistiquc à préciser comrne
m éclutuilbnvraisqnbloble dc la distribwion de la loif(., A*).
Ce problèmc peut être résolu par l'algorithme des Nuées Dynamiques étudié au
paragraphe l.l, en prenant corûrre noyaux les paramètres inconnus l, ; il suffit pour
cela de sc donncr une fonction D mesurant la distancc d'une obsen ation xe I à une distribution f(., l).Le choix de cctæ fonction peut s€ fairc de diverses façons selon
I'optique statistique dans laquelle on se place.
2.2. Ls METHODE DE RECONNAISSANCE DES coMPosANTs DIU N
M E L A N G E
Pour résoudre le problème posé ci-dessus, Schroeder (L974) propose de prendre
cqûnedéfinition de lafonctionD la quantité suivanæ:
o
o
o
o
Oo
l.
I Ir O
t
'o
1 6o
o
o
o
o
o
o
Classifrcation autonatique et mélange s
D(x,t)-Logtnfr;L
Cene définition exprime qu'une observation x sera d'autant plus proche du noyau l, que de la densité f(., l) sera grande en x. Pour que cette définition conduise à un
ensemble de valeurs pour D qui soit borné inférieurement, il faut choisir la constante
f* de façon àce que:
f* 2 max (f(x,l.) lLe L et xe I).
Nous venons par la suite qu'une valeur explicite de f* n'est pas nécessaire au
déroulement de I' algorithme.
Nous allons voir ce quc deviennent les fonctions VÏ, f et g :
2.2.1. Définition de TV
Lbxpression du criÈre à optimiserdevient :
K
W ( P , L ) = E
k=l xePr t=l
où L(hl X*) = II f(xnd qui est la rnaiscmblancc de l'échantillon Pt pour la loi
xePl
dc probabilité f(., L).
|.a minimisation du critère W(P, L) revient donc à la maximisation du critère de vraisemblance classifiante suivant :
vc(P, L) = 5, *, L(Pk/
U).
k=l
En utilisant lcs deux fonctions f et g défrnies cidessous,l'algorithrc nous conduit à une solution localc du problème.
2.2.2. DEFINITION DE f f(L) = (Pr,..., Pd.
où 4 = (xe I / D(x/fd s D(x/â&ù avec k*k'et k<k' en cas d égalité)
= (xe I / f(x^ù > f(xÂr) avec k*&' et k<k' en cali dégalité).
r ! t
i
to
Io
t7
o
o
o
o
o
Classifrcuion autonatiquc ct mélange s
2.2.3. DnrrmrroN nE g
g ( P ) = L = ( X r , . . . , X r ) :
où t* minimise pour chaque classc la quantité : ry.Log f* - Log IÆr/Àr).
I-og L(PIA*) = rnar( I-(P4) ; ce qui signifie exacteûrent que Xl est I'estimateur du
l € L
maldmum de nraisemblance de I pour l'échantillon Pr.
Pour plub de détail sur I'existence de cet cstimateur qui n'est pas toujours assué on
pourra consulter Schroeder (1974).
On est assuré que oet algorithmc rÈne à un minimum local du critère et à un couple
(L*, P*) æl que :
si L* = (Ir*, ..., Xr*) et P* = (Pr*,..., PK*) V k e (1, ..., K), X,1* est
I'estimatcur du ma:rimum de rnaisemblance de l, pour l'échantillon P1*.
VxeI, xePl* câ f(x, L*) 2 f(x, Xr*) avec k*k'et k<k'en cas dégalité.
Lcs méthodes dcs Nuées Dynamiques reposent sur I'optimisation d'un critère
numâiqw lui mêrc défini à partir d'une distance. La méthode de reconnaissance des
composants dun mélange proposée par Schroeder à montré que souvent il existe un
lien cntrc ces méthodes et les modèles probabilisæs. Nous remarquons donc que le
passagc au critère probabilisæ peut appqter unc arguæntation ooncernant le choix du
critèr€ num&ique oPimisé.
Nous proposons dans la dernièr€ partie de ce chapine une étude des liens qui existent
enu€ les criÈres méuiques et les critères probabilisæs ; nous étudie,rons tout d'abord
ces liens dans lc cas continu (Govaert 1989) puis dans le cas discret (Govaert 1990) et
nous urontnons dans les dcux cas conxnent ces &ux critères peuvent se rejoindre.
3. GENERALISATION
3.1. Erupn DEs LrENS ENTRE LES CRTTERES METRTQUES ET LES
CRITERES PROBABILISTES DANS LE CAS CONTINU
On supposc toujours que les données initiales sont fournies sous la forme d'un tableau rcctangulaire de n lignes ct p colonnes contenant les valeurs priscs par n
individus pour p variables quantitativcs. Nous envisageons ici deux types de critèrcs :
le prremier que nous appelerons critère métrique, utilise la notion de mesure de
o
o
I
ro
I i O l 8o
o
o
o
o
o
Kx
k=lo
Cla;sjfrcuion at torrutiquc et mélanges
dissimilarité, le second que nous appelerons critère probabiliste utilise la notion de
mélange probabiliste. Nous définissons tout d'abord ces deux types de critères, nous
étudions ensuite les liens qui exisænt entre eux, puis nous montFons coûlment les
mélanges de lois gaussiennes sont liés aux distances quadratiques et les lois
exporrcntielles aux distances de type L1.
3.1.1. Critère métrique
Dans cette approche, nous représentons le tableau de données sous la forme d'un
ensemble I de n individus de RP. Chaque classe d'une partition va être représentée
par un élément de I'ensemble L qui resrc à préciser et qui sera appelé ensemble des
"noyaux" ; enfin on se donne une fOnCtion D de RPXL danS R+ qui mesureta la
"dissimilarité" enu€ un élércnt de RPet un noyau .
I-e p'roblème que I'on cherche à résoudre est de touver la partition P = (Pr, ..., P$ de I
en K classes et un K-uples (lr, ..., fd de noyaux (un par classc) minimisant le critère :
I D(x,Ir)
xePl
Ce critèrc qui dépend dc la mesure de dissimilarité D sera appelé critère nÉtrique et
noté CM(RI, Lr I)). Lcs méttrodes des Nuées Dynamiques rappelées au début de ce
chapitre Fopos€nt une solution à cc problème en construisant de maniù€ itérative une
suiæ de partitions-noyaux faisant décroître le criÈre cn utilisant toujours les deux
fonctions f et g de rcprésentation et daffectation défini au paragaPhe 1.2.
On peut sans difFrculté, en conservant le mêrc critère, modifier le problème posé en
ajoutant unc contraintc au K-uples de noyaux (lr, ..., ld reche'rché. Par exemple, si
le noyau est défini comrne un couple (a, b), on peut imposer que le premier terme du couple soit identique pour tout les noyaux du K-uple recherché l, = ((a, bt),(a, bz),..., (a,bd).
Définition 1.1 (Govacrt 1989)
On dira qrc deux critères nétiqrcs sont équivalents si et seulement s'ils sont dSnis
sw les mênus ensembles RP et L et s'il uiste wu bijection 0 de RP strtuemcnt
croissantc vérifutt : C M ( R2,L, Dt) - 0 o C M (Rr,L, Dz) I
l o
f o
Io
l9l.
o
o
o
o
o
o
Classifu uion autonratiqru et nélanges
où Dr et Dz sont les ûrcsures de dissimilarité associées aux deux critèrcs. Si on
remplace D par une fonction linéaire croissante de D, on obtient un critère métrique équivalent:
Proposition 1.1 (Govaert 19E9)
V a e R+ et Pe R ,les citères C M(RP, L, D) et C M(RP, L, oD+p) sont équivalents.
3.1.2. Critère probabiliste
On reprend ici la représentation de Celeux (1988).
3.1.2.1. Identification d'un mélange
Le tableau de données de départ de dimension (n, p) ( où n est le nombre d'individus
et p est le nombre de variables) est cottsidérré corrune un échantillon I de taille n d'une
variable aléaoirc à valeurs dans RP dont la loi dc probabilité adæt la fonction de
densité suivantc:
f(x) = pr f(x/l.r) ( 1 . 1 )
K
avec V k = I,K p1e l0,l[ et
finr
= t
(r.2)
où f(Â) appartient à une famille dc fonctions dc densité dépendant du paramètre I
élémcnt de Re, où s est un enticr suffrieur ou égal à I et pk est la probabilité qu'un point de l'échantillon suive la loi f(.Âd. On appclera ces p1 les proportions du mélange.
Lc problème posé est l'estinution du rcmbre K de composants et des paranètres
inconnus {pu 4l k = I, K} au vu dc l'échantillon. 3.1.2.2. Approche classification
Dans I'approche classificatbn (Scon et Symns 1971, Schroeder ln4), on remplace
le p'roblème initial d'estimation par le problèmc suivant :
Rechcrclvr urc putitbn P = (P 1,..., PK), K étant supposé corrnr, tellc qrc chaque
classe P2soit assimilùle à un souc-éclafiillon qui suit une loifl., A$.
K k=l
)r
))o
Io
20o
o
o
o
o
o
o
Classifrcation anton atique et iléIanger
tr s'agit alors de maximiser le critère de vraisemblance classifiante :
K
VC(P, I.) = I Log L(Pr, 1,1)
k=l
(1.3)
où l, est le puplet (Xr,..., Xd et L(Pk, h) est la nraisemblance du sous{chantillon Pl suivant la loi f(.^d : L(P1, Id = fI f(Vld.
xePl
Ce critère qui dépend de la famille F de fonctions de densité définies sur RP sera appelé critère probabiliste et noé CP(Rp, F).
Pour maximiser oe critère, on utilise I'algorithme de type Nuées Dynamiques qui
constnrit à partir d'une partition Fen K classcs une suite de panitions en appliquant
les fonctions f et g décrites aux paragraphe.s2.2.2 et 2.2.3.
On pcut alors montner que sous certaines hypothèses, cet algorithæ est convergent.
Ott obtient à la convergenoe une partition P et une estimation des paramètres Xa. Les
propctions pl du mélange sont fournies par les fréquences des classes P1.
De la mêrc manièrc que pour les critèrcs métriques, on p€ut modifrer le problème en
iryosant une contraintc aux paramètres dc la fonction de densité associées aux classes
d'une partition ; par exemple, si lia famille F est I'ensemble des lois gaussiennes
sur RP, on pcut imposer que toutcs les lois gaussiennes associées aux classes d'une
partition aieqt la mêæ marice de varianccs.
3.1.3. Etude des liens entre les deux critères
Govaert (1989) a défrni dcux t1ryes dc liens cntres les critères métriques et les critères
probabilistes. Le premier pennet d'associer à tout critère probabiliste un critère métrique appelé critère métrique associé au critère probabilisæ, le second permet déændrc la notion de critères équivalens définis dans le cas de critères métriques et probabilisæs.
3.1.3.1. Critère métrique associé à un critère probabiliste :
Proposition 1.2 (Govacrt 19E9)
CP(RP, F) = CM(Re, L, D)
où L est l'ercenble dc définition des puotrètes de lolanille F et D est dffinie par :
)
)o
I)o
o
2 llo
o
o
o
o
o
o
Classjfrcatbn autonatiquc et nélanges
V xe RP,V A,e L D(x, 2") - -Log f6, ),)
I-G critère métriquc ainsi défini est appelé critère métrique associé.
La démonstration de cetæ proposition est facile à faire. tr suffit d'utiliser la définition
des deux critères. En outre, le fien existant entre les deux sritères pennet d'affrmer que la maximisation d'un critère probabiliste cst équivalente à la minimisation du
critère métrique associé. Ce résultat perrct donc de considérer que tous les critères
probabilistes sont des critères métriques, mais on peut s'interroger sur le problème inverse qui est le suivant : un critère métrique donné est-il associé à un critère probabiliste ? Cette propriété n'est pas vraie en général mais nous allons nous
intéresser à l'énr& des conditions nécessaircs et suffisanæs pour qu'elle soit vérifrée.
3.1.3.2. Critères probabilistes et métriques équivalents
Définition 1.2 (Govacrt 1989)
Deta critères probabilistes sont équivalents si les crttères métriqucs usociés sont équivalens.
Un critère profubilisæ CPt et wt critère métriqrc CM2 sont équivalens si le critère
métr@ CM I assæié à CP 1 est équivolcrrt u critère métnque CMz.
3.1.33. Condition pour qu'un critère métrique soit nssocié à un critère probabiliste
Proposition 1.3 (Govaert 19E9)
Un critère nétriqrc CM1R?, L, D) est ossocé à un critère probabiliste si a seulemew
si V As L lafonctbn x q eWx,L) estcontiruu etvérifie I e-o{,,L1 dx = I.
*
3.1.3.4. Critère probabiliste équivalent à un critère métrique
En utilisant la proposition (1.1), on peut obænir unc condition plus faible permenant de nrontnerqu'un critè,rc mérique est équivalent (et non assæié) à un critère pnobabilisæ.
o
t)o
I I)o
22o
a
o
o
o
o
o
Classifrcubn autonutiqre et mélange s
Proposition 1.4 (Govaert 1989)
Emnt funné le critère méniquc CM(RP, L, D), s'il qiste m réel r>I tel qre la qwntité
s = J r'DF,L) dx soit indépendante dc L, alors le crttère probabiliste CP(RI, F ) où
f
F est définie par lesfonctbns de densitéf :
f(x, h1=
rD(x'A)est n r critère équivale nt.
Prcuve
Iæ critèr€ mérique associé à la famille proposée est #finie par la forrction D' :
D'(x,X,)=-I,ogf(x,1,)=-Log
(
+ r-D(x,I)
) =s+r.D(x,l).
I-a proposition (l.l) permet d affimer que les critères mériques associés à D et D'
sont équivalents. D'où le ésultat annoncé.
Après avoir étudié les deux t)?es de critèrcs et les conditions dans lesquelles ces
criêrcs p€uvent sc rejoindre, nous nous intéressons maintenant aux liens existants
entre les lois gaussicnnes et les distanccs quadratiques et les lois exponentielles et les
distances Lt.
3.1.4. Métriques quadratiques et lois gaussiennes
3.1.4.1. Métrique quadratique fixe et identique pour toutes les classes L'ensemble à classifier est inclus dans RR, les noyaux sont aussi des éléments de Rp (L - Rp), la foncrion D est définie à partir d'une matrice M définie symétrique positive fixée à prid.
V x e t l 4 e R P D ( x , l. ù = c r . ( x - I d . M . ( x - I ù V c l e R + e t V p e R
Qtrelles que soient les valeurs a et P,les criêres scront tous équivalents (proposition
1.1) nous nous limiærons donc au critère le plus simple qui correspond à la fonction
D ' : D'(x, l.j) = t(x - l,f.M.(x - trr)
L
s Il o
I r O ) i j V x e t I I e R P 23 (1.4a)o
o
o
o
o
o
o
Classifrcuion autonrotiqrre et naélange s
La proposition (1.4) pennet d'affirmer que le critère métrique définie à partir de la
disunce (1.4a) est équivalent à un critère pnobabilisæ car :
J p-D(x,X$ 6 =vvt2.lUl-n est une quantité indépendante de À1,Ia
RP
fonction de densité s'écrit alqs :
V x et 14 e RP f(x, l.ù = v+t2. lU I ra . s-(x-XÙ'M'(x-l't)
qui correspond à une loi gaussienne de centre L et de matrice de variance z.M-r .
3.1.4.2. Métrique quadratique variable et dépendante de chaque classe
La mérique M n est pas fixe et dépend de chaque classe :
nænierJst- D(x, (a6 Md) = (x - ad.Mr.(x - +) (1.4b)
14 = (a1, Mf
ce critère métrique est associé à un cdtèrc probabitisæ si la condition ltr,t ;= tEP est
vérifréc. I-e critère probabilisæ qui lui est associé est alors défini par la famille de
fonction de densité F correspondant aux lois gaussiennes dont les matrices de
variances sont de détenninant oonstant.
Deuxième cas : D(x, (ar, lvlk, ad) = (lk * (x - +).Mr.(x - +) (1.4c)
14 = (a1, IvIr, ad
si o. = llogr - àI-g llvrrl, le critèreméuiqucdéfinie à I'aidede laménique
(1.4€) est assæié a un criÈre probabilisæ dont la fonction de densité est définie par :
V x et ar e Rp f(x, (ar, Fd) = (2n)-ptz. lf. | 4n .e-T'\x-ap'F*f '(x-at)
où fr = â. M.t . Cest lc cas le plus général des lois gaussiennes.
Nous allons voirmainænant oomnr€nt les mériques errclidiennes sont elles aussi liées
aux lois gaussicnnes :
t o
I I I)o
I
Io
24o
o
o
o
o
o
o
Classiftcuion automatiryc et mélange s
3.1.5. Métrique euclidienne et lois gaussiennes
Premier cas : les noyaux sont de la forre (a tvtl où ae RP et M est une matrice
symétrique définie positive; on impose aux noyaux d'avoir la même matrice M.
D(x, (at, M)) = (x - ad.M.(x - aù (1.5a)
si lM l=æ alors le critère métrique définie à taide de la métrique euclidienne (1.5a)
est associé à un critère probabilisæ dont la fonction de densité s'écrit :
f(x, a1) = ,- ,!.t(x-af.f-1.(x-aL)
où r=+.M-r.
Deurtème cas : D(x, (at, M, a)) = (tr + (x - ad.M.(x - ad (1.5b)
. D
-sr u= ir.ogzE - il-"gltrtl on obtient un critère probabiliste éqrrivalent au
critèrc métrique définic par (1.5b) en pr€nant coûune forrction de densité :
f(x, (ar, F)) = (zæ)'ptz. lf l-ra ."- |.t{*-n ).f-r.(x-a1)
où f = â. M-l ; dans ce cas là on n'impose aucune contrainte au déterminant de la
matrice lvl
On remplace maintenant la métrique euclidienne par la distance L1 ou la distance
city-block.
3.1.6. Métrique de type L1
Dans le cas de la distance L1, le centre de gravité est remplacé par la notion de médiane.
3.1.6.1. Distance fixe et identique pour toutes les classes
L = RP D(x, 11) = Ë
", f*r- f{f (1.6a)
j = l
où les al sont des constantes réelles et positives.
P
si la condition [I @= T est vérifiés, le criêre métrique définie par (1.6a) est
j = l
associé au critère probabilisæ définie par la fonction dc densité suivantc :
yo
I I r OI
o
25fi+
j = l o
o
P j = l
C/r,ls sifuation automatiryn et mé lange s
f(x, l$ = s-D(x,1,1) =
"-aj
lx.i - l,J. r
qui corespond pour chaque composante du mélange à un produit de p lois
e)cponentielles biluérales L(ti, aJ) (en supposant bien sûr I'hypothèse d'indépendance
muhrelle vérifiée entre les p variables).
3.1.6.2. Distance L1 variable et dépendante de chaque classe
D(x, (1,r, ct, Fr)) =
4 l*J-4r
* pt
( 1 . 6 b )o
o
o
o
si fi oi =, alors Êr= p.Iog 2 - i,IÆg 4= 0 i on obtient ainsi une distance
j= I j=l
o
o
)lo
I I l Olo
L1 pondérée. Danseecas f(x, l,ù = ,Ût,^i, 4, où L(4,"l) est uno loi exponentielle bilaté,rale.
Nous venons dorrc dc rappcler les différents liens qui exisænt entre les critères utilisés
en classification automatique et les modèles probabilistes dans le cas où I'ensemble à
classifier constitue un enscmble continu, nous allons voir ce que deviennent ces liens
dans le cas où les données sont fini ou irrclus dans un espace discret" c'est le cas des
tableaux décris par &s variables binaires où qualitatives.
3.2. ETUDD DES LIENS ENTRE LES CRTTERES METRTQUES ET LES
CR,ITERES PROBABILISTES DANS LE CAS DISCRET
L'ensemblc à classifier est maintenant inclus dans un espace fini E, nous allons
reprendre toutes les définitions et propositions qui ont étés établi dans le cas continu
mais cetæ fois-ci appliquées à un ensemble disset. Nous ne donnons ici que les
prirrcipaux Ésulats.
Lc critère méuique CM(RP, L, D) défini dans le cas continu est remplacé ici par le critère métrique CM(E' Lr D)r où E est un ensemble fini, par exemple E = {0,
llp dans le cas dun tableau binairc à p variables.
La définition (1.1) et la proposition (1.1) rpstent les mêmcs dans le cas discret où I'on
remplace I'ensemble Rppar I'enscmble E. L€ critère probabilisæ que I'on note par CP(E, F) est lui aussi défini de la même manièrc quc dans le cas continu, mais les
fonctions de densités sont rcmplacées par des distributions de probabilités sur E ; les
liens existant entnc les critères métriques et probabilistes dans le cas discret sont les
o
o
o
o
o
o
o
C lassifrcation autonati4u et mélan ge s
mêmes que ceux obtenus dans le cas continu, mais notons que les conditions
d'association et d'équivalenc€ entre ces deux types de critères diffèrent dans le sens où
I'on remplace I'intégrale par la sommation ; nous allons rappeler quelques uns d'entre eux.
3.2.1. Critère métrique associé à un critère probabiliste
Proposition 1.5 (Govacrt 1990)
CP(E' F) = CM(fi, L, D)
où L est l'ewenble de dfinition des paronètres de lalanitle b et O est dfinie par :
V xe E, V AÊ L D(x, L) - -Log p(x, L)
3.2.2. Condition pour qu'un critère métrique soit associé à un critère probabiliste
Proposition 1.6 (Govaert 1990)
Un critère nétriryc CM(E, L, D) est associé à un citère profubiliste si a seularcnt si
V tÉ L lafonction x a s-D(x,L) estcontinttc etvérifte 2e-D(r,L) dx = I.
xeE
3.2.3. Critère probabiliste équivalent à un critère métrique
En utilisant la proposition (l.l) appliquée dans le cas discret, on peut obtenir une
condition plus faible p€nnettant de montner qu'un criÈre métrique est {uivalent (et
non associé) à un critère probabilisæ.
i'
'r':"::';"'
,::::,,Ï)"rr,",
L, D) , s,it existe
un réet r>r tet q,,c ta
qwrntité s = | s'D(x,L) soit irùépendante de lL, alors le critère probabiliste
zeE
r I CP(E, F ) où F est définie pu la distibntiors fu profubilités suivanes : Pçx,fi= | 7Dft'îu)
est un critère équivalent.