Classification automatique et modèles

(1)

HAL Id: tel-01775952

https://hal.univ-lorraine.fr/tel-01775952

Submitted on 24 Apr 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Classification automatique et modèles

Yamina Bencheikh

To cite this version:

Yamina Bencheikh. Classification automatique et modèles. Mathématiques générales [math.GM]. Université Paul Verlaine - Metz, 1992. Français. �NNT : 1992METZ002S�. �tel-01775952�

(2)

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le jury de

soutenance et mis à disposition de l'ensemble de la

communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci

implique une obligation de citation et de référencement lors de

l’utilisation de ce document.

D'autre part, toute contrefaçon, plagiat, reproduction illicite

encourt une poursuite pénale.

Contact : ddoc-theses-contact@univ-lorraine.fr

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4

Code de la Propriété Intellectuelle. articles L 335.2- L 335.10

http://www.cfcopies.com/V2/leg/leg_droi.php

(3)

o

m IUIATIIEMAffiQIjE DE METZ

THESE

lhéscnté,c et souttntu p"ôttpuntcnt à

TUNTYERStrEDE METZ

lPow tohttttton tiltxant d.

DOCTEUR DE L'UNTWRSITE DE METZ

SPE CIALITE : TUIATTIETUIATIQUES _{APPU QUEES}

MENTION.. AAIALYSE DE DONNEES ET INFORMATTQUE

Por

YAMINA

BENCHEIKH

S$ct

CLASSIFICATION AUTOMATIQUE ET MODELES

Soutenn h 10 fétrier 1992 {avont h commissiofl {e4omen:

Président : G. GOVAERT, Professeur à I'Université de COMPIEGNE. Rapporteurs : E. DIDAY, Professeur à l'Université de PARIS.

I.M. PROTH, Directeur de recherches à I'INRIA de iùdETZ. Examinateurs : D. ARNAI Professeur à I'Université de METZ.

(4)

b?q L,L\

o

lo

o

s/nZ-I-ABORATOIRE DE RECTIERCITE

EN INFORMATIQUE

ET IUIATTIEMATTQUE

DE METZ

THESE

lhésntlc ct touuut p6i4urcnt à

LI,INIIZERSITE

DE METZ

lPou.r tohtcntîofl t$graio t4

DOCTEUR DE L'TTAIII/ERSITE

DE METZ

SPECIAJJTE : IUIATHEIUIAfiQUES APPI,IQIIEES

ME TTION: AI,IALYSE DEDONNEES ETINFORMAfiQUE

pol

YAMINA

BENCHEIKH

Sujct

CLASSTFTCATION

AUTOMATTQUE ET MODELES

Souætuu f. fi féofur 1992 taoo* to conniçsiott tctç1taun:

PÉsident : G. GOVAERT, Professeur à I'Université de COMPIEGNE. Rapporteurs : E" DIDAY, Professeur à I'Université de PARIS.

I.M. PROTH, Directeur de redrerchee à I'INRIA de METZ. Examinateurs : D. ARNAL, Profeeeeur à I'Université de METZ.

À ROUX, Professeur à lfUnlvereité de IùlEiIZ

slb erl

_t,

(5)

o

(6)

o

O

o

ÂxGacrE,g,t tfs

Afr{orchs ç. çu)aat' @æscur à ttlnknæité {t Conpîlgw.

ilous m'oocd aeapilti æu sgmpattic ct hianocifrw,c, oous aûtt 6iar tut* na conseil[er et m'aiûr {$rs k ililtsotion & ca truniL Qt'it nu soit paais tt wus cryriner nngrotituia ct trw prcfonlt rcroflînirsotna.

Sogez æsuré {2, nor proford r6pect. Qu ootn troiru.rc et lottc compéænce ,ne sernent tc4cmpte pou.r otttituuî ,rum ctcmin dans h ncûcrrlp, quÉ u fait qru oorrr.rnztrtcr.

A tu{ouiatrlE. Dùhy thdesscur à t'Ilnioedtl tt eatis.

.flæc ûeastoup [. hiaweil[arce ct flrsîtîé oos nomûrascs ohtigatiotts pmfusbnrct[cs, vous oæz æcepté & jryer cc ffiooit ilcuiIIcz tlotlttî ici tcryressbr dt, ru oiæ drtration et nn prcfonû ncoflrraissoluc.

A frtonsittl1.M. hotfi, Dittcættr tt rcr,tailræ ù |IWA tt ntlffiZ.

lPanuttaa-rrro| ù toccasion tc cctæ soutctûtcc f,i, wus mailfesær touti tunt atmirotion p(rut ws quaûtfs funuinas ct pofcssionfl.tts, ootîx tynmisnet et tntre gentil[asse. le vow

remercb _{prcfoalénunt tt, tfrontuul llru ttous m'arnca}_{fait cn rccaptaflt tt juger cc tfloail.}

A fitonsiar D. tb7ut, @usar ù t'Ilniærcité tt rrtElIZ

func ûcmoup û gattikssc ct t ryx,ryatfrfu, oous aæz æccpté û juger cc trarmil, je oou cryinu à cctu occasion flo profofl{. ft,cotffiaissa$a _{et rnlr oifs ramxiafluflts. Qt'if ru soit} pcrmis tc ootts crythwr toutt ,ra gimtitutr {oooir æccptl, naffi ws nultip(ts tâcûts, ttorct tt ootn prlscttu cc jtuy tc t$èsc.

A frtorcbu A- ROIDç $cssew ù fÛniursitl dt *tca.

ilors m'oûct fait b grarri fromout cn portî.cipwtt ù (t commission tc4men tt cetæ tfièse, je votts pia û 6icn oouhit æcaput tcryræsiott tt nn ?rofoflf. gntiadt' cfl rnus nmercimt pour tinthêt *u oans poîtt. ù æ tntmil.

Att gotrwtwrrufl.t A[tcfit r

Qi sw sor aiû fiothic(h, ca tunil n'usait pas ût h jour. lc ooru cryrinu à cette ocesion nn p{oatra fl,corunisJa$a ct ,rr.s oifs nrcrcîorrunts.

o

(7)

O _{A tous tttos}_cd[èguaç_{û twoût, y. l,,taæfutti,}_{*t. î{gûf ct y. r-crrnin .}

ilow étiaz nujous pdscnas srzc r,tonttîtu ûffui[ts, vous ,fi'aûcz houté et cotseilté sorc

pcitu, ni n[fu$u. lc rc sattmiç ou"6(hr wtrc oita ct ûottt soutiztt nnm[ qui tu m'ont jamais

, _{fais téfottt}

o

'Ilrc pensh Wticulifre à uu (æ runhts fu tlpnunnt tinfonwû4ttt û fitca cn partiailizr à messîcttrs _{ts. t{atûltug ,Inf t" tépææmett ct gû. Çranhwugitt tirecætn t$ étuûs pour [eur} gettil[csc ct [ow tispotihiûtl ù nuæ épaun.

o

)o

o

(8)

o

lo

o

(9)

o

TABLE DES MATIERES

INTRODUCTION

PARTIE A .. CZÂSSIFICATION SIMPLE

CHAPITRE I :

CLASSIFICATION AUTOMATIQUE ET MELANGES Introduction

1 .

2.

Classifi cetion automatique 1.1. Notations

1.2. I,a,dthodc des Nuées Dynamiqucs

1.3. Lalgorithre Les mélanges

2.1. Formalisation du problème

2.2.1-a,dthodÊ de reconnaissancc des composants d'un mélange

2.2.1. Défrnition de !V 2.2.2. Définition de f 2.2.3. Définition de g Généralisation

3.1. Ende des liens enEe lcs critèrres mériques et les critères p'robabilistes

dans le cas continu 3.1.1. Gitère métrique 3.1.2. Gitère prrobabilisæ

3.1.2.1. Identification d un dlange

3. 1.2.2. Approche clas sification

3.1.3. Enrde des liens entre les deux critè,res

3.1.3.1. GitèrË mériquc associé à un critèreprobabiliste

3.1.3.2. Gitèrcs probabilistcs et métriques équivalents

3.1.3.3. Condition pour qu'un qitère métrique soit associé à un critèrc probabilisæ

3.1.3.4. Gitère probabilisæ équivalent à un critère méuique

l l l 2 t 3 L4 l 5 1 5 1 6 16 t7 t 7 1 8 I t 1 8 19 l9 20 20 20 2l 2 l 22 22 22 3.

o

)

o

).

(10)

26 27

o

23 23 24 25 25 25 26

o

n

28 28 29 29 29 30 30 30

o

3.1.4. Mérique quadratique et lois gaussiennes

3.1.4.1. Métrique quadratiqrrc fixe et identique pour toutes les classe

3.1.4.2. Métrique quadratique variable et dépendante de chaque classe

3.1.5. Métrique euclidienne et lois gaussiennes

3.1.6. Métrique de type L1

3.1.6.1. Distance fixe et identique pour toutes les classes

3.l.6.2.Distance Lt variable et dépendante de chaque classe

3.2. Etude des liens entre les critères métriquas et les critères probabilistes dans

le cas discret

3.2.L. Gitère rnétrique associé à rm critère probabilisæ

3.2.2. Condition pour qu'un criêre rÉtrique soit associé à un critère

prrobabilisæ

3.2.3. ChiÈrcprobabilisæ équivalent à un critère mérique

3.2.4. Mériqræ Lr et distibution de Bernouli

3.2.4.l.Distance L1 fixe ct identique _{Pour toutes}les classes

3.2.4.1. Distance L1 vriable et dépendanæ de cluque classes

3.2.4.3. Distance adaptative L1 idcntique pow toutes les classes

3.2.5. Dotutécs qualitatives nominales

3.2.5.l.Distancc fixe et idcntiqw pour toutes les classcs

3.2.5.2.Distance variablc et dQcndante de chaque classe

3.2.6. Données qualitatives o,rdinalc

CHAPITRE 2 z

CLASSIFTCATION ET MODELES SUR DONNEES QUALTTATTVES

Introduction 32

l. Les tableaux disjonctifs complets 33

l.l. Exemple 33

1.2. Notations etdéfinitions 34

1.3. Critères dc classification 35

1.3.1. Gitère d'information 35

1.3.2. Critère du Khi2 36

1.3.3. EtudÊ du lien enup les deux critères 36

|.4.L^méthodc Ivff{DaAL 37

1.4.1. Lalgcithme 37

1.4.2. Autres expressions du crière 38

1.5. Approchc modèlc 39

o

)o

(11)

o

1.5. 1. Première approche 1.5.2. Deuxièmc approche 1.5.3. Troisième approche 1.5.3.1. Notations 1.5.3.2. Modèle de Celeux 1.6. Conclusion

2. I.es tableaux de modalités

2.1. Notations et définitions

2.2.La,méthode MNDDU

2.3. Approche modèle

2.3.1. La formule générale

2.3.2. Choix de la famille de disuibution

CIIAPITRE 3 :

CLASSIFICATION BINAIRE ET Introduction

La méthode MNDBIN l.l. Exemple

Modèle associé aux données binaires z.|.Laformulc gfuéralc

2.2. Clrcnx de la famille de disuibution

2.3. Etude du mélange M2

2.4. Etudedu mélangc M3

3. Problèmes de dégénérescence

4. Applications et comparaison des méthodes 4.1. Données réelles

4.1.1. Dcscription des données 4.1.2. hemière stratégie 4.1.3. Deuxièrc sratégie 4.1.4. Troisième stratégie 4.2. Donnée.s simulês

4.2.1.Iæ _P'rogrammc

4.2.2. Lcs trois fichiers de donnécs

DISTANCE LT ADAPTATIVE 39 4 l 42 42 42 43 4 4 4 45 47 47 48 l. 2.

o

5 0 5 l 52 5 3 54

v

55 57 5 9 6 2 62 62 63 63 & & & 65

o

lo

(12)

65 6 6 6 6 9

o

4.2.3. Résultas obtenus

4.2.3.1. Les données simul 1

4.2.3.2. Les données simul2

4.2.3.3. Les données simul 3

5. Conclusion

PARTIE B .. CI.ASSIFICATION CROISEE

CHAPITRE 4 : CLASSIFICATION Introduction CROISEE ET MELANGES l. Le classification croisée 1.1. Rappels et notations

t.2.Le, prirrcipc dc la classification croisée

1.3. Lalgorithmc

2. Modèle de mélenge croisé 2.1. Excrylc illusuatif

2.2. Modèle général

2.2.l.Idcntification d un mélange "croi$é"

2.2.2. Problèmc à resoudre 3. Approche classification

3.1. Alguithme

3.2. Position int€rmédiair€

Transformation d'un modèle de mélange croisé en un modèle de mélange simple

Applications pratiques

5. 1. Lois gaussiennes unidinensionnclles 5.2. Lois de Bcrnoulli

o

7 l 7 3 73 73 74 4. 5. 7 5 75 77 77 7 8 7 8 79 80

8 2

t 5

85

86

o

l.

(13)

o

4. 5. 6.

o

CHAPITRE 5 :

CLASSIFICATION CROISEE ET MODELES SUR fntroduction

l. La méthode CROBIN 1.1. I-e problème 1.2. Ualgorithme

1.2.1. Les étapes inærmédiaires

1.2.2. Convergence de I'algorithme

1.3. E:remple

2. Modèle associé aux données binaires 2.1. La, formule gâÉrale

2.2.Clrorx dc la famillc dc distribution 3. Extension du modèle binaire

3.1. Eude du mélangc M2

3.2. Ende du dlangc M3

3.3. Eudedu mélange Ma

DONNEES BINAIRES

Problèmcs de dégénérescence

rnterprétation des bons résultats obtenus par la méthode CROBTN sur des données simulées

Conclusion

CHAPITRE 6 :

CLASSIFICATION CROISEE ET MODELES SUR DONNEES QUANTITATIVES Introduction l. La méthode CROEUC l.l. Notations l.2.I.e, problèrc 1.3. Lalgorithme 1.4. Cas particulier t 8 t 9 90 9 l 9 l 93 93 9 4 95 95 9 6 96 98 99 1 0 1 102

1 0 s

1 0 6 107

w7

108

r09

1 1 0

Jo

(14)

o

a

o

2. Modèle associé aux données quantitatives 2.1. La forrrule gérrcrale

2.2. Choix de la famille de distribution 3. Conclusion CONCLUSION ANNEXE 1 ANNEXE 2 ANNEXE 3 ANNEXE 4 BIBLIOGRAPHIE 1 1 1 1 1 1

1 n

l 1 6 l l E 1 2 l 128 1 3 3 1 3 6 1 4 0

l.

o

(15)

o

I

o

I

)o

(16)

o

INTRODUCTION

A I'heure acoelle les modèles mathématiques ont reçu leurs lettres de noblesse dans

de nombreux domaines des sciences et des techniques, mais certains esprits,

notamûrent des médecins, des sociologues, des économistes affirment encore que les

phénomènes étudiés sont trop complexes pour êtrc adéquatement exprimés par des

méthodes mathématiques.

I-e mdèle mathématique est une représcntation sinptifiée de la réalité. Tout lart de la

modélisation est de savoir quoi, où, quand et comment simplifier. Létude d'un

modèle pnobabilisæ peut êû€ ærduiæ de deux façons :

Par les méthodcs mathématiques issues de la théonie des probabilités et de la

sutistique, ou par la reprodrction du fonctionnemcnt _{de ce modèle sur ordinateur ; le}

sccord procédé s'appelle simuluion statistiqrrc.

La simulation statistique est un puissant outil de manipulation des modèles probabilistes à touæs les étapes de la recherchc. En théonie dcs files d'attente, par

excmple, c'cst la principalc méthode de résolution des systèmes complexes. En

statistique classique, cbst I'unc des méthodes d'étude de la stabilité des estimations par rapport au fluctuations des hypothèses de base ; elle est utilisée seule ou

conirinæment à des méttrod€s analytiques asyrytotiques.

Les modèles probabilisæs sont un puissant instrument de description qualitative des

relations liant les phénomènes et faits observés, d'énrde des propriétés des systèmes

envisagés, de choix d'un appareil statistique pour le traitement des données et I'organisation de la collecte des données. Tout modèle mathématique est une représentation simplifiéc dc la réalité et tout l'an du chercheur est de conjuguer la

paramétrisation _{la plus simple du modèlc à une description adQuaæ de la réalité, en}

d'autre tcnnes, il doit " compresser " au ma:cimum la réalité sous une forme

mathématique siryle.

La procédure de modélisation peut être conventionnellement partagée en cinq étapes

prhcipales:

ro

(17)

o

Inndrction

l/ Définition des objectifs de la rnodélisation, des variables du modèle et de leur rôle .

? Analyse de la nature physique du phénomène étudié, collecæ et formalisation de

I'information initiale.

3/ Modélisation proprcment diæ (détermination de la forme générale du modèle).

4/ Analyse statistique du modèle : estimation des paramètres participant à la description du modèle.

5/ Vérification du modèle.

Une condition nécessaire pour le bon fonctionnem€nt d'un modèle est la réalisation

d'une analyse minutieuse de la nature du phénomène étudié afin de recueillir une

infamation initiale fiable et d'en tirer lc mcilleur parti pour la déduction (ou le choix)

de la foræ générale du modèle cherché.

Un nombre croissant d'auteurs comrnencent à s'intéresser aux rapports de ces modèles

avec les méthodcs dc classification automatique. Ces méthodes donneng à paltir d'un

échantillon multidimensionnel, une description de la population qui doit ensuiæ êtne

interp'rétée _{par le paticien et le statisicien ; selon la technique utiliséc, cette description}

peut être un graphe d'analyse factorielle ou bien une partition ou encore une

arborescence issue d'une classification. On distingue grossièrement deux æchniques

dc classification:

- Tcchniqucs dc classification hiérarchique (Johnson 196i|, Lance et Williams 1967,

Iadinc ct Sibson 196E, Sokal et Michner 1968, Lerman 1981).

- Tcchniçes dc classification non hiérarchique (Ball ct Hall 1965 et 1967, Forgy 1965, Régnier 1965, Mac quccn 1967,Diday ln2,Anderberg L973).

Ces méthodes ont étés conçues _{dans un cadre gômérique sans référence en général à}

des modèles probabilisæs.

D'auft part, lc problème peut être posé, d'adapter par une technique convenable un

modèle stochastiqrrc à un ptÉndrrc observé.

Par exemplc, si K cst le nombre de composants _{d'un mélangc et ( f(., X)/ À e L ) est}

la famille & lois de p'robabilité à laquelle appartiennent les distributions des différents

composants, la dcnsité du mélange s'écrit :

o

,o

(18)

K

I P r

k=l

o

Inndrction f ( x ) = f (x /td

où f (x / Xd est la densité de la kÈttt composante du mélange et f (x) esr la densité de

la loi de probabilité résultante, lrrest la probabilité à priori d'apparition dans un échantillon aléatoire d'une observation de la loi f (x/Àr), (c'est à dfue le poids spécifiquc de telle obsenation dans la population générale ), k est le nombre de

composantes du mélange .

L'analysæ est confronté à de ælles lois de probabilité lorsque, par exemple, il est

amené à analyser une population générale composée de plusieurs sous-populations qui

tout en étant hcnogènes dans un certain sens (ce qui peut s'exprimer par exemple, par

la nature unique de la loi de probabilité f(x/ld sont fondamentalement différenæ I'une

de I'auûe ( par exemple, par la valeur du paradtre L ). Iæ paramètre L peut définir

aussi bien lecenûp dc rcgrouperent des obsenations correspondanæs (arquel cas

il s'intcrpèæ comnrc un paramère de localisation) que le degré de leur dispersion

aléatoire (il est alcs inærpété cornme un paramère d'échelle). On peut trowerde plus

amples infamations sur les mélanges _{de lois dans @iday E. ct collaborateus 1980).}

Lc problèæ consisæ àestimer le nmbre de composans du mélange et les paramètes

inconnus ((pk, U) k = l, K) au w dc l'échantillon. Ce problèmc a été étudié par de nombreux auteun sous des hypotlÈses plus ou moins restrictives et sous deux

appochcs foncièrement différenæs.

L approche la plus ancienne et la plus répandue consisæ à voir là un simple problème

destimation dc paramètres,le problème ainsi posé est celui dans les articles angle

saxons traitent sous le nom de " Mixtrrtts Résolution ". Un nombre important de

æchniques existent pour résoudre les " Mixtures ". On distingue grossièrement deux

tlPes:

- Iæs techniques _{d'estimation, qui posant à priori le modèle cidessus, en cstiment les}

paramètrcs _{à I'aidc d'estimnteus calculés sur les obseivations : citons la méthode des}

momnts (Fearson l8%) avec cstimaæurs du maldmum de rraisemblanoe, _{@ao 1948,}

Day 1969) avec estimaæur du Khi2 minimun" Ces méthodes s'appliquent cn général

aux mélanges gaussiens ct sont souvçnt rcstreintes aux distributions unidimensionnelles.

o

I

lo

4

(19)

o

a

o

Intrdtrction

La méthode de Cooper et Cooper (1964), estiment les paranètres inconnus du rnodèle

à panir des moments de la distribution globale observée, cette approche est

sensiblemcnt différenæ duproblème d'estimation du modèle précédenr

- Les techniques de type bayesien, d'apprentissage, etc... qui procède par

approximations successives, liées à I'introduction des observations pour estimer le

mdle précédent. Cions les travaux de Patrick et Hancock (1966), Patrick et Costello

(1970), Agrawala (1970) qui sont des æchniques d'estimation bayesienne et les

trayaux de Agrawala (1970), Patrick QnZ), Duda et Hart Qn3) qui formalisent le

problème de la ésolution des rnélanges en tennes d'apprcntissage avec ou sans maître.

Dans le cas particulier des mélanges gaussiens unidimensionnels, Benzécri (1972)

prCIpos€ une méthode baséÊ sur une série de déconvolutions successives.

I-a deuxième approche considère qu'il s'egrt d un problèmc de classification, citons les

travalrx de Scott et S)'mons (1971). Wolfc (1970) formalisc dc façon originale le problèrc dc la classification en tennes d'analyscs de mélanges, Schroerder (\974) proposc une m,étlrodc itératif détccunt parallèlement une partition en classes de

léchantillon obserr,é et des distributions associées à ces classcs.

Cetæ idée de la recherche simultanéc d'une partition et de "noyaux" caractéristiques

des classcs & cene partition a été initialeænt utiliséc en classificuion automatique non

hiérarchique : il s'agit de la méthodc des Nuées Dynamiqucs dûe à Diday ; les noyaux

sont alors des élémcnts d'un échantillon à classer. Diday QnD expos€ la méthode et

propos€ I'utilisatiolt du mêrc schéma avec des noyaux de diverses tlrycs cn vue de ésoudre des problèmes spécifiques : par exemple, en prenant cornrne noyaux les

éléments principaux dinertie des classes, la méthode fournira des analyses facorielles

læales à fqtes inertie (Analyse factcielle typologique (Diday E, Schroeder A et OK Y

1974n. Si les noyaux sont des polynômes d'interpolation d'un point moyen des

classcs, lalgorithmc permet de reconstituer les données manquantes d'un tableau en

tenant compte des donnês préscntes pour regouper les observations cn classes et

réduire ainsi le nombrc d'interpolation à effectuer. Les noyaux peuvent être des

métriques (Classification avec distances adaputives (Diday et Goya€rt 1977)) ou des

distributions de probabilités (A new approach in mixed distributions detection (Diday

et Schroder 1976)).

L'algorithme proposé par Schroeder (1974) utilise des méthodes d'estimation

classique, intervient cn particulier celle du maximum de vraisemblance qui permet

(20)

o

Intdttction

I'optimisation dun critère de waisemblance. La méthode aété généralisé de façon à

pouvoir optimiser ce mêmc critère dans les mélanges de disnibutions dont les

palamètres inconnus ne peuvent être calculés par le maximum de nraisemblance, par

exemple les mélanges de lois gamma (Schrceder

lnq-Dans notre travail, nous insisterons particulièrement sur I'approche " Classification ".

Cetæ approche présenæ bien des avantages car elle p€nmet de voir d'un angle nouveau

les méthodes de classification automatique et de justifier de manière rigoureuse des

constatations faites de manièrcs empirique. En revanche elle pésente quelques

inconvénients, car elle induit, en général un biais qui peut être important dans

I'estimation des paramètnes du fait de la connexité des classes. Ce biais persiste

lorsque la taille de l'échantillon ænd vers I'infini (Bryant et rililliamson 1978, Marrion

1975). Pour que ce biais soit négligeable, il faut, d'une part, que les composants du

mélanges soient asscz séparés, d'autne part, quc les féquences d'apparition des

coryosants du mélanges soicnt du même oûdt€.

Lcsqu'il est possible de trouver un modèle dc lois dc probabilité tel que I'estimation

dcs paramètres du modèle par I'approche classificuion (Scott L971, Schroeder 1976,

Celeux lgtE, Govaert 1988) conduisent à I'optimislissl d'un critke numérique de

classification, on obtient un éclairage nouvcau dc ce critère et de la métrique

sous-jacenæ p€nm€ttant de les justifier ou évenurcllænt dc les rcjct€r; par exemple Celeux

(1988) a donné une signification au critère d'inertie interclasse, utilisé pour la classification d'individus décris par des variables quantitatives, pour le modèle de

mélangc gaussien où les matrices dc variances covariances ont toutes la dme forme

T.h où Tcst un réel et h la matrice identité. Il a aussi apputé une interprétation en tennes probabilistes pour le critère d'information utilisé pour la classification

dindividus déqits par de.s variables qualitatives, pou le modèlc des classes laæntes.

Dans le mêre cadrt, Bock (1986) montrc que les critères classiques d'information s'inærprètent coûrme des vraiscmblances classifianæs de modèles log-linéaires et Govaert (1988) rmntre que le critùe optimisé par la méthode MNDBIN pour les dmrÉes binaircs carespona à un dlange issu de bi de B€ntoulli ; cn faisant varier le

paramèue dc tirage de cette loi, il proposc une extensiolt de I'algcithæ MNDBIN qui

utilise des distancca edeptatives dc type L1. Govaert s'est aussi intéressé aux

liens qui exisænt cntne les critères métriques et les critères p'robabilistcs et a w que la

coryaraison de ces critèr€s apporte un éclairaç nouveau sur dc nombrpuscs méthodes

de classifrcation. Cela à permis dc justificr a posteriori certaines contrainæs imposées

souyent pour des raisons techniques d'optimisation, de proposer de nouveau critères,

mais peut êtrc encorc plus, cettc comparaison pennet d'expliquer l'intérêt et la

souplesse dc la métlrodc des NrÉes Dynamiques dont I'idée essentielle était Ïutilisation

o

I

o

lo

6

(21)

o

O

o

Intrduction

de la notion de noyau associé à une classe ; ce noyau correspond lout naturellement,

avec le critère probabilisæ, aux paramètres de la loi de probabilité associé à chaque

classe.

Lc travail que nous présenons dans cette thèse sc situe à mi-chemin entre I'approche

géométrique (dthodes de classification automatique) et I'approche probabiliste (les

modèles). Nous proposons une application des liens existant entre ces deux types

dapproches, sur quelques méthodes de classification automatique. Nous généralisons

ces liens au cas où les données nr€ttent en jeu dcux ensembles ; c'est le cas de la

classification croisée.

Dans le premier chapitre, nous rappelons le princrpe général de la méthode des Nuées Dynamiques (Diday 1972). Nous examinons ensuite une application de cette

méthode aux p'roblème des mélanges Schroeder (1974). Nous terminons ce chapitre

par unc généralisation des liens exisunt entne l'apprcche géométrique et I'approche probabiliste aux cas où les données sont continues Govacrt (19E9) ou discrètes

Crovaert (1990).

Le &uxième et le roisière chapitrc pqæ srr l'éude de la notion de modèle darrs le cas

de la classificæion siryle.

Dans le deuxième chapitre, nous proposons des interprétations en tennes

probabilistes de quelques critères liés à la classification dc données décrites par des variables qualitativcs. Nous étudions, dans un premier tcmps, les tableaux disjonctifs complets ct la méthode MIIDaAL (Ralambondrainy 1988) qui est une méthode de classification sur tableau disjonctif complet utilisant la métrique du Khi2 pour classer les dqnnées. Nous proposons plusieurs approches pour cette méthode suivant l'optique statistique dans laquelle on se place ; si nous travaillons sur I'ensemble des profils que l'on plonge dans l'espace continu RtE ( où m est le nombre total de modalités ) munie de la métrique du Khi2 (que I'on considèrc conrme une métrique quadratique), nous montrons que le critèr€ du Khi2 cst lié à un mélangc de lois

gaussiennes multidimcnsionnclles de dmc matricc dc variances covariances ayant

toutcs la forme t Ia où T est un réel ct Io est la mauice identité. Si maintenant nous

travaillons direcæment sur les données du tableau qui sont des vecteurs binaires de

modalités apparænant à I'espace discret {0, l}t, nous urontrons qu'il n'existe pas

de modèle prrobabiliste lié au critère du Khi2 minimisé par la méthode MNDaAL.

Celeux (lgEE), cn travaillant sur les mêmes données (initiales), à apporté une inærprétation en tennes probabilistes au critère dinformation qui est une quantité

prrochc de celle du Khi2. Nous éurdions ensuiæ la méthode MNDDU (Marcheni l9E9)

o

I

o

)

i.

7

(22)

o

Innductian

qui s'applique à un tableau de modalité, ut'lisp la distance prcpoÉ par Marcheui (1989)

qui permet de prrendre comme distance entr€ deux modalités la valeur 0 si on a la même

mdalité et I sinon. Contrairement à la méthode MNDaAL, la méthode MNDDIJ

utilise des noyaux ayant la même stnrcture que les données initiales c'est-àdire que

nous imposons aux noyaux dêtre des vecteurs binaires de modalités. Nous montrons

alors que dans, ce cas nous pouvons supposerque les données du tableau proviennent

dun mélange de produit de p lois binomiales (où p est le nombre total de variables

qualitatives que I'on suppose mutuellement indépendanæs).

Le troisième chapitrc comporte essentiellement une étude comparative entre les

algaithmes adapatifs et les alguithæs non adaptatifs. Ceue sera faiæ en

utilisant la notion de modèle pnobabilisæ appliqué à un tableau binafu€ _{; nous rappelons}

tout d'abord le modèle proposé par Govaen (1988) poru la méthode MNDBIN ; ce dernier à non seulercnt pennis de justifier, d'une part le choix du critère, dautre part I'utilisation de la distance Lt et des noyaux binaires, mais aussi de proposer par son

extension un nouvel algorithme utilisant des distances adaptatives de tlpe L1. Nous

présentons donc ce nouvel algorithæ appelé algorithme MI\IDBIN adaptatif qui

n'cst autre que I'ancien algorithme MNDBIN ruquel s'ajouænt deux varianæs pou la

distance ; la première consiste à pondércr la distance par des coefEciens dépendana

dcs variables, la seconde par des coefficients dépendant _{des variables et des classes ;}

ce dernier système dc pondérations favorise les variables déséquilibrées. Nous prcposons ensuiæ d'appliquer les tnois varianæs de I'algorithme MNDBIN adaptatif sur deux t'ryes de données, des données réelles et des données simulées, et de

comparer les partitions obænues. Nous rcmaquons alors que quelques problèmes de

dégénérescence apparaissent au niveau du calcul du critère. Nous proposons des

méthodes pour les résoudre, et nous verrons I'avantage quc pÉsente I'algorithme

MNDBIN adapatif en paniculier sur les données simulées.

Nous prloposons dans les rois derniers chapitres de ce travail, détendre les liens qui

exisænt entr€ les méthodes de classification et les modèles probabilistes au cas où les

données meuent en jeu deux ensembles.

Dans le quatrième chapitre, nous nous intéressons aux liens qui existent entre les

modèles probabilistes et les méthodes de classification croiséc. Ces méthodes

consisænt à subdiviscr la population des individus et la population des variables en un

petit nombre de groupes ou classes homogènes dans un certain sens.

Nous monmns comnrent la méthode de classification croiséc (Govaert 1983) peut êEe

vue coûrmc une solution à un problèmc d'esnmation dc paramètrcs d'un modèle de

mélange croisé. Il s'en est suivi l'établissement des liens entre les méthodes de

I

o

I

o

I

,o

8

(23)

o

Innduction

classification c:roisée et les modèles probabilistes. Cette étude nous permettra

dapporter un éclairage nouveau sur les méthodes de classification croisées.

Lc cinquième chapitre est consacré à l'étude de la notion de dèle lié à la

classification croisée de données binaires. Nous montrons que la méthode CROBIN

(Govaert 19E3), qui est une méthode de classifrcation croisée sur des tableaux binaires

correspondant à un mélange de lois dc Bernoulli ayant le même paramète qui mesure

l'écart d'une classe à son centne et ne tient compte ni de la partition en lignes ni de la

partition en colonnes. ce qui, dans certaines situations, peut s'avérer irréaliste. Nous proposons une extension de ce modèle en considérant trois autres mélanges, le mélange Mz (dont le paradtre dépend de la partition en lignes), le mélange M3 (le

paramèue dépend dc la partition en colonnes) et le mélange Ml (le paradre dépend

dc la partition en lignes et en colonnes) ; en outre, en nous appuyons sur des varianæs

de ce modèle, nous proposons de nouvsaux algorithmes de classilication croisée

utilisant des distances adaptatives binaires. Quelques problèmes de

dégénéresccnce apparaissent alors au niveau du calcul des critères. Nous ferons une

énrdc dc ces problèmcs et nous prcpoeons dcs solutions pour les ésoudre.

Dans le sixiènre chapitre nous inærpréons la méthode CROEUC (Govaert l9E3) qui est une méthode de classification ctoisée sur tableaux décrits par des variables quantitarives, une approche modèle est proposée où nous montrons que le critère dinertie associé à la méthode CROEUC correspond à l'hypothèse d'une population

issue d'un mélange dc lois gaussiennes unidimensionelles.

I

o

t , I

i o

I

lo

9

(24)

o

I

o

t I

o

)

o

(25)

o

O

o

CHAPITRE 1

CLASSIFICATION AUTOMATIQUE ET

MELANGES

INTRODUCTION

fusqu'à présent, deux ændances parallèles se sont dégagées dans le développement et

la pratiqw du traitcment statistique des données analysées. I-a première met en jeu des

dthodes qui envisagent la possibilité d'une interprétation probabiliste des données traitées et des ésultas statistiques fournis par le traitement. La deuxième

ændancc fait inærvenir une classc assez vaste de méthodes de traiæment statistique de

I'information initiale, plus exactement I'ensemble des méthodes qui à priori ne

s'appuient pas sur la nature probabilisæ des données traitées, telles les méthodes de

classification eutomatique qui ont été conçues dans un cadre géométrique sans

faire awune référencc à la notion de modèle.

Wolf (1970), Scon et Symons (1971), Diday et Schrocder (1976), Celeux (1988) ont

exploités ces deux tendances pour transformer lc prcblème de la classification

automatiqrrc en un problème de statisique inférentielle.

I-e pnoblèmc de lareconnaissance des composants d'un mélange, s'il est constamment

posé dans la pratique, est loin dêtne résolu complètemenr Lalgorithme proposé par

Schroeder (1974) présenæ vis à vis des techniques existantes un€ certaine souplesse

dans le choix du nombre dc composants, du type de lois recherchécs dans le mélange,

et dans la dimension de la population observée. Cet algorithme p€rmet de détecter,

dans un échantillon donné, I'existence possible de sous-ensemblcs qui seraient

échantilons de lois de probabilité dun type connu ; oette app'roche a été d'une grande

utilité pou beaucoup dc chercheurs du mêmc domainc qui sc sont servis de cet

algorithrc pour apport€r dcs éclairages nouveaux sur de nombreuses méthodes de

classification aurcmatique. I

o

I ) l l

o

I

io

(26)

o

a

o

C lzrl,slicatian autonutiqæ et mélanges

Ce chapire coûrnence par un rappel des méthodes de classification auomatique. Nous

avons rctenu la méthode des Nuês Dynamiques @iday 1972) pour le rcste de notre

travail pour les nombrpux avantages qu'elle présenæ.

Dans le deuxième paragraphe, nous montrons courment la méthode des Nuées Dynamiques à été utilisée par Schroeder pour proposer une solution à un problème d'estimation de paramètres d'un mélange, en proposant une méthode de

reconnaissance des composants dun mélange. Celle-ci nous à permis de remarquer

que souvent il exisæ un lien énoit entre les méthodes de classifrcation auomatique et

lcs modèles probabilisæs conc€rnant le choix des critàps numériques optimisf,s par ces

dthodes. Govaert (1989 et 1990) a orploité cete idée pou faire une étude détaillée de

ces liens; cete étrde fera I'objetdu dernierpragraphe & cæ chapiue.

l. LA CLASSIFTCATION AUTOMATTQUE

Par classification auomatique, on entend essentiellercnt I'ensemble des æchniques qui fournisscnt directeûrent une ou plusieurs partitions d'un cnsemble ; certaines d'cntrc clles, ditcs de classification hiérarchique, pennettant d'obænir des partitions qui sont pésentées sous forme d un arb're de classification. Les grands calculaæurs

ont été à I'cigine de la p,rolifération dcs méthodes de classification automatique qui se

révèlent très utiles pour appréhender les gros fichiers de données _{; elles penneûent de}

fractionner l'enscmble des individus considérés en lots grossièrement homogènes que

l'on peut analyser ensuiæ plus finement à I'aide d urc analyse factcielle par exemplc.

Iæ but de la classification automatique est de définir sur un ensemble d'objes une

sutrcturc qui respecæ au mieux les ressemblances enure ces objes. Les structures qui

sont envisagées peuvent êue uès variées :

- Recherche de hiérarchie (Sokal et Sneath (1963), Roux (1968), Jambu (1971)).

- Rcctrerche de partition (Ball et Hdl (l%5), Regnier (1965), Diday (1972)).

- Reclrerche de classes eryiéanæs.

Dans notne travail, nous nous lrommes limités à la recherche dc partitions. Les méthodes de classifrcation auomatique quc nous envisageons sont des méthodes portant sur Ïensemble des individus (ou cclui des variables). Nous nous intéressons en particulier à celles dont la mise en placc docssite la définition d un critère rn€surant laqualité dc laputition obtcnue.

) . I )

o

)

ro

t2

(27)

o

Classifrcation autùratique et n'élange s

Plusieurs dthodes ont été proposées pour résoudre le problème de la classification :

des méthodes qui recherchent la partition qui optimisc une fonction numérique définie

sur l'enscmble des partitions, appelée en général critère de classification ( Regnier

(1!)65), Ruspini (1969), Jensen (1969)), ou encor€ des méthodes algorithmiques, telle

que la mértrode de Ball et Hall (1965) qui dépend d'un certain nombrc de seuils donnés

à pnori. Ou celles de Forgy (1965) et Macc QUeen (1967). Ces dernières méthodes

nresurent la qualité d'une partition par la somnr€ des inerties des classes par rapport à

leur centre de gravité. Rappelons que ce critère ne pennet pas de comparer des partitions n'ayant pas l€ mêræ nombre de classes.

Sous le nom de méthode des Nuées Dynnmiques, Diday (1972) a proposé une technique de classification qui présente de nombreux avantages. Lidée de base de

cetc méttrcde est la suivantc :

Au lieu de regrouper les élérens de I'ensemble I à classifier autour d'élémens, qui

n'appartiennent d'ailleurs pas nécessairement à I'enscmble I comme c'est le cas pour

les méthodcs proposées par les autcu$ cités précédemment, on fait un rcgrioupenrent

autour d'enscmble délércnts, appelés noyaux, qui seront des parties de I. Une classe

dunc partition de I, au lieu d'êtnc représcntée par un scul élércnt, tcl son ccntre de

gravité, le scra par plusieurs de scs éléments 0e noyau dc la classe) ; s'ils sont bien choisis, ces éléments seront "tlpiques" de la classe et en forme,ront un résumé plus riche que peut l'être un centre de gravité. Cette façon de procéder, qui admet de

nmbrcuses variantcs, pésente bicn des avantages, prircipale'ment :

- Une grandc souplesse : des contraintes peuvent êtne imposées aux noyaux dont les

élércnts parexemple peuvent êue choisis parmi des éléments paniculiers de I.

- Des facilitées au niveau de I'interprÉtation des résultats qui peut être faite en

examinant les seuls noyaux.

Pour ces raisons, la plupan des méthodes de classification automatique proposées jusqu'à présent r€poscnt sur le principc dcs Nuécs Dynamiques. Ce prfurcipe a été

rcpris par Diday ct al (19E0) sous la fqmc suivanæ :

I.I. NOTATIONS

On suppose dans tout cc uavail quc les données initiales sont fournies sous la forme

d'un tableau r€ctangulaire de n lignes et p colonnes contcnant les valeurs prises par n

individus définis parp variablcs.

i'

o

I

io

(28)

o

t o

o

Classifrcuion autotnatiqrre et mélanges

Soient:

I: un sous-ensemble fini de Rp contenant n éléments.

Pr : L'ensemble des partitions de I en K classes, les éléments de Pr seront appelés

k-partitions et notés P = (Pr,..-Pd.

L : Uespace des noyaux qui seront associés arrx sous-ensembles de I comme une

carætéristique de ces sous-ensembles variant selon I'application de I'algoithme.

L1 : L'ensemble des K-uples délément de L, noté : L = ( Xr, ..., Ir)

où V k e (1,..., K) Ire L

1.2. Lt METHoDE DEs NUEES DYNAMTQUES

Considénons un ensemble I de n individus re,présentés pax un ensemble de n points

inclus dans un espace E (par exemple Rp). On définit I'ensemble des noyaux L, une

distance D enre les éléments & E et les noyaux dc L. I-e critère TV de la classification

est alqs le suivant :

K

W(P,L)= E l, D(x,Xd

k=l repl

or) P = (Pr,...,Pd une partition dc I'cnsemble I.

L = (Ir,...,14) I'enscmble des noyaux dcs classcs de la panition P.

L'algorithme construit itérativement une suite de F, Lo, Pl, Ll, ..., F, Ln de partitions et_de noyaux en minimisant à chaque étape le critère. Cene construction

reposc sur la définition des deux fonctions suivantes :

La lonction d'qlfectation I : consiste à affecter chaque individu à I'une des classc dc la partition dc manière à optimiser, à chaque fois, le critère W(f(L), L). Elle

dépent bien sûrre du choix de la disance D.

Nous obtenons :

f(L) = f(Ir, ..., Xd = P = (Pr, ..., Pd).

où P1= (xe I / D(xÂd S D(x/l&) avec kck' en cas d'égalité)

La classc P1 sÊra donc constituée _{des élércnts de I qui seront plus proche de L au}

sens dc la distance D que de tout autre noyau dc L.

Lt lonctlon de représcntation g .' pcnnet de déterminer les noyaux de la partition do manièrc à optimiser, à chaquc fois, lc critère W(P, g(P)).

B(P) = g(PI,.., Px) = ( Àr,..., Xd = L.

(29)

o

Classifuuion autonatiquc et mélange s

1.3. L'er,GoRrrHME

L'algorithme utilisé dans la méthode des Nuées Dynamiques consiste en la

constnrction de 2 suites:

t V " / n e N ) : s u i æ d e L r x P i , c ' e s t à d i r e q u e : V n V n = ( L t , F ) .

t U"/ n e N ) : suite éelle de valeurs du critère sur les Vr,, c'est à dire :

V n I J n = V [ ( L ' , F ) = W ( % ) .

Si Po est une panition initiale quelconque prise au hasard ou choisie, et si Lo est

I'ensemble des noyaux qui lui sont associés (Lo = g(F')) alors :

v6 = (Lo, Po ) = (g(F), Po)).

La suite (VJ estensuiæ définie prrécrrrence :

si Vr, = (Ln, F) alors Vn+l = Pn+I, Pol ) où F+l = f(Ln) ct Ln+l = g(F*l) = gof(Lt).

On montre que sous cefiaincs conditions (Diday ln2, Schroeder 1974, Govaert

195), la suiæ Un = T9(Vn ) décront, converge et atteint sa limite :

3 M e N : V n à M U n = U * .

le couple V* = (Lt, P* ) æl que V9(V*) = U* sera appelé qtimum local.

Poru abo'rder le problème des mélangcs de distributions de probabilités, le même

schéma que celui des Nuées Dynamiques scra à nouveau utilisé en prenant comme

noyaux dcs disributions de pobabilités. Dans nou€ étudc nous nous somnres limités à

une fqme particulière de I'algoithme utilisant la méthode d'estimation du maximum

de vraisemblance et optimisallt un critère de vraisemblance.

2. LES MELANGES

On désigne par I l'ensemble des n individus que nous considérons comme un échantillon de taille n à valeurs dans Rp. Nous chcrchons donc àdétecterdans

cet échantillon lbxisænce possible dc sous+nsembles qui se,raient échantillons de lois

dc probabilité dun type sonnu , dont la disribution globale aura la forme suivanæ :

lo

r f

(30)

K k=l

o

Classifu ation autornatfurc et mélanges

f (x) = f ( x / l t )

Dans laquelle f (x ll,ù et f (x) sont les densités (dans le cas continu) ou les

polygones de @uence (dans le cas dismet ) respectivement de la klme composante

du mélange et de la loi de probabilité ésultante.

pk: I-a probabilité à priori d apparition dans un échantillon aléatoire dune observation

de la loi f(x/â&), (cbst à dire le poids sffcifique de ælle observation dans la population

générale _{), k le nombre}de composans.

2.I. FORMALISATION DU PROBLEME

L'ensemble I défrni précédemment représente un ensemble de n observations sur

lesquelles p ûresurcs ont été effectuées ( I g Rp). On se donne une famille de densités

de probabilités f(., X) r.L à laquelle on supposc que les distributions des

différents composants appartiennent : l, est un paradtne éel ou vectoriel et L son

espace de définition L Ç Rr ( par exemple si p = l, la famille f(., X) peut être celle des

distributions gaussiennes unidimensionnelles avec I = ([r, o) ; s = 2 |

-RxR+ ç R2 ).

I-e problèmc à résoudre est al6s le suivant :

On chcrclu à trouver un couple (P, L) où L = ( LI, ..., A"ç) avec A,2eL pour tow

k et P = (Pt,...,Px) où les P2fonnent unc partition de I tel que : Pour tout

ke {1,..., K} ; Ptpuisse être considérée en un sens statistiquc à préciser comrne

m éclutuilbnvraisqnbloble dc la distribwion de la loif(., A*).

Ce problèmc peut être résolu par l'algorithme des Nuées Dynamiques étudié au

paragraphe l.l, en prenant corûrre noyaux les paramètres _{inconnus l, ; il suffit pour}

cela de sc donncr une fonction D mesurant la distancc d'une obsen ation xe I à une distribution f(., l).Le choix de cctæ fonction peut s€ fairc de diverses façons selon

I'optique statistique dans laquelle on se place.

2.2. Ls METHODE DE RECONNAISSANCE DES coMPosANTs DIU N

M E L A N G E

Pour résoudre le problème posé ci-dessus, Schroeder (L974) propose de prendre

cqûnedéfinition de lafonctionD la quantité suivanæ:

o

O

o

l.

I I

r O

t

'o

1 6

(31)

o

Classifrcation autonatique et mélange s

D(x,t)-Logtnfr;L

Cene définition exprime qu'une observation x sera d'autant plus proche du noyau l, que de la densité f(., l) sera grande en x. Pour que cette définition conduise à un

ensemble de valeurs pour D qui soit borné inférieurement, il faut choisir la constante

f* de façon àce que:

f* 2 max (f(x,l.) lLe L et xe I).

Nous venons par la suite qu'une valeur explicite de f* n'est pas nécessaire au

déroulement de I' algorithme.

Nous allons voir ce quc deviennent les fonctions VÏ, f et g :

2.2.1. Définition de TV

Lbxpression du criÈre à optimiserdevient :

K

W ( P , L ) = E

k=l xePr t=l

où L(hl X*) = II f(xnd qui est la rnaiscmblancc de l'échantillon Pt pour la loi

xePl

dc probabilité f(., L).

|.a minimisation du critère W(P, L) revient donc à la maximisation du critère de vraisemblance classifiante suivant :

vc(P, L) = 5, *, L(Pk/

U).

k=l

En utilisant lcs deux fonctions f et g défrnies cidessous,l'algorithrc nous conduit à une solution localc du problème.

2.2.2. DEFINITION DE f f(L) = (Pr,..., Pd.

où 4 = (xe I / D(x/fd s D(x/â&ù avec k*k'et k<k' en cas d égalité)

= (xe I / f(x^ù > f(xÂr) avec k*&' et k<k' en cali dégalité).

r ! t

i

to

I

o

t7

(32)

o

Classifrcuion autonatiquc ct mélange s

2.2.3. DnrrmrroN nE g

g ( P ) = L = ( X r , . . . , X r ) :

où t* minimise pour chaque classc la quantité : ry.Log f* - Log IÆr/Àr).

I-og L(PIA*) = rnar( I-(P4) ; ce qui signifie exacteûrent que Xl est I'estimateur du

l € L

maldmum de nraisemblance de I pour l'échantillon Pr.

Pour plub de détail sur I'existence de cet cstimateur qui n'est pas toujours assué on

pourra consulter Schroeder (1974).

On est assuré que oet algorithmc rÈne à un minimum local du critère et à un couple

(L*, P*) æl que :

si L* = (Ir*, ..., Xr*) et P* = (Pr*,..., PK*) V k e (1, ..., K), X,1* est

I'estimatcur du ma:rimum de rnaisemblance de l, pour l'échantillon P1*.

VxeI, xePl* câ f(x, L*) 2 f(x, Xr*) avec k*k'et k<k'en cas dégalité.

Lcs méthodes dcs Nuées Dynamiques reposent sur I'optimisation d'un critère

numâiqw lui mêrc défini à partir d'une distance. La méthode de reconnaissance des

composants dun mélange proposée par Schroeder à montré que souvent il existe un

lien cntrc ces méthodes et les modèles probabilisæs. Nous remarquons donc que le

passagc au critère probabilisæ peut appqter unc arguæntation ooncernant le choix du

critèr€ num&ique oPimisé.

Nous proposons dans la dernièr€ partie de ce chapine une étude des liens qui existent

enu€ les criÈres méuiques et les critères probabilisæs ; nous étudie,rons tout d'abord

ces liens dans lc cas continu (Govaert 1989) puis dans le cas discret (Govaert 1990) et

nous urontnons dans les dcux cas conxnent ces &ux critères peuvent se rejoindre.

3. GENERALISATION

3.1. Erupn DEs LrENS ENTRE LES CRTTERES METRTQUES ET LES

CRITERES PROBABILISTES DANS LE CAS CONTINU

On supposc toujours que les données initiales sont fournies sous la forme d'un tableau rcctangulaire de n lignes ct p colonnes contenant les valeurs priscs par n

individus pour p variables quantitativcs. Nous envisageons ici deux types de critèrcs :

le prremier que nous appelerons critère métrique, utilise la notion de mesure de

o

I

ro

I i O l 8

(33)

o

K

x

k=l

o

Cla;sjfrcuion at torrutiquc et mélanges

dissimilarité, le second que nous appelerons critère probabiliste utilise la notion de

mélange probabiliste. Nous définissons tout d'abord ces deux types de critères, nous

étudions ensuite les liens qui exisænt entre eux, puis nous montFons coûlment les

mélanges de lois gaussiennes sont liés aux distances quadratiques et les lois

exporrcntielles aux distances de type L1.

3.1.1. Critère métrique

Dans cette approche, nous représentons le tableau de données sous la forme d'un

ensemble I de n individus de RP. Chaque classe d'une partition va être représentée

par un élément de I'ensemble L qui resrc à préciser et qui sera appelé ensemble des

"noyaux" ; enfin on se donne une fOnCtion D de RPXL danS R+ qui mesureta la

"dissimilarité" enu€ un élércnt de RPet un noyau .

I-e p'roblème que I'on cherche à résoudre est de touver la partition P = (Pr, ..., P$ de I

en K classes et un K-uples (lr, ..., fd de noyaux (un par classc) minimisant le critère :

I D(x,Ir)

xePl

Ce critèrc qui dépend dc la mesure de dissimilarité D sera appelé critère nÉtrique et

noté CM(RI, Lr I)). Lcs méttrodes des Nuées Dynamiques rappelées au début de ce

chapitre Fopos€nt une solution à cc problème en construisant de maniù€ itérative une

suiæ de partitions-noyaux faisant décroître le criÈre cn utilisant toujours les deux

fonctions f et g de rcprésentation et daffectation défini au paragaPhe 1.2.

On peut sans difFrculté, en conservant le mêrc critère, modifier le problème posé en

ajoutant unc contraintc au K-uples de noyaux (lr, ..., ld reche'rché. Par exemple, si

le noyau est défini comrne un couple (a, b), on peut imposer que le premier terme du couple soit identique pour tout les noyaux du K-uple recherché l, = ((a, bt),(a, bz),..., (a,bd).

Définition 1.1 (Govacrt 1989)

On dira qrc deux critères nétiqrcs sont équivalents si et seulement s'ils sont dSnis

sw les mênus ensembles RP et L et s'il uiste wu bijection 0 de RP strtuemcnt

croissantc vérifutt : C M ( R2,L, Dt) - 0 o C M (Rr,L, Dz) I

l o

f o

I

o

l9

(34)

l.

o

Classifu uion autonratiqru et nélanges

où Dr et Dz sont les ûrcsures de dissimilarité associées aux deux critèrcs. Si on

remplace D par une fonction linéaire croissante de D, on obtient un critère métrique équivalent:

Proposition 1.1 (Govaert 19E9)

V a e R+ et Pe R ,les citères C M(RP, L, D) et C M(RP, L, oD+p) sont équivalents.

3.1.2. Critère probabiliste

On reprend ici la représentation de Celeux (1988).

3.1.2.1. Identification d'un mélange

Le tableau de données de départ de dimension (n, p) ( où n est le nombre d'individus

et p est le nombre de variables) est cottsidérré corrune un échantillon I de taille n d'une

variable aléaoirc à valeurs dans RP dont la loi dc probabilité adæt la fonction de

densité suivantc:

f(x) = pr f(x/l.r) ( 1 . 1 )

K

avec V k = I,K p1e l0,l[ et

finr

= t

(r.2)

où f(Â) appartient à une famille dc fonctions dc densité dépendant du paramètre I

élémcnt de Re, où s est un enticr suffrieur ou égal à I et pk est la probabilité qu'un point de l'échantillon suive la loi f(.Âd. On appclera ces p1 les proportions du mélange.

Lc problème posé est l'estinution du rcmbre K de composants et des paranètres

inconnus {pu 4l k = I, K} au vu dc l'échantillon. 3.1.2.2. Approche classification

Dans I'approche classificatbn (Scon et Symns 1971, Schroeder ln4), on remplace

le p'roblème initial d'estimation par le problèmc suivant :

Rechcrclvr urc putitbn P = (P 1,..., PK), K étant supposé corrnr, tellc qrc chaque

classe P2soit assimilùle à un souc-éclafiillon qui suit une loifl., A$.

K k=l

)r

)

)o

I

o

20

(35)

o

Classifrcation anton atique et iléIanger

tr s'agit alors de maximiser le critère de vraisemblance classifiante :

K

VC(P, I.) = I Log L(Pr, 1,1)

k=l

(1.3)

où l, est le puplet (Xr,..., _{Xd et L(Pk, h) est la nraisemblance}du sous{chantillon Pl suivant la loi f(.^d : L(P1, Id = fI f(Vld.

xePl

Ce critère qui dépend de la famille F de fonctions de densité définies sur RP sera appelé critère probabiliste et noé CP(Rp, F).

Pour maximiser oe critère, on utilise I'algorithme de type Nuées Dynamiques qui

constnrit à partir d'une partition Fen K classcs une suite de panitions en appliquant

les fonctions f et g décrites aux paragraphe.s2.2.2 et 2.2.3.

On pcut alors montner que sous certaines hypothèses, cet algorithæ est convergent.

Ott obtient à la convergenoe une partition P et une estimation des paramètres Xa. Les

propctions pl du mélange sont fournies par les fréquences des classes P1.

De la mêrc manièrc que pour les critèrcs métriques, on p€ut modifrer le problème en

iryosant une contraintc aux paramètres dc la fonction de densité associées aux classes

d'une partition ; par exemple, si lia famille F est I'ensemble des lois gaussiennes

sur RP, on pcut imposer que toutcs les lois gaussiennes associées aux classes d'une

partition aieqt la mêæ marice de varianccs.

3.1.3. Etude des liens entre les deux critères

Govaert (1989) a défrni dcux t1ryes dc liens cntres les critères métriques et les critères

probabilistes. Le premier pennet d'associer à tout critère probabiliste un critère métrique appelé critère métrique associé au critère probabilisæ, le second permet déændrc la notion de critères équivalens définis dans le cas de critères métriques et probabilisæs.

3.1.3.1. Critère métrique associé à un critère probabiliste :

Proposition 1.2 (Govacrt 19E9)

CP(RP, F) = CM(Re, L, D)

où L est l'ercenble dc définition des puotrètes de lolanille F et D est dffinie par :

)

)o

I

)o

o

2 l

(36)

lo

o

Classjfrcatbn autonatiquc et nélanges

V xe RP,V A,e L _{D(x, 2") - -Log f6, ),)}

I-G critère métriquc ainsi défini est appelé critère métrique associé.

La démonstration de cetæ proposition est facile à faire. tr suffit d'utiliser la définition

des deux critères. En outre, le fien existant entre les deux sritères pennet d'affrmer que la maximisation d'un critère probabiliste cst équivalente à la minimisation du

critère métrique associé. Ce résultat perrct donc de considérer que tous les critères

probabilistes sont des critères métriques, mais on peut s'interroger sur le problème inverse qui est le suivant : un critère métrique donné est-il associé à un critère probabiliste ? Cette propriété n'est pas vraie en général mais nous allons nous

intéresser à l'énr& des conditions nécessaircs et suffisanæs pour qu'elle soit vérifrée.

3.1.3.2. Critères probabilistes et métriques équivalents

Définition 1.2 (Govacrt 1989)

Deta critères probabilistes sont équivalents si les crttères métriqucs usociés sont équivalens.

Un critère profubilisæ CPt et wt critère métriqrc CM2 sont équivalens si le critère

métr@ CM I assæié à CP 1 est équivolcrrt u critère métnque CMz.

3.1.33. Condition pour qu'un critère métrique soit nssocié à un critère probabiliste

Proposition 1.3 (Govaert 19E9)

Un critère nétriqrc CM1R?, L, D) est ossocé à un critère probabiliste si a seulemew

si V As L lafonctbn x q eWx,L) estcontiruu etvérifie I e-o{,,L1 dx = I.

*

3.1.3.4. Critère probabiliste équivalent à un critère métrique

En utilisant la proposition (1.1), on peut obænir unc condition plus faible permenant de nrontnerqu'un critè,rc mérique est équivalent (et non assæié) à un critère pnobabilisæ.

o

t

)o

I I

)o

22

(37)

o

a

o

Classifrcubn autonutiqre et mélange s

Proposition 1.4 (Govaert 1989)

Emnt funné le critère méniquc CM(RP, L, D), s'il qiste m réel r>I tel qre la qwntité

s = J r'DF,L) dx soit indépendante dc L, alors le crttère probabiliste CP(RI, F ) où

f

F est définie par lesfonctbns de densitéf :

f(x, h1=

rD(x'A)

est n r critère équivale nt.

Prcuve

Iæ critèr€ mérique associé à la famille proposée est #finie par la forrction D' :

D'(x,X,)=-I,ogf(x,1,)=-Log

(

_{+ r-D(x,I)}

) =s+r.D(x,l).

I-a proposition (l.l) permet d affimer que les critères mériques associés à D et D'

sont équivalents. D'où le ésultat annoncé.

Après avoir étudié les deux t)?es de critèrcs et les conditions dans lesquelles ces

criêrcs p€uvent sc rejoindre, nous nous intéressons maintenant aux liens existants

entre les lois gaussicnnes et les distanccs quadratiques et les lois exponentielles et les

distances Lt.

3.1.4. Métriques quadratiques et lois gaussiennes

3.1.4.1. Métrique quadratique fixe et identique pour toutes les classes L'ensemble à classifier est inclus dans RR, les noyaux sont aussi des éléments de Rp (L - Rp), la foncrion D est définie à partir d'une matrice M définie symétrique positive fixée à prid.

V x e t l 4 e R P D ( x , l. ù = c r . ( x - I d . M . ( x - I ù V c l e R + e t V p e R

Qtrelles que soient les valeurs a et P,les criêres scront tous équivalents (proposition

1.1) nous nous limiærons donc au critère le plus simple qui correspond à la fonction

D ' : D'(x, l.j) = t(x - l,f.M.(x - trr)

L

s I

l o

I r O ) i j V x e t I I e R P 23 (1.4a)

(38)

o

Classifrcuion autonrotiqrre et naélange s

La proposition (1.4) pennet d'affirmer que le critère métrique définie à partir de la

disunce (1.4a) est équivalent à un critère pnobabilisæ car :

J p-D(x,X$ 6 =vvt2.lUl-n est une quantité indépendante de À1,Ia

RP

fonction de densité s'écrit alqs :

V x et 14 e RP f(x, l.ù = v+t2. lU I ra . s-(x-XÙ'M'(x-l't)

qui correspond à une loi gaussienne de centre L et de matrice de variance z.M-r .

3.1.4.2. Métrique quadratique variable et dépendante de chaque classe

La mérique M n est pas fixe et dépend de chaque classe :

nænierJst- D(x, (a6 Md) = (x - ad.Mr.(x - +) (1.4b)

14 = (a1, Mf

ce critère métrique est associé à un cdtèrc probabitisæ si la condition ltr,t ;= tEP est

vérifréc. I-e critère probabilisæ qui lui est associé est alors défini par la famille de

fonction de densité F correspondant aux lois gaussiennes dont les matrices de

variances sont de détenninant oonstant.

Deuxième cas : D(x, (ar, lvlk, ad) = (lk * (x - +).Mr.(x - +) (1.4c)

14 = (a1, IvIr, ad

si o. = llogr - àI-g llvrrl, le critèreméuiqucdéfinie à I'aidede laménique

(1.4€) est assæié a un criÈre probabilisæ dont la fonction de densité est définie par :

V x et ar e Rp f(x, (ar, Fd) = (2n)-ptz. lf. | 4n .e-T'\x-ap'F*f '(x-at)

où fr = â. M.t . Cest lc cas le plus général des lois gaussiennes.

Nous allons voirmainænant oomnr€nt les mériques errclidiennes sont elles aussi liées

aux lois gaussicnnes :

t o

I I I

)o

I

o

24

(39)

o

Classiftcuion automatiryc et mélange s

3.1.5. Métrique euclidienne et lois gaussiennes

Premier cas : les noyaux sont de la forre (a tvtl où ae RP et M est une matrice

symétrique définie positive; on impose aux noyaux d'avoir la même matrice M.

D(x, (at, M)) = (x - ad.M.(x - aù (1.5a)

si lM l=æ alors le critère métrique définie à taide de la métrique euclidienne (1.5a)

est associé à un critère probabilisæ dont la fonction de densité s'écrit :

f(x, a1) = ,- ,!.t(x-af.f-1.(x-aL)

où r=+.M-r.

Deurtème cas : D(x, (at, M, a)) = (tr + (x - ad.M.(x - ad (1.5b)

. D

-sr u= _ir.ogzE- _il-"gltrtl on obtient un critère probabiliste éqrrivalent au

critèrc métrique définic par (1.5b) en pr€nant coûune forrction de densité :

f(x, (ar, F)) = (zæ)'ptz. _{lf l-ra ."- |.t{*-n ).f-r.(x-a1)}

où f = _â.M-l ; dans ce cas là on n'impose aucune contrainte au déterminant de la

matrice lvl

On remplace maintenant la métrique euclidienne par la distance L1 ou la distance

city-block.

3.1.6. Métrique de type L1

Dans le cas de la distance L1, le centre de gravité est remplacé par la notion de médiane.

3.1.6.1. Distance fixe et identique pour toutes les classes

L = RP D(x, 11) = Ë

", f*r- f{f (1.6a)

j = l

où les al sont des constantes réelles et positives.

P

si la condition [I @= T est vérifiés, le criêre métrique définie par (1.6a) est

j = l

associé au critère probabilisæ définie par la fonction dc densité suivantc :

yo

I I r O

I

o

25

(40)

fi+

j = l o

o

P j = l

C/r,ls sifuation automatiryn et mé lange s

f(x, l$ = s-D(x,1,1) =

"-aj

lx.i - l,J. r

qui corespond pour chaque composante du mélange à un produit de p lois

e)cponentielles biluérales L(ti, aJ) (en supposant bien sûr I'hypothèse d'indépendance

muhrelle vérifiée entre les p variables).

3.1.6.2. Distance L1 variable et dépendante de chaque classe

D(x, (1,r, ct, Fr)) =

4 l*J-4r

* pt

( 1 . 6 b )

o

si fi oi =, alors Êr= p.Iog 2 - i,IÆg 4= 0 i on obtient ainsi une distance

j= I j=l

o

)

lo

I I l O

lo

L1 pondérée. Danseecas f(x, l,ù = ,Ût,^i, 4, où L(4,

"l) est uno loi exponentielle bilaté,rale.

Nous venons dorrc dc rappcler les différents liens qui exisænt entre les critères utilisés

en classification automatique et les modèles probabilistes dans le cas où I'ensemble à

classifier constitue un enscmble continu, nous allons voir ce que deviennent ces liens

dans le cas où les données sont fini ou irrclus dans un espace discret" c'est le cas des

tableaux décris par &s variables binaires où qualitatives.

3.2. ETUDD DES LIENS ENTRE LES CRTTERES METRTQUES ET LES

CR,ITERES PROBABILISTES DANS LE CAS DISCRET

L'ensemblc à classifier est maintenant inclus dans un espace fini E, nous allons

reprendre toutes les définitions et propositions qui ont étés établi dans le cas continu

mais cetæ fois-ci appliquées à un ensemble disset. Nous ne donnons ici que les

prirrcipaux Ésulats.

Lc critère méuique CM(RP, L, D) défini dans le cas continu est remplacé ici par le critère métrique CM(E' Lr D)r où E est un ensemble fini, par exemple E = {0,

llp dans le cas dun tableau binairc à p variables.

La définition (1.1) et la proposition (1.1) rpstent les mêmcs dans le cas discret où I'on

remplace I'ensemble Rppar I'enscmble E. L€ critère probabilisæ que I'on note par CP(E, F) est lui aussi défini de la même manièrc quc dans le cas continu, mais les

fonctions de densités sont rcmplacées par des distributions de probabilités sur E ; les

liens existant entnc les critères métriques et probabilistes dans le cas discret sont les

(41)

o

C lassifrcation autonati4u et mélan ge s

mêmes que ceux obtenus dans le cas continu, mais notons que les conditions

d'association et d'équivalenc€ entre ces deux types de critères diffèrent dans le sens où

I'on remplace I'intégrale par la sommation ; nous allons rappeler quelques uns d'entre eux.

3.2.1. Critère métrique associé à un critère probabiliste

Proposition 1.5 (Govacrt 1990)

CP(E' F) = CM(fi, L, D)

où L est l'ewenble de dfinition des paronètres de lalanitle b et O est dfinie par :

V xe E, V AÊ L D(x, L) - -Log p(x, L)

3.2.2. Condition pour qu'un critère métrique soit associé à un critère probabiliste

Proposition 1.6 (Govaert 1990)

Un critère nétriryc CM(E, L, D) est associé à un citère profubiliste si a seularcnt si

V tÉ L lafonction x a s-D(x,L) estcontinttc etvérifte 2e-D(r,L) dx = I.

xeE

3.2.3. Critère probabiliste équivalent à un critère métrique

En utilisant la proposition (l.l) appliquée dans le cas discret, on peut obtenir une

condition plus faible p€nnettant de montner _{qu'un criÈre métrique est {uivalent (et}

non associé) à un critère probabilisæ.

i'

'r':"::';"'

,::::,,Ï)"rr,",

_{L, D) , s,it existe}

un réet r>r tet q,,c ta

qwrntité s = _{| s'D(x,L)} soit irùépendante de lL, alors le critère probabiliste

zeE

r I CP(E, F ) où F est définie pu la distibntiors fu profubilités suivanes : Pçx,fi= | 7Dft'îu)

est un critère équivalent.

Classification automatique et modèles

HAL Id: tel-01775952

https://hal.univ-lorraine.fr/tel-01775952

Classification automatique et modèles

Yamina Bencheikh

To cite this version:

AVERTISSEMENT

Ce document est le fruit d'un long travail approuvé par le jury de

soutenance et mis à disposition de l'ensemble de la

communauté universitaire élargie.

Il est soumis à la propriété intellectuelle de l'auteur. Ceci

implique une obligation de citation et de référencement lors de

l’utilisation de ce document.

D'autre part, toute contrefaçon, plagiat, reproduction illicite

encourt une poursuite pénale.

Contact : ddoc-theses-contact@univ-lorraine.fr

LIENS

Code de la Propriété Intellectuelle. articles L 122. 4

Code de la Propriété Intellectuelle. articles L 335.2- L 335.10

http://www.cfcopies.com/V2/leg/leg_droi.php

o

o

o

m IUIATIIEMAffiQIjE DE METZ

THESE

TUNTYERStrEDE METZ

DOCTEUR DE L'UNTWRSITE DE METZ

YAMINA

BENCHEIKH

CLASSIFICATION AUTOMATIQUE ET MODELES

b?q L,L\

o

o

o

o

o

o

o

o

o

lo

o

o

s/nZ-I-ABORATOIRE DE RECTIERCITE

EN INFORMATIQUE

ET IUIATTIEMATTQUE

DE METZ

THESE

LI,INIIZERSITE

DE METZ

DOCTEUR DE L'TTAIII/ERSITE

DE METZ

YAMINA

BENCHEIKH

CLASSTFTCATION

AUTOMATTQUE ET MODELES

slb erl

t,

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

*ÂxGacrE,*g,t tfs

o

o

o

)o

o

_t,

ÂxGacrE,g,t tfs