Apprentissage d'un vocabulaire symbolique pour la détection d'objets dans une image

(1)

HAL Id: tel-00008642

https://tel.archives-ouvertes.fr/tel-00008642

Submitted on 3 Mar 2005

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

détection d’objets dans une image

Sébastien Gadat

To cite this version:

Sébastien Gadat. Apprentissage d’un vocabulaire symbolique pour la détection d’objets dans une

image. Mathématiques [math]. École normale supérieure de Cachan - ENS Cachan, 2004. Français.

�tel-00008642�

(2)

Présentéepar

Sébastien GADAT

Pour obtenir legradede

DOCTEUR DE L'ÉCOLE NORMALE SUPÉRIEUREDE CACHAN

Domaine :

MATHÉMATIQUES

Sujet de la thèse :

Apprentissage d'un vo abulaire symbolique pour la déte tion

d'objets dans une image

Thèseprésentée et soutenue à Ca han le17 dé embre 2004 devant lejury omposéde :

Romain Abraham Professeur Rapporteur

Mi hel Benaïm Professeur Rapporteur

Donald Geman Cher heur asso ié o-Dire teur de thèse

Lionel Moisan Professeur Examinateur

Alain Trouvé Professeur Président

Laurent Younes Dire teur de re her hes Dire teur de thèse

CMLA

ENS CACHAN/CNRS/UMR 8536

(3)

Remer iements

Je voudraisavant toutremer ierLaurentYounespoursadisponibilité,sapatien e,sa

gentillesse etaussisarigueur et sonhumourdé alé (maistoujoursjuste!)qui aétéundire teur

dethèse idéalpourguidermespremiers pasdansl'universsistimulant delare her he,ainsique

Donald Gemanet ses nombreusesintuitions gagnantespour laréalisation demon travail.

Je remer ie également Alain Trouvé pour les dis ussions toujours protables pour

l'avan ement de mes re her hes et qui me fait l'honneur de présider e jury ainsi que Romain

Abraham et Mi helBenaïm quiont spontanément a epté de rapporter montravail,et qui par

leursremarques onstru tivesont ontribuéàaméliorerlaversionnalede emanus rit.Jetiens

à remer ier enn Lionel Moisan pour saparti ipation à e jury et l'intérêt qu'il a porté à mon

travail.

J'adresse aussi des remer iements un peu lointains à Mi hael Miller pour m'avoir si

sympathiquement a ueillià Baltimore pour lapoursuitede mestravaux, même siles

tempéra-tures yont étésgla iales!

Robert Azen ott m'a fait des remarques très protables et elles- i m'ont permis

d'é lair ir ertains points de mon travail, je ne voudrais don pas l'oublier dans ette longue

page de remer iements.

J'adresseune pensée parti ulière à Christophe qui est sans doute une des rares

per-sonnesquiauraeule ouragein ensédelirel'integralitédemonmémoire,d'amélioreretexé uter

des odes- ertesparfoisinutiles - surles surpuissants entresde al uls duCMLA.

Pour les divers é lair issements sur des points qui sesont avérés essentiels dans mon

travail, je veux exprimer ma gratitude à Paul Dupuis, Amarjit Budhiraja, François Fleuret et

Hi hemSahbi.

De manière un peu moinssérieuse, je voudrais aussisouligner l'inuen e positive de

toutes les personnes qui ont animé le laboratoire autour de moi et sans qui l'environnement de

travail auraitétébienmorose.Parmieux, àpartlesmoultes afetièresusées aulongde estrois

ans, quelquesautres nomsme viennent àl'esprit :

Junior, même siparfoissamusique estun peu bizarre et sonartde laglissade ontrolée

ave sourispastoujours au point.

BérEnger pour sapersévéran erassurante dansl'exé ution à lalettred'un régime

hypo- alorique, lafameuseinégalité triangulaire et sonintégralelégendaire sur2n variables.

CélineetFipourleursinvitationsaufonddel'Essonnequij'espére,serépèteronten ore

dansles moisà venir, surtout s'ilya dugâteau au ho olat.

Samy sans qui n'importe quelle ligne de mon C++ n'aurait pas dépassé le Seg Fault",

et qui a réussià me donner(malgré lui) une vague idée de e quereprésentait ma h 1aux jeux

videos.

Julien et Anthony, même s'ils font partie de l'équipe d'analyse numérique (...), se sont

révéles d'ex ellents amarades sauf peut-être dans un domaine que la dé en e m'empê he de

iter.

Jérémie pour son goût avéré pour le sprint, l'orande, la glissade, les stomps, laps ou

autres blastsen tousgenres.

Benjamin (gogogo!)pour sagentillesse et son alme parfoisénervant et Julie pour avoir

réussi à analiser l'énergie débordante de ertains demes ollo ataires de bureau.

(4)

Pas aletsesfameux servi eswindows,sonindé rottablevolontéd'hélasutiliserdrak onf

et d'allersi dangeureusement roussertousles jours.

Je tiens aussi à remer ier mes parents, mon frère et mes grands parents pour m'avoir

en ouragé et enseigné depuis tout petit leur goût du travail. Je pense parti ulièrement à mon

papyqui,je suis sûr, auraitété si ontent de ontempler le par ours a ompli.

Je n'oublie pas Solveig, Olivier, Vin ent, Julien, Olivia, Mathilde et Lauren e qui me

font lajoied'être venus m'é outer sansvraissemblablement omprendre quoique e soitet Élie,

Hélène,Adrien et Véronique qui m'ont permis de me détourner de montravail dans lepaisible

environnement de Manosque.

(5)

(6)

Chapitre 1 - Introdu tion - État de l'art 6

1.1 Problématique . . . 6

1.2 Algorithmes de lassi ation . . . 8

1.2.1 Dé ision Bayésienne . . . 8

1.2.2 k PlusPro he Voisin . . . 9

1.2.3 SupportVe tor Ma hine . . . 9

1.3 Séle tion de features . . . 11

1.3.1 Analyse en omposantes prin ipales. . . 11

1.3.2 Analyse en omposantes indépendantes. . . 13

1.3.3 Constru tion de Featuresà partir d'arbresde dé isions . . . 14

1.3.4 Séle tion de featuresbinaires par ritèred'information mutuelle . . . 16

1.3.5 Maximisation delamarge desSVMspour laséle tion de variables . . . . 16

1.4 Le Boosting : omplément naturel à laséle tion de features . . . 17

1.5 Organisation du mémoire . . . 19

Chapitre 2 - Obtention de features et mesure de l'information 21 2.1 Featuresélémentaires . . . 21

2.1.1 Introdu tion. . . 21

2.1.2 Cas parti ulier desimages . . . 22

2.1.3 Composition de déte teursélémentaires, agrégationde déte teurs . . . 24

2.2 Représentation desmots sous formed'arbres binaires . . . 26

2.2.1 Dénitions . . . 26

2.2.2 Motivation pour l'utilisation de testsélémentaires négatifs" 9 ;:::" 16 . . . 27

2.2.3 Déte teurs debordsinvariants par translation . . . 27

2.3 Mesure de l'information ommune. . . 29

2.3.1 Cas de variablesaléatoires binaires . . . 30

2.3.2 Cas de variablesaléatoires réelles . . . 35

Chapitre 3 - Séle tion de features par minimisation d'une énergie 37 3.1 Problématique . . . 37

3.2 Algorithme dere her he . . . 39

3.2.1 Énergie . . . 39

3.2.2 Gradient de E en métriqueeu lidienne . . . 41

3.2.3 Gradient de E en variablesexponentielles . . . 42

3.3 Équations diérentielles asso iéesauxdes entes degradient . . . 47

(7)

3.3.2 Étude de (E 4) . . . 49

3.4 Approximation sto hastiquede lades ente de gradient (E 1) . . . 49

3.4.1 Né essité d'uneapproximationsto hastique . . . 49

3.4.2 Stabilité de S F . . . 50

3.4.3 Pistes pour ontourner (C) . . . 51

3.5 Approximation sto hastiquede lades ente de gradient (E 2) . . . 52

3.6 Convergen e del'apprentissage (E 6)de Pvers (E 2) . . . 53

3.6.1 Généralitéssur leséquations diérentielles . . . 53

3.6.2 Convergen e versune pseudo-traje toireasymptotique . . . 54

3.6.3 Convergen e versun minimum de E . . . 60

3.7 Expérien es surdesdonnées synthétiques . . . 62

3.7.1 Des ription desdonnées . . . 62

3.7.2 Des ente de gradient exa te . . . 63

3.7.3 Des ente de gradient appro hée . . . 64

3.7.4 Features séle tionnés . . . 66

3.8 Déte tion de hires manus rits . . . 67

3.8.1 Taux d'erreurg . . . 67

3.8.2 Organisation spatiale destests . . . 69

3.8.3 Performan ede lassi ation . . . 69

3.9 Déte tion de visages . . . 73

3.9.1 Base de données . . . 73

3.9.2 Évolution de E . . . 74

3.9.3 Lo alisationdesfeatures . . . 76

3.9.4 Taux d'erreur . . . 76

3.10 Déte tion de SPAM . . . 77

3.10.1 Évolution du tauxd'erreur de lassi ation . . . 77

3.10.2 Motsséle tionnés pour ladéte tionde SPAM . . . 77

3.10.3 Votede déte teurs . . . 79

3.11 Bilan . . . 79

Chapitre 4 - Pro essus de diusion réé hie 80 4.1 Introdu tion . . . 80

4.2 Diusionsous ontraintes . . . 80

4.2.1 Appli ation de Skorokhod . . . 80

4.2.2 Existen e de pro essusde diusionssous ontraintes dansG . . . 85

4.3 Cas parti ulieroù G=S F . . . 86

4.3.1 Dénition desdire tionsde réexion . . . 86

4.3.2 Des ente de gradient sous ontraintesdansS F . . . 90

4.4 Expérien es . . . 93

4.4.1 Cadre synthétique . . . 93

4.4.2 Déte tion de visages . . . 94

Chapitre 5 - Pro essus de diusion réé hie ave sauts 96 5.1 Obje tifs. . . 96

5.2 Diusions réé hies ave sauts . . . 97

(8)

5.3 Sauts dansl'espa e desforêts . . . 99 5.4 Transitionsde F ts à F ts+dt . . . 100

5.4.1 Création de nouveaux arbres . . . 101

5.4.2 Couped'un arbre . . . 102

5.4.3 Renaissan e d'arbres initiaux . . . 102

5.4.4 Par ours de F ? . . . 102

5.4.5 Non réversibilité faible desrègles(T g )-(T )-(T i ) . . . 104

5.5 Probabilités despropositions de transitions deF t s àF t s +dt . . . 105

5.6 Dynamique markovienne dessauts . . . 105

5.6.1 A eptation dessauts par unalgorithmede Métropolis-Hastings . . . 106

5.6.2 Détermination deP t s +dt . . . 107 5.6.3 Cal ul de . . . 109 5.6.4 Dénition de E(F;P) . . . 113

5.7 Existen e et uni itédupro essusde diusion réé hie ave sauts entreles forêts. 114 5.7.1 Terme dedérive Get ovarian e . . . 114

5.7.2 Conditions (C 4 ),(C 5 ), (C 6 ) et (C 7 ) dansnotre modèle . . . 115

5.7.3 Bilan. . . 121

Chapitre 6 - Asymptotique du pro essus de diusion réé hie ave sauts 124 6.1 Étude innitésimalesurlepro essus dediusion sous ontraintes ave sauts . . . 124

6.1.1 Des ription du pro essus . . . 124

6.1.2 Généralité surles pro essusMarkoviens . . . 125

6.1.3 Générateur dupro essusde diusion sous ontraintes. . . 127

6.1.4 Générateur dupro essusde diusionssous ontraintes ave sauts . . . 131

6.2 Dynamique du pro essus . . . 131

6.2.1 Pro essus markovien ré urrent . . . 132

6.2.2 Mesure invariante du pro essus . . . 137

Chapitre7-Approximationsto hastiquedupro essusdediusionsous ontraintes ave saut 142 7.1 Algorithme d'approximation . . . 142

7.1.1 Distribution dessauts . . . 142

7.1.2 Approximation entreles sauts . . . 143

7.1.3 Pro essus interpolés . . . 144

7.2 EnsembleD . . . 144

7.2.1 Dénitions . . . 144

7.2.2 Topologie surD. . . 145

7.2.3 Convergen e dansD. Compa itéfaible et ritère detension surD . . . 146

7.3 Compa ité destraje toires de (P n ;Y n ;W n ;Z n ) . . . 148 7.4 Limite faible de (P n ;Y n ;W n ;Z n ) . . . 153 7.5 Expérien es . . . 155 7.5.1 Données synthétiques . . . 155

(9)

Chapitre 8 - Con lusion 162

8.1 Bilan . . . 162

8.2 Pointsforts . . . 163

8.3 Pointsfaibles . . . 163

8.4 Poursuitedestravaux . . . 164

Annexe A -Espa es des Features pour les images 165 A-1Déte teursde bords . . . 165

A-1-1 Déte teursprimitifs debordsverti aux . . . 165

A-1-2 Déte teursprimitifs debordshorizontaux . . . 166

A-2Séle tion desdéte teurs élémentairespour latâ he de lassi ation . . . 169

Annexe B - Conditions de stabilité de S F 170 Annexe C - Cal uls des règles de sauts 174 C-1Proposition dessauts . . . 174

C-1-1Séle tion pourune gree . . . 174

C-1Cal ul desprobabilités de transition(R2). . . 175

C-2-1: Cas oùF 0 rF t s 6=? . . . 175 C-2-2Cas oùF 0 rF ts =?: . . . 176 C-3Cal ul de 1 . . . 176 C-3-1Gree (T g ),(T g ;sg ),(T g ;sd ) et (T g ;sgd ) . . . 176 C-3-2Coupe (T ) . . . 177 C-3-3: Coupe (T ) . . . 177

C-4: Cal ul desdiérentiels énergétiques E err . . . 177

C-5Ré apitulatif de ladynamiquedessauts . . . 182

C-6Énergie en log(E) . . . 183

Annexe D - Existen e des diusions réé hies ave sauts 185

(10)

Chapitre 1 - Introdu tion - État de l'art

1.1 Problématique

Ladéte tiond'objetsdansuneimageainsiquel'analyseetla lassi ationd'un signal

repré-sententdesenjeuxmajeurspourletraitementdusignalparordinateurs.Enparti ulier,l'analyse

de divers types de signaux omme par exemple les images satellitaires, les mammographies ou

lesenregistrementsaudioposeleproblèmeévident del'extra tionde petites quantitésde

ara -téristiques( features ou déte teurs) arl'espa e initial danslequel vivent les donnéesest de

trèsgrande dimension.

Ilparaîtparailleursraisonnabledepenserquel'exé utiondetâ hesalgorithmiquesappliquées

àunensembledesignauxpeutêtreoptimiséeà onditiondedisposerinitialementdubonespa e

de ara téristiques,et e quelquesoitl'algorithmeutilisé.Lare her he dubonfeaturespa e

estdon d'une importan e apitale pour l'e a ité de larésolution deproblèmes entraitement

du signal. Enn, e sont es ara téristiques élémentaires qui vont permettre d'interpréter le

signal étudié, 'est alors en e sens que nous utiliserons le mot vo abulaire pour désigner

l'ensemble des ara téristiques élémentaires que l'on pourrait extraire des signaux issus d'une

basede données.

Lesdiérentesidées quianiment ettethèsepourlare her he de esbonnes ara téristiques

sebasent sur diérentsobje tifs omme l'exhaustivité et lapar imonie du vo abulaire. Et 'est

en dénitive la nature des propriétés que l'on souhaite obtenir sur la omposition de notre

vo abulaire quidétermine la manièrede onstruire untel ensemble de features.

Nouspouvonsdansunpremier tempsénumérer diérentes motivations pour lapré-séle tion

d'un ensemblede featurespour l'analyse d'un signal.

Cettepré-séle tiondevariablespermet eneetde omprendre, dupointdevue ognitif, e

que sontles ara téristiques prin ipalesquipermettent de distinguerparti ulièrement une

lasse de signal d'uneautre. On peut alors exhiber et mettre de téles features quisont

fondamentaux (qui apportent une quantité d'information substentielle pour letraitement

du signalquel'on souhaitefaire)et é arterau ontrairelesfeaturesquine permettentpas

d'avoirdes on lusions tangiblessurla tâ hede traitement souhaitée.

Du point de vue de la omplexité algorithmique, on peut souhaiter manipuler un

vo a-bulaire on is. De e fait, le odage d'une telle liste de déte teurs orrespondant à e

vo abulaire va alors permettrede n'é rire qu'une quantité réduite de bitsen mémoire

vir-tuelleousurledisquedurdusystèmeinformatique, equientraîneradèslorsunemeilleure

portabilitédu systèmed'analysedu signal.

Toujours dupoint de vuede la omplexité algorithmique, on peut vouloir qu'il existe une

(11)

il ne faut pasnégliger nonplus lavitesse de transmissiond'un tel ensemblede réalisation

defeaturessurunsignal.Eneet,le odage d'unetellelistederéalisationdedéte teursest

d'autantplus ompa t qu'ilexistedespropriétésderedondan eentrelesdiérentsfeatures

quel'on souhaite oder ( odage LZW -[CT91℄).

Ensuivant des onsidérationsstatistiques,on onstatequelavarian eintroduiteparle

vo- abulairedontondisposeestglobalement unefon tion roissante delaquantitéd'éléments

quiappartiennent à e vo abulaire.Enrevan he,lebiaisinhérent àtoutemodélisation

dé-pendantd'unensemblededéte teursappli ablesàunsignalestluidé roissantenfon tion

la quantité de features. Ainsi, e dilemme Biais-Varian e ([GBD92 ℄) aboutit à un hoix à

faire entre

la rédu tion de la varian e du système lors de laséle tion des bons features touten

maintenant un biais raisonnable (en ne supprimant par exemple que les déte teurs

apportant peud'informations àl'interprétation dusignaltraité).

la diminution du biais en ajoutant au système de features un nouveau ara tère en

ontrlant alors l'augmentation de lavarian e du modèle.

La rédu tion de la dimensionnalité des données est fondamentale pour le problème de la

re onnaissan e deformesdanslamesureoù l'augmentation dunombre de ara téristiques

desdonnées n'augmente pasné essairement la qualitéd'apprentissage. Eneet,le

phéno-mène de Hughes (également onnu sous le nom de Curse of dimensionality) implique

que la quantité de données N né essaire pour apprendre statistiquement un modèle à p

dimensionsàunepré isionxéeaugmente exponentiellementave p ([HTF01℄,paragraphe

2.5).

Dans un se ondtemps, l'extra tion denouvelles ara téristiques à partir desfeatures primaires

permet de per evoir d'autresavantages pour lare onnaissan e de formesdansunsignal.

Dans le domaine ognitif de l'intelligen e arti ielle, l'agrégation de déte teurs peut

per-mettre d'identier la omposition ( a hée) de hamps de variables qui génère le signal

manipulé. Cela onstitueraitalors uneavan éemajeuredansl'apprentissagepar

l'informa-tiquede sour esde données pour destâ hesd'apprentissage supervisé.

En equi on ernelesperforman esdestâ hesde lassi ationoure onnaissan e,unetelle

extra tionde nouvellesvariables peut aboutiràde meilleures propriétés dedis rimination

d'un signaldans le asoù elui- i n'est justement pasintéressant.

Lesappli ationsd'unetelleaméliorationdufeaturespa epeuventêtrenombreusesetvariées.

La fouille de onnaissan es dans des bases de données souligne bien les ontraintes de gestion

et d'e a ité né essaire à l'exploration de es grandes bases de données ([UCI℄, [MIT℄). Par

exemple, lorsque l'onsouhaite analyser des hiers .logde onne tions internet surdes serveurs

WEB, on onstate que es hiers peuvent avoir plusieurs millions d'entrées pour des milliers

de variables. Sans une séle tion de es variables, la plupart des méthodes de lassi ation des

donnéesé houentsur etypededonnées arlesalgorithmesélaborésdansdesdimensionsréduites

nesontpastoujourstransposablesdansdes asoùlesdimensionssontbiensupérieures.Ilparaît

ependantintuitifquesurlaquantitédedonnéesmanipulées,unefaibleproportionde esdonnées

peut permettre de résoudreleproblème de re onnaissan ede formesdanslesignal.

Nous ommen eronsparénumérerdesméthodesalgorithmiques lassiquespourla

(12)

1.2 Algorithmes de lassi ation

La re onnaissan e de formes onsiste en l'automatisation de tâ hesde per eptionarti ielle

réalisées par un système informatique alors qu'elles sont usuellement ee tuées par le erveau

humain.Une formeestune représentation simpliéede l'universextérieurdénie d'une ertaine

manièrepourl'ordinateur,parexempleunve teurderéels,unmotd'unlangagedonné,...Nous

pouvonsreprésenter lare onnaissan e deforme par ordinateur enutilisant les héma :

Étatréel Capteur

Pré-traitement

Forme,information

Unsystèmedere onnaissan edeformesoude lassi ation omprendlaplupartdutempsune

phased'apprentissage qui onsiste àapprendre(à re onnaitre) ertaines lasses d'objets sur

unebased'é hantillon(Training-Set).Lorsde ettephased'apprentissage,lesystèmeséle tionne

alors les règles qui lui permettront de dé ider sur les données à lasser (Test Set), quellessont

lesformesqu'il pense êtreles bonnes.

Dans notreétude, les problèmes de re onnaissan ede formesseront tousdes problèmes dits

supervisés : le nombre de lasses est onnu ainsi qu'un é hantillon de données pour haque

lasse. L'algorithme d'apprentissage que nous onstruisons utilisera alors diérents lassieurs

pour séle tionner lesvariables retenuespour latâ he de re onnaissan ede formes.

1.2.1 Dé ision Bayésienne

Ladé isionbayésienneestlathéorie entrale desméthodessto hastiquesoùlesproblèmes de

dé isionsont traités entermes deprobabilités. Le point névralgiquede ette théorieestlarègle

deBayes quipermet en faitde hoisir l'hypothèse ayant laprobabilité laplusélevée.

Dans notre adre, on suppose que le problème de re onnaissan e de forme fait intervenir s

lasses que l'on énumère en C

1

;:::C

s

et on se dote de fon tions réelles (C

i

;C

j

) qui quantient

le oût de la dé ision de lasse C

i

quand le signal appartient en réalité à C

j

. Si l'on note X le

signald'entrée,P(XjC

i

) laloide probabilité d'obtenirlesignalXlorsque la lasseestC

i

etP(C

i )

laprobabilité a priori de la lasseC

i , alors : P(C i jX)= P(XjC i )P(C i ) P(X) ave P(X)= s P k=1 P(XjC k )P(C k )

La fon tion de oûtqui estasso iéeà un signalXet une lasse C

i

estelle donnée par :

R(C i jX)= s P k=1 (C i jC j )P(C j jX)

La règle de dé ision Bayésienne est alors de hoisir la lasse C

i

qui minimise la fon tion de

risqueR onnaissantlesignalX.Lorsqu'ondé idedeprendre ommefon tionde oûtlafon tion

symétrique:

(13)

onobtientlarègledeBayes lassiquequi onsiste,étantdonnéunsignalX,àmaximiserP(C i jX) puisque : R(C i ;X)= P (1 Æ i;k )P(C k jX)= P k6=i P(C k jX)=1 P(C i jX)

On hoisitdon dans e asdeséle tionnerla lasseC

i

quimaximise laprobabilité onditionnelle

sa hantX,probabilitéalorsévaluéesurlesé hantillonsduTrainingSet.Letauxd'erreur ommis

par la dé ision Bayésienne est alors appelé taux de Bayes. La règle de dé ision Bayésienne est

une méthode ouramment utiliséepour lasserun signal.

1.2.2 k Plus Pro he Voisin

Nous ne rentrons pas dans les détails du déroulement de et algorithme et renvoyons par

exemple à [Kni99℄ ou [HTF01℄ pour la onnaissan e de diérents aspe ts théoriques de et

al-gorithme. Nousretiendrons qu'étant donnéunensemblede donnéeslabélisées(training-set),

on dé ide de lasser un signal d'entrée en étudiant le voisinage formé par les k plus pro hes

voisins de e signal dans le training-set puis en hoisissant omme réponse de l'algorithme la

lasse majoritaire parmi les labels duvoisinage al ulé.

Cetteméthode:

ne né essiteau une analyse né essairedumodèle ni au un al ul de densité.

ré lame ladénitiond'une métriqueentrelesdiérentssignauxtraités.

né essitede onserver tous lesé hantillons du training-set.

demande d'ee tuer de nombreusesmesures dedistan e.

Onperçoitdon i il'intérêtden'avoirqu'unfaiblenombredevariablesappliquéesauxsignaux

puisque le al ul desdistan es estd'autant pluslongque lenombre de featuresestgrand.

Nousavonspris leparti d'utiliser en parti ulier et algorithme aril possède despropriétés

assez performantesdupoint devuedestaux de lassi ation.Si e

?

désigne l'erreur ommisepar

le lassi ateur deBayes( lassi ateuroptimal),etsieestl'erreur ommise parl'algorithmede

k pluspro he voisin,on al'inégalité :

e ?

<e<2e

?

En equi on erne letempsde al ul pourl'algorithmedek pluspro hevoisin, ilest ru ial

de ontourner l'énumération totale de touslespointsduLearning-Set ainsiquela onsidération

de toutes lesvariablespuisque, siN désigne lenombre depointsdu Learning-Set etsip désigne

la quantité de features disponibles, l'exé ution du kPPV né essite O(kNp) al uls. Le premier

point (rédu tion de N) peut être ee tué en utilisant des te hniques de Clustering ( [HTF01 ℄,

paragraphe 14.3)tandis quelaséle tiondesvariables (rédu tiondep)peut êtrefaitvia une des

méthodesévoquéesplus loinou elleprésentéedansnotretravail.

Enn, le al ul du kPPV est très sensible àla présen e de points non représentatifs (

out-liers) etune pré-séle tiondesvariablesduproblèmepeutpermettrede supprimerl'eetde es

outlierssilesvariablesresponsablesdelaprésen ede esoutlierssontalors identiéeset

supprimées duvo abulaire.

1.2.3 Support Ve tor Ma hine

(14)

problème à deux lasses, mais et outil peut également être adapté à des problèmes

multi- lasses.La problématiquedeVapnik ne onsistepasà minimiseruntauxd'erreursurl'ensemble

d'apprentissagemaispluttàtrouverunhyperplanoptimalséparantlesdeux lassesdedonnées.

Étant donné un jeu de données (x

1 ;y 1 );:::(x n ;y n ) de R p f 1;1g, on peut représenter le

problèmepar les s hémas suivants.

dansle asséparable:

C C H

dansle asnon séparable:

C C C 1 C 2 H Lesvariables y i

prennent alors leurs valeurs dansf 1;1g et les x

i

sont despointsde R

p

. Dans

l'exemple pré édent, les points tels que y

i

vaut 1 sont les tandis que représente les points

(15)

On her he alors l'hyperplan H maximisant la marge de séparation C des deux lasses, et

hyperplan aune équationdonnée par l'appli ation anef de laforme :

H= x2R p j x t + 0 =f(x)=0

où est leve teur normal unitaire àl'hyperplan H .

Lare her he d'un telhyperplanpeut également s'adapter au asoù lesdeux nuagesne sont

pas séparables en paramétrant haque point x

i

par un réel positif

i

qui mesure la distan e du

point àl'un desdeuxhyperplansd'appui H

1

ou H

2

. Dans e as, ils'agit alors de maximiserla

marge Csous les ontraintes :

y i (x i t + 0 )>C(1 i )

Laformalisationdualede ettemaximisationrevientàminimiserlanormekksouslesmêmes

ontraintes. La résolution d'un tel problème amène alors à étudier le minimum du Lagrangien

grâ e aux onditions de Karush-Kuhn-Tu ker :

L P =kk 2 2 +C P i P i ( y i ((x i j)+ 0 ) 1+ i ) P i i où i

sont les multipli ateurs de Lagrange asso iés à la onditionde positivitéde

i , et sousles ontraintes : 8 > > > < > > > : L P j =0= j P i y i x i;j =0 L P 0 =0 P i y i

Pour plus de détails sur la résolution d'un tel système quadratique, on pourra se référer à

[Bur98℄,[Vap00 ℄ou [JK00 ℄.

Onnoteraquel'algorithmedeséparationdedeux lassesparSVMpermetégalementd'obtenir

des séparations non-linéaires des deux lasses. Onutilise une appli ation et un noyau K tels

que estune appli ation de R

p

7!E oùE estun espa eeu lidien et Kest dénipar :

K(x i ;x j )=((x i )j(x j )) E

Il s'agit alors de trouver un hyperplan séparateur des deux lasses dans E pour les deux

nuagesdepointstransformésparl'appli ation.Dansnotreappro hedeséle tiondesvariables,

on pourrainterpréter enréalitélasuppressionoul'ajoût denouvellesvariables omme

l'appren-tissage d'un noyauK pour mieuxséparerles diérentes lasses d'objet.

Enn, dansnotretravail, nousavons utilisé l'implémentation SVM

l ight

,algorithme optimisé

de l'algorithmede SupportVe torMa hine établipar T.Joa hims ([Joa02℄,[JK00 ℄).

1.3 Séle tion de features

Nousallonsmaintenant exposer brièvement quelquesméthodesde séle tion defeatures plus

ou moins lassiquespermettant de restreindre ladimensionalité du problème de re onnaissan e

de formes.

1.3.1 Analyse en omposantes prin ipales

(16)

représentantlaplupartdutempsunepopulationd'individus.Onsupposedon donnésdespoints

X 1

;:::X

N

orrespondant à N individus. L'obje tif de l'analyse en omposantes prin ipales est

alors la re her he des ve teurs e

i

dans l'espa e ve toriel

!

E orthonormés tels que les points X

i soient représentés en : X k =X+ P k;i e i +R k

où X est un point de l'espa e ane E et

k;i

les oordonnées des points X

k

sur les ve teurs e

i

quiforment unefamille libre de

!

E. Le but estalors de minimiser l'erreur quadratique"donnée

par "= N P k=1 kR k k 2 2

On onstate immédiatement que dès que les ve teurs orthonormés e

i

sont hoisis, la

solu-tion ( hoix des

k;i

) est en réalité déterminée puisque la meilleure représentation orrespond

nalement àlaproje tion duve teur X

k

X surl'espa e engendrépar les (e

i ). Ainsi k;i =(X k Xje i )

Le hoixdesve teurse

i seréduit àla minimisationde "= N P k=1 w w w w X k X p P i=1 (X k Xje i )e i w w w w 2 2 Don "= N P k=1 w w X k X w w 2 2 p P i=1 N P k=1 (X k Xje i ) 2

De e fait, ils'agit de maximiserlasomme

p P i=1 ke i k N 2 oùlasemi-norme k:k N

est issueduproduit s alaire :

(XjY) N = 1 N N P k=1 (X k XjX)(X k XjY) Les ve teurs (e i

) sont alors les ve teurs propres asso iés à la forme quadratique k:k

N 2

, et

sont appelés les dire tionsprin ipalesdu nuage de points.

On peut de plus interpréter statistiquement ette résolution omme étant en réalité la

re- her he de labase B=(e

i

) telleque les proje tions de lavariablealéatoire (X EX) surles e

i

représentent desvariables

i

qui ne sontpas orrélées :

(17)

! D 1 ! D 2

Dans le s héma pré édent, l'axe

!

D 1

désigne l'axe prin ipal de l'ACP asso iée au nuage de

pointstandis que

!

D 2

est lese ondaxe del'ACP. Par dénition, ilestbienentendu orthogonalà

!

D 1

.

La séle tion des featurespeut alors s'ee tuer en utilisant ette ACP en hoisissant omme

featuresles oordonnéessurlesaxesdel'analyseen omposantesprin ipales.Eneet,ené rivant

tous lesve teurspropres de k:k

N 2

et en lesordonnant parordre dé roissant de valeurspropres,

on obtient uneliste d'axeset oe ients(e

1 ; 1 ):::(e N ; N )tels que 1 > 2 >:::> N quitte à poser p

= 0 si un nombre stri tement inférieur à N sut pour dé rire le nuage de

points. La séle tion des features s'ee tue alors en fon tion de la pré ision souhaitée pour la

des ription des données en prenant su essivement omme ara téristiques les oordonnées des

pointsdu nuage sur lesaxes e

1

, puise

2 ...

Ilest deplus remarquablequelapré ision de l'approximationdes pointsdu nuage par leurs

proje tionssurl'espa e engendré par (e

1

;:::e

p

)est donnée par lasomme

2 p+1 +::: 2 N

1.3.2 Analyse en omposantes indépendantes

L'analyseen omposantes indépendantes s'inspire de la problématique pré édente. Si X est

une variable aléatoire d'un espa e eu lidien E on re her he les ve teurs (e

i

) tels que les

oor-données s

i

de X sur les ve teurs e

i

sont alors des variables indépendantes. On peut également

résumer leproblème enlare her he deW telque

s=WX ou X=As

et s a ses oordonnées indépendantes. Si p

i

(:) désigne la densité de probabilité de s

i

et p la

densitéde probabilité jointe dessour ess, elasignieque l'ona :

p(s 1 ;:::s n )= p i (s i )

(18)

Néanmoins, l'analyse ne garantit pas toujours la détermination de sour es indépendantes,

mais plutt appro he la solution où l'on a des sour es aussi indépendantes que possible. Pour

quantier ette optimalité, plusieurs mesures existent ([Car98 ℄, [Jut87 ℄, [JH91 ℄). Nous allons

présenterbrièvement une méthode utilisantune fon tion de ontrastepouren déduireune ACI.

SiP

s

désigne laloidessour esre onstruitess=WX, ils'agitalorsd'estimeretdeminimiser

lafon tionde ontraste: IM (y)=K P y jp i (s i )

Cetteméthodeutiliseladivergen e deKullba k-Leibler delaloijointe àlaloiproduitetmesure

don l'indépendan edesvariables ausens où elledonne une distan eà l'indépendan e.

Onrésout alors une re her he d'une tellematri eW en ee tuant une des ente de gradient.

[Car98 ℄ ou[Hyv99℄.

La séle tion des variabless'ee tue une fois quela matri e West déterminée en hoisissant

les oordonnées s

i

données par (WX)

i

quiminimisent lafon tion de ontraste

IM .

1.3.3 Constru tion de Features à partir d'arbres de dé isions

De nombreux travaux ont été ee tués pour parvenir à la onstru tion de features sous

la forme d'arbres binaires de dé isions ([AG97a ℄, [Bre98 ℄). L'appro he onsiste généralement à

onstruire des arbres de dé isions de plus en plus omplexes, à partir de features élémentaires

binaires. Les arbres sont onstruits ré ursivement, en prenant en ompte soit des propriétés

géométriques([FG01 ℄), soit despropriétés statistiques ([AG97b ℄, [AGW97 ℄). En général, les

al-gorithmes de onstru tion montants desarbres utilisentdesnotions de théoriede l'information

([CT91 ℄) ommel'entropied'unevariablealéatoire,entitéquimesureledésordreoul'in ertitude

statistiquede laréalisationd'une variable aléatoire.

Dénition 1.3.1 (Entropie d'une variable aléatoire)

Si X est une variable aléatoire à valeurs dans et P(X) sa loi de probabilité, on dénit H(X)

par

H(X)=E[ logP℄=

P

!2

P(X=!)logP(X=!)

Dansles travauxsurlesarbres dedé ision, si l'onsuppose onstruitsdesfeatures omplexes

représentés par desarbres, on dé ide de former un nouvelarbre à partir de ritères statistiques

utilisant :

l'entropie ondionnelle : si l'on nomme Q

1

;:::;Q

k 1

les k 1 features séle tionnés dans

l'arbre binairede dé ision, onforme un nouvelarbre binairedont l'arbre pré édent est un

sous-arbre si Q k minimise H( YjQ k ;Q k 1 ;:::Q 1 )

Cela revientà her her lefeatureQ

k

qui varépartirunpoidsà peuprès équivalent surles

éléments du Learning-Set qui sont réalisés pour Q

k

;Q

k 1

;:::Q

1

et eux qui sont réalisés

pour Q

k 1

;:::Q

1

maispaspour Q

k ;Q k 1 ;:::Q 1 ([AG97b ℄). la probabilité de réussite de Q k ;Q k 1 ;:::Q 1

onditionnée à la réussite des pré édents

Q k 1 ;:::Q 1 : P[(Q k ;Q k 1 ;:::Q 1 )(Y)=1j(Q k 1 ;:::Q 1 )(Y)=1℄>

(19)

la orrélation statistique pour lafusion de deuxarbres dedé isions binaires ([FG01 ℄).

L'idée est alors d'obtenir des features omplexes dis riminants en utilisant des disjon tions de

featuresbinaires,en s'assurantquesurune des lassesde signaux, lenouveau featureestréalisé

ave une probabilité susante. Cela a donné lieu àl'appro he Coarse-to-Fine (du plan largeau

détail)etàunmodedepar oursdesarbresvériantun ritèred'optimalité ([Fle00 ℄,paragraphe

5.6). X 1 0 X 2 0 X 3 0 1

Dansles hémapré édent,X

1

désigneunevariablealéatoirebinaire(déte teurdebord oarse),

etsi ettevariablevaut1(ilyaeudéte tionviaX

1

),onapppliquealorsX

2

déte teurpluspré is.

Le par ours de l'arbre dedé ision binairepermet alors d'obtenirun algorithmede lassi ation

e a e : il estpeu outeux en quantité de sto kage dedonnées et en temps de al ul.

Pluspré isément,supposant onstruitunensembledefeaturesF

k

(quipeuventêtre

représen-tés sous forme d'arbres binaires de dé isions), la onstru tion de F

k+1

s'ee tue en par ourant

toutes les on aténations possibles d'arbres binaires de F

k

et en hoisissant d'ajouter de telles

on aténations à F

k+1

surdes onsidérations statistiques. Par exemple, si A

1 et A 2 sont deux arbres de dé isions de F k vériant (A 1 ;A 2 )> 0 puis A 1 = A 1 A 1 :g A 1 :d 2F k et A 2 = A 2 A 2 :g A 2 :d 2F k

on dé ide alors deformer le nouvelarbre

A 1 ::A 2 = \ A 1 ::A 2 A 1 A 2 2F k+1

Les tests séquentiels issus de features sont alors des arbres de dé isions formés à partir de

tests binaires,lestestssont de laforme

(Z 1 >t 1 ) 0 (Z 2 >t 2 ) 0 (Z 3 >t 3 ) 0 1 où les Z i

sont des variables aléatoires formées à partir du ompte du nombre de réalisations

d'arbres binaires de ertains ensembles F

k

(20)

1.3.4 Séle tion de features binaires par ritère d'information mutuelle

F. Fleuret exploite dans ses travaux ré ents un modèle qui utilise à partir de M features

f n(1)

;:::f

n(M)

, binairesunalgorithmedutypeper eptronen hoisissantunerègle dedé isionde

laforme f(x)= M P i=1 w i f i (x)+b Onre her helesw i

optimauxpourobteniruntauxd'erreurminimalviaunedes entedegradient

[Ros58℄.Pour onstruire esMfeatures,ilutilise alorsun ritère basésurl'information mutuelle

Iqu'apporteun nouveau feature auxfeaturesdéjà existants.

Dénition 1.3.2 (informationmutuelle)

Soient X et Y deux variables aléatoires de loisp et q et de loi jointe r, l'information mutuelle

I(X;Y)est déniepar

I(X;Y)= P x2 P y2 0 r(x;y)log r(x;y) p(x)q(y) SilesF i

sontlesfeaturesdontondispose,on ommen edon parséle tionnerlefeatureapportant

leplusd'information aumodèle:

n(1)=argMax

i

I(Y;F

i )

Puison séle tionneré ursivement tousles autres featuresen hoisissant àl'étape k elui qui

possède la meilleure minoration (la plus grande) de l'information mutuelle ave l'ensemble des

features onstruitsàl'étapek 1 :

n(k+1)=arg Max i Min j I(Y;F i jF n(j) )

Laséle tion defeaturesainsiee tuée,l'algorithmeduper eptronde Rosenblattexé utésur

untelsous-ensemblede featurespermetalors d'obtenirdesrésultats omparables àl'algorithme

de Boosting (Cf paragraphe 1.4) exé uté sur l'ensemble des features dans le problème de la

déte tionde visages ([Fle03 ℄).

1.3.5 Maximisation de la marge des SVMs pour la séle tion de variables

Nous avons vu dans la se tion 1.2 que l'algorithme de Support Ve tor Ma hine permettait

de séparerde façon optimale unnuage de points appartenant à deux lasses dans un espa e de

grandedimension.Deuxméthodesdeséle tiondefeaturesbaséessurlastru turedel'hyperplan

de séparation en deux lasses ont été étudiées. Les deux méthodes utilisent la variation de la

marge de séparation en deux lasses, la première supprime ré ursivement des variables tandis

quelase onde ee tueunalgorithmededes ente degradient pour apprendreunnoyau optimal

pour leSVM.

1.3.5.1 Élimination ré ursive de features (ERF)

Séparationlinéaire Étantdonnéunnuagedepointsappartenantàdeux lassessurpvariables

réelles,on peut dé ider de al uler un hyperplan séparateur linéaire entre es deux lasses pour

(21)

f(x)=(wjx)+b= p P j=1 w j x j +b

où(j)estleproduits alaireeu lidienstandarddeR

p et haquepointxdeR p apour oordonnées x j j=1::p .

L'idéeguidantl'ERF([WMC

+

00℄)estde al ulerleve teurwetde lasserlesvaleursabsolues

de jw

i

j par ordre roissant. Comme les variables x

i

telles que w

i

est grand sont les variables les

plus inuentes pour l'hyperplan de séparation, on suppose que es variables sont elles qui ont

le plus d'importan e pour le problème de lassi ation traité par le SVM. On dé ide alors de

supprimer les featuresqui orrespondent à desquantitésjw

i

j relativement faibles. On peut par

exemple dé ider de supprimer les 10% de features ayant le moins grand jw

i

j puisque dans la

déte tion par hyperplan, e sont les features qui inuen ent le moins la déte tion. On pro ède

ré ursivement enre ommençant unnouveau al ul de SVMsurles9n=10 variablesrestantes, et

e i jusqu'àobtenir laquantité de featuressouhaitée.

Séparation non linéaire Dans le as où l'on utilise un noyau pour le SVM, l'idée de base

est identiquepuisqu'il s'agitégalement desupprimer les featuresae tant lemoinslamarge.Si

l'équation del'appli ation f estdonnée par

f(x)= P i K(x;x i )+b

lamarge M estalors donnée ([Vap00 ℄)par

1 M = P i;j i j K(x i ;x j )

et lamesure d'inuen edufeature j sur lamargevaut alors

S(j)=

(1=M)

x j

On hoisit là en ore de supprimer les 10% de features ayant la quantité S(j) la plus petite

et la pro édure ré ursive est itérée à nouveau jusqu'à l'obtention de la quantité souhaitée de

features.

1.3.5.2 Apprentissage d'un noyau

On peut également utiliser une autre méthode à base de Support Ve tor Ma hine pour

sé-le tionner desfeatures. La te hnique ( [CVBM02℄) est un peu diérente de e qui a été évoqué

plushaut puisqu'onparamètre lenoyau Kparunve teur2R

n

oùnestlenombre defeatures

disponiblesinitialement : K (x;z)=K( t x; t y)

Ondé ide alors de minimiser l'erreur estimée via une des ente de gradient surleparamètre

.On pourraobtenir tous les al uls né essaires dans[CVBM02℄.

1.4 Le Boosting : omplément naturel à la séle tion de features

(22)

partir de lassieurs ( f m

) m=1:::M

binaires à valeurs dans f 1;1g de her her des quantités

m pour que F(x)= M P m=1 m f m (x)

renvoieune erreur de lassi ation inférieure,à haque étape del'algorithme.

Le prin ipede l'algorithmeestlesuivant : onpeut appliquerun ertainnombre derègles de

dé isions d'experts pour un problème de lassi ation, et ha un de esexpertsfournit une

règleauxperforman esfaibles,maisnéanmoinsmeilleures qu'unedé isionpré iseauhasard.Les

questionsauxquellesrépond l'algorithmedu Boosting sont alors les suivantes:

Quels experts doit-on interrogerlorsqu'uné hantillon à lasser nousestprésenté?

Comment ombiner les avisde esexpertspour atteindrelameilleure dé ision?

Est-il possiblederendre aussibon quel'onveut unalgorithmed'apprentissage faible?

S hapire donne les diérentes réponses à es questions et nous allons brièvement présenter

l'algorithmeAdaBoostintroduitdans[FS99 ℄.L'algorithme utiliseunedistributiondeprobabilité

sur le Training Set qui donne plus de poids aux points de l'ensemble d'apprentissage qui sont

mal- lasséspour on entrerl'attentiondel'algorithmepré isémentsur espoints.Voi i omment

l'algorithmesedéroule pré isément :

1. (x 1 ;y 1 );:::(x N ;y N ) ouples dedonnées x i et réponses(y i 2f + 1g). 2. Initialisation de w i en 1=N 3. Utiliser f m

pour al uler sonerreur"

m

sur ladistributionde données w :

" m =E w h y6=f m (x) i et poser m =log 1 " m " m

4. Mettre à jour ladistribution apprisesurleLearning-Set en utilisant lesformules:

w i e m y i 6=fm(x i ) 7 !w i

5. Renormaliser les oe ientsw

i

et retourneren 2.

Enn d'algorithme, on hoisit alors de lasser les données en prenant le signe de Fdonnée par

F= P m f m : e y=signe[ F(x)℄

L'algorithme AdaBoostprésenté pré édemment permet d'obtenir desaméliorationsnotables

desperforman esdes lassieursf

m

.Onpeut([FHT00 ℄)parailleursinterpréteruntelalgorithme

omme lare her he des oe ients

i

qui minimisent lafon tionde oût:

J( )=E

e yF(x)

Le boosting est don une méthode permettant, à l'issue d'une séle tion de lassieurs f

i ,

d'augmenter la performan e de lassi ation en organisant un vote optimisé de es lassieurs

f i

.Ainsi, pour obtenir une bonne séle tion devariables,nousauronsdon intérêt àproposer un

(23)

1.5 Organisation du mémoire

Danstoutlemémoire,nousallonsdon her her àutiliserdiversalgorithmesde lassi ation

et à optimiser leurs performan es en séle tionnant les variables sur lesquelles les taux d'erreur

de lassi ation sont les plusfaibles.

Dansle hapitre 2,nousdonnonslesdénitionspré isesdesobjetsquenousallonsmanipuler

dans le mémoire : nous dénissons les features élémentaires pour le as parti ulier des images,

situation où en général il n'existe pas de dénition intrinsèque de ara téristiques

élémen-taires. Puisnouspré isons e quesont les di tionnaires et stru tures arbores entes desfeatures

plus omplexes que les features élémentaires que nous manipuleront. Enn, nous rappelons la

dénition des entités informatives qui nous permettent de mesurer l'e a ité d'agrégation de

features omme l'information ommune oula orrélation fon tionnellede variables aléatoires.

Le hapitre 3 présente une nouvelle manière de séle tionner ertaines variables d'un signal

lorsque ledi tionnaire defeaturesest gé,en ee tuantune des ente degradient d'uneénergie.

Nousmodélisonsnotreproblèmedeséle tiondesvariablesparuntiragealéatoirede esvariables

via une loi de probabilité P sur l'ensemble desfeatures, e qui onstitue un modèle tout à fait

appli able àdiérentsproblèmes de lassi ation designauxet séle tionsdevariables.Les

te h-niques utilisées sont lassiques, omme les méthodes d'approximation d'équation diérentielle

du type Robbins-Monro. Des appli ations pré ises sont données sur divers types de signaux :

données synthétiques, messages éle troniques ou images réelles. Nous obtenons par ailleurs un

résultat de onvergen e de notre s hémad'apprentissage qui, sous des onditions ertes

restri -tives, onvergevers leminimum absolu del'énergie de notre système.

Dans le hapitre 4, nous dénissons et utilisons l'appli ation de Skorokhod pour onstruire

un pro essus sto hastique ontraint à un simplexe S

F

qui permettra d'organiser une méthode

de séle tion devariablesparmi l'ensembleF desfeaturesxés.La ontrainte d'appartenan eau

simplexe de notrepro essussto hastique est alors naturellement satisfaite, e qui représente un

avantage majeurpar rapportaux onditions obtenuesen nde hapitre 3surnotre des ente de

gradient exa te, ouappro hée.

Nousdonnons une méthode pré ise pour faire évoluer notre espa e de features dans le

ha-pitre5endonnantdesrèglesdetransitionsentrediérentsensemblesdefeatures.Cestransitions

sont basées surune dynamiquede type MCMC pour des haînes faiblement réversibles et n'est

pas sans rappeler l'évolution de ertains algorithmes d'évolution des populations tels les

algo-rithmes génétiques ou les réseaux de neurones. Dans e hapitre, nous onstruisons également

un pro essus sto hastique représentant à la fois l'évolution de notre population de tests et les

règles de tirage de es tests. Ces règles sont toujours dédiées au problème de la minimisation

d'une énergie E basée surun tauxd'erreur de lassi ation d'un algorithme xé.

Le hapitre 6 est une étude su inte du omportement asymptotique et innitésimal du

pro essus ouplé déni dansle hapitre 5. Onpré ise notamment une propriété importante de

ré urren e du pro essus avant d'exprimer le générateur du pro essus. Nous donnons enn la

mesure stationnaire asso iée à e pro essus qui est pré isément le hamp de Gibbs asso iée à

(24)

Enn,le hapitre7donneunalgorithmed'approximationsto hastiquedupro essusdéniau

hapitre 5.Plusieurs dénitionset propriétés sur l'approximationau sensfaible ysont données,

avant demontrer quelepro essusappro hé onstruit onvergebienfaiblement verslepro essus

déni au hapitre 5. Nous appliquons enn notre étude d'approximation au as des exemples

synthétiquesdu hapitre3ainsiqu'àladéte tiondevisagesissusde[MIT℄,lesperforman essont

alors nettement améliorées par rapport aux résultats obtenus au hapitre 3 puisque l'ensemble

des features onstruits possède alors de grandes propriétés dis riminantes pour les images de

(25)

Chapitre 2 - Obtention de features et

mesure de l'information

2.1 Features élémentaires

2.1.1 Introdu tion

Le problème de la déte tion et de la lassi ation d'objets dans un signal implique tout

d'abordquel'onpuissea éderàdesdonnéesquantiéesdans esignal.Cettequanti ationdes

données né essitealors la dénitiond'attributs surles signaux manipulés.De plus, le hoix des

ara téristiquesretenuesdanslesignalestd'uneimportan e apitalepourl'obtentiondebonnes

performan eslorsdetâ hesdedéte tionoude lassi ation.C'estalorspré isémentlare her he

de features élémentaires, puis omposées qui motivera toute lasuite de e travail. La re her he

du bon feature spa e sera onditionnée par les propriétés dis riminantes et informatives de

es attributs.

An de traiter divers problèmes de lassi ation, l'utilisateur dispose de plus ou moins de

libertés pour le hoix de es featuresprimitifs,selon lanature desdonnéesqu'il doittraiter.

Par exemple :

Dans le as où le signal orrespond à un ux binaire, lorsque l'on souhaite par exemple

analyser les diverses ou hes du proto ole de ommuni ation TCP/IP par paquets, les

features élémentaires peuvent alors orrespondre exa tement aux éléments binaires reçus

par la arte réseau.

Dans le as du problème de la déte tion de SPAM dans les ourriers éle troniques, les

features peuvent orrespondre par exemple au pour entage d'o uren es de mots dans le

texte, maisaussiàla naturedu do ument (texte, page html, piè esjointes, ...).

Dansle asparti ulierdesimagesnumériques,lanotiondefeaturedevientplus omplexe.Il

n'ya,eneet,pasdedénitionintrinsèquepourdesfeaturessurdesimagesnumériquessi

en'est ladonnéedesvaleursexa tesenniveauxdegrisen haquepixeld'uneimage.Mais

onperçoitvitelalimited'unetellereprésentation:ilyavraisemblablementdeszonesd'une

imagebeau oupplusinformativesqued'autresetl'utilisationd'autres ritèresgéométriques

omme la fermeture, la onvexité, l'alignement, la présen e de bords orientés ou enn

les ara téristiques omme les ouleurs, le nombre de omposantes onnexes peuvent se

substitueravantageusement à lamanipulationde latotalité de es niveauxde gris.

Le al uldelavaleurd'unfeaturesurunexempleissud'unebasededonnéesimposeégalement

la onnaissan e d'une règle quasi-instantanée pour son al ul. Detels features seront alors vus

ausens statistique, 'est-à-dire omme étant laréalisation d'unevariablealéatoiresurl'espa e I

desdonnées qui peuvent être l'ensemble desimages, desgènes, desmessageséle troniques, ...

(26)

et le al ul desvariablesaléatoires.

Parexemple,sil'on onsidèrele asparti ulierdesimagesetdelare onnaissan edeformeset

la lassi ationd'objets,ondésire onstruiredesdéte teursquirenvoient lamêmeréponse,

indé-pendamment delapositionde l'objetdansl'image. Cela signiedon queledéte teur onstruit

doitrenvoyer lamême réponsede lassi ation de façoninvariante quellequesoit latranslation

quel'onpourraitappliqueràl'image.Cespropriétés d'invarian e desdéte teursserontdis utées

danslase tionsuivante on ernant le as parti ulierde ladéte tiond'objetsdansune image.

2.1.2 Cas parti ulier des images

Une image est la reprodu tion exa te ou représentation analogique d'un être ou d'une

hose. Mathématiquement, une telle reprodu tion est bien entendu impossible, on peut tout

de même représenter de façon abstraite une image omme une appli ation de R

2

(ou R

3

si l'on

manipule des images en 3 dimensions) dans [0;256℄ si l'image est en niveaux de gris ontinus

oudans[0;256℄

3

sil'image est en ouleur.

Du point de vue du traitement de l'image par ordinateur (image numérique), l'espa e est

alorsdis rétisé parune grilledontles noeudssont appeléspixels etl'image en niveau degris est

enfaitdonnée omme une appli ationde l'ensembledespixelsdans[[0; 255℄℄ où [[a; b℄℄ désigne

l'ensemble de tous les entiers ompris entre a et b au sens large. La onversion d'une image

analogiqueen image numérique né essitedon deuxopérations:

la dis rétisation des oordonnées spatiales (dépendant de la résolution xée par

l'utilisa-teur).

ladis rétisationdel'amplitude, 'est-à-direlaquanti ationenniveauxdegris(8bitspour

une amplitudevariantdans[[0; 255℄℄)ouen ouleurs(trois anauxvariant sur8,24ou32

bits).

Danstoutnotremémoire,l'ensembledesimagesmanipuléesserontdesimagesàdeux

dimen-sions odéesenniveauxdegrisdetaillevariableselonlesbasesdedonnéesétudiées.Latailledes

imagesnumériques(tailledelagrilledénissantlespixels)seranotéegénériquementN

x N y où N x et N y

désignent lenombre de oordonnées horizontaleset verti ales.

Lepoint devueque nousallonsadopter estlepointde vueprobabiliste lassique ([GG84 ℄):

uneimageIen niveau degris estvue ommelaréalisation d'unevariablealéatoire dansl'espa e

I desappli ations de[[0; N

x

℄℄[[0; N

y

℄℄ dans[[0; 255℄℄.

2.1.2.1 Déte teurs de bords positifs dans les images

Nousavonsprisleparti,dans emémoire,deneprendre omme featuresélémentairessurles

imagesnumériques que desdéte teurs de bords, e i en raison de la fa ilité d'interprétation de

laséle tiondeplusieurs déte teurspourlestâ hesde lassi ation.Cesdéte teursdebordssont

parailleurslo aux,etpermettrontplustardde onstruiredesfeaturesplus omplexes,possédant

despropriétés d'invarian e notamment par petite translationsurles images.

La dénition des features élémentaires que l'on utilisera tout au long du mémoire pour les

images reprend e qui a été fait dans [AG97a ℄. Ces déte teurs de bords sont très simples, et

extrêmement rapides à al uler. Ce sont des fon tions booléennes qui possèdent de grandes

propriétés d'invarian e par rapport à la modi ation de l'intensité lumineuse, ainsi que par

(27)

Les déte teurs positifsdu type " 1

;:::" 8

qui renvoient 1 lorsqu'un bord est déte té, et

0 siau un bord n'estdéte té.

Les déte teurs négatifs dutype "

9 ;:::"

16

quirenvoient 1 lorsque pré isémént un bord

n'est pasdéte té.

Cet ensemblede déte teurs de bords primitifsaboutira alors à unpremier ensemblede features

D 0

+

qui orrespondra en réalité à la onstru tion du di tionnaire initial des tests positifs,

di tionnaire qui sera onverti en forêt dans le hapitre V, tous es termes restant très

largement àdénir.

Le but de notre algorithmenal de séle tion et omposition de featuressera alors de

pour-suivre la onstru tion dynamiquede esdi tionnaires, permettant d'é lair ir la tâ he ardue

de lassi ation d'une image I dansune des lasses C

i

. On remarqueraégalement que, plus

gé-néralement, et algorithmepourra segénéraliserà d'autresproblèmes de lassi ationsd'objets

dansun signal.

Nousrenvoyons àl'annexe A pour ladénition pré isede es déte teurs de bords, issus des

travaux deGemanet Amit([AG97a ℄).

2.1.2.2 Séle tion de déte teurs de bords pour une base de données

Dansles deux as quinousintéresseront, les imagesque nousauronsà traiter seront issuses

de deux bases de données possédant un ensemble d'apprentissage lairement déni. Ces deux

bases de données mettent en s ène pour lapremière base desvisages et desimages de fond

[MIT℄, tandis que la se onde base orrespond à une liste de hires manus rits issus de [USP ℄

orrespondant aux hires des odespostauxs annés par l'US Postal.

Que e soit pour la déte tion de visages ou la re onnaissan e de hires manus rits, il est

opéréunepremièrepré-séle tiondesdéte teursdebordspositifspossiblesquel'onpeutappliquer

à une image. Cette première pré-séle tion aboutit alors à la onstru tion d'un di tionnaire de

testsD

+

0

. Cetteséle tion detestsestdétailléedansl'annexeA.Lagrandequantitédedéte teurs

de bords obtenus à l'issue de ette séle tion (plus de 2000 tests pour des images de taille à

peine 2020 pixels) permet don de disposer d'une grande quantité d'information, e qui est

un avantageréel pour desproblèmes de séparation de lasses.

2.1.2.3 Déte teurs primitifs de bords négatifs

An depouvoir s'autoriser ladis rimination de ertaines lasses,on voitqu'il est né essaire

de onsidérerdestestsnégatifs, 'est-à-diredesdéte teursd'absen ede bordsen ertaines zones

de l'image. Ces déte teurs d'absen ede bordssont également dénis à partir des"

i

pré édents.

Onajoutera don omme featuresprimitifs lesdéte teurs "

9 ;:::"

16

quiseront dénispar

8i2f9;:::16g 8I2I "

i

(I)=1 "

i 8

(I)

Cesdéte teurs orrespondent don auxnon logiquesdesvariablesbooléennes"

i

du

para-graphe pré édent.

On peut légitimement se demander à quoi peuvent servir es déte teurs de bords négatifs,

puisqu'ilssontobtenusdire tementàpartirdelaformule:"

i

=1 "

i 8

.Nousverronspourquoiil

peutêtrebienvenudemanipulerégalement estests,notammentlorsdelaphasede omposition

de features.

PourdénirD

0

,ensembledesdéte teursinitiauxnégatifs,ilestné essairedesebasersurles

déte teursdeD

+

(28)

qu'ilyadetrèsnombreuxtestsnégatifsquisontréalisés,notammentdanslesrégionsdesimages

quinesontpasinformatives.Andelimiterlaquantité detestsnégatifsretenus,ondénitdon

Dénition 2.1.1 (Di tionnaire initial D

0 )

L'ensemble D

0

des déte teurs élémentaires négatifs initiaux est donné par des variables

aléa-toiresÆ dépendant d'uneorientation odée par ", d'un ouf et d'une lo alisation

x

;

y

dansla

grillede pixels tels que

Æ ";f; x; y 2D 0 () 8 > > > > > < > > > > > : 9i2f1:::Cg P C i (Æ ";f; x ; y =1)>1=2 "2f" 9 ;:::" 16 g f =max n e fjÆ "; e f; x ; y 2D 0 o Æ " 8; e f; x; y 2D 0 +

Cedi tionnaireestdon l'ensembledestestsnégatifsÆréalisésave uneprobabilitésupérieure

à1=2 surune lasseau moins desdonnées manipulées et tels que letest opposé (qui est un

testpositif) Æ soit réaliséave une probabilité également 1=2 surune autre lasse dedonnées.

Au nal, nous obtenons un premier di tionnaire de features élémentaires par réunion des deux

ensembles de déte teurs pré édents.

Onpeut deplusreprésenterl'ensembledesdéte teursélémentairesséle tionnés parle ritère

pré édent.Plusl'imageestfon éeenunpixeldonné,plusledéte teurreprésentéestpré is.Cela

setraduit pour les testspositifs par unevaleur duou petite tandis quepour lestests négatifs,

elasignieque leou estgrand :

" 1 " 2 " 3 " 4 " 5 " 6 " 7 " 8 " 9 " 10 " 11 " 12 " 13 " 14 " 15 " 16

2.1.3 Composition de déte teurs élémentaires, agrégation de déte teurs

L'obje tif de e travail a été de trouver de nombreuses ombinaisons de déte teurs

élémen-taires, laplupart du temps binaires, pour obtenir de meilleurs résultatsde lassi ation et une

meilleure on ision dudi tionnaire représenté par l'agrégation de esdéte teurs élémentaires.

Ces arrangements de déte teurs élémentaires peuvent se onstruire, que l'on traite le as

parti ulierdesimages oud'autres formesde signaux.

Il est possible de formaliser ette agrégation de déte teurs élémentaires. Nous appelerons

alphabet et mot issu del'alphabet lesentités suivantes

Dénition 2.1.2 (Alphabet A)

A,alphabetasso iéauproblèmede lassi ation,estl'ensembledesdéte teursélémentairesdont

ondispose. Si ldésigne alors unelettrede A,on noteral(I)l'évaluationdel surIélément deI.

Onpeut illustrer ette dénitiondansquelques as parti uliers :

En e qui on erne le problème de lassi ation d'objets dans une image, l'alphabet A

est formé de l'ensemble des tests Æ

";f; x; y , où " 2 f" 1 ;:::;" 16 g, f 2 [[0; F℄℄ et ( x ; y ) 2 [[0; N x 1℄℄[[0; N y

(29)

En e qui on erne le problème de la déte tion du SPAM dans des emails, l'alphabet est

formé de l'ensemble des tests al ulant les pour entages d'o uren es de ertains mots

spé iques.l(I)estalors un réelde [0;1℄.

Dénition 2.1.3(Mots A

? )

Un motmissu deAest forméd'unesu essionsansordrepré iset sansrépétitionde lettresde

l'alphabelA.L'évaluationd'un motm(l)=l

1 :::l

p

surun élément delabasede donnéesI sera

alors 8I2I m(I)= (l 1 (I);:::;l p (I))

L'appli ation est une appli ation dire tement dépendante de la nature desdonnées extraites

par les appli ationsl

1 ;:::l

p

. L'ensembledesmots possiblesseranoté A

? .

Dans le as de variables aléatoires binaires ou ternaires l

i , l'appli ation (l 1 ;:::l p ) peut

alors orrespondresimplementauproduitdetellesvariablesl

i

puisque etteopération

pos-sèdealors unsenslogiqueparfaitementdéni. Lamultipli ation dedeuxvariablesbinaires

orrespond alors au et logique tandis quela multipli ation de deuxvariables ternaires

orrespond au et ou ni-ni.

Dansle asdevariablesréelles,lamultipli ation detellesvariables nepossède plusdesens

logique pré is. En réalité, ette appli ation orrespond alors plutt à l'exploration de

noyaux polynmiaux omme e qui est pratiqué dans les algorithmes de Support Ve tor

Ma hine(nousutiliseronsdésormaisl'abbréviation lassiqueSVM)pourdesdonnéesautres

que des données binaires. En eet, si x

1

et x

2

désignent deux variables, la possibilité de

on aténer x

1

et x

2

revient à manipuler la variable x

1 x

2

. L'espa e dans lequel sont alors

quantiées les données est l'ensemble des polynmes à jD

0

j variables de degré 2 si on

autorise la on aténation d'auplusdeux variablesou dedegré supérieur sinon.

. f =0 . f =1 . f =2 Æ 2 . . Æ 3 Æ 5 . Æ 4 . Æ 1

En utilisant la gure pré édente, on voit don dans le as de variables binaires que le mot

m =Æ 1 Æ 2 Æ 3 Æ 4

est réalisé sur l'image tandis que lemot me =Æ

1 Æ

2 Æ

5

ne l'est pas. En revan he, le

mot m

0

(30)

2.2 Représentation des mots sous forme d'arbres binaires

2.2.1 Dénitions

La dénitionpré édente des mots de A

?

noussuggère une représentation pratique desmots

sousforme d'arbresbinaires.Uneagrégationdefeaturesseradésormaisreprésentéepar unarbre

binairegrà eà l'algorithmede onstru tion ré ursif suivant :

Feature élémentaire : si lefeature m esten fait une lettrede A (mest de longueur 1), on

représente m par l'arbrea(m):

a(m)= m

? ?

Feature omposé: si le feature m est issu de l'agrégation de deux features ls m

g et

m d

représentéspar les arbres a(m

g

) et a(m

d

),alors a(m)vaut :

a(m)= m a(m g ) a(m d ) (A)

L'évaluationdu feature représenté par l'arbre de (A) est alors fondé sur le noeud prin ipal

m: on pose don

Dénition 2.2.1 (Évaluation d'un arbre binaire surune donnée)

8I2I a(m)(I)=m(I)

Danslasuitede la onstru tion etséle tiondesfeaturespourla lassi ation,onmanipulera

de préféren e l'arbores en e omplète d'un feature plutt que le noeud prin ipal. Cela peut

paraîtreparadoxaldupointdevuedela omplexitéalgorithmiquepuisquel'évaluationdel'arbre

a(m)surI nedépendenfaitquedem,maislasuitedel'algorithmené essiteraunemémoire

surlafaçon dont ont été onstruitsles features.

Enn, notons queles répétitions de lettres dansles noeuds prin ipaux des deuxls ne sont

pasrépétéesdans lenoeud prin ipal de l'arbrepère,ainsil'agrégation formelle de

A 1 = ab a b et A 2 = a a donne A 1 ::A 2 A 1 A 2 = ab ab a b a a

Dénition 2.2.2 (Ensemble d'arbres binaires)

NousappeleronsA

?

(31)

2.2.2 Motivation pour l'utilisation de tests élémentaires négatifs " 9

;:::" 16

L'utilisation de testsélémentaires négatifs nouspermet, via la omposition de features

évo-quéepré édemment,d'utiliser le ara tèred'absen edebordsdansdesfeatures omposés.Cette

utilisationdetestsnégatifspeutêtreintéressantedufaitquela ompositiondetestspourobtenir

desfeatures omposés permet d'engendrer uneréutilisationde esfeaturespour d'autres lasses

que ellesqui ont permisde les former.

Par exemple, la lasse C

8

peut être dis riminée par rapport à la lasse C

3

par un déte teur

de bordÆ maiségalement par Æ :

Æ Æ

MaisletestÆ peutalors êtreréutilisé pour dis riminerla lasseC

3

par rapportàla lasseC

2 dansla ompositionÆÆ 0 : Æ Æ Æ 0 Æ 0

tandis que le test Æ ne peut être réutilisé pour dis riminer les deux lasses pré édentes. Ainsi,

'est plutt en vued'une réutilisation des features omposés formés au temps tdans un temps

ultérieur à tque l'onmanipule lesdéte teurs de bords négatifs.

2.2.3 Déte teurs de bords invariants par translation

2.2.3.1 Invarian e par translation

Dansle as oùl'on étudie desproblèmes d'images numériqueset où les donnéesne sont pas

déjà entrées surla grille despixels, il peut être né essairede gérer l'invarian e par translation

de esdéte teurs.Plus pré isément,sim désigne un motduvo abulaire defeaturesdisponibles

et I une image de labasede données, on peut souhaiterimposer quequelle quesoit l'opération

(32)

Cette né essaire invarian e par translation des déte teurs est issue du fait que lors de

l'ex-tra tion du signal analogique et la onversion en image numérique, la pose n'inuen e pas la

naturedusignaletnedoitdon pasinuen er l'interprétationpartoutalgorithmedetraitement

del'image.

Dans notresituation (images issues de [MIT℄ ou [USP℄), les imagessont préalablement

en-tréeset nousn'avonsdon pasà implémenter ette invarian e par translation.Cependant,nous

pouvonsdonnerles pistesquipermettent d'implémenterunetelle invarian e par translationdes

features onstruits.

Il s'agit tout d'abord de onstruire des features élémentaires invariants par translation, es

déte teursélémentairesdoiventdon renvoyerlemêmerésultatquellequesoitlaposedel'image.

Si l'ondénit larelation d'équivalen e

, sur l'ensembledesimages par:

8I 1 ;I 2 2I I 1 I 2 ()9 ! j ! (I 1 )=I 2

les déte teurs peuvent être dénissur le quotient (I=

) ensemble desimages quotientées par

larelationd'équivalen e

.

Enn, nous onstatons immédiatement quepour qu'un déte teur élémentaire aitun sens, il

faut né essairement que e déte teur soit omposé d'au moins deux tests de bords. Ainsi, les

déte teursélémentaires quenous onsidèrerons sont de laforme:

((" 1 ;f 1 );(" 2 ;f 2 ); ! u 12 ) où le ve teur ! u 12

quantie la position du test ("

1 ;f 1 ) par rapport à (" 2 ;f 2 ), " 1 et " 2 sont les

deuxorientationsdestestsdebordstandisquef

1

etf

2

sontlesdeuxvaleursdesousasso iéesà

estestsdebords.Nousparleronségalementde l'orbited'un teldéte teurélémentaire puisqu'en

somme, si la paire de tests (Æ

1

;Æ

2

) est obtenue par translation quel onque à partir d'une autre

pairedetests(Æ

3

;Æ

4

) alors esdeuxpairesdetestsrenverront lamême valeursurl'ensembledes

imagesI.

Nouspouvonsalorsreprésenterlaréalisationdedeuxtestsélémentairesinvariantspar

trans-lation dansl'image dela se tion2.6.3 par :

Æ 4 Æ 2 ! u Æ 2 ;Æ 4 . Æ 3 Æ 0 3 ! u Æ3;Æ1 ! u 0 Æ 3 ;Æ 1 = ! u Æ3;Æ1 . Æ 1 Æ 0 1

Il fautvoirenréalité e passage auquotient omme lapossibilitédedépla erlapaire de

testsÆ

1

;Æ

3

danstoutel'imageen imposant queleve teur detranslation

! u

Æ ;Æ