HAL Id: tel-00008642
https://tel.archives-ouvertes.fr/tel-00008642
Submitted on 3 Mar 2005
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
détection d’objets dans une image
Sébastien Gadat
To cite this version:
Sébastien Gadat. Apprentissage d’un vocabulaire symbolique pour la détection d’objets dans une
image. Mathématiques [math]. École normale supérieure de Cachan - ENS Cachan, 2004. Français.
�tel-00008642�
Présentéepar
Sébastien GADAT
Pour obtenir legradede
DOCTEUR DE L'ÉCOLE NORMALE SUPÉRIEUREDE CACHAN
Domaine :
MATHÉMATIQUES
Sujet de la thèse :
Apprentissage d'un vo abulaire symbolique pour la déte tion
d'objets dans une image
Thèseprésentée et soutenue à Ca han le17 dé embre 2004 devant lejury omposéde :
Romain Abraham Professeur Rapporteur
Mi hel Benaïm Professeur Rapporteur
Donald Geman Cher heur asso ié o-Dire teur de thèse
Lionel Moisan Professeur Examinateur
Alain Trouvé Professeur Président
Laurent Younes Dire teur de re her hes Dire teur de thèse
CMLA
ENS CACHAN/CNRS/UMR 8536
Remer iements
Je voudraisavant toutremer ierLaurentYounespoursadisponibilité,sapatien e,sa
gentillesse etaussisarigueur et sonhumourdé alé (maistoujoursjuste!)qui aétéundire teur
dethèse idéalpourguidermespremiers pasdansl'universsistimulant delare her he,ainsique
Donald Gemanet ses nombreusesintuitions gagnantespour laréalisation demon travail.
Je remer ie également Alain Trouvé pour les dis ussions toujours protables pour
l'avan ement de mes re her hes et qui me fait l'honneur de présider e jury ainsi que Romain
Abraham et Mi helBenaïm quiont spontanément a epté de rapporter montravail,et qui par
leursremarques onstru tivesont ontribuéàaméliorerlaversionnalede emanus rit.Jetiens
à remer ier enn Lionel Moisan pour saparti ipation à e jury et l'intérêt qu'il a porté à mon
travail.
J'adresse aussi des remer iements un peu lointains à Mi hael Miller pour m'avoir si
sympathiquement a ueillià Baltimore pour lapoursuitede mestravaux, même siles
tempéra-tures yont étésgla iales!
Robert Azen ott m'a fait des remarques très protables et elles- i m'ont permis
d'é lair ir ertains points de mon travail, je ne voudrais don pas l'oublier dans ette longue
page de remer iements.
J'adresseune pensée parti ulière à Christophe qui est sans doute une des rares
per-sonnesquiauraeule ouragein ensédelirel'integralitédemonmémoire,d'amélioreretexé uter
des odes- ertesparfoisinutiles - surles surpuissants entresde al uls duCMLA.
Pour les divers é lair issements sur des points qui sesont avérés essentiels dans mon
travail, je veux exprimer ma gratitude à Paul Dupuis, Amarjit Budhiraja, François Fleuret et
Hi hemSahbi.
De manière un peu moinssérieuse, je voudrais aussisouligner l'inuen e positive de
toutes les personnes qui ont animé le laboratoire autour de moi et sans qui l'environnement de
travail auraitétébienmorose.Parmieux, àpartlesmoultes afetièresusées aulongde estrois
ans, quelquesautres nomsme viennent àl'esprit :
Junior, même siparfoissamusique estun peu bizarre et sonartde laglissade ontrolée
ave sourispastoujours au point.
BérEnger pour sapersévéran erassurante dansl'exé ution à lalettred'un régime
hypo- alorique, lafameuseinégalité triangulaire et sonintégralelégendaire sur2n variables.
CélineetFipourleursinvitationsaufonddel'Essonnequij'espére,serépèteronten ore
dansles moisà venir, surtout s'ilya dugâteau au ho olat.
Samy sans qui n'importe quelle ligne de mon C++ n'aurait pas dépassé le Seg Fault",
et qui a réussià me donner(malgré lui) une vague idée de e quereprésentait ma h 1aux jeux
videos.
Julien et Anthony, même s'ils font partie de l'équipe d'analyse numérique (...), se sont
révéles d'ex ellents amarades sauf peut-être dans un domaine que la dé en e m'empê he de
iter.
Jérémie pour son goût avéré pour le sprint, l'orande, la glissade, les stomps, laps ou
autres blastsen tousgenres.
Benjamin (gogogo!)pour sagentillesse et son alme parfoisénervant et Julie pour avoir
réussi à analiser l'énergie débordante de ertains demes ollo ataires de bureau.
Pas aletsesfameux servi eswindows,sonindé rottablevolontéd'hélasutiliserdrak onf
et d'allersi dangeureusement roussertousles jours.
Je tiens aussi à remer ier mes parents, mon frère et mes grands parents pour m'avoir
en ouragé et enseigné depuis tout petit leur goût du travail. Je pense parti ulièrement à mon
papyqui,je suis sûr, auraitété si ontent de ontempler le par ours a ompli.
Je n'oublie pas Solveig, Olivier, Vin ent, Julien, Olivia, Mathilde et Lauren e qui me
font lajoied'être venus m'é outer sansvraissemblablement omprendre quoique e soitet Élie,
Hélène,Adrien et Véronique qui m'ont permis de me détourner de montravail dans lepaisible
environnement de Manosque.
Chapitre 1 - Introdu tion - État de l'art 6
1.1 Problématique . . . 6
1.2 Algorithmes de lassi ation . . . 8
1.2.1 Dé ision Bayésienne . . . 8
1.2.2 k PlusPro he Voisin . . . 9
1.2.3 SupportVe tor Ma hine . . . 9
1.3 Séle tion de features . . . 11
1.3.1 Analyse en omposantes prin ipales. . . 11
1.3.2 Analyse en omposantes indépendantes. . . 13
1.3.3 Constru tion de Featuresà partir d'arbresde dé isions . . . 14
1.3.4 Séle tion de featuresbinaires par ritèred'information mutuelle . . . 16
1.3.5 Maximisation delamarge desSVMspour laséle tion de variables . . . . 16
1.4 Le Boosting : omplément naturel à laséle tion de features . . . 17
1.5 Organisation du mémoire . . . 19
Chapitre 2 - Obtention de features et mesure de l'information 21 2.1 Featuresélémentaires . . . 21
2.1.1 Introdu tion. . . 21
2.1.2 Cas parti ulier desimages . . . 22
2.1.3 Composition de déte teursélémentaires, agrégationde déte teurs . . . 24
2.2 Représentation desmots sous formed'arbres binaires . . . 26
2.2.1 Dénitions . . . 26
2.2.2 Motivation pour l'utilisation de testsélémentaires négatifs" 9 ;:::" 16 . . . 27
2.2.3 Déte teurs debordsinvariants par translation . . . 27
2.3 Mesure de l'information ommune. . . 29
2.3.1 Cas de variablesaléatoires binaires . . . 30
2.3.2 Cas de variablesaléatoires réelles . . . 35
Chapitre 3 - Séle tion de features par minimisation d'une énergie 37 3.1 Problématique . . . 37
3.2 Algorithme dere her he . . . 39
3.2.1 Énergie . . . 39
3.2.2 Gradient de E en métriqueeu lidienne . . . 41
3.2.3 Gradient de E en variablesexponentielles . . . 42
3.3 Équations diérentielles asso iéesauxdes entes degradient . . . 47
3.3.2 Étude de (E 4) . . . 49
3.4 Approximation sto hastiquede lades ente de gradient (E 1) . . . 49
3.4.1 Né essité d'uneapproximationsto hastique . . . 49
3.4.2 Stabilité de S F . . . 50
3.4.3 Pistes pour ontourner (C) . . . 51
3.5 Approximation sto hastiquede lades ente de gradient (E 2) . . . 52
3.6 Convergen e del'apprentissage (E 6)de Pvers (E 2) . . . 53
3.6.1 Généralitéssur leséquations diérentielles . . . 53
3.6.2 Convergen e versune pseudo-traje toireasymptotique . . . 54
3.6.3 Convergen e versun minimum de E . . . 60
3.7 Expérien es surdesdonnées synthétiques . . . 62
3.7.1 Des ription desdonnées . . . 62
3.7.2 Des ente de gradient exa te . . . 63
3.7.3 Des ente de gradient appro hée . . . 64
3.7.4 Features séle tionnés . . . 66
3.8 Déte tion de hires manus rits . . . 67
3.8.1 Taux d'erreurg . . . 67
3.8.2 Organisation spatiale destests . . . 69
3.8.3 Performan ede lassi ation . . . 69
3.9 Déte tion de visages . . . 73
3.9.1 Base de données . . . 73
3.9.2 Évolution de E . . . 74
3.9.3 Lo alisationdesfeatures . . . 76
3.9.4 Taux d'erreur . . . 76
3.10 Déte tion de SPAM . . . 77
3.10.1 Évolution du tauxd'erreur de lassi ation . . . 77
3.10.2 Motsséle tionnés pour ladéte tionde SPAM . . . 77
3.10.3 Votede déte teurs . . . 79
3.11 Bilan . . . 79
Chapitre 4 - Pro essus de diusion réé hie 80 4.1 Introdu tion . . . 80
4.2 Diusionsous ontraintes . . . 80
4.2.1 Appli ation de Skorokhod . . . 80
4.2.2 Existen e de pro essusde diusionssous ontraintes dansG . . . 85
4.3 Cas parti ulieroù G=S F . . . 86
4.3.1 Dénition desdire tionsde réexion . . . 86
4.3.2 Des ente de gradient sous ontraintesdansS F . . . 90
4.4 Expérien es . . . 93
4.4.1 Cadre synthétique . . . 93
4.4.2 Déte tion de visages . . . 94
Chapitre 5 - Pro essus de diusion réé hie ave sauts 96 5.1 Obje tifs. . . 96
5.2 Diusions réé hies ave sauts . . . 97
5.3 Sauts dansl'espa e desforêts . . . 99 5.4 Transitionsde F ts à F ts+dt . . . 100
5.4.1 Création de nouveaux arbres . . . 101
5.4.2 Couped'un arbre . . . 102
5.4.3 Renaissan e d'arbres initiaux . . . 102
5.4.4 Par ours de F ? . . . 102
5.4.5 Non réversibilité faible desrègles(T g )-(T )-(T i ) . . . 104
5.5 Probabilités despropositions de transitions deF t s àF t s +dt . . . 105
5.6 Dynamique markovienne dessauts . . . 105
5.6.1 A eptation dessauts par unalgorithmede Métropolis-Hastings . . . 106
5.6.2 Détermination deP t s +dt . . . 107 5.6.3 Cal ul de . . . 109 5.6.4 Dénition de E(F;P) . . . 113
5.7 Existen e et uni itédupro essusde diusion réé hie ave sauts entreles forêts. 114 5.7.1 Terme dedérive Get ovarian e . . . 114
5.7.2 Conditions (C 4 ),(C 5 ), (C 6 ) et (C 7 ) dansnotre modèle . . . 115
5.7.3 Bilan. . . 121
Chapitre 6 - Asymptotique du pro essus de diusion réé hie ave sauts 124 6.1 Étude innitésimalesurlepro essus dediusion sous ontraintes ave sauts . . . 124
6.1.1 Des ription du pro essus . . . 124
6.1.2 Généralité surles pro essusMarkoviens . . . 125
6.1.3 Générateur dupro essusde diusion sous ontraintes. . . 127
6.1.4 Générateur dupro essusde diusionssous ontraintes ave sauts . . . 131
6.2 Dynamique du pro essus . . . 131
6.2.1 Pro essus markovien ré urrent . . . 132
6.2.2 Mesure invariante du pro essus . . . 137
Chapitre7-Approximationsto hastiquedupro essusdediusionsous ontraintes ave saut 142 7.1 Algorithme d'approximation . . . 142
7.1.1 Distribution dessauts . . . 142
7.1.2 Approximation entreles sauts . . . 143
7.1.3 Pro essus interpolés . . . 144
7.2 EnsembleD . . . 144
7.2.1 Dénitions . . . 144
7.2.2 Topologie surD. . . 145
7.2.3 Convergen e dansD. Compa itéfaible et ritère detension surD . . . 146
7.3 Compa ité destraje toires de (P n ;Y n ;W n ;Z n ) . . . 148 7.4 Limite faible de (P n ;Y n ;W n ;Z n ) . . . 153 7.5 Expérien es . . . 155 7.5.1 Données synthétiques . . . 155
Chapitre 8 - Con lusion 162
8.1 Bilan . . . 162
8.2 Pointsforts . . . 163
8.3 Pointsfaibles . . . 163
8.4 Poursuitedestravaux . . . 164
Annexe A -Espa es des Features pour les images 165 A-1Déte teursde bords . . . 165
A-1-1 Déte teursprimitifs debordsverti aux . . . 165
A-1-2 Déte teursprimitifs debordshorizontaux . . . 166
A-1-3 Déte teursprimitifs debordshorizontaux . . . 166
A-1-4 Déte teursprimitifs debordshorizontaux . . . 167
A-2Séle tion desdéte teurs élémentairespour latâ he de lassi ation . . . 169
Annexe B - Conditions de stabilité de S F 170 Annexe C - Cal uls des règles de sauts 174 C-1Proposition dessauts . . . 174
C-1-1Séle tion pourune gree . . . 174
C-1Cal ul desprobabilités de transition(R2). . . 175
C-2-1: Cas oùF 0 rF t s 6=? . . . 175 C-2-2Cas oùF 0 rF ts =?: . . . 176 C-3Cal ul de 1 . . . 176 C-3-1Gree (T g ),(T g ;sg ),(T g ;sd ) et (T g ;sgd ) . . . 176 C-3-2Coupe (T ) . . . 177 C-3-3: Coupe (T ) . . . 177
C-4: Cal ul desdiérentiels énergétiques E err . . . 177
C-5Ré apitulatif de ladynamiquedessauts . . . 182
C-6Énergie en log(E) . . . 183
Annexe D - Existen e des diusions réé hies ave sauts 185
Chapitre 1 - Introdu tion - État de l'art
1.1 Problématique
Ladéte tiond'objetsdansuneimageainsiquel'analyseetla lassi ationd'un signal
repré-sententdesenjeuxmajeurspourletraitementdusignalparordinateurs.Enparti ulier,l'analyse
de divers types de signaux omme par exemple les images satellitaires, les mammographies ou
lesenregistrementsaudioposeleproblèmeévident del'extra tionde petites quantitésde
ara -téristiques( features ou déte teurs) arl'espa e initial danslequel vivent les donnéesest de
trèsgrande dimension.
Ilparaîtparailleursraisonnabledepenserquel'exé utiondetâ hesalgorithmiquesappliquées
àunensembledesignauxpeutêtreoptimiséeà onditiondedisposerinitialementdubonespa e
de ara téristiques,et e quelquesoitl'algorithmeutilisé.Lare her he dubonfeaturespa e
estdon d'une importan e apitale pour l'e a ité de larésolution deproblèmes entraitement
du signal. Enn, e sont es ara téristiques élémentaires qui vont permettre d'interpréter le
signal étudié, 'est alors en e sens que nous utiliserons le mot vo abulaire pour désigner
l'ensemble des ara téristiques élémentaires que l'on pourrait extraire des signaux issus d'une
basede données.
Lesdiérentesidées quianiment ettethèsepourlare her he de esbonnes ara téristiques
sebasent sur diérentsobje tifs omme l'exhaustivité et lapar imonie du vo abulaire. Et 'est
en dénitive la nature des propriétés que l'on souhaite obtenir sur la omposition de notre
vo abulaire quidétermine la manièrede onstruire untel ensemble de features.
Nouspouvonsdansunpremier tempsénumérer diérentes motivations pour lapré-séle tion
d'un ensemblede featurespour l'analyse d'un signal.
Cettepré-séle tiondevariablespermet eneetde omprendre, dupointdevue ognitif, e
que sontles ara téristiques prin ipalesquipermettent de distinguerparti ulièrement une
lasse de signal d'uneautre. On peut alors exhiber et mettre de téles features quisont
fondamentaux (qui apportent une quantité d'information substentielle pour letraitement
du signalquel'on souhaitefaire)et é arterau ontrairelesfeaturesquine permettentpas
d'avoirdes on lusions tangiblessurla tâ hede traitement souhaitée.
Du point de vue de la omplexité algorithmique, on peut souhaiter manipuler un
vo a-bulaire on is. De e fait, le odage d'une telle liste de déte teurs orrespondant à e
vo abulaire va alors permettrede n'é rire qu'une quantité réduite de bitsen mémoire
vir-tuelleousurledisquedurdusystèmeinformatique, equientraîneradèslorsunemeilleure
portabilitédu systèmed'analysedu signal.
Toujours dupoint de vuede la omplexité algorithmique, on peut vouloir qu'il existe une
il ne faut pasnégliger nonplus lavitesse de transmissiond'un tel ensemblede réalisation
defeaturessurunsignal.Eneet,le odage d'unetellelistederéalisationdedéte teursest
d'autantplus ompa t qu'ilexistedespropriétésderedondan eentrelesdiérentsfeatures
quel'on souhaite oder ( odage LZW -[CT91℄).
Ensuivant des onsidérationsstatistiques,on onstatequelavarian eintroduiteparle
vo- abulairedontondisposeestglobalement unefon tion roissante delaquantitéd'éléments
quiappartiennent à e vo abulaire.Enrevan he,lebiaisinhérent àtoutemodélisation
dé-pendantd'unensemblededéte teursappli ablesàunsignalestluidé roissantenfon tion
la quantité de features. Ainsi, e dilemme Biais-Varian e ([GBD92 ℄) aboutit à un hoix à
faire entre
la rédu tion de la varian e du système lors de laséle tion des bons features touten
maintenant un biais raisonnable (en ne supprimant par exemple que les déte teurs
apportant peud'informations àl'interprétation dusignaltraité).
la diminution du biais en ajoutant au système de features un nouveau ara tère en
ontrlant alors l'augmentation de lavarian e du modèle.
La rédu tion de la dimensionnalité des données est fondamentale pour le problème de la
re onnaissan e deformesdanslamesureoù l'augmentation dunombre de ara téristiques
desdonnées n'augmente pasné essairement la qualitéd'apprentissage. Eneet,le
phéno-mène de Hughes (également onnu sous le nom de Curse of dimensionality) implique
que la quantité de données N né essaire pour apprendre statistiquement un modèle à p
dimensionsàunepré isionxéeaugmente exponentiellementave p ([HTF01℄,paragraphe
2.5).
Dans un se ondtemps, l'extra tion denouvelles ara téristiques à partir desfeatures primaires
permet de per evoir d'autresavantages pour lare onnaissan e de formesdansunsignal.
Dans le domaine ognitif de l'intelligen e arti ielle, l'agrégation de déte teurs peut
per-mettre d'identier la omposition ( a hée) de hamps de variables qui génère le signal
manipulé. Cela onstitueraitalors uneavan éemajeuredansl'apprentissagepar
l'informa-tiquede sour esde données pour destâ hesd'apprentissage supervisé.
En equi on ernelesperforman esdestâ hesde lassi ationoure onnaissan e,unetelle
extra tionde nouvellesvariables peut aboutiràde meilleures propriétés dedis rimination
d'un signaldans le asoù elui- i n'est justement pasintéressant.
Lesappli ationsd'unetelleaméliorationdufeaturespa epeuventêtrenombreusesetvariées.
La fouille de onnaissan es dans des bases de données souligne bien les ontraintes de gestion
et d'e a ité né essaire à l'exploration de es grandes bases de données ([UCI℄, [MIT℄). Par
exemple, lorsque l'onsouhaite analyser des hiers .logde onne tions internet surdes serveurs
WEB, on onstate que es hiers peuvent avoir plusieurs millions d'entrées pour des milliers
de variables. Sans une séle tion de es variables, la plupart des méthodes de lassi ation des
donnéesé houentsur etypededonnées arlesalgorithmesélaborésdansdesdimensionsréduites
nesontpastoujourstransposablesdansdes asoùlesdimensionssontbiensupérieures.Ilparaît
ependantintuitifquesurlaquantitédedonnéesmanipulées,unefaibleproportionde esdonnées
peut permettre de résoudreleproblème de re onnaissan ede formesdanslesignal.
Nous ommen eronsparénumérerdesméthodesalgorithmiques lassiquespourla
1.2 Algorithmes de lassi ation
La re onnaissan e de formes onsiste en l'automatisation de tâ hesde per eptionarti ielle
réalisées par un système informatique alors qu'elles sont usuellement ee tuées par le erveau
humain.Une formeestune représentation simpliéede l'universextérieurdénie d'une ertaine
manièrepourl'ordinateur,parexempleunve teurderéels,unmotd'unlangagedonné,...Nous
pouvonsreprésenter lare onnaissan e deforme par ordinateur enutilisant les héma :
Étatréel Capteur
Pré-traitement
Forme,information
Unsystèmedere onnaissan edeformesoude lassi ation omprendlaplupartdutempsune
phased'apprentissage qui onsiste àapprendre(à re onnaitre) ertaines lasses d'objets sur
unebased'é hantillon(Training-Set).Lorsde ettephased'apprentissage,lesystèmeséle tionne
alors les règles qui lui permettront de dé ider sur les données à lasser (Test Set), quellessont
lesformesqu'il pense êtreles bonnes.
Dans notreétude, les problèmes de re onnaissan ede formesseront tousdes problèmes dits
supervisés : le nombre de lasses est onnu ainsi qu'un é hantillon de données pour haque
lasse. L'algorithme d'apprentissage que nous onstruisons utilisera alors diérents lassieurs
pour séle tionner lesvariables retenuespour latâ he de re onnaissan ede formes.
1.2.1 Dé ision Bayésienne
Ladé isionbayésienneestlathéorie entrale desméthodessto hastiquesoùlesproblèmes de
dé isionsont traités entermes deprobabilités. Le point névralgiquede ette théorieestlarègle
deBayes quipermet en faitde hoisir l'hypothèse ayant laprobabilité laplusélevée.
Dans notre adre, on suppose que le problème de re onnaissan e de forme fait intervenir s
lasses que l'on énumère en C
1
;:::C
s
et on se dote de fon tions réelles (C
i
;C
j
) qui quantient
le oût de la dé ision de lasse C
i
quand le signal appartient en réalité à C
j
. Si l'on note X le
signald'entrée,P(XjC
i
) laloide probabilité d'obtenirlesignalXlorsque la lasseestC
i
etP(C
i )
laprobabilité a priori de la lasseC
i , alors : P(C i jX)= P(XjC i )P(C i ) P(X) ave P(X)= s P k=1 P(XjC k )P(C k )
La fon tion de oûtqui estasso iéeà un signalXet une lasse C
i
estelle donnée par :
R(C i jX)= s P k=1 (C i jC j )P(C j jX)
La règle de dé ision Bayésienne est alors de hoisir la lasse C
i
qui minimise la fon tion de
risqueR onnaissantlesignalX.Lorsqu'ondé idedeprendre ommefon tionde oûtlafon tion
symétrique:
onobtientlarègledeBayes lassiquequi onsiste,étantdonnéunsignalX,àmaximiserP(C i jX) puisque : R(C i ;X)= P (1 Æ i;k )P(C k jX)= P k6=i P(C k jX)=1 P(C i jX)
On hoisitdon dans e asdeséle tionnerla lasseC
i
quimaximise laprobabilité onditionnelle
sa hantX,probabilitéalorsévaluéesurlesé hantillonsduTrainingSet.Letauxd'erreur ommis
par la dé ision Bayésienne est alors appelé taux de Bayes. La règle de dé ision Bayésienne est
une méthode ouramment utiliséepour lasserun signal.
1.2.2 k Plus Pro he Voisin
Nous ne rentrons pas dans les détails du déroulement de et algorithme et renvoyons par
exemple à [Kni99℄ ou [HTF01℄ pour la onnaissan e de diérents aspe ts théoriques de et
al-gorithme. Nousretiendrons qu'étant donnéunensemblede donnéeslabélisées(training-set),
on dé ide de lasser un signal d'entrée en étudiant le voisinage formé par les k plus pro hes
voisins de e signal dans le training-set puis en hoisissant omme réponse de l'algorithme la
lasse majoritaire parmi les labels duvoisinage al ulé.
Cetteméthode:
ne né essiteau une analyse né essairedumodèle ni au un al ul de densité.
ré lame ladénitiond'une métriqueentrelesdiérentssignauxtraités.
né essitede onserver tous lesé hantillons du training-set.
demande d'ee tuer de nombreusesmesures dedistan e.
Onperçoitdon i il'intérêtden'avoirqu'unfaiblenombredevariablesappliquéesauxsignaux
puisque le al ul desdistan es estd'autant pluslongque lenombre de featuresestgrand.
Nousavonspris leparti d'utiliser en parti ulier et algorithme aril possède despropriétés
assez performantesdupoint devuedestaux de lassi ation.Si e
?
désigne l'erreur ommisepar
le lassi ateur deBayes( lassi ateuroptimal),etsieestl'erreur ommise parl'algorithmede
k pluspro he voisin,on al'inégalité :
e ?
<e<2e
?
En equi on erne letempsde al ul pourl'algorithmedek pluspro hevoisin, ilest ru ial
de ontourner l'énumération totale de touslespointsduLearning-Set ainsiquela onsidération
de toutes lesvariablespuisque, siN désigne lenombre depointsdu Learning-Set etsip désigne
la quantité de features disponibles, l'exé ution du kPPV né essite O(kNp) al uls. Le premier
point (rédu tion de N) peut être ee tué en utilisant des te hniques de Clustering ( [HTF01 ℄,
paragraphe 14.3)tandis quelaséle tiondesvariables (rédu tiondep)peut êtrefaitvia une des
méthodesévoquéesplus loinou elleprésentéedansnotretravail.
Enn, le al ul du kPPV est très sensible àla présen e de points non représentatifs (
out-liers) etune pré-séle tiondesvariablesduproblèmepeutpermettrede supprimerl'eetde es
outlierssilesvariablesresponsablesdelaprésen ede esoutlierssontalors identiéeset
supprimées duvo abulaire.
1.2.3 Support Ve tor Ma hine
problème à deux lasses, mais et outil peut également être adapté à des problèmes
multi- lasses.La problématiquedeVapnik ne onsistepasà minimiseruntauxd'erreursurl'ensemble
d'apprentissagemaispluttàtrouverunhyperplanoptimalséparantlesdeux lassesdedonnées.
Étant donné un jeu de données (x
1 ;y 1 );:::(x n ;y n ) de R p f 1;1g, on peut représenter le
problèmepar les s hémas suivants.
dansle asséparable:
C C H
dansle asnon séparable:
C C C 1 C 2 H Lesvariables y i
prennent alors leurs valeurs dansf 1;1g et les x
i
sont despointsde R
p
. Dans
l'exemple pré édent, les points tels que y
i
vaut 1 sont les tandis que représente les points
On her he alors l'hyperplan H maximisant la marge de séparation C des deux lasses, et
hyperplan aune équationdonnée par l'appli ation anef de laforme :
H= x2R p j x t + 0 =f(x)=0
où est leve teur normal unitaire àl'hyperplan H .
Lare her he d'un telhyperplanpeut également s'adapter au asoù lesdeux nuagesne sont
pas séparables en paramétrant haque point x
i
par un réel positif
i
qui mesure la distan e du
point àl'un desdeuxhyperplansd'appui H
1
ou H
2
. Dans e as, ils'agit alors de maximiserla
marge Csous les ontraintes :
y i (x i t + 0 )>C(1 i )
Laformalisationdualede ettemaximisationrevientàminimiserlanormekksouslesmêmes
ontraintes. La résolution d'un tel problème amène alors à étudier le minimum du Lagrangien
grâ e aux onditions de Karush-Kuhn-Tu ker :
L P =kk 2 2 +C P i P i ( y i ((x i j)+ 0 ) 1+ i ) P i i où i
sont les multipli ateurs de Lagrange asso iés à la onditionde positivitéde
i , et sousles ontraintes : 8 > > > < > > > : L P j =0= j P i y i x i;j =0 L P 0 =0 P i y i
Pour plus de détails sur la résolution d'un tel système quadratique, on pourra se référer à
[Bur98℄,[Vap00 ℄ou [JK00 ℄.
Onnoteraquel'algorithmedeséparationdedeux lassesparSVMpermetégalementd'obtenir
des séparations non-linéaires des deux lasses. Onutilise une appli ation et un noyau K tels
que estune appli ation de R
p
7!E oùE estun espa eeu lidien et Kest dénipar :
K(x i ;x j )=((x i )j(x j )) E
Il s'agit alors de trouver un hyperplan séparateur des deux lasses dans E pour les deux
nuagesdepointstransformésparl'appli ation.Dansnotreappro hedeséle tiondesvariables,
on pourrainterpréter enréalitélasuppressionoul'ajoût denouvellesvariables omme
l'appren-tissage d'un noyauK pour mieuxséparerles diérentes lasses d'objet.
Enn, dansnotretravail, nousavons utilisé l'implémentation SVM
l ight
,algorithme optimisé
de l'algorithmede SupportVe torMa hine établipar T.Joa hims ([Joa02℄,[JK00 ℄).
1.3 Séle tion de features
Nousallonsmaintenant exposer brièvement quelquesméthodesde séle tion defeatures plus
ou moins lassiquespermettant de restreindre ladimensionalité du problème de re onnaissan e
de formes.
1.3.1 Analyse en omposantes prin ipales
représentantlaplupartdutempsunepopulationd'individus.Onsupposedon donnésdespoints
X 1
;:::X
N
orrespondant à N individus. L'obje tif de l'analyse en omposantes prin ipales est
alors la re her he des ve teurs e
i
dans l'espa e ve toriel
!
E orthonormés tels que les points X
i soient représentés en : X k =X+ P k;i e i +R k
où X est un point de l'espa e ane E et
k;i
les oordonnées des points X
k
sur les ve teurs e
i
quiforment unefamille libre de
!
E. Le but estalors de minimiser l'erreur quadratique"donnée
par "= N P k=1 kR k k 2 2
On onstate immédiatement que dès que les ve teurs orthonormés e
i
sont hoisis, la
solu-tion ( hoix des
k;i
) est en réalité déterminée puisque la meilleure représentation orrespond
nalement àlaproje tion duve teur X
k
X surl'espa e engendrépar les (e
i ). Ainsi k;i =(X k Xje i )
Le hoixdesve teurse
i seréduit àla minimisationde "= N P k=1 w w w w X k X p P i=1 (X k Xje i )e i w w w w 2 2 Don "= N P k=1 w w X k X w w 2 2 p P i=1 N P k=1 (X k Xje i ) 2
De e fait, ils'agit de maximiserlasomme
p P i=1 ke i k N 2 oùlasemi-norme k:k N
est issueduproduit s alaire :
(XjY) N = 1 N N P k=1 (X k XjX)(X k XjY) Les ve teurs (e i
) sont alors les ve teurs propres asso iés à la forme quadratique k:k
N 2
, et
sont appelés les dire tionsprin ipalesdu nuage de points.
On peut de plus interpréter statistiquement ette résolution omme étant en réalité la
re- her he de labase B=(e
i
) telleque les proje tions de lavariablealéatoire (X EX) surles e
i
représentent desvariables
i
qui ne sontpas orrélées :
! D 1 ! D 2
Dans le s héma pré édent, l'axe
!
D 1
désigne l'axe prin ipal de l'ACP asso iée au nuage de
pointstandis que
!
D 2
est lese ondaxe del'ACP. Par dénition, ilestbienentendu orthogonalà
!
D 1
.
La séle tion des featurespeut alors s'ee tuer en utilisant ette ACP en hoisissant omme
featuresles oordonnéessurlesaxesdel'analyseen omposantesprin ipales.Eneet,ené rivant
tous lesve teurspropres de k:k
N 2
et en lesordonnant parordre dé roissant de valeurspropres,
on obtient uneliste d'axeset oe ients(e
1 ; 1 ):::(e N ; N )tels que 1 > 2 >:::> N quitte à poser p
= 0 si un nombre stri tement inférieur à N sut pour dé rire le nuage de
points. La séle tion des features s'ee tue alors en fon tion de la pré ision souhaitée pour la
des ription des données en prenant su essivement omme ara téristiques les oordonnées des
pointsdu nuage sur lesaxes e
1
, puise
2 ...
Ilest deplus remarquablequelapré ision de l'approximationdes pointsdu nuage par leurs
proje tionssurl'espa e engendré par (e
1
;:::e
p
)est donnée par lasomme
2 p+1 +::: 2 N
1.3.2 Analyse en omposantes indépendantes
L'analyseen omposantes indépendantes s'inspire de la problématique pré édente. Si X est
une variable aléatoire d'un espa e eu lidien E on re her he les ve teurs (e
i
) tels que les
oor-données s
i
de X sur les ve teurs e
i
sont alors des variables indépendantes. On peut également
résumer leproblème enlare her he deW telque
s=WX ou X=As
et s a ses oordonnées indépendantes. Si p
i
(:) désigne la densité de probabilité de s
i
et p la
densitéde probabilité jointe dessour ess, elasignieque l'ona :
p(s 1 ;:::s n )= p i (s i )
Néanmoins, l'analyse ne garantit pas toujours la détermination de sour es indépendantes,
mais plutt appro he la solution où l'on a des sour es aussi indépendantes que possible. Pour
quantier ette optimalité, plusieurs mesures existent ([Car98 ℄, [Jut87 ℄, [JH91 ℄). Nous allons
présenterbrièvement une méthode utilisantune fon tion de ontrastepouren déduireune ACI.
SiP
s
désigne laloidessour esre onstruitess=WX, ils'agitalorsd'estimeretdeminimiser
lafon tionde ontraste: IM (y)=K P y jp i (s i )
Cetteméthodeutiliseladivergen e deKullba k-Leibler delaloijointe àlaloiproduitetmesure
don l'indépendan edesvariables ausens où elledonne une distan eà l'indépendan e.
Onrésout alors une re her he d'une tellematri eW en ee tuant une des ente de gradient.
[Car98 ℄ ou[Hyv99℄.
La séle tion des variabless'ee tue une fois quela matri e West déterminée en hoisissant
les oordonnées s
i
données par (WX)
i
quiminimisent lafon tion de ontraste
IM .
1.3.3 Constru tion de Features à partir d'arbres de dé isions
De nombreux travaux ont été ee tués pour parvenir à la onstru tion de features sous
la forme d'arbres binaires de dé isions ([AG97a ℄, [Bre98 ℄). L'appro he onsiste généralement à
onstruire des arbres de dé isions de plus en plus omplexes, à partir de features élémentaires
binaires. Les arbres sont onstruits ré ursivement, en prenant en ompte soit des propriétés
géométriques([FG01 ℄), soit despropriétés statistiques ([AG97b ℄, [AGW97 ℄). En général, les
al-gorithmes de onstru tion montants desarbres utilisentdesnotions de théoriede l'information
([CT91 ℄) ommel'entropied'unevariablealéatoire,entitéquimesureledésordreoul'in ertitude
statistiquede laréalisationd'une variable aléatoire.
Dénition 1.3.1 (Entropie d'une variable aléatoire)
Si X est une variable aléatoire à valeurs dans et P(X) sa loi de probabilité, on dénit H(X)
par
H(X)=E[ logP℄=
P
!2
P(X=!)logP(X=!)
Dansles travauxsurlesarbres dedé ision, si l'onsuppose onstruitsdesfeatures omplexes
représentés par desarbres, on dé ide de former un nouvelarbre à partir de ritères statistiques
utilisant :
l'entropie ondionnelle : si l'on nomme Q
1
;:::;Q
k 1
les k 1 features séle tionnés dans
l'arbre binairede dé ision, onforme un nouvelarbre binairedont l'arbre pré édent est un
sous-arbre si Q k minimise H( YjQ k ;Q k 1 ;:::Q 1 )
Cela revientà her her lefeatureQ
k
qui varépartirunpoidsà peuprès équivalent surles
éléments du Learning-Set qui sont réalisés pour Q
k
;Q
k 1
;:::Q
1
et eux qui sont réalisés
pour Q
k 1
;:::Q
1
maispaspour Q
k ;Q k 1 ;:::Q 1 ([AG97b ℄). la probabilité de réussite de Q k ;Q k 1 ;:::Q 1
onditionnée à la réussite des pré édents
Q k 1 ;:::Q 1 : P[(Q k ;Q k 1 ;:::Q 1 )(Y)=1j(Q k 1 ;:::Q 1 )(Y)=1℄>
la orrélation statistique pour lafusion de deuxarbres dedé isions binaires ([FG01 ℄).
L'idée est alors d'obtenir des features omplexes dis riminants en utilisant des disjon tions de
featuresbinaires,en s'assurantquesurune des lassesde signaux, lenouveau featureestréalisé
ave une probabilité susante. Cela a donné lieu àl'appro he Coarse-to-Fine (du plan largeau
détail)etàunmodedepar oursdesarbresvériantun ritèred'optimalité ([Fle00 ℄,paragraphe
5.6). X 1 0 X 2 0 X 3 0 1
Dansles hémapré édent,X
1
désigneunevariablealéatoirebinaire(déte teurdebord oarse),
etsi ettevariablevaut1(ilyaeudéte tionviaX
1
),onapppliquealorsX
2
déte teurpluspré is.
Le par ours de l'arbre dedé ision binairepermet alors d'obtenirun algorithmede lassi ation
e a e : il estpeu outeux en quantité de sto kage dedonnées et en temps de al ul.
Pluspré isément,supposant onstruitunensembledefeaturesF
k
(quipeuventêtre
représen-tés sous forme d'arbres binaires de dé isions), la onstru tion de F
k+1
s'ee tue en par ourant
toutes les on aténations possibles d'arbres binaires de F
k
et en hoisissant d'ajouter de telles
on aténations à F
k+1
surdes onsidérations statistiques. Par exemple, si A
1 et A 2 sont deux arbres de dé isions de F k vériant (A 1 ;A 2 )> 0 puis A 1 = A 1 A 1 :g A 1 :d 2F k et A 2 = A 2 A 2 :g A 2 :d 2F k
on dé ide alors deformer le nouvelarbre
A 1 ::A 2 = \ A 1 ::A 2 A 1 A 2 2F k+1
Les tests séquentiels issus de features sont alors des arbres de dé isions formés à partir de
tests binaires,lestestssont de laforme
(Z 1 >t 1 ) 0 (Z 2 >t 2 ) 0 (Z 3 >t 3 ) 0 1 où les Z i
sont des variables aléatoires formées à partir du ompte du nombre de réalisations
d'arbres binaires de ertains ensembles F
k
1.3.4 Séle tion de features binaires par ritère d'information mutuelle
F. Fleuret exploite dans ses travaux ré ents un modèle qui utilise à partir de M features
f n(1)
;:::f
n(M)
, binairesunalgorithmedutypeper eptronen hoisissantunerègle dedé isionde
laforme f(x)= M P i=1 w i f i (x)+b Onre her helesw i
optimauxpourobteniruntauxd'erreurminimalviaunedes entedegradient
[Ros58℄.Pour onstruire esMfeatures,ilutilise alorsun ritère basésurl'information mutuelle
Iqu'apporteun nouveau feature auxfeaturesdéjà existants.
Dénition 1.3.2 (informationmutuelle)
Soient X et Y deux variables aléatoires de loisp et q et de loi jointe r, l'information mutuelle
I(X;Y)est déniepar
I(X;Y)= P x2 P y2 0 r(x;y)log r(x;y) p(x)q(y) SilesF i
sontlesfeaturesdontondispose,on ommen edon parséle tionnerlefeatureapportant
leplusd'information aumodèle:
n(1)=argMax
i
I(Y;F
i )
Puison séle tionneré ursivement tousles autres featuresen hoisissant àl'étape k elui qui
possède la meilleure minoration (la plus grande) de l'information mutuelle ave l'ensemble des
features onstruitsàl'étapek 1 :
n(k+1)=arg Max i Min j I(Y;F i jF n(j) )
Laséle tion defeaturesainsiee tuée,l'algorithmeduper eptronde Rosenblattexé utésur
untelsous-ensemblede featurespermetalors d'obtenirdesrésultats omparables àl'algorithme
de Boosting (Cf paragraphe 1.4) exé uté sur l'ensemble des features dans le problème de la
déte tionde visages ([Fle03 ℄).
1.3.5 Maximisation de la marge des SVMs pour la séle tion de variables
Nous avons vu dans la se tion 1.2 que l'algorithme de Support Ve tor Ma hine permettait
de séparerde façon optimale unnuage de points appartenant à deux lasses dans un espa e de
grandedimension.Deuxméthodesdeséle tiondefeaturesbaséessurlastru turedel'hyperplan
de séparation en deux lasses ont été étudiées. Les deux méthodes utilisent la variation de la
marge de séparation en deux lasses, la première supprime ré ursivement des variables tandis
quelase onde ee tueunalgorithmededes ente degradient pour apprendreunnoyau optimal
pour leSVM.
1.3.5.1 Élimination ré ursive de features (ERF)
Séparationlinéaire Étantdonnéunnuagedepointsappartenantàdeux lassessurpvariables
réelles,on peut dé ider de al uler un hyperplan séparateur linéaire entre es deux lasses pour
f(x)=(wjx)+b= p P j=1 w j x j +b
où(j)estleproduits alaireeu lidienstandarddeR
p et haquepointxdeR p apour oordonnées x j j=1::p .
L'idéeguidantl'ERF([WMC
+
00℄)estde al ulerleve teurwetde lasserlesvaleursabsolues
de jw
i
j par ordre roissant. Comme les variables x
i
telles que w
i
est grand sont les variables les
plus inuentes pour l'hyperplan de séparation, on suppose que es variables sont elles qui ont
le plus d'importan e pour le problème de lassi ation traité par le SVM. On dé ide alors de
supprimer les featuresqui orrespondent à desquantitésjw
i
j relativement faibles. On peut par
exemple dé ider de supprimer les 10% de features ayant le moins grand jw
i
j puisque dans la
déte tion par hyperplan, e sont les features qui inuen ent le moins la déte tion. On pro ède
ré ursivement enre ommençant unnouveau al ul de SVMsurles9n=10 variablesrestantes, et
e i jusqu'àobtenir laquantité de featuressouhaitée.
Séparation non linéaire Dans le as où l'on utilise un noyau pour le SVM, l'idée de base
est identiquepuisqu'il s'agitégalement desupprimer les featuresae tant lemoinslamarge.Si
l'équation del'appli ation f estdonnée par
f(x)= P i K(x;x i )+b
lamarge M estalors donnée ([Vap00 ℄)par
1 M = P i;j i j K(x i ;x j )
et lamesure d'inuen edufeature j sur lamargevaut alors
S(j)=
(1=M)
x j
On hoisit là en ore de supprimer les 10% de features ayant la quantité S(j) la plus petite
et la pro édure ré ursive est itérée à nouveau jusqu'à l'obtention de la quantité souhaitée de
features.
1.3.5.2 Apprentissage d'un noyau
On peut également utiliser une autre méthode à base de Support Ve tor Ma hine pour
sé-le tionner desfeatures. La te hnique ( [CVBM02℄) est un peu diérente de e qui a été évoqué
plushaut puisqu'onparamètre lenoyau Kparunve teur2R
n
oùnestlenombre defeatures
disponiblesinitialement : K (x;z)=K( t x; t y)
Ondé ide alors de minimiser l'erreur estimée via une des ente de gradient surleparamètre
.On pourraobtenir tous les al uls né essaires dans[CVBM02℄.
1.4 Le Boosting : omplément naturel à la séle tion de features
partir de lassieurs ( f m
) m=1:::M
binaires à valeurs dans f 1;1g de her her des quantités
m pour que F(x)= M P m=1 m f m (x)
renvoieune erreur de lassi ation inférieure,à haque étape del'algorithme.
Le prin ipede l'algorithmeestlesuivant : onpeut appliquerun ertainnombre derègles de
dé isions d'experts pour un problème de lassi ation, et ha un de esexpertsfournit une
règleauxperforman esfaibles,maisnéanmoinsmeilleures qu'unedé isionpré iseauhasard.Les
questionsauxquellesrépond l'algorithmedu Boosting sont alors les suivantes:
Quels experts doit-on interrogerlorsqu'uné hantillon à lasser nousestprésenté?
Comment ombiner les avisde esexpertspour atteindrelameilleure dé ision?
Est-il possiblederendre aussibon quel'onveut unalgorithmed'apprentissage faible?
S hapire donne les diérentes réponses à es questions et nous allons brièvement présenter
l'algorithmeAdaBoostintroduitdans[FS99 ℄.L'algorithme utiliseunedistributiondeprobabilité
sur le Training Set qui donne plus de poids aux points de l'ensemble d'apprentissage qui sont
mal- lasséspour on entrerl'attentiondel'algorithmepré isémentsur espoints.Voi i omment
l'algorithmesedéroule pré isément :
1. (x 1 ;y 1 );:::(x N ;y N ) ouples dedonnées x i et réponses(y i 2f + 1g). 2. Initialisation de w i en 1=N 3. Utiliser f m
pour al uler sonerreur"
m
sur ladistributionde données w :
" m =E w h y6=f m (x) i et poser m =log 1 " m " m
4. Mettre à jour ladistribution apprisesurleLearning-Set en utilisant lesformules:
w i e m y i 6=fm(x i ) 7 !w i
5. Renormaliser les oe ientsw
i
et retourneren 2.
Enn d'algorithme, on hoisit alors de lasser les données en prenant le signe de Fdonnée par
F= P m f m : e y=signe[ F(x)℄
L'algorithme AdaBoostprésenté pré édemment permet d'obtenir desaméliorationsnotables
desperforman esdes lassieursf
m
.Onpeut([FHT00 ℄)parailleursinterpréteruntelalgorithme
omme lare her he des oe ients
i
qui minimisent lafon tionde oût:
J( )=E
e yF(x)
Le boosting est don une méthode permettant, à l'issue d'une séle tion de lassieurs f
i ,
d'augmenter la performan e de lassi ation en organisant un vote optimisé de es lassieurs
f i
.Ainsi, pour obtenir une bonne séle tion devariables,nousauronsdon intérêt àproposer un
1.5 Organisation du mémoire
Danstoutlemémoire,nousallonsdon her her àutiliserdiversalgorithmesde lassi ation
et à optimiser leurs performan es en séle tionnant les variables sur lesquelles les taux d'erreur
de lassi ation sont les plusfaibles.
Dansle hapitre 2,nousdonnonslesdénitionspré isesdesobjetsquenousallonsmanipuler
dans le mémoire : nous dénissons les features élémentaires pour le as parti ulier des images,
situation où en général il n'existe pas de dénition intrinsèque de ara téristiques
élémen-taires. Puisnouspré isons e quesont les di tionnaires et stru tures arbores entes desfeatures
plus omplexes que les features élémentaires que nous manipuleront. Enn, nous rappelons la
dénition des entités informatives qui nous permettent de mesurer l'e a ité d'agrégation de
features omme l'information ommune oula orrélation fon tionnellede variables aléatoires.
Le hapitre 3 présente une nouvelle manière de séle tionner ertaines variables d'un signal
lorsque ledi tionnaire defeaturesest gé,en ee tuantune des ente degradient d'uneénergie.
Nousmodélisonsnotreproblèmedeséle tiondesvariablesparuntiragealéatoirede esvariables
via une loi de probabilité P sur l'ensemble desfeatures, e qui onstitue un modèle tout à fait
appli able àdiérentsproblèmes de lassi ation designauxet séle tionsdevariables.Les
te h-niques utilisées sont lassiques, omme les méthodes d'approximation d'équation diérentielle
du type Robbins-Monro. Des appli ations pré ises sont données sur divers types de signaux :
données synthétiques, messages éle troniques ou images réelles. Nous obtenons par ailleurs un
résultat de onvergen e de notre s hémad'apprentissage qui, sous des onditions ertes
restri -tives, onvergevers leminimum absolu del'énergie de notre système.
Dans le hapitre 4, nous dénissons et utilisons l'appli ation de Skorokhod pour onstruire
un pro essus sto hastique ontraint à un simplexe S
F
qui permettra d'organiser une méthode
de séle tion devariablesparmi l'ensembleF desfeaturesxés.La ontrainte d'appartenan eau
simplexe de notrepro essussto hastique est alors naturellement satisfaite, e qui représente un
avantage majeurpar rapportaux onditions obtenuesen nde hapitre 3surnotre des ente de
gradient exa te, ouappro hée.
Nousdonnons une méthode pré ise pour faire évoluer notre espa e de features dans le
ha-pitre5endonnantdesrèglesdetransitionsentrediérentsensemblesdefeatures.Cestransitions
sont basées surune dynamiquede type MCMC pour des haînes faiblement réversibles et n'est
pas sans rappeler l'évolution de ertains algorithmes d'évolution des populations tels les
algo-rithmes génétiques ou les réseaux de neurones. Dans e hapitre, nous onstruisons également
un pro essus sto hastique représentant à la fois l'évolution de notre population de tests et les
règles de tirage de es tests. Ces règles sont toujours dédiées au problème de la minimisation
d'une énergie E basée surun tauxd'erreur de lassi ation d'un algorithme xé.
Le hapitre 6 est une étude su inte du omportement asymptotique et innitésimal du
pro essus ouplé déni dansle hapitre 5. Onpré ise notamment une propriété importante de
ré urren e du pro essus avant d'exprimer le générateur du pro essus. Nous donnons enn la
mesure stationnaire asso iée à e pro essus qui est pré isément le hamp de Gibbs asso iée à
Enn,le hapitre7donneunalgorithmed'approximationsto hastiquedupro essusdéniau
hapitre 5.Plusieurs dénitionset propriétés sur l'approximationau sensfaible ysont données,
avant demontrer quelepro essusappro hé onstruit onvergebienfaiblement verslepro essus
déni au hapitre 5. Nous appliquons enn notre étude d'approximation au as des exemples
synthétiquesdu hapitre3ainsiqu'àladéte tiondevisagesissusde[MIT℄,lesperforman essont
alors nettement améliorées par rapport aux résultats obtenus au hapitre 3 puisque l'ensemble
des features onstruits possède alors de grandes propriétés dis riminantes pour les images de
Chapitre 2 - Obtention de features et
mesure de l'information
2.1 Features élémentaires
2.1.1 Introdu tion
Le problème de la déte tion et de la lassi ation d'objets dans un signal implique tout
d'abordquel'onpuissea éderàdesdonnéesquantiéesdans esignal.Cettequanti ationdes
données né essitealors la dénitiond'attributs surles signaux manipulés.De plus, le hoix des
ara téristiquesretenuesdanslesignalestd'uneimportan e apitalepourl'obtentiondebonnes
performan eslorsdetâ hesdedéte tionoude lassi ation.C'estalorspré isémentlare her he
de features élémentaires, puis omposées qui motivera toute lasuite de e travail. La re her he
du bon feature spa e sera onditionnée par les propriétés dis riminantes et informatives de
es attributs.
An de traiter divers problèmes de lassi ation, l'utilisateur dispose de plus ou moins de
libertés pour le hoix de es featuresprimitifs,selon lanature desdonnéesqu'il doittraiter.
Par exemple :
Dans le as où le signal orrespond à un ux binaire, lorsque l'on souhaite par exemple
analyser les diverses ou hes du proto ole de ommuni ation TCP/IP par paquets, les
features élémentaires peuvent alors orrespondre exa tement aux éléments binaires reçus
par la arte réseau.
Dans le as du problème de la déte tion de SPAM dans les ourriers éle troniques, les
features peuvent orrespondre par exemple au pour entage d'o uren es de mots dans le
texte, maisaussiàla naturedu do ument (texte, page html, piè esjointes, ...).
Dansle asparti ulierdesimagesnumériques,lanotiondefeaturedevientplus omplexe.Il
n'ya,eneet,pasdedénitionintrinsèquepourdesfeaturessurdesimagesnumériquessi
en'est ladonnéedesvaleursexa tesenniveauxdegrisen haquepixeld'uneimage.Mais
onperçoitvitelalimited'unetellereprésentation:ilyavraisemblablementdeszonesd'une
imagebeau oupplusinformativesqued'autresetl'utilisationd'autres ritèresgéométriques
omme la fermeture, la onvexité, l'alignement, la présen e de bords orientés ou enn
les ara téristiques omme les ouleurs, le nombre de omposantes onnexes peuvent se
substitueravantageusement à lamanipulationde latotalité de es niveauxde gris.
Le al uldelavaleurd'unfeaturesurunexempleissud'unebasededonnéesimposeégalement
la onnaissan e d'une règle quasi-instantanée pour son al ul. Detels features seront alors vus
ausens statistique, 'est-à-dire omme étant laréalisation d'unevariablealéatoiresurl'espa e I
desdonnées qui peuvent être l'ensemble desimages, desgènes, desmessageséle troniques, ...
et le al ul desvariablesaléatoires.
Parexemple,sil'on onsidèrele asparti ulierdesimagesetdelare onnaissan edeformeset
la lassi ationd'objets,ondésire onstruiredesdéte teursquirenvoient lamêmeréponse,
indé-pendamment delapositionde l'objetdansl'image. Cela signiedon queledéte teur onstruit
doitrenvoyer lamême réponsede lassi ation de façoninvariante quellequesoit latranslation
quel'onpourraitappliqueràl'image.Cespropriétés d'invarian e desdéte teursserontdis utées
danslase tionsuivante on ernant le as parti ulierde ladéte tiond'objetsdansune image.
2.1.2 Cas parti ulier des images
Une image est la reprodu tion exa te ou représentation analogique d'un être ou d'une
hose. Mathématiquement, une telle reprodu tion est bien entendu impossible, on peut tout
de même représenter de façon abstraite une image omme une appli ation de R
2
(ou R
3
si l'on
manipule des images en 3 dimensions) dans [0;256℄ si l'image est en niveaux de gris ontinus
oudans[0;256℄
3
sil'image est en ouleur.
Du point de vue du traitement de l'image par ordinateur (image numérique), l'espa e est
alorsdis rétisé parune grilledontles noeudssont appeléspixels etl'image en niveau degris est
enfaitdonnée omme une appli ationde l'ensembledespixelsdans[[0; 255℄℄ où [[a; b℄℄ désigne
l'ensemble de tous les entiers ompris entre a et b au sens large. La onversion d'une image
analogiqueen image numérique né essitedon deuxopérations:
la dis rétisation des oordonnées spatiales (dépendant de la résolution xée par
l'utilisa-teur).
ladis rétisationdel'amplitude, 'est-à-direlaquanti ationenniveauxdegris(8bitspour
une amplitudevariantdans[[0; 255℄℄)ouen ouleurs(trois anauxvariant sur8,24ou32
bits).
Danstoutnotremémoire,l'ensembledesimagesmanipuléesserontdesimagesàdeux
dimen-sions odéesenniveauxdegrisdetaillevariableselonlesbasesdedonnéesétudiées.Latailledes
imagesnumériques(tailledelagrilledénissantlespixels)seranotéegénériquementN
x N y où N x et N y
désignent lenombre de oordonnées horizontaleset verti ales.
Lepoint devueque nousallonsadopter estlepointde vueprobabiliste lassique ([GG84 ℄):
uneimageIen niveau degris estvue ommelaréalisation d'unevariablealéatoire dansl'espa e
I desappli ations de[[0; N
x
℄℄[[0; N
y
℄℄ dans[[0; 255℄℄.
2.1.2.1 Déte teurs de bords positifs dans les images
Nousavonsprisleparti,dans emémoire,deneprendre omme featuresélémentairessurles
imagesnumériques que desdéte teurs de bords, e i en raison de la fa ilité d'interprétation de
laséle tiondeplusieurs déte teurspourlestâ hesde lassi ation.Cesdéte teursdebordssont
parailleurslo aux,etpermettrontplustardde onstruiredesfeaturesplus omplexes,possédant
despropriétés d'invarian e notamment par petite translationsurles images.
La dénition des features élémentaires que l'on utilisera tout au long du mémoire pour les
images reprend e qui a été fait dans [AG97a ℄. Ces déte teurs de bords sont très simples, et
extrêmement rapides à al uler. Ce sont des fon tions booléennes qui possèdent de grandes
propriétés d'invarian e par rapport à la modi ation de l'intensité lumineuse, ainsi que par
Les déte teurs positifsdu type " 1
;:::" 8
qui renvoient 1 lorsqu'un bord est déte té, et
0 siau un bord n'estdéte té.
Les déte teurs négatifs dutype "
9 ;:::"
16
quirenvoient 1 lorsque pré isémént un bord
n'est pasdéte té.
Cet ensemblede déte teurs de bords primitifsaboutira alors à unpremier ensemblede features
D 0
+
qui orrespondra en réalité à la onstru tion du di tionnaire initial des tests positifs,
di tionnaire qui sera onverti en forêt dans le hapitre V, tous es termes restant très
largement àdénir.
Le but de notre algorithmenal de séle tion et omposition de featuressera alors de
pour-suivre la onstru tion dynamiquede esdi tionnaires, permettant d'é lair ir la tâ he ardue
de lassi ation d'une image I dansune des lasses C
i
. On remarqueraégalement que, plus
gé-néralement, et algorithmepourra segénéraliserà d'autresproblèmes de lassi ationsd'objets
dansun signal.
Nousrenvoyons àl'annexe A pour ladénition pré isede es déte teurs de bords, issus des
travaux deGemanet Amit([AG97a ℄).
2.1.2.2 Séle tion de déte teurs de bords pour une base de données
Dansles deux as quinousintéresseront, les imagesque nousauronsà traiter seront issuses
de deux bases de données possédant un ensemble d'apprentissage lairement déni. Ces deux
bases de données mettent en s ène pour lapremière base desvisages et desimages de fond
[MIT℄, tandis que la se onde base orrespond à une liste de hires manus rits issus de [USP ℄
orrespondant aux hires des odespostauxs annés par l'US Postal.
Que e soit pour la déte tion de visages ou la re onnaissan e de hires manus rits, il est
opéréunepremièrepré-séle tiondesdéte teursdebordspositifspossiblesquel'onpeutappliquer
à une image. Cette première pré-séle tion aboutit alors à la onstru tion d'un di tionnaire de
testsD
+
0
. Cetteséle tion detestsestdétailléedansl'annexeA.Lagrandequantitédedéte teurs
de bords obtenus à l'issue de ette séle tion (plus de 2000 tests pour des images de taille à
peine 2020 pixels) permet don de disposer d'une grande quantité d'information, e qui est
un avantageréel pour desproblèmes de séparation de lasses.
2.1.2.3 Déte teurs primitifs de bords négatifs
An depouvoir s'autoriser ladis rimination de ertaines lasses,on voitqu'il est né essaire
de onsidérerdestestsnégatifs, 'est-à-diredesdéte teursd'absen ede bordsen ertaines zones
de l'image. Ces déte teurs d'absen ede bordssont également dénis à partir des"
i
pré édents.
Onajoutera don omme featuresprimitifs lesdéte teurs "
9 ;:::"
16
quiseront dénispar
8i2f9;:::16g 8I2I "
i
(I)=1 "
i 8
(I)
Cesdéte teurs orrespondent don auxnon logiquesdesvariablesbooléennes"
i
du
para-graphe pré édent.
On peut légitimement se demander à quoi peuvent servir es déte teurs de bords négatifs,
puisqu'ilssontobtenusdire tementàpartirdelaformule:"
i
=1 "
i 8
.Nousverronspourquoiil
peutêtrebienvenudemanipulerégalement estests,notammentlorsdelaphasede omposition
de features.
PourdénirD
0
,ensembledesdéte teursinitiauxnégatifs,ilestné essairedesebasersurles
déte teursdeD
+
qu'ilyadetrèsnombreuxtestsnégatifsquisontréalisés,notammentdanslesrégionsdesimages
quinesontpasinformatives.Andelimiterlaquantité detestsnégatifsretenus,ondénitdon
Dénition 2.1.1 (Di tionnaire initial D
0 )
L'ensemble D
0
des déte teurs élémentaires négatifs initiaux est donné par des variables
aléa-toiresÆ dépendant d'uneorientation odée par ", d'un ouf et d'une lo alisation
x
;
y
dansla
grillede pixels tels que
Æ ";f; x; y 2D 0 () 8 > > > > > < > > > > > : 9i2f1:::Cg P C i (Æ ";f; x ; y =1)>1=2 "2f" 9 ;:::" 16 g f =max n e fjÆ "; e f; x ; y 2D 0 o Æ " 8; e f; x; y 2D 0 +
Cedi tionnaireestdon l'ensembledestestsnégatifsÆréalisésave uneprobabilitésupérieure
à1=2 surune lasseau moins desdonnées manipulées et tels que letest opposé (qui est un
testpositif) Æ soit réaliséave une probabilité également 1=2 surune autre lasse dedonnées.
Au nal, nous obtenons un premier di tionnaire de features élémentaires par réunion des deux
ensembles de déte teurs pré édents.
Onpeut deplusreprésenterl'ensembledesdéte teursélémentairesséle tionnés parle ritère
pré édent.Plusl'imageestfon éeenunpixeldonné,plusledéte teurreprésentéestpré is.Cela
setraduit pour les testspositifs par unevaleur duou petite tandis quepour lestests négatifs,
elasignieque leou estgrand :
" 1 " 2 " 3 " 4 " 5 " 6 " 7 " 8 " 9 " 10 " 11 " 12 " 13 " 14 " 15 " 16
2.1.3 Composition de déte teurs élémentaires, agrégation de déte teurs
L'obje tif de e travail a été de trouver de nombreuses ombinaisons de déte teurs
élémen-taires, laplupart du temps binaires, pour obtenir de meilleurs résultatsde lassi ation et une
meilleure on ision dudi tionnaire représenté par l'agrégation de esdéte teurs élémentaires.
Ces arrangements de déte teurs élémentaires peuvent se onstruire, que l'on traite le as
parti ulierdesimages oud'autres formesde signaux.
Il est possible de formaliser ette agrégation de déte teurs élémentaires. Nous appelerons
alphabet et mot issu del'alphabet lesentités suivantes
Dénition 2.1.2 (Alphabet A)
A,alphabetasso iéauproblèmede lassi ation,estl'ensembledesdéte teursélémentairesdont
ondispose. Si ldésigne alors unelettrede A,on noteral(I)l'évaluationdel surIélément deI.
Onpeut illustrer ette dénitiondansquelques as parti uliers :
En e qui on erne le problème de lassi ation d'objets dans une image, l'alphabet A
est formé de l'ensemble des tests Æ
";f; x; y , où " 2 f" 1 ;:::;" 16 g, f 2 [[0; F℄℄ et ( x ; y ) 2 [[0; N x 1℄℄[[0; N y
En e qui on erne le problème de la déte tion du SPAM dans des emails, l'alphabet est
formé de l'ensemble des tests al ulant les pour entages d'o uren es de ertains mots
spé iques.l(I)estalors un réelde [0;1℄.
Dénition 2.1.3(Mots A
? )
Un motmissu deAest forméd'unesu essionsansordrepré iset sansrépétitionde lettresde
l'alphabelA.L'évaluationd'un motm(l)=l
1 :::l
p
surun élément delabasede donnéesI sera
alors 8I2I m(I)= (l 1 (I);:::;l p (I))
L'appli ation est une appli ation dire tement dépendante de la nature desdonnées extraites
par les appli ationsl
1 ;:::l
p
. L'ensembledesmots possiblesseranoté A
? .
Dans le as de variables aléatoires binaires ou ternaires l
i , l'appli ation (l 1 ;:::l p ) peut
alors orrespondresimplementauproduitdetellesvariablesl
i
puisque etteopération
pos-sèdealors unsenslogiqueparfaitementdéni. Lamultipli ation dedeuxvariablesbinaires
orrespond alors au et logique tandis quela multipli ation de deuxvariables ternaires
orrespond au et ou ni-ni.
Dansle asdevariablesréelles,lamultipli ation detellesvariables nepossède plusdesens
logique pré is. En réalité, ette appli ation orrespond alors plutt à l'exploration de
noyaux polynmiaux omme e qui est pratiqué dans les algorithmes de Support Ve tor
Ma hine(nousutiliseronsdésormaisl'abbréviation lassiqueSVM)pourdesdonnéesautres
que des données binaires. En eet, si x
1
et x
2
désignent deux variables, la possibilité de
on aténer x
1
et x
2
revient à manipuler la variable x
1 x
2
. L'espa e dans lequel sont alors
quantiées les données est l'ensemble des polynmes à jD
0
j variables de degré 2 si on
autorise la on aténation d'auplusdeux variablesou dedegré supérieur sinon.
. f =0 . f =1 . f =2 Æ 2 . . Æ 3 Æ 5 . Æ 4 . Æ 1
En utilisant la gure pré édente, on voit don dans le as de variables binaires que le mot
m =Æ 1 Æ 2 Æ 3 Æ 4
est réalisé sur l'image tandis que lemot me =Æ
1 Æ
2 Æ
5
ne l'est pas. En revan he, le
mot m
0
2.2 Représentation des mots sous forme d'arbres binaires
2.2.1 Dénitions
La dénitionpré édente des mots de A
?
noussuggère une représentation pratique desmots
sousforme d'arbresbinaires.Uneagrégationdefeaturesseradésormaisreprésentéepar unarbre
binairegrà eà l'algorithmede onstru tion ré ursif suivant :
Feature élémentaire : si lefeature m esten fait une lettrede A (mest de longueur 1), on
représente m par l'arbrea(m):
a(m)= m
? ?
Feature omposé: si le feature m est issu de l'agrégation de deux features ls m
g et
m d
représentéspar les arbres a(m
g
) et a(m
d
),alors a(m)vaut :
a(m)= m a(m g ) a(m d ) (A)
L'évaluationdu feature représenté par l'arbre de (A) est alors fondé sur le noeud prin ipal
m: on pose don
Dénition 2.2.1 (Évaluation d'un arbre binaire surune donnée)
8I2I a(m)(I)=m(I)
Danslasuitede la onstru tion etséle tiondesfeaturespourla lassi ation,onmanipulera
de préféren e l'arbores en e omplète d'un feature plutt que le noeud prin ipal. Cela peut
paraîtreparadoxaldupointdevuedela omplexitéalgorithmiquepuisquel'évaluationdel'arbre
a(m)surI nedépendenfaitquedem,maislasuitedel'algorithmené essiteraunemémoire
surlafaçon dont ont été onstruitsles features.
Enn, notons queles répétitions de lettres dansles noeuds prin ipaux des deuxls ne sont
pasrépétéesdans lenoeud prin ipal de l'arbrepère,ainsil'agrégation formelle de
A 1 = ab a b et A 2 = a a donne A 1 ::A 2 A 1 A 2 = ab ab a b a a
Dénition 2.2.2 (Ensemble d'arbres binaires)
NousappeleronsA
?
2.2.2 Motivation pour l'utilisation de tests élémentaires négatifs " 9
;:::" 16
L'utilisation de testsélémentaires négatifs nouspermet, via la omposition de features
évo-quéepré édemment,d'utiliser le ara tèred'absen edebordsdansdesfeatures omposés.Cette
utilisationdetestsnégatifspeutêtreintéressantedufaitquela ompositiondetestspourobtenir
desfeatures omposés permet d'engendrer uneréutilisationde esfeaturespour d'autres lasses
que ellesqui ont permisde les former.
Par exemple, la lasse C
8
peut être dis riminée par rapport à la lasse C
3
par un déte teur
de bordÆ maiségalement par Æ :
Æ Æ
MaisletestÆ peutalors êtreréutilisé pour dis riminerla lasseC
3
par rapportàla lasseC
2 dansla ompositionÆÆ 0 : Æ Æ Æ 0 Æ 0
tandis que le test Æ ne peut être réutilisé pour dis riminer les deux lasses pré édentes. Ainsi,
'est plutt en vued'une réutilisation des features omposés formés au temps tdans un temps
ultérieur à tque l'onmanipule lesdéte teurs de bords négatifs.
2.2.3 Déte teurs de bords invariants par translation
2.2.3.1 Invarian e par translation
Dansle as oùl'on étudie desproblèmes d'images numériqueset où les donnéesne sont pas
déjà entrées surla grille despixels, il peut être né essairede gérer l'invarian e par translation
de esdéte teurs.Plus pré isément,sim désigne un motduvo abulaire defeaturesdisponibles
et I une image de labasede données, on peut souhaiterimposer quequelle quesoit l'opération
Cette né essaire invarian e par translation des déte teurs est issue du fait que lors de
l'ex-tra tion du signal analogique et la onversion en image numérique, la pose n'inuen e pas la
naturedusignaletnedoitdon pasinuen er l'interprétationpartoutalgorithmedetraitement
del'image.
Dans notresituation (images issues de [MIT℄ ou [USP℄), les imagessont préalablement
en-tréeset nousn'avonsdon pasà implémenter ette invarian e par translation.Cependant,nous
pouvonsdonnerles pistesquipermettent d'implémenterunetelle invarian e par translationdes
features onstruits.
Il s'agit tout d'abord de onstruire des features élémentaires invariants par translation, es
déte teursélémentairesdoiventdon renvoyerlemêmerésultatquellequesoitlaposedel'image.
Si l'ondénit larelation d'équivalen e
, sur l'ensembledesimages par:
8I 1 ;I 2 2I I 1 I 2 ()9 ! j ! (I 1 )=I 2
les déte teurs peuvent être dénissur le quotient (I=
) ensemble desimages quotientées par
larelationd'équivalen e
.
Enn, nous onstatons immédiatement quepour qu'un déte teur élémentaire aitun sens, il
faut né essairement que e déte teur soit omposé d'au moins deux tests de bords. Ainsi, les
déte teursélémentaires quenous onsidèrerons sont de laforme:
((" 1 ;f 1 );(" 2 ;f 2 ); ! u 12 ) où le ve teur ! u 12
quantie la position du test ("
1 ;f 1 ) par rapport à (" 2 ;f 2 ), " 1 et " 2 sont les
deuxorientationsdestestsdebordstandisquef
1
etf
2
sontlesdeuxvaleursdesousasso iéesà
estestsdebords.Nousparleronségalementde l'orbited'un teldéte teurélémentaire puisqu'en
somme, si la paire de tests (Æ
1
;Æ
2
) est obtenue par translation quel onque à partir d'une autre
pairedetests(Æ
3
;Æ
4
) alors esdeuxpairesdetestsrenverront lamême valeursurl'ensembledes
imagesI.
Nouspouvonsalorsreprésenterlaréalisationdedeuxtestsélémentairesinvariantspar
trans-lation dansl'image dela se tion2.6.3 par :
Æ 4 Æ 2 ! u Æ 2 ;Æ 4 . Æ 3 Æ 0 3 ! u Æ3;Æ1 ! u 0 Æ 3 ;Æ 1 = ! u Æ3;Æ1 . Æ 1 Æ 0 1
Il fautvoirenréalité e passage auquotient omme lapossibilitédedépla erlapaire de
testsÆ
1
;Æ
3
danstoutel'imageen imposant queleve teur detranslation
! u
Æ ;Æ