Classification binaire - Carte d’auto-organisation

4.4 Carte d’auto-organisation

4.5.2 Classification binaire

Etude de cas : les classifications binaire et

multi-classes avec les m ´ethodes `a noyaux

Sommaire

4.1 Introduction . . . . 79 4.2 Classification binaire par SVM . . . . 80 4.3 Classification multi-classes . . . . 82 4.3.1 Un-contre-tous . . . . 82

4.3.2 Un-contre-un . . . . 83

4.4 Carte d’auto-organisation . . . . 84 4.5 Exp érimentations . . . . 87 4.5.1 Critères d’évaluation de la classification . . . . 87

4.5.2 Classification binaire . . . . 88

4.5.3 Classification multi-classes. . . . 91

4.5.4 Carte d’auto-organisation . . . . 93

4.6 Conclusion . . . . 96

4.1 Introduction

L’apprentissage est l’acquisition de connaissances et de comp étences permettant la synth èse d’in-formation. Un algorithme d’apprentissage permet le passage d’un espace des exemples à un espace dit des hypoth èses. Pour un ensemble de param ètres en entr ée, l’apprentissage fournit un ensemble de r ésultats en sortie. Par exemple, par apprentissage, les personnes saines sont distingu ées des personnes malades. Nous parlons alors de classification ou cat égorisation. La classification est une op ération de structuration qui vise à regrouper les donn ées ayant des propri ét és similaires. Chaque groupement est dit une classe. Diff érentes techniques sont pr ésentes pour la classification. La m éthode la plus connue est celle des machines à vecteurs support.

L’id ée des m éthodes à noyaux est de plus en plus r épandue suite à l’usage de ces machines à vecteurs support (SVM pour Support Vector Machines). Initialement introduites par Vapnik [Vap95] dans

le cadre de la th éorie statistique de l’apprentissage, les SVM sont une m éthode de classification binaire par apprentissage supervis é [BGV92a,CV95]. Cette m éthode permet alors de discriminer les donn ées par des algorithmes de traitement non-lin éaires, i.e. lin éaires dans un espace appropri é. Depuis leur parution, les SVM sont utilis ées notamment pour la r égression [CV95], la multi-classification [WW99], la d étection de nouveaut és [SPST⁺01], et l’estimation de sorties multiples [EW02,PCCVSO⁺02]. Plusieurs domaines du traitement du signal ont b én éfici é de l’application de ces algorithmes. Nous pouvons en citer la d étection de visage [OFG97], la d étection d’images tatou ées (watermarking) [TW06], et m ême l’identification d’un locuteur [WC00] et la reconnaissance de texte [Joa00]. L’id ée essentielle consiste à avoir recours à des espaces de Hilbert pour la discrimination des donn ées. D écrite pour la premi ère fois dans les ann ées 1960 [VL63], cette id ée consiste à d éterminer l’hyperplan s éparateur à marge maximale. Puisque le probl ème d’optimisation à r ésoudre est (convexe) quadratique, et ne souffre donc pas d’optima locaux, contrairement aux r éseaux de neurones, cette m éthode s’av ère en outre particuli èrement bien adapt ée aux donn ées de tr ès grande dimension, telles que les images par exemple.

Un autre outil pour la classification est la carte d’auto-organisation. Initialement introduite par la carte de Kohonen [Koh82], la carte d’auto-organisation est pr ésent ée r écemment en statistique comme une g én éralisation qui introduit une notion de voisinage entre les diff érentes classes [KSH01]. En d’autres-termes, la carte organise les classes selon leur proximit é. Dans un premier temps, cette carte sera pr ésent ée comme un support graphique d’analyse du r ésultat de la classification en mettant en avant la vari ét é des repr ésentations possibles. Certaines sont plut ôt performantes pour synth étiser un r ésultat, d’autres proposent une repr ésentation des donn ées de s éries temporelles adapt ée à leurs ca-ract éristiques. Dans un second temps, cette carte est utilis ée comme la repr ésentation d’une surface susceptible de regrouper le nuage de points.

Dans ce chapitre, nous pr ésentons une étude de cas portant sur la discrimination. Pour ce faire, nous étudions deux m éthodes pour la classification des donn ées en vue de la classification de signaux électrocardiogrammes. La premi ère, bas ée sur l’apprentissage supervis é, est les machines à vecteurs support. Nous d étaillons la classification binaire initialement trait ée par les machines à vecteurs supports. La mise en œuvre de ces derni ères pour une t âche de classification multi-classes est étudi ée avec deux strat égies, qui sont : “un-contre-tous” et“un-contre-un”. La seconde, bas ée sur l’apprentissage non-supervis é, est la carte d’auto-organisation. Nous étudions alors l’apprentissage de la carte afin de faire une classification multi-classes. Les performances de ces techniques sont illustr ées sur des signaux ECG pris de deux bases de donn ées [BKS,GAG⁺a] pour d étecter les signaux venant de personnes saines des signaux de personnes pr ésentant une certaine arythmie.

4.2 Classification binaire par SVM

La classification est une action de discriminer les donn ées d’entr ée par classes ou par cat égories. Cette structuration vise à organiser les donn ées en des classes homog ènes afin de faciliter l’analyse des informations. Une m éthode bien connue pour la classification est les machines à vecteurs supports.

4.2. Classification binaire par SVM 81

Hyperplan

Vecteurs de support

FIGURE4.1: Sch ´ema illustrant l’hyperplan avec les vecteurs de support permettant la classification binaire.

La th éorie d’apprentissage statistique de Vapnik est la base de nouvelles m éthodes d’apprentissage. En 1995, Cortes et Vapnik ont introduit les machines à vecteurs supports [CV95]. Voir aussi [BL07]. Les SVM sont utilis ées pour la classification non-lin éaire des donn ées. Elles reposent sur deux propri ét és qui expliquent leur succ ès : la premi ère est celle de la marge maximale qui repr ésente la distance entre la fronti ère de s éparation et les échantillons les plus proches appel és vecteurs supports, et la deuxi ème est l’utilisation de fonction noyau permettant de transformer les donn ées à un espace appropri é à la s éparation lin éaire.

Les SVM font partie des m éthodes d’apprentissage supervis é. Les échantillons d’apprentissage sont repr ésent és par un ensemble de paires entr ée/sortie o ù la sortie est une étiquette binaire pour une discrimination à deux classes. Le but est de construire une fonction à partir de ces exemples d’ap-prentissage qui peut pr édire les sorties pour des entr ées n’appartenant pas à l’ensemble des donn ées d’apprentissage. Les entr ées peuvent être des descriptions d’objets et les sorties sont les classes de ces objets donn ées en entr ées [Bur98]. Pour deux classes d’exemples donn és, le but de SVM est de trouver un classifieur s éparant les donn ées en maximisant la distance entre ces deux classes. Dans la plupart des probl èmes r éels, il n’y a pas de s éparation lin éaire possible entre les donn ées. La mise en œuvre d’une transformation non-lin éaire, par l’usage de noyau (voir chapitre1), permet de contourner le probl ème. Pour les SVM, ce classifieur dans l’espace transform é est un classifieur lin éaire appel é hyperplan. La Figure 4.1 montre l’hyperplan pour la classification entre deux classes. Les points les plus proches, qui seuls d éfinissent l’hyperplan, sont appel és vecteurs supports. Plusieurs hyperplans permettent une s éparation valide, mais les SVM consid èrent l’hyperplan dont la distance aux exemples d’apprentissage est maximale. Cette distance est la“marge”. La Figure 4.2montre deux exemples de classification binaire, la premi ère dont les donn ées sont lin éairement s éparables et la seconde non-lin éairement s éparables.

En SVM, le param ètre Cdit de r égularisation d étermine le compromis entre la fraction de donn ées d’apprentissages mal class ées et la r égularit é de la solution. De plus, à part ce param ètre, le choix du noyau et de ses param ètres est crucial. Nous rappelons par exemple que le noyau Gaussien d épend

+

-+

+

+ +

+

-(a) Donn ées lin éairement s éparables

--

-- ^-

-+

+

+ + ⁺

+

(b) Classification non-lin éaire des donn ées FIGURE4.2: Exemples de classification binaire, lin éaire et non-lin éaire dansIR².

de sa largeur de bande. Voir le Tableau1.1pour les expressions des noyaux les plus utilis és. Pour une application donn ée, il est difficile de d éterminer à l’avance quel type de noyau ou quels param ètres nous donnent les meilleurs r ésultats. Notre objectif est d’optimiser les performances de classification. A cet effet, la validation crois ée àk-plis est utilis ée afin de tenter cet objectif. La validation crois ée àk-plis est utilis ée pour évaluer les classifieurs SVM étant donn é les param ètres d’un certain noyau ainsi que celui de r égularisation. Elle consiste à partitionner équitablement les donn ées d’apprentissage dans k plis, o ù k−1plis sont utilis és à chaque fois pour l’apprentissage, et le pli qui reste, nomm é ensemble de validation, est utilis é pour les tests. De cette façon, toutes les donn ées participent à la validation.

4.3 Classification multi-classes

En SVM, bien que les hyperplans s éparateurs de marge maximale sont souvent d évelopp és pour les probl èmes de discrimination binaire, il est n écessaire de les adapter pour traiter des probl èmes multi-classes. L’id ée est simplement de transformer le probl ème de classification deℓ classes en plusieurs classifieurs binaires. Il existe deux strat égies de d écomposition,“un-contre-tous”(One-Against-All OAA) et “un-contre-un” (One-Against-One OAO). Consid érons un probl ème deℓclasses, o ù nous avons n

échantillons d’apprentissage, l’entr ée est un ensemble{(x₁, y₁), . . . ,(x_n, yn)}de vecteurs d’apprentis-sagex_i∈ X et les étiquettes correspondantesy_i ∈ {1,2, . . . , ℓ}.

4.3.1 Un-contre-tous

Cette strat égie “un-contre-tous” (en anglais One-Against-All (OAA)), la plus simple et la plus an-cienne strat égie de d écomposition, a ét é introduite par Vapnik en1995 [Vap95]. Cette approche utilise une architecture parall èle deℓclassifieurs, un pour chaque classe. La formulation initiale de la m éthode

4.3. Classification multi-classes 83

FIGURE 4.3: Sch éma des fronti ères binaires des r égions OAA pour un probl ème fondamental.

FIGURE 4.4: Sch éma repr ésentant les fronti ères continues des r égions OAA pour un probl ème fon-damental.

un-contre-tous d éclare qu’une donn ée serait class ée dans une certaine classe si et seulement si le clas-sifieur de la classe associ ée l’a accept ée et les clasclas-sifieurs de toutes les autres classes l’ont rejet ée. Alors que pour les classes de pr écision étroitement group ées, cette approche laisse des r égions d’ambigu¨ıt é pour lesquelles plus d’une classe les acceptent ou toutes les classes les rejettent. La Figure4.3illustre cette formulation.

Une am élioration des performances de l’OAA a ét é propos é par Vapnik en1998[Vap98]. La solution la plus simple pour r ésoudre un SVM multi-classes est de le d écomposer en un ensemble de sous-probl èmes binaires et construire des SVM ind épendant pour chacun d’eux. Cette strat égie, appel ée“ un-contre-tous”consiste en la construction d’un nombre de SVM égal au nombre de classes. Chaque SVM est ensuite entraˆın ée pour s éparer les donn ées d’une classe étiquet ée1, de celles de toutes les autres classes qui sont étiquet ées−1. Ainsi, chaque SVM est associ ée à une classe et sa sortie avant seuillage appartient à la classe. La r ègle de d écision est l’application du principe“winner takes all”, elle est donc g én éralement utilis ée pour r épartir les donn ées inconnues à la classe correspondant au classifieur avec la plus grande valeur de sortie [PC07,FHL08,MCS06]. La Figure4.4illustre cette id ée.

4.3.2 Un-contre-un

Une autre strat égie de d écomposition est “un-contre-un” (en anglais One-Against-One (OAO)), également connue sous le nom“couplage par paires”,“toutes les paires”ou“round robin” [MCS06]. Cette strat égie consiste en la construction d’un classifieur pour chaque paire de classes, c’est- à-dire

ℓ(ℓ−1)/2 classifieurs binaires pour un probl ème à ℓ classes. Chaque classifieur est entraˆın é pour s éparer les donn ées d’une classe de celles d’une autre classe. En combinant les r ègles de d écision des diff érents (sous)-classifieurs, la r ègle de d écision finale utilis ée est g én éralement la m éthode du vote majoritaire appel é “max-wins voting”. En d’autres termes, chaque classifieur vote pour une classe et l’ échantillon étudi é est finalement associ é à la classe recevant le plus de votes [PC07,FHL08]. D’autres m éthodes de combinaison de r ègles de d écision comprennent l’utilisation de graphes de d écision pour d éterminer la classe s électionn ée de mani ère similaire à des tournois à élimination directe [Bur98]. La

FIGURE4.5: Sch éma des fronti ères d écisionnelles, deux à deux, pour la m éthode de d écomposition OAO dans le cas de trois classes.

Figure4.5illustre cette strat ´egie.

Les auteurs de [HL02] montrent que la strat égie “un-contre-un” a une meilleure pr écision que la strat égie“un-contre-tous”, mais dans toutes les comparaisons, le taux de pr écision reste inf érieur à2%. M ême si la diff érence de pr écision est faible, il existe un argument plus important en faveur de la strat égie “un-contre-un”, qui n’est autre que le temps n écessaire pour l’apprentissage. Pour cette m éthode, le temps est de 2 à 6 fois plus rapide que pour la strat égie “un-contre-tous”. Cette condition est due au nombre de donn ées beaucoup plus élev é de chaque classifieur binaire de cette derni ère strat égie.

4.4 Carte d’auto-organisation

Une carte d’auto-organisation (SOM pour Self-Organizing Map) est un type de r éseaux de neurones artificiels qui est entraˆın é en utilisant l’apprentissage non supervis é pour produire une faible dimension (typiquement deux dimensions) pour la repr ésentation discr étis ée de l’espace d’entr ée des échantillons d’apprentissage. Elle a ét é conçue comme une alternative aux r éseaux de neurones traditionnels. Elle est utilis ée pour des t âches similaires à celles des r éseaux de neurones, citons par exemple : la re-connaissance des formes, la robotique, le contr ôle de processus et m ême le traitement de l’information s émantique. La s égr égation spatiale des diff érentes r éponses et de leurs organisations dans les r ésultats des sous-ensembles produisent un degr é élev é d’efficacit é dans les op érations typiques de r éseaux de neurones. Les cartes d’auto-organisation diff èrent des autres r éseaux de neurones artificiels dans le sens o ù elles utilisent une fonction de voisinage afin de pr éserver les propri ét és topologiques de l’es-pace des observations. Elles sont consid ér ées comme un outil d’analyse des donn ées et de prise de d écisions pour le pr é-traitement et de s élection des algorithmes de classification. Les r ésultats form és par les SOM sont plus orient és vers l’utilisateur permettant une forte interaction avec l’utilisateur pour diff érentes t âches.

L’id ée d’une carte d’auto-organisation a ét é initialement introduite par Kohonen [Koh82]. Mais ce n’est que tr ès r écemment qu’elles sont utilis ées pour r ésoudre des probl èmes de grande dimen-sion et non-lin éaires telles que l’extraction de caract éristiques et la classification des images et des

4.4. Carte d’auto-organisation 85

FIGURE4.6: Carte simple de Kohonen.

mod èles acoustiques, la commande adaptative de robots, la d émodulation en transmission de signaux de t él écommunication, ainsi que pour l’organisation de collections de documents tr ès volumineux [KSH01]. La SOM est actuellement utilis ée comme l’un des outils des r éseaux de neurones g én ériques pour la visualisation de la structure des donn ées à dimension élev ée [Gac11]. Une carte d’auto-organisation se compose d’ él éments appel és nœuds ou neurones. Un vecteur de pond ération de la m ême dimension que les vecteurs de donn ées d’entr ées est associ é à chaque nœud, qui poss ède une position bien pr écise dans la carte. La disposition normale des nœuds est un espacement r égulier dans un r éseau hexagonal ou rectangulaire, illustr ée dans la Figure4.6.

L’objectif de la SOM est de visualiser des donn ées de dimensions élev ées dans un espace de faible dimension, g én éralement plac é dans un plan de deux ou trois dimensions. Pour que cette visualisation ait un sens, une exigence ultime est que cette repr ésentation des donn ées de grande dimension doit conser-ver les propri ét és topologiques de l’ensemble de donn ées. Cette implication signifie que deux donn ées qui sont proches l’un de l’autre dans l’espace à haute dimension doivent pr éserver cette similarit é (ou ressemblance) lors de leur repr ésentation sur la carte. Comme la plupart des r éseaux de neurones artifi-ciels, la SOM fonctionne en deux modes : l’apprentissage et la correspondance. Durant l’apprentissage, la carte est construite à partir des échantillons d’entr ées. Il s’agit d’un processus comp étitif, également appel é quantification vectorielle. La proc édure de la mise en place d’une entr ée de l’espace des donn ées sur la carte est de trouver le premier nœud ayant le vecteur le plus proche de celui avec le poids pris de l’espace des donn ées. Une fois que l’apprentissage est r éalis é, la correspondance classifie automati-quement une nouvelle entr ée dans la classe appropri ée.

Phase d’apprentissage

L’objectif de l’apprentissage de la carte d’auto-organisation est de provoquer les diff érentes parties du r éseau pour r épondre de mani ère similaire à certains mod èles d’entr ées. Chaque nœud poss ède une position sp écifique topologique (une coordonn ée dans le treillis) et contient un vecteur de coefficients de pond ération de la m ême dimension que les vecteurs d’entr ée. En d’autres termes, chaque nœud contient alors un vecteur de pond ération w, de m ême dimension que les donn ées d’entr ée. À partir d’une distribution initiale de poids al éatoires, et sur plusieurs it érations, la SOM établit finalement une carte avec des zones stables. Chaque zone est effectivement un classifieur de caract éristiques, de sorte que la sortie graphique devient un type de carte de caract éristiques de l’espace des observations. Tous les nouveaux vecteurs d’entr ée pr ésent és au r éseau stimuleront les nœuds dans la zone des vecteurs de poids similaires. L’algorithme pour l’apprentissage de la carte est donn é dans l’algorithme4.1. Lors de la pond ération du nœud, celui gagnant est commun ément connu sous le nom de l’unit é correspondant le mieux (Best Matching Unit ou BMU). `A partir du BMU, le rayon de son voisinage est alors calcul é. Il s’agit d’une valeur initialement importante, typiquement r égl ée au“rayon”de la grille, mais qui diminue

`a chaque it ´eration. Plus un nœud est proche du BMU, plus son poids se modifie.

Initialization : Poids de chaque nœud←valeur al éatoire ; pourt←1à nbr it ération faire

Choix au hasard d’un vecteur dans l’ensemble de donn ées d’apprentissage ; Pr ésentation du vecteur au r éseau ;

Examination du nœud pour calculer une pond ération la plus proche du vecteur d’entr ée ; Recherche de tous les nœuds trouv és dans le rayon de voisinage de BMU ;

Ajustement de chaque poids du nœud voisin pour les rendre similaire au vecteur d’entr ´ee ; fin

Algorithme 4.1: Algorithme d’apprentissage de la carte d’auto-organisation.

Identification du BMU

Pour d éterminer l’unit é correspondant le mieux, la m éthode consiste à parcourir tous les nœuds et cal-culer la distance Euclidienne entre le vecteur poids de chaque nœud et l’entr ée utilis ée. Nous d ésignons parw_kle vecteur poids dukième

nœud. Soitx_il’ échantillon s électionn é al éatoirement à l’it érationt cou-rante. Le nœud avec le vecteur poids le plus proche de l’ échantillon courant est identifi é comme étant la BMU, en minimisant la distance Euclidienne, selon

min

k kw_k−x_ik².

Le vecteur poids w_k de chaque nœudk est alors ajust ´e s’il est dans le voisinage de la BMU, en l’adaptant `a

4.5. Exp ´erimentations 87

o ùηtest le taux d’apprentissage qui diminue à chaque it ération selon l’ équation suivante

ηt=η₀exp⁻^t

o ùλest une constante du temps. Dans cette expression le noyau Gausienκ_G(w_{BM U},w_k)repr ésente la quantit é d’influence que la distance dukième

nœud `a la BMU a sur son apprentissage, suivant l’ ´equation

κ_G(w_{BM U},w_k) = exp^−kw^{BM U} ⁻^w^k^k

2σ2

t(t)

Une caract éristique unique de l’algorithme d’apprentissage de Kohonen est que la zone du voisinage se r étr écit à chaque it ération. Cette caract éristique est accomplie en r éduisant le rayon du voisinage avec

Dans le document Méthodes à noyaux en reconnaissance de formes, prédiction et classification. Applications aux biosignaux (Page 96-133)