• Aucun résultat trouvé

4.4 Carte d’auto-organisation

4.5.2 Classification binaire

Etude de cas : les classifications binaire et

multi-classes avec les m ´ethodes `a noyaux

Sommaire

4.1 Introduction . . . . 79 4.2 Classification binaire par SVM . . . . 80 4.3 Classification multi-classes . . . . 82 4.3.1 Un-contre-tous . . . . 82

4.3.2 Un-contre-un . . . . 83

4.4 Carte d’auto-organisation . . . . 84 4.5 Exp ´erimentations . . . . 87 4.5.1 Crit`eres d’´evaluation de la classification . . . . 87

4.5.2 Classification binaire . . . . 88

4.5.3 Classification multi-classes. . . . 91

4.5.4 Carte d’auto-organisation . . . . 93

4.6 Conclusion . . . . 96

4.1 Introduction

L’apprentissage est l’acquisition de connaissances et de comp ´etences permettant la synth `ese d’in-formation. Un algorithme d’apprentissage permet le passage d’un espace des exemples `a un espace dit des hypoth `eses. Pour un ensemble de param `etres en entr ´ee, l’apprentissage fournit un ensemble de r ´esultats en sortie. Par exemple, par apprentissage, les personnes saines sont distingu ´ees des personnes malades. Nous parlons alors de classification ou cat ´egorisation. La classification est une op ´eration de structuration qui vise `a regrouper les donn ´ees ayant des propri ´et ´es similaires. Chaque groupement est dit une classe. Diff ´erentes techniques sont pr ´esentes pour la classification. La m ´ethode la plus connue est celle des machines `a vecteurs support.

L’id ´ee des m ´ethodes `a noyaux est de plus en plus r ´epandue suite `a l’usage de ces machines `a vecteurs support (SVM pour Support Vector Machines). Initialement introduites par Vapnik [Vap95] dans

le cadre de la th ´eorie statistique de l’apprentissage, les SVM sont une m ´ethode de classification binaire par apprentissage supervis ´e [BGV92a,CV95]. Cette m ´ethode permet alors de discriminer les donn ´ees par des algorithmes de traitement non-lin ´eaires, i.e. lin ´eaires dans un espace appropri ´e. Depuis leur parution, les SVM sont utilis ´ees notamment pour la r ´egression [CV95], la multi-classification [WW99], la d ´etection de nouveaut ´es [SPST+01], et l’estimation de sorties multiples [EW02,PCCVSO+02]. Plusieurs domaines du traitement du signal ont b ´en ´efici ´e de l’application de ces algorithmes. Nous pouvons en citer la d ´etection de visage [OFG97], la d ´etection d’images tatou ´ees (watermarking) [TW06], et m ˆeme l’identification d’un locuteur [WC00] et la reconnaissance de texte [Joa00]. L’id ´ee essentielle consiste `a avoir recours `a des espaces de Hilbert pour la discrimination des donn ´ees. D ´ecrite pour la premi `ere fois dans les ann ´ees 1960 [VL63], cette id ´ee consiste `a d ´eterminer l’hyperplan s ´eparateur `a marge maximale. Puisque le probl `eme d’optimisation `a r ´esoudre est (convexe) quadratique, et ne souffre donc pas d’optima locaux, contrairement aux r ´eseaux de neurones, cette m ´ethode s’av `ere en outre particuli `erement bien adapt ´ee aux donn ´ees de tr `es grande dimension, telles que les images par exemple.

Un autre outil pour la classification est la carte d’auto-organisation. Initialement introduite par la carte de Kohonen [Koh82], la carte d’auto-organisation est pr ´esent ´ee r ´ecemment en statistique comme une g ´en ´eralisation qui introduit une notion de voisinage entre les diff ´erentes classes [KSH01]. En d’autres-termes, la carte organise les classes selon leur proximit ´e. Dans un premier temps, cette carte sera pr ´esent ´ee comme un support graphique d’analyse du r ´esultat de la classification en mettant en avant la vari ´et ´e des repr ´esentations possibles. Certaines sont plut ˆot performantes pour synth ´etiser un r ´esultat, d’autres proposent une repr ´esentation des donn ´ees de s ´eries temporelles adapt ´ee `a leurs ca-ract ´eristiques. Dans un second temps, cette carte est utilis ´ee comme la repr ´esentation d’une surface susceptible de regrouper le nuage de points.

Dans ce chapitre, nous pr ´esentons une ´etude de cas portant sur la discrimination. Pour ce faire, nous ´etudions deux m ´ethodes pour la classification des donn ´ees en vue de la classification de signaux ´electrocardiogrammes. La premi `ere, bas ´ee sur l’apprentissage supervis ´e, est les machines `a vecteurs support. Nous d ´etaillons la classification binaire initialement trait ´ee par les machines `a vecteurs supports. La mise en œuvre de ces derni `eres pour une t ˆache de classification multi-classes est ´etudi ´ee avec deux strat ´egies, qui sont :un-contre-tousetun-contre-un. La seconde, bas ´ee sur l’apprentissage non-supervis ´e, est la carte d’auto-organisation. Nous ´etudions alors l’apprentissage de la carte afin de faire une classification multi-classes. Les performances de ces techniques sont illustr ´ees sur des signaux ECG pris de deux bases de donn ´ees [BKS,GAG+a] pour d ´etecter les signaux venant de personnes saines des signaux de personnes pr ´esentant une certaine arythmie.

4.2 Classification binaire par SVM

La classification est une action de discriminer les donn ´ees d’entr ´ee par classes ou par cat ´egories. Cette structuration vise `a organiser les donn ´ees en des classes homog `enes afin de faciliter l’analyse des informations. Une m ´ethode bien connue pour la classification est les machines `a vecteurs supports.

4.2. Classification binaire par SVM 81

Hyperplan

Vecteurs de support

FIGURE4.1: Sch ´ema illustrant l’hyperplan avec les vecteurs de support permettant la classification binaire.

La th ´eorie d’apprentissage statistique de Vapnik est la base de nouvelles m ´ethodes d’apprentissage. En 1995, Cortes et Vapnik ont introduit les machines `a vecteurs supports [CV95]. Voir aussi [BL07]. Les SVM sont utilis ´ees pour la classification non-lin ´eaire des donn ´ees. Elles reposent sur deux propri ´et ´es qui expliquent leur succ `es : la premi `ere est celle de la marge maximale qui repr ´esente la distance entre la fronti `ere de s ´eparation et les ´echantillons les plus proches appel ´es vecteurs supports, et la deuxi `eme est l’utilisation de fonction noyau permettant de transformer les donn ´ees `a un espace appropri ´e `a la s ´eparation lin ´eaire.

Les SVM font partie des m ´ethodes d’apprentissage supervis ´e. Les ´echantillons d’apprentissage sont repr ´esent ´es par un ensemble de paires entr ´ee/sortie o `u la sortie est une ´etiquette binaire pour une discrimination `a deux classes. Le but est de construire une fonction `a partir de ces exemples d’ap-prentissage qui peut pr ´edire les sorties pour des entr ´ees n’appartenant pas `a l’ensemble des donn ´ees d’apprentissage. Les entr ´ees peuvent ˆetre des descriptions d’objets et les sorties sont les classes de ces objets donn ´ees en entr ´ees [Bur98]. Pour deux classes d’exemples donn ´es, le but de SVM est de trouver un classifieur s ´eparant les donn ´ees en maximisant la distance entre ces deux classes. Dans la plupart des probl `emes r ´eels, il n’y a pas de s ´eparation lin ´eaire possible entre les donn ´ees. La mise en œuvre d’une transformation non-lin ´eaire, par l’usage de noyau (voir chapitre1), permet de contourner le probl `eme. Pour les SVM, ce classifieur dans l’espace transform ´e est un classifieur lin ´eaire appel ´e hyperplan. La Figure 4.1 montre l’hyperplan pour la classification entre deux classes. Les points les plus proches, qui seuls d ´efinissent l’hyperplan, sont appel ´es vecteurs supports. Plusieurs hyperplans permettent une s ´eparation valide, mais les SVM consid `erent l’hyperplan dont la distance aux exemples d’apprentissage est maximale. Cette distance est lamarge. La Figure 4.2montre deux exemples de classification binaire, la premi `ere dont les donn ´ees sont lin ´eairement s ´eparables et la seconde non-lin ´eairement s ´eparables.

En SVM, le param `etre Cdit de r ´egularisation d ´etermine le compromis entre la fraction de donn ´ees d’apprentissages mal class ´ees et la r ´egularit ´e de la solution. De plus, `a part ce param `etre, le choix du noyau et de ses param `etres est crucial. Nous rappelons par exemple que le noyau Gaussien d ´epend

+

-+

+

+

+

+

+ +

+

-(a) Donn ´ees lin ´eairement s ´eparables

--

-- -

-+

+

+

+ + +

+

+

+

+

(b) Classification non-lin ´eaire des donn ´ees FIGURE4.2: Exemples de classification binaire, lin ´eaire et non-lin ´eaire dansIR2.

de sa largeur de bande. Voir le Tableau1.1pour les expressions des noyaux les plus utilis ´es. Pour une application donn ´ee, il est difficile de d ´eterminer `a l’avance quel type de noyau ou quels param `etres nous donnent les meilleurs r ´esultats. Notre objectif est d’optimiser les performances de classification. A cet effet, la validation crois ´ee `ak-plis est utilis ´ee afin de tenter cet objectif. La validation crois ´ee `ak-plis est utilis ´ee pour ´evaluer les classifieurs SVM ´etant donn ´e les param `etres d’un certain noyau ainsi que celui de r ´egularisation. Elle consiste `a partitionner ´equitablement les donn ´ees d’apprentissage dans k plis, o `u k−1plis sont utilis ´es `a chaque fois pour l’apprentissage, et le pli qui reste, nomm ´e ensemble de validation, est utilis ´e pour les tests. De cette fac¸on, toutes les donn ´ees participent `a la validation.

4.3 Classification multi-classes

En SVM, bien que les hyperplans s ´eparateurs de marge maximale sont souvent d ´evelopp ´es pour les probl `emes de discrimination binaire, il est n ´ecessaire de les adapter pour traiter des probl `emes multi-classes. L’id ´ee est simplement de transformer le probl `eme de classification declasses en plusieurs classifieurs binaires. Il existe deux strat ´egies de d ´ecomposition,un-contre-tous(One-Against-All OAA) etun-contre-un(One-Against-One OAO). Consid ´erons un probl `eme declasses, o `u nous avons n

´echantillons d’apprentissage, l’entr ´ee est un ensemble{(x1, y1), . . . ,(xn, yn)}de vecteurs d’apprentis-sagexi∈ X et les ´etiquettes correspondantesyi ∈ {1,2, . . . , ℓ}.

4.3.1 Un-contre-tous

Cette strat ´egieun-contre-tous(en anglais One-Against-All (OAA)), la plus simple et la plus an-cienne strat ´egie de d ´ecomposition, a ´et ´e introduite par Vapnik en1995 [Vap95]. Cette approche utilise une architecture parall `ele declassifieurs, un pour chaque classe. La formulation initiale de la m ´ethode

4.3. Classification multi-classes 83

FIGURE 4.3: Sch ´ema des fronti `eres binaires des r ´egions OAA pour un probl `eme fondamental.

FIGURE 4.4: Sch ´ema repr ´esentant les fronti `eres continues des r ´egions OAA pour un probl `eme fon-damental.

un-contre-tous d ´eclare qu’une donn ´ee serait class ´ee dans une certaine classe si et seulement si le clas-sifieur de la classe associ ´ee l’a accept ´ee et les clasclas-sifieurs de toutes les autres classes l’ont rejet ´ee. Alors que pour les classes de pr ´ecision ´etroitement group ´ees, cette approche laisse des r ´egions d’ambigu¨ıt ´e pour lesquelles plus d’une classe les acceptent ou toutes les classes les rejettent. La Figure4.3illustre cette formulation.

Une am ´elioration des performances de l’OAA a ´et ´e propos ´e par Vapnik en1998[Vap98]. La solution la plus simple pour r ´esoudre un SVM multi-classes est de le d ´ecomposer en un ensemble de sous-probl `emes binaires et construire des SVM ind ´ependant pour chacun d’eux. Cette strat ´egie, appel ´ee un-contre-tousconsiste en la construction d’un nombre de SVM ´egal au nombre de classes. Chaque SVM est ensuite entraˆın ´ee pour s ´eparer les donn ´ees d’une classe ´etiquet ´ee1, de celles de toutes les autres classes qui sont ´etiquet ´ees−1. Ainsi, chaque SVM est associ ´ee `a une classe et sa sortie avant seuillage appartient `a la classe. La r `egle de d ´ecision est l’application du principewinner takes all, elle est donc g ´en ´eralement utilis ´ee pour r ´epartir les donn ´ees inconnues `a la classe correspondant au classifieur avec la plus grande valeur de sortie [PC07,FHL08,MCS06]. La Figure4.4illustre cette id ´ee.

4.3.2 Un-contre-un

Une autre strat ´egie de d ´ecomposition estun-contre-un(en anglais One-Against-One (OAO)), ´egalement connue sous le nomcouplage par paires,toutes les pairesouround robin[MCS06]. Cette strat ´egie consiste en la construction d’un classifieur pour chaque paire de classes, c’est- `a-dire

ℓ(ℓ−1)/2 classifieurs binaires pour un probl `eme `aclasses. Chaque classifieur est entraˆın ´e pour s ´eparer les donn ´ees d’une classe de celles d’une autre classe. En combinant les r `egles de d ´ecision des diff ´erents (sous)-classifieurs, la r `egle de d ´ecision finale utilis ´ee est g ´en ´eralement la m ´ethode du vote majoritaire appel ´emax-wins voting. En d’autres termes, chaque classifieur vote pour une classe et l’ ´echantillon ´etudi ´e est finalement associ ´e `a la classe recevant le plus de votes [PC07,FHL08]. D’autres m ´ethodes de combinaison de r `egles de d ´ecision comprennent l’utilisation de graphes de d ´ecision pour d ´eterminer la classe s ´electionn ´ee de mani `ere similaire `a des tournois `a ´elimination directe [Bur98]. La

FIGURE4.5: Sch ´ema des fronti `eres d ´ecisionnelles, deux `a deux, pour la m ´ethode de d ´ecomposition OAO dans le cas de trois classes.

Figure4.5illustre cette strat ´egie.

Les auteurs de [HL02] montrent que la strat ´egieun-contre-una une meilleure pr ´ecision que la strat ´egieun-contre-tous, mais dans toutes les comparaisons, le taux de pr ´ecision reste inf ´erieur `a2%. M ˆeme si la diff ´erence de pr ´ecision est faible, il existe un argument plus important en faveur de la strat ´egieun-contre-un, qui n’est autre que le temps n ´ecessaire pour l’apprentissage. Pour cette m ´ethode, le temps est de 2 `a 6 fois plus rapide que pour la strat ´egieun-contre-tous. Cette condition est due au nombre de donn ´ees beaucoup plus ´elev ´e de chaque classifieur binaire de cette derni `ere strat ´egie.

4.4 Carte d’auto-organisation

Une carte d’auto-organisation (SOM pour Self-Organizing Map) est un type de r ´eseaux de neurones artificiels qui est entraˆın ´e en utilisant l’apprentissage non supervis ´e pour produire une faible dimension (typiquement deux dimensions) pour la repr ´esentation discr ´etis ´ee de l’espace d’entr ´ee des ´echantillons d’apprentissage. Elle a ´et ´e conc¸ue comme une alternative aux r ´eseaux de neurones traditionnels. Elle est utilis ´ee pour des t ˆaches similaires `a celles des r ´eseaux de neurones, citons par exemple : la re-connaissance des formes, la robotique, le contr ˆole de processus et m ˆeme le traitement de l’information s ´emantique. La s ´egr ´egation spatiale des diff ´erentes r ´eponses et de leurs organisations dans les r ´esultats des sous-ensembles produisent un degr ´e ´elev ´e d’efficacit ´e dans les op ´erations typiques de r ´eseaux de neurones. Les cartes d’auto-organisation diff `erent des autres r ´eseaux de neurones artificiels dans le sens o `u elles utilisent une fonction de voisinage afin de pr ´eserver les propri ´et ´es topologiques de l’es-pace des observations. Elles sont consid ´er ´ees comme un outil d’analyse des donn ´ees et de prise de d ´ecisions pour le pr ´e-traitement et de s ´election des algorithmes de classification. Les r ´esultats form ´es par les SOM sont plus orient ´es vers l’utilisateur permettant une forte interaction avec l’utilisateur pour diff ´erentes t ˆaches.

L’id ´ee d’une carte d’auto-organisation a ´et ´e initialement introduite par Kohonen [Koh82]. Mais ce n’est que tr `es r ´ecemment qu’elles sont utilis ´ees pour r ´esoudre des probl `emes de grande dimen-sion et non-lin ´eaires telles que l’extraction de caract ´eristiques et la classification des images et des

4.4. Carte d’auto-organisation 85

FIGURE4.6: Carte simple de Kohonen.

mod `eles acoustiques, la commande adaptative de robots, la d ´emodulation en transmission de signaux de t ´el ´ecommunication, ainsi que pour l’organisation de collections de documents tr `es volumineux [KSH01]. La SOM est actuellement utilis ´ee comme l’un des outils des r ´eseaux de neurones g ´en ´eriques pour la visualisation de la structure des donn ´ees `a dimension ´elev ´ee [Gac11]. Une carte d’auto-organisation se compose d’ ´el ´ements appel ´es nœuds ou neurones. Un vecteur de pond ´eration de la m ˆeme dimension que les vecteurs de donn ´ees d’entr ´ees est associ ´e `a chaque nœud, qui poss `ede une position bien pr ´ecise dans la carte. La disposition normale des nœuds est un espacement r ´egulier dans un r ´eseau hexagonal ou rectangulaire, illustr ´ee dans la Figure4.6.

L’objectif de la SOM est de visualiser des donn ´ees de dimensions ´elev ´ees dans un espace de faible dimension, g ´en ´eralement plac ´e dans un plan de deux ou trois dimensions. Pour que cette visualisation ait un sens, une exigence ultime est que cette repr ´esentation des donn ´ees de grande dimension doit conser-ver les propri ´et ´es topologiques de l’ensemble de donn ´ees. Cette implication signifie que deux donn ´ees qui sont proches l’un de l’autre dans l’espace `a haute dimension doivent pr ´eserver cette similarit ´e (ou ressemblance) lors de leur repr ´esentation sur la carte. Comme la plupart des r ´eseaux de neurones artifi-ciels, la SOM fonctionne en deux modes : l’apprentissage et la correspondance. Durant l’apprentissage, la carte est construite `a partir des ´echantillons d’entr ´ees. Il s’agit d’un processus comp ´etitif, ´egalement appel ´e quantification vectorielle. La proc ´edure de la mise en place d’une entr ´ee de l’espace des donn ´ees sur la carte est de trouver le premier nœud ayant le vecteur le plus proche de celui avec le poids pris de l’espace des donn ´ees. Une fois que l’apprentissage est r ´ealis ´e, la correspondance classifie automati-quement une nouvelle entr ´ee dans la classe appropri ´ee.

Phase d’apprentissage

L’objectif de l’apprentissage de la carte d’auto-organisation est de provoquer les diff ´erentes parties du r ´eseau pour r ´epondre de mani `ere similaire `a certains mod `eles d’entr ´ees. Chaque nœud poss `ede une position sp ´ecifique topologique (une coordonn ´ee dans le treillis) et contient un vecteur de coefficients de pond ´eration de la m ˆeme dimension que les vecteurs d’entr ´ee. En d’autres termes, chaque nœud contient alors un vecteur de pond ´eration w, de m ˆeme dimension que les donn ´ees d’entr ´ee. `A partir d’une distribution initiale de poids al ´eatoires, et sur plusieurs it ´erations, la SOM ´etablit finalement une carte avec des zones stables. Chaque zone est effectivement un classifieur de caract ´eristiques, de sorte que la sortie graphique devient un type de carte de caract ´eristiques de l’espace des observations. Tous les nouveaux vecteurs d’entr ´ee pr ´esent ´es au r ´eseau stimuleront les nœuds dans la zone des vecteurs de poids similaires. L’algorithme pour l’apprentissage de la carte est donn ´e dans l’algorithme4.1. Lors de la pond ´eration du nœud, celui gagnant est commun ´ement connu sous le nom de l’unit ´e correspondant le mieux (Best Matching Unit ou BMU). `A partir du BMU, le rayon de son voisinage est alors calcul ´e. Il s’agit d’une valeur initialement importante, typiquement r ´egl ´ee aurayonde la grille, mais qui diminue

`a chaque it ´eration. Plus un nœud est proche du BMU, plus son poids se modifie.

Initialization : Poids de chaque nœudvaleur al ´eatoire ; pourt←1`a nbr it ´eration faire

Choix au hasard d’un vecteur dans l’ensemble de donn ´ees d’apprentissage ; Pr ´esentation du vecteur au r ´eseau ;

Examination du nœud pour calculer une pond ´eration la plus proche du vecteur d’entr ´ee ; Recherche de tous les nœuds trouv ´es dans le rayon de voisinage de BMU ;

Ajustement de chaque poids du nœud voisin pour les rendre similaire au vecteur d’entr ´ee ; fin

Algorithme 4.1: Algorithme d’apprentissage de la carte d’auto-organisation.

Identification du BMU

Pour d ´eterminer l’unit ´e correspondant le mieux, la m ´ethode consiste `a parcourir tous les nœuds et cal-culer la distance Euclidienne entre le vecteur poids de chaque nœud et l’entr ´ee utilis ´ee. Nous d ´esignons parwkle vecteur poids duki`eme

nœud. Soitxil’ ´echantillon s ´electionn ´e al ´eatoirement `a l’it ´erationt cou-rante. Le nœud avec le vecteur poids le plus proche de l’ ´echantillon courant est identifi ´e comme ´etant la BMU, en minimisant la distance Euclidienne, selon

min

k kwk−xik2.

Le vecteur poids wk de chaque nœudk est alors ajust ´e s’il est dans le voisinage de la BMU, en l’adaptant `a

4.5. Exp ´erimentations 87

o `uηtest le taux d’apprentissage qui diminue `a chaque it ´eration selon l’ ´equation suivante

ηt0expt

λ

,

o `uλest une constante du temps. Dans cette expression le noyau GausienκG(wBM U,wk)repr ´esente la quantit ´e d’influence que la distance duki`eme

nœud `a la BMU a sur son apprentissage, suivant l’ ´equation

κG(wBM U,wk) = exp−kwBM U wkk

2

2

t(t)

Une caract ´eristique unique de l’algorithme d’apprentissage de Kohonen est que la zone du voisinage se r ´etr ´ecit `a chaque it ´eration. Cette caract ´eristique est accomplie en r ´eduisant le rayon du voisinage avec

Documents relatifs