Les techniques de la classification supervisée

Chapitre 1. Fouille de données et classification

1.5 La classification supervisée

1.5.3 Les techniques de la classification supervisée

Pour présenter les techniques de la classification supervisée, nous avons repris la répartition

formulée par Weiss et Kulikowski (Weiss & Kulikowski, 1991) qui sépare ces techniques en

deux catégories :

 Les techniques statistiques ;

 Les techniques d’apprentissage automatique.

Les techniques statistiques regroupent une panoplie de méthodes. Nous présentons les techniques basées sur l’apprentissage bayésien, l’analyse discriminante et la méthode du k plus proches voisins (KNN). Dans la catégorie apprentissage automatique, nous présentons les réseaux de neurones, les arbres de décision, et les Séparateurs à Vaste Marge SVM (Support Vector Machines).

1.5.3.1

L’apprentissage Bayésien : Classifieur Bayésien Naïf

Comme son nom l’indique, l’apprentissage bayésien est basé sur le théorème de Bayes. Le problème de classification peut se traduire par la minimisation du taux d’erreurs, ce qui peut être formulé mathématiquement en utilisant la règle de Bayes. Dans le cadre de l’apprentissage bayésien, nous retrouvons plusieurs types de classificateurs : classificateur optimal de Bayes, classificateur Baysien Naïf, classificateur de Gibbs et les réseaux

bayésiens (Mitchell, 1997) ; (Wu, et al., 2008).

Dans cette partie nous allons présenter le classificateur Baysien Naïf qui sera utilisé dans nos contributions.

Le classifieur bayésien naïf repose sur l’hypothèse que les solutions recherchées peuvent être trouvées à partir de distributions de probabilité dans les données et dans les hypothèses. Cette méthode permet de déterminer la classification d’un exemple quelconque

d’entrée sont indépendants les uns des autres et tel que pour la classification binaire. La règle de classification de Bayes s’écrit :

(1.4)

On peut remplacer et par des estimations faites sur l’ensemble

d’échantillons (telles que loi de Bernouilli, normale ou bien d’autres). Pour toute classe on estime ̂ par la proportion d’éléments de la classe dans . Étant donné que

l’estimation des n’est pas évidente car le nombre de descriptions possibles

peut être grand, il faudrait un échantillon de taille trop importante pour pouvoir estimer correctement ces quantités. Pour cela on utilise l’hypothèse suivante : les valeurs des variables sont indépendantes connaissant la classe. Cette hypothèse permet d’utiliser l’égalité suivante :

∏ _(1.5)

Pour cela il suffit d’estimer, pour tout et toute classe , ̂ par la proportion

d’éléments de classe ayant la valeur pour la i-ème variable. Finalement, le classifieur

bayésien naïf associe à toute description la classe :

∏ _(1.6)

Ce classifieur est simple, facile à mettre en œuvre et souvent efficace, mais présente un point négatif qui est la sensibilité à la présence de variables corrélées.

1.5.3.2

L’analyse discriminante

L’analyse discriminante est le fruit des travaux de Fisher depuis 1936. Le but des méthodes de cette approche est de produire des décisions concernant l’appartenance ou non d’un objet à une classe en utilisant des fonctions discriminantes appelées également fonctions de décision.

La discrimination linéaire est la forme la plus simple des méthodes de cette catégorie. Elle présente l’avantage de pouvoir traiter des données de très grande taille. Le mot linéaire fait référence à la combinaison linéaire des évènements, hyperplans, qui va être utilisée afin de séparer entre les classes et de déterminer la classe d’un nouveau cas.

La construction de ces hyperplans de séparation peut être effectuée en utilisant plusieurs techniques, comme c’est le cas avec la méthode des moindres carrées et la méthode du maximum de vraisemblance. Les hyperplans sont construits de manière à minimiser la dispersion des points d’une même catégorie autour du centre de gravité de celle-ci. L’utilisation d’une distance est alors nécessaire pour mesurer cette dispersion.

Intuitivement, nous pouvons qualifier la discrimination linéaire comme une fonction d’agrégation pondérée. Cette technique est considérée comme une méthode de classification très compacte. Le défi dans cette méthode consiste à déterminer les poids de la somme pondérée.

Comme dans l’analyse discriminante linéaire, les modèles logit ont recours à des hyperplans de séparation. Ils se distinguent par le recours à des modèles probabilistes d’erreurs plus robustes (fonctions logistiques par exemple).

La discrimination quadratique est la généralisation de la discrimination linéaire. Au lieu que les classes soient séparées d’hyperplans, elles sont séparées généralement d’ellipsoïdes. On utilise dans ce cas plusieurs métriques (une par classe) pour mesurer la dispersion de

chaque classe par rapport au centre de gravité (Henriet, 2000).

Le choix de la métrique n’est pas toujours évident. En effet, il s’agit de choisir la métrique qui permet d’obtenir des classes où les points d’une même classe pour qu’ils soient les moins dispersés possible autour du centre de gravité de la classe. Ces méthodes sont totalement compensatoires. Dans les deux cas, on constate l’utilisation de fonctions d’agrégation complète. Comme pour les autres méthodes statistiques, cette agrégation ne tient pas compte de l’hétérogénéité des données, ceci renforce le côté arbitraire de la méthode.

1.5.3.3

K plus proches voisins

L’algorithme des k plus proches voisins (noté k-PPV) (Weiss & Kulikowski, 1991) ; (Duda,

(voisinage) entre exemples et sur l’idée de raisonner à partir de cas similaires pour prendre une décision. Le principe de cette méthode est de chercher pour chaque action à classer un ensemble de actions de l’ensemble d’apprentissage parmi les plus proches possibles de l’action. L’action est alors affectée à la classe majoritaire parmi ces k plus proches voisins. La fixation du paramètre est délicate, une valeur très faible va engendrer une forte sensibilité au bruit d’échantillonnage. La méthode va devenir faiblement robuste. Un trop grand va engendrer un phénomène d’uniformisation des décisions. La plupart des actions vont être affectées à la classe la plus représentée. Pour remédier à ce problème, il faut tester plusieurs valeurs de et choisir le optimal qui minimise le taux d’erreurs de classification

(Henriet, 2000).

Le choix de la classe majoritaire entre les classes des voisins peut poser des problèmes dans le cas où l’action à classer se trouve à la frontière de plusieurs classes. Pour remédier à ce problème, on donne des poids aux voisins. Ce poids est généralement proportionnel à l’inverse du carré de la distance du voisin par rapport à l’action à classer.

1.5.3.4

Les réseaux de neurones

Les réseaux de neurones sont nés à partir de plusieurs sources : la fascination des scientifiques par la compréhension, la simulation du cerveau humain et la reproduction de la capacité humaine de compréhension et d’apprentissage. Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises. Un réseau de neurones s’exprime sous forme d’un graphe composé de trois éléments : l’architecture, la fonction de transfert et la règle d’apprentissage.

L’architecture concerne le nombre et la disposition des neurones, le nombre de couches d’entrées de sorties et intermédiaires ainsi que les caractéristiques (pondération et direction) des arcs du réseau.

Le nombre de neurones des différentes couches dépend du contexte d’application. Par ailleurs, la détermination du nombre de neurones à y associer demeure dans la plupart du temps arbitraire. En général, les poids initiaux des arcs sont déterminés aléatoirement et les valeurs sont modifiées par le processus d’apprentissage.

La fonction de transfert traduit le niveau d’activation d’un neurone en un état. Le niveau d’activation d’un neurone est obtenu en cumulant l’état de l’ensemble des entrées qui agissent sur lui. Par la suite, la fonction de transfert transforme le niveau d’activation en une valeur binaire ou continue, identifiant ainsi l’état du neurone. Les trois fonctions de transfert les plus utilisées sont : la fonction saut (avec ou sans seuil), la fonction linéaire (avec ou sans seuil) et la fonction sigmoïde.

Figure 1-2 : Représentation d’un réseau de neurones multicouches

La règle d’apprentissage est le processus d’ajustement des poids associés aux arcs lorsque le réseau est en situation d’apprentissage. La réduction de l’erreur entre la valeur de sortie du réseau et la valeur initiale dans l’ensemble d’apprentissage permet de déterminer les paramètres (poids) du réseau. Il existe une variété de réseaux de neurones à apprentissage non supervisé. Ces réseaux sont capables de mémoriser, ils raisonnent par analogie avec ce qu’ils ont effectué. Pour ce type d’apprentissage, on présente une entrée sans aucune sortie et on laisse le réseau évoluer jusqu’à ce qu’il se stabilise.

Il existe différents types de réseaux, selon le nombre de couches, la fonction de transfert ou l’architecture elle-même du réseau : Perceptron, Adaline et le réseau de rétropropagation

(Weiss & Kulikowski, 1991).

Les réseaux de neurones sont souples, ils sont capables de traiter une gamme très étendue de problèmes. Leur résultat peut être une prédiction, une classification ou encore une analyse de clusters. Le degré de résolution est assez élevé. Ils donnent de bons résultats, même dans des domaines complexes ; ils sont beaucoup plus puissants que les techniques statistiques ou les arbres de décision en terme de résistance au bruit et au manque de fiabilité des données.

Couche d’entré Couche de sortie Couche Cachée 2 Couche Cachée 1

Les réseaux de neurones ont des problèmes au niveau du codage des entrées. Toutes les entrées doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne des transformations et risquent de fausser les résultats. La lisibilité au niveau des résultats n’est pas satisfaisante dans la mesure où l’on ne peut avoir accès à des explications claires des résultats obtenus (boîte noire). Pour assurer de bons résultats, le nombre d’exemples doit être très grand puisqu’il tient compte du nombre d’entrées, du nombre de couches et du taux de connexion.

1.5.3.5

Les arbres de décision

Les arbres de décision ont pour objectif la classification et la prédiction. Leur fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en langage courant. Un arbre de décision est composé d’un nœud racine par lequel entrent les données, de nœuds feuilles qui correspondent à un classement de questions et de réponses qui conditionnent la question suivante.

La mise en place d’un arbre de décision consiste à préparer les données par la suite àcréer

et valider l’arborescence. Il s’agit d’abord de définir la nature, le format des variables et leur méthode de traitement. Ces variables peuvent être non ordonnées ou encore continues. Dans le cas de l’existence d’une base de règles simple et limitée, la construction de l’arbre se fait en interaction avec le décideur, en validant les arborescences une à la fois jusqu’à la détermination de l’affectation. C’est un processus interactif d’induction de règles qui permet d’aboutir à une affectation bien justifiée. Mais, en général la création et la validation de l’arborescence se passe selon l’algorithme de calcul choisi. Il existe différents

algorithmes développés pour appliquer cette technique : CART, C4.5 et CHAID (Quinlan,

1993) ; (Breimann, et al., 1984) ;(Henriet, 2000).

Les avantages procurés par les arbres de décision sont leur rapidité et, surtout, leur facilité quant à l’interprétation des règles de décision. La clarté des règles de décision facilite le dialogue homme-machine. Ce sont des méthodes non paramétriques qui ne font aucune hypothèse sur les données. Ils peuvent traiter des ensembles d’apprentissage avec des données manquantes. Cependant, les arbres de décision ont une faiblesse au niveau de la performance et le coût d’apprentissage. Ils deviennent peu performants et très complexes lorsque le nombre de variables et de classes augmente. En effet, ils risquent de devenir trop

détaillés, ce qui leur fait perdre un peu de leur lisibilité ou encore d’aboutir à de mauvais classements et d’augmenter le coût d’apprentissage.

1.5.3.6

Méthodes à noyaux

L’objectif des techniques d’apprentissage avec les noyaux est de réduire la complexité des algorithmes d’apprentissage. Cette réduction se passe via la minimisation du temps de calcul. Elle consiste à introduire les noyaux qui permettent de réduire le nombre d’opérations, notamment au niveau du produit scalaire dans le calcul des distances, quand

nous avons un vecteur d’entrée de dimension assez importante (Herbrich, 2002).

Afin de formuler le problème de classification, nous introduisons les fonctions paramétriques qui permettent de transformer chaque cas (vecteur d’entrée dans le système)

en un nombre réel positif. La fonction va exprimer notre croyance que

correspond à la sortie réelle dans l’ensemble d’apprentissage. Pour simplifier les calculs, cette fonction doit être linéaire :

∑

(1.7)

Pour déterminer la valeur de chaque , il faut trouver la valeur du vecteur des paramètres

Soit un vecteur de caractéristiques qui permet de transformer

chaque vecteur d’entrée de dimension en un nouveau vecteur avec une

dimension plus faible . Donc, nous effectuons un changement de variable avec un changement de repère.

Le vecteur de paramètre peut s’exprimer sous forme d’une combinaison linéaire des

vecteurs caractéristiques de l’ensemble d’apprentissage de dimension :

∑

_(1.8)

La fonction fpeut être exprimée sous forme d’une combinaison linéaire de produit scalaire

∑ ∑ ∑ _(1.9)

Au lieu de calculer le produit scalaire , il suffit de calculer uniquement la

fonction appelée noyau. La fonction linéaire est appelée classifieur noyau, elle a

comme paramètre .

De manière générale, la technique du noyau consiste à choisir d’abord un noyau .

Par la suite, il s’agit d’utiliser un algorithme d’apprentissage, sur un échantillon d’apprentissage de exemples, pour se construire un classificateur dont la valeur de

sortie est donnée par (Vapnik, 1995):

∑

_(1.10)

Ce classificateur est un classificateur linéaire dans un espace de caractéristiques si et

seulement si il existe un tel que :

∑

(1.11)

La condition (1.11) s’appelle la condition de Mercer (Mercer, 1909), et le noyau qui respecte

cette condition est appelé noyau de Mercer.

Ainsi, l’introduction du noyau comme une fonction symétrique facilement calculable entre deux éléments, permet d’éliminer tous les calculs relatifs aux produits scalaires entre les éléments. D’autre part, le passage du vecteur simple aux vecteurs de caractéristiques permet de passer d’un classificateur non linéaire dans l’espace d’entrée à un classificateur linéaire dans l’espace des caractéristiques, dans le cas où le noyau choisi satisfait la condition de Mercer. L’objectif de réduire la complexité de l’algorithme doit être atteint tout en assurant la performance de l’algorithme. Cette performance se mesure en termes de minimisation des erreurs de la classification de l’ensemble d’apprentissage. Ainsi, les techniques d’apprentissage par noyau essayent de minimiser la complexité des algorithmes d’apprentissage et d’augmenter la performance du classificateur résultant. Dans cette partie,

++ + ++ ++ + - - - - - - - - - - Marge géométrique

nous allons présenter la méthode des séparateurs à vaste marge (SVM), comme une application directe de l’apprentissage par noyaux.

A l’origine les SVM traitent la classification binaire (deux classes). Soit l’échantillon

d’apprentissage composé de vecteurs d’entrée ,la classification de ces vecteurs est connue

au préalable. Elle est représentée par le vecteur de sortie . Donc, il suffit de

connaître le signe du classificateur pour déterminer la classe de l’exemple. Si S est de dimension , alors la valeur de sortie du classificateur binaire est donnée par :

∑

_(1.12)

Ayant choisi un noyau de Mercer, l’algorithme d’apprentissage pour les SVM consiste à trouver l’hyperplan de marge géométrique maximale qui sépare les données dans l’espace

des variables (Figure 1-3) (Vapnik, 1998). Vapnik a été le premier à avoir introduit les

notions d’hyperplan dans lesalgorithmes vecteurs de support (Herbrich, 2002).

Figure 1-3 : Représentation de l’hyperplan séparant linéairement les données dans l’espace des variables Pour déterminer l’équation de l’hyperplan, on modélise le problème sous forme d’un programme mathématique qui maximise la marge géométrique entre les données, tout en tenant compte de la nécessité de la bonne classification de l’ensemble d’apprentissage. L’efficacité de l’algorithme SVM est due au fait qu’il combine deux idées pertinentes. La première est le changement de repère et des variables d’entrée vers un autre espace de caractéristiques. Ce double changement permet de simplifier la construction de

Classe : 1

classificateur non linéaire en utilisant uniquement les hyperplans dans l’espace des caractéristiques. La deuxième, est de construire des hyperplans de séparation, dans l’espace

des caractéristiques avec la marge géométrique la plus large possible (Vapnik, 1998) ;

(Marchand & Shawe-Taylor, 2002) ; (Herbrich, 2002). D’un autre côté, l’approche des SVM se base sur des fondements statistiques, une théorie bien enracinée dans le temps, qui arrive à justifier aisément ses propos.

Le choix de la fonction noyau est très important, celle-ci doit respecter certaines conditions, elle doit correspondre à un produit scalaire dans un espace de grande

dimension. Mercer (Mercer, 1909) explicite les conditions que doit satisfaire pour être

une fonction noyau : elle doit être symétrique et semi-définie positive. L'exemple le plus simple de fonction noyau est le noyau linéaire :

( ) _(1.13)

On se ramène donc au cas d'un classifieur linéaire sans changement d'espace. L'approche par noyau généralise ainsi l'approche linéaire. Le noyau linéaire est parfois employé pour évaluer la difficulté d'un problème.

Les noyaux les employés avec les SVM sont : Le noyau polynomial :

( ) _(1.14)

Le noyau gaussien :

( ) ( ‖ ‖

) (1.15)

Les SVM présentés traitent la classification binaire. Dans le cas multi-classes, plusieurs méthodes ont été proposées pour étendre le schéma ci-dessus au cas où plus de deux classes sont à séparer. Ces schémas sont applicables à tout classifieur binaire, et ne sont

donc pas spécifiques aux SVM (Vapnik, 1998). Les deux plus connues sont appelées one

versus all et one versus one. Formellement, les échantillons d'apprentissage et de test peuvent ici être classés dans classes .

La méthode one-versus-all (appelée parfois one-versus-the-rest) consiste à construire classifieurs binaires en attribuant le label aux échantillons de l'une des classes et le label à toutes les autres. En phase de test, le classifieur donnant la valeur de confiance (la marge par exemple) la plus élevée remporte le vote.

La méthode one-versus-one consiste à construire classifieurs binaires en confrontant chacune des classes. En phase de test, l'échantillon à classer est analysé par chaque classifieur et un vote majoritaire permet de déterminer sa classe.

Dans le document Contribution à la séllection de variables pertinentes en classification supervisée : Application à la sélection des gènes pour les puces à ADN et des caractéristiques faciales (Page 34-44)