• Aucun résultat trouvé

Construction d’un modèle d’apprentissage

Avec la connaissance des éléments précédents, on peut donc résumer la construction d’un système de classification comme étant une succession de choix à faire à chaque grande étape de l’architecture de classification. La phase de caractérisation du signal se fait en construisant des descripteurs pertinents ou en choisissant parmi des descripteurs existants le meilleur sous-ensemble d’attributs. Cette sélection se fait sous l’hypothèse d’un critère qu’il faut déterminer. Ensuite, on est confronté au choix du mo- dèle d’apprentissage. Parmi toutes les méthodes existantes, dans de nombreux cas, il faudra également déterminer judicieusement les paramètres du modèle qui sont cruciaux pour le bon fonctionnement du système. Nous avons vu par exemple, le choix du nombre de composantes du mélange dans le cas d’un mélange de modèles gaussiens, ainsi que la structure de la matrice de covariance. Avec l’utilisation des SVM, c’est le paramètre de régularisation C qu’il faut ajuster mais également choisir le type de noyau et les hyper paramètres associés au noyau. Enfin, l’évocation de la stratégie multi-classes dans le cas des SVM permet de rappeler qu’il est possible, pour un problème faisant intervenir plus de deux classes, de faire varier la topologie du problème : classification hiérarchique (par exemple : on décide en premier lieu si un échantillon appartient à la classe X, si non, à la classe Y, puis la classe Z etc.), ou une classification “à plat” (toutes les classes sont mises en concurrence).

Tous ces choix n’ont pas d’autre finalité que de réussir à mettre au point le système de classification le plus fiable possible par une description précise du problème et une modélisation appropriée. Cette notion de fiabilité se traduit en apprentissage automatique par la capacité de généralisation qui est également liée au phénomène de sur-apprentissage.

2.5.1

Capacité de généralisation et sur-apprentissage

Le but d’un modèle d’apprentissage est de caractériser les relations qui existent entre des données et une tâche à accomplir (classification, régression etc.), à partir d’exemples d’apprentissage. La capacité de généralisation d’un modèle est donc l’aptitude à effectuer la tâche donnée avec précision sur des échantillons inconnus. En d’autres termes, les relations établies lors de la phase d’apprentissage sur un corpus particulier doivent être pertinentes (généralisables) sur des données nouvelles. La capacité de généralisation est une notion fondamentale en apprentissage automatique puisqu’elle conditionne la

2.5 Construction d’un modèle d’apprentissage

Figure 2.5 – Illustration tirée d’une expérience dans (Hastie et al. 2009). Le schéma représente

l’erreur de prédiction en fonction de la complexité d’un modèle pour l’ensemble d’apprentissage (bleu) et l’ensemble d’évaluation (rouge). Pour une complexité suffisamment grande, on peut faire tendre l’erreur de prédiction de l’ensemble d’apprentissage vers zéro. Cependant, ce modèle sur-appris ne présente pas de bonne propriété de généralisation puisque l’erreur sur l’ensemble d’évaluation augmente à nouveau, passé un certain niveau de complexité. Le meilleur compromis se trouve donc au centre de la figure, correspondant à un niveau de complexité modéré.

qualité d’un modèle : si un modèle d’apprentissage construit n’est pas, ou faiblement généralisable à des échantillons inconnus, il est tout simplement inutile.

Les raisons de la faible capacité d’un modèle à généraliser un problème sont multiples. Le pro- blème peut venir d’un jeu d’apprentissage qui sous-échantillonne la distribution des données réelles (généralement parce que le jeu de données est trop petit) et qui n’est pas donc pas suffisamment re- présentatif du problème, ou bien par l’apparition du phénomène de sur-apprentissage. Le phénomène de sur-apprentissage traduit le fait qu’un modèle déduit des relations trop spécifiques aux échantillons d’apprentissage, et qui ne sont pas transposables sur des données inconnues. Le sur-apprentissage peut être vu comme une “mémorisation” plutôt que l’“apprentissage” (compréhension) du problème. Le sur- apprentissage peut apparaître lorsque le rapport entre le nombre d’observations et le nombre de des- cripteurs est défavorable (Cf. Malédiction de la dimensionnalité), ou bien lorsque le modèle n’est pas correctement paramétré.

La question est donc de connaître les éléments permettant de garantir que le modèle offrira des pro- priétés de généralisation suffisantes.

En considérant un problème avec comme données et variables cibles (xi, yi) et un modèle d’appren- tissage f (x, θ), où θ désigne un ensemble de paramètres liés au nombre d’exemples d’apprentissage, aux probabilités a priori de chaque classe, à la dimensionnalité des descripteurs utilisés, aux paramètres du modèle etc. L’idéal serait d’avoir une fonction analytique permettant de mesurer l’erreur du modèle

f (x, θ). Malheureusement, une telle formule n’est pas disponible même en utilisant des modèles simples.

En pratique, les performances d’un modèle sont estimées en utilisant les données disponibles réparties en deux groupes : les données d’apprentissage et les données d’évaluation. Le modèle est tout d’abord appris à partir d’exemples d’apprentissage puis testé sur les échantillons restants. L’erreur d’apprentissage représentant la moyenne des erreurs sur l’exemple d’apprentissage peut être calculée comme :

err = 1 N N X n=1 |yi− f (xi, θ)|, (2.36)

Le bon sens voudrait qu’on cherche le modèle f (x, θ) qui minimise l’erreur d’apprentissage. Cepen- dant, comme le montre l’expérience réalisée dans (Hastie et al. 2009) et illustrée figure 2.5, l’erreur

d’apprentissage n’est pas un bon estimateur du l’erreur du modèle. En effet, en augmentant suffisamment la complexité du modèle, on peut obtenir une erreur d’apprentissage nulle. Pourtant, le modèle retenu ne donnerait que de pauvres résultats car les lois de prédictions induites lors de la phase d’apprentissage seraient trop spécifiques aux échantillons d’apprentissage. C’est un cas de sur-apprentissage.

On illustre de manière simple ce phénomène en s’appuyant sur la figure 2.6, où l’objectif est de déter- miner un modèle qui explique le mieux les données. La première modélisation proposée (modélisation 1) consiste à relier les points d’apprentissage, ce qui conduit avoir un modèle composé de plusieurs fonctions linéaires. L’avantage de cette modélisation est qu’on est assuré d’obtenir une erreur d’apprentissage (err) nulle : le modèle explique parfaitement les données d’apprentissage. En revanche, ce modèle est complexe puisqu’il est défini par un grand nombre de petites fonctions. De plus, il est assez peu probable que ce modèle puisse prédire correctement des exemples inconnus. Si on revient à la figure 2.5, on se trouverait sur la partie droite : on a augmenté la complexité du modèle, l’erreur d’apprentissage est réduite mais les performances de généralisation ne seront clairement pas satisfaisantes.

La deuxième modélisation (modélisation 2) est cette fois-ci beaucoup plus simple : une fonction linéaire est utilisée pour expliquer les données, ce qui réduit considérablement la complexité du modèle. On remarque alors que l’erreur d’apprentissage ne sera pas minimale mais que globalement cette modélisation sera relativement fiable pour expliquer de nouvelles données. Sur la figure 2.5, on se trouve alors sur la partie gauche : la complexité du modèle est faible mais l’erreur d’apprentissage n’est pas négligeable.

Enfin, la dernière modélisation (modélisation 3) permet d’expliquer les données par une fonction linéaire et une composante harmonique de fréquence fixe. Dans ce cas, ce modèle permet d’expliquer parfaitement les données d’apprentissage tout en restant très peu complexe. Cette modélisation semble donc être un bon compromis et on peut donc être confiant sur sa capacité de généralisation.

D’un point de vue pratique, et comme nous l’avons vu avec les méthodes de classification présentées dans les sections précédentes, il est possible de modifier la complexité d’un modèle SVM en faisant varier le paramètre de régularisation C permettant d’accorder plus ou moins d’importance à l’erreur empirique. Lorsque C est élevé, la séparatrice est alors construite de telle manière qu’elle s’adapte le plus possible aux données d’apprentissage, conduisant à une surface de séparation complexe. Réciproquement, la comparaison du nombre de vecteurs de support peut fournir une indication sur la complexité de différents modèles. Dans le cas d’une utilisation d’un modèle GMM, on peut faire varier la complexité en modifiant le nombre de composantes de mélange du modèle.

Ici, le modèle idéal serait un compromis entre la complexité et l’erreur d’apprentissage.

Garanties théoriques

D’un point de vue théorique, certains modèles offrent des garanties sur la prévention du sur-apprentissage. Ces garanties peuvent d’ailleurs constituer un critère pour choisir une technique parmi toutes les tech- niques existantes.

Par exemple, dans les machines à vecteurs de support, la théorie de Vapnik et Chervonenkis (Vapnik 2013), montre que le principe de maximisation de la marge constitue un critère permettant de minimiser

la valeur de certaines bornes connues sur l’erreur de généralisation. Ces garanties devraient donc permettre aux SVM d’être résistants au phénomène de sur-apprentissage. En pratique, tout repose sur le choix judicieux des paramètres du modèle : le facteur de régularisation C, le choix du noyau et ses hyper paramètres. Le sur-apprentissage pouvant tout de même apparaître si ces paramètres ne sont pas bien contrôlés (Cawley & Talbot 2007), (Cawley & Talbot 2010).

D’une certaine manière, même avec ces garanties théoriques, une méthode de classification comme les SVM ne résout pas le problème du sur-apprentissage mais le déplace sur le problème de l’ajustement du modèle.

Le soin apporté au protocole de validation permet de choisir convenablement les paramètres du modèle et d’estimer de manière fiable ses performances. On expose dans la suite les approches les plus courantes.

2.5 Construction d’un modèle d’apprentissage 0 50 100 150 200 250 300 −10 0 10 20 X Y Données 0 50 100 150 200 250 300 −10 0 10 20 X Y Modélisation 1 0 50 100 150 200 250 300 −10 0 10 20 X Y Modélisation 2 0 50 100 150 200 250 300 −10 0 10 20 X Y Moldélisation 3

Figure 2.6 – Différents modèles pour expliquer un même jeu de données.

2.5.2

Protocole de validation

Le protocole de validation pose la question de l’utilisation des données disponibles pour construire un modèle d’apprentissage : comment répartir les échantillons en corpus d’apprentissage et d’évaluation ? Si l’ensemble d’apprentissage est réduit, le système ne sera pas forcément robuste et aura une faible capacité de généralisation. À l’inverse, si l’ensemble d’évaluation est limité, la confiance sur l’estimation de l’erreur sera faible.

On présente ici les approches les plus courantes. On note qu’en théorie, si l’ensemble de données disponibles est suffisamment grand, toutes les méthodes qui suivent doivent donner la même estimation.

Apprentissage, validation et évaluation

Si les données disponibles sont suffisamment nombreuses, un protocole consiste à diviser l’ensemble des échantillons en trois partitions : un corpus d’apprentissage, un corpus de validation et un corpus d’évaluation. Le modèle est tout d’abord appris sur l’ensemble d’apprentissage, puis testé sur le corpus de validation. L’ensemble d’évaluation permet d’estimer l’erreur de généralisation du modèle.

Il n’existe pas de règle universelle pour partitionner l’ensemble des données. Un découpage classique serait : 50% pour l’apprentissage, et 25% pour la validation et l’évaluation.

Apprentissage

Validation

Evaluation

Figure 2.7 – Illustration d’un partitionnement en corpus d’apprentissage (50%), de validation (25%) et d’évaluation (25%).

Validation croisée

La validation croisée est certainement la méthode la plus utilisée pour estimer l’erreur de prédiction. La validation croisée à k plis consiste à diviser l’ensemble des données en k plis de taille équivalente (généralement k = 10). Un modèle est appris en utilisant les k − 1 plis et en évaluant sur le pli restant.

L’opération est répétée k fois et on combine les k estimées de l’erreur de prédiction pour avoir l’erreur de prédiction globale.

En plus de valider un modèle, la procédure de validation croisée permet également d’avoir une appré- ciation de l’homogénéité de la base d’apprentissage. En effet, on s’attend à ce que les résultats obtenus sur les différents plis soient sensiblement les mêmes. Un écart de performance observé sur un ou plusieurs plis peut donc attirer l’attention sur les distributions des données dans les différents plis.

Apprentissage k=1 Apprentissage k=2 Apprentissage k=4 Apprentissage k=5 Evaluation k=3

Figure 2.8 – Validation à plis croisés (k = 5).

Leave-one-out method

La méthode de validation leave-one-out peut être vue comme une version de la validation à k plis poussée à l’extrême : ici k = N , avec N le nombre d’exemples disponibles. Un modèle est donc entraîné à partir des N − 1 données disponibles puis testé sur l’échantillon restant. L’opération est répétée N fois. Malgré le fait que l’estimation de l’erreur de prédiction est presque sans biais, le nombre important de phases d’apprentissage/évaluation rend cette méthode très coûteuse en temps de calcul.

2.5.3

Mesures de performance

Taux d’erreur moyen

Une mesure simple pour évaluer la performance d’un système de classification est de calculer son taux d’erreur moyen. Pour un problème à N échantillons, et en notant NOK le nombre d’exemples correctement classifiés, le taux d’erreur moyen correspond à :

score =NOK

N . (2.37)

Toutefois, cette mesure n’est intéressante que si les classes mises en jeu sont représentées de manière équilibrée.

F-mesure

Une autre mesure de performance très couramment utilisée en classification, et adaptée au cas où les classes ne sont pas équilibrées, est le score de F-mesure. Cette mesure se base sur les valeurs de rappel et de précision, correspondant respectivement au pourcentage d’exemples correctement attribués à la classe

i et au pourcentage d’exemples attribués à la classe i et qui appartiennent effectivement à la classe i.

En définissant NOK, NF A et NDM dénotant respectivement le nombre d’exemples correctement as- sociés à la classe i, le nombre d’exemples associés à tord à la classe i (fausses alarmes) et le nombre d’exemples non associés à la classe i mais appartenant effectivement à cette classe (détections manquées), les mesures de rappel et précision peuvent être calculées pour chaque classe par :

R = NOK

NOK+ NDM

, P = NOK

NOK+ NF A

, (2.38)

La F-mesure est la moyenne harmonique des deux précédentes mesures :

F = 2RP

R + P. (2.39)

Le recours à la moyenne harmonique est beaucoup plus pénalisant qu’une moyenne arithmétique des valeurs de rappel et de précision. En effet, ici F devient nulle lorsque R ou P est égale à zéro.