• Aucun résultat trouvé

1. Synthèse bibliographique

1.5 Réseaux de neurones pour la caractérisation des suspensions

1.5.4 Dilemme biais-variance

Lorsque l‟apprentissage est terminé, c'est-à-dire lorsque la fonction de coût, estimée sur les exemples d‟apprentissage, atteint une valeur satisfaisante, ou lorsque l‟on suppose raisonnable d‟arrêter l‟apprentissage ; il convient d‟évaluer les performances de généralisation du modèle c'est-à-dire la performance du modèle sur un ensemble d‟exemples jamais rencontré en apprentissage : l‟ensemble de validation ou de test. La principale difficulté provient du fait que l‟erreur d‟apprentissage n‟est pas un bon estimateur de l‟erreur de généralisation. En effet, l‟erreur de généralisation peut s‟exprimer comme une somme de deux termes positifs : le biais et la variance, qui évoluent en sens opposés l‟un de l‟autre [GEMAN, 1992]. Lorsqu‟au cours de l‟apprentissage, le biais diminue, on peut observer qu‟en parallèle la variance augmente sur l‟ensemble dédié à l‟évaluation de la généralisation : l‟ensemble de test. Le réseau n‟identifie plus alors le comportement global de la fonction désirée, mais des spécificités liées aux données de l‟apprentissage ou aux bruits contenus dans ces dernières. On dit dans ce cas qu'il y a « sur-apprentissage » ou « sur-ajustement » et le modèle perd en capacité de généralisation. Ce phénomène est d‟autant plus visible que la complexité et le nombre de paramètres du modèle augmentent. Afin d‟éviter ce problème, des méthodes de régularisation ont été proposées, parmi celles-ci, le « leave one out » et l‟ « arrêt précoce ».

1.5.4.1 Le « leave one out »

Le « leave one out » est un cas particulier de validation croisée. Cette dernière est une méthode de régularisation qui est utilisée pour effectuer l‟apprentissage de plusieurs modèles de complexités différentes afin d‟éliminer ceux d‟entre eux qui sont susceptibles d‟être sur-ajustés. Pour se faire, la base d‟apprentissage est scindée en E ensembles de taille égale. L‟apprentissage du modèle est ainsi réalisé sur l‟ensemble des exemples hormis un des sous ensembles Ei, lequel est réservé pour la validation du

modèle. Ce travail doit être réalisé E fois de sorte que tous les ensembles Ei soient

utilisés à tour de rôle pour la validation. En particulier, on parle de « leave one out » lorsque l‟ensemble Ei ne contient qu‟un seul exemple Figure 1-13. On imagine

nécessaire pour les bases de données comprenant un faible nombre d‟exemples pour lesquelles le retrait de plusieurs exemples de l‟ensemble d‟apprentissage, afin de constituer l‟ensemble de validation serait pénalisant. Par ailleurs, lors de l‟apprentissage, compte tenu de la non linéarité de la sortie, par rapport aux paramètres, il n‟y a pas nécessairement de solution unique à l‟apprentissage ; il est donc nécessaire de réaliser plusieurs initialisations des paramètres afin de sélectionner la meilleure d‟entre elles. On note ainsi que les modèles construits à partir d‟un même ensemble d‟apprentissage diffèrent par leur complexité et, pour une complexité constante, par le vecteur des paramètres obtenus (en fonction des initialisations). Ainsi, la démarche d‟élimination de modèles susceptibles d‟être surajustés consiste à sélectionner parmi les modèles de complexité différente, celui qui réalise le meilleur compromis biais-variance puis, à sélectionner parmi les modèles de même complexité, celui qui réalise la meilleure initialisation.

Figure 1- 13 : Principe de la validation croisée Ensemble des exemples de la base de

données repartis en 9 sous-ensembles Ei.

Premier sous-ensemble réservé à la validation (E1 = V) ; les 8 autres sous-

ensembles sont utilisés pour

l‟apprentissage.

Deuxième sous-ensemble réservé à la validation (E2 = V) ; les 8 autres sous-

ensembles sont utilisés pour

l‟apprentissage.

Neuvième sous-ensemble réservé à la validation (E9 = V) ; les 8 autres sous-

ensembles sont utilisés pour

l‟apprentissage.

V

V

Une fois la généralisation effectuée sur les ensembles de validation croisée, on procède à une mesure de la qualité de cette généralisation en calculant le score de validation croisée qui s‟exprime comme suit [DREYFUS et al., 2004] :

  D 1 i 2 i VC EQMV D 1 E 1. 57

   NV 1 k 2 k V ) , ( g y N 1 EQM V xk c 1. 58 où :

o EQMVi et NVi représentent respectivement l‟erreur quadratique moyenne de

validation et le nombre d'exemples de l'ensemble de validation Ei.

La sélection du modèle est réalisée en retenant celui qui présente le plus petit score. Une fois le modèle et la meilleur initialisation sélectionnés grâce au score de validation croisée, l‟apprentissage est réalisé à nouveau en utilisant l‟ensemble de la base d‟apprentissage.

On peut également estimer la qualité de la généralisation par le coefficient de détermination R2. Ce critère borné a l‟avantage d‟être comparable d‟un jeu de mesures à un autre car l‟erreur quadratique déterminée est rapportée à la variance

de l‟ensemble de validation. 2 2 2 )] , ( [ 1 

   v N k k k g x c y R 1. 59 Le coefficient R varie de 2  à 1. Lorsqu‟il vaut 0, on démontre facilement que le modèle n‟est pas meilleur que celui qui ne délivrerait que la moyenne des valeurs de l‟ensemble considéré, pour chacun des exemples ; ce modèle n‟expliquerait donc rien et n‟aurait aucun intérêt.

Une des difficultés de la méthode du leave one out réside dans le temps de calcul nécessaire qui est d‟autant plus grand que le nombre d‟exemples d‟apprentissage est grand.

On note enfin que la validation croisée peut servir, non seulement à choisir la complexité, mais aussi à sélectionner les variables. Lorsque l‟on a sélectionné le modèle

et les entrées, l‟étape suivante est de refaire l‟apprentissage avec le modèle sélectionné sur l‟ensemble d‟apprentissage et de l‟évaluer sur l‟ensemble de test.

1.5.4.2 L‟arrêt précoce

L‟ arrêt précoce de l‟apprentissage est une méthode de régularisation qui consiste à arrêter l‟apprentissage avant que la fonction de coût J ne soit minimale, en prenant comme condition d‟arrêt le fait que l‟erreur de généralisation est minimale (Figure 1- 14). L‟erreur de généralisation est alors calculée sur un ensemble de données qui est différent de l‟ensemble d‟apprentissage : l‟ensemble d‟arrêt. Bien que ceci soit fréquent dans la littérature, il ne faut pas utiliser l‟ensemble de validation pour effectuer l‟arrêt car alors, l‟évaluation de la généralisation n‟est plus indépendante de la procédure d‟apprentissage.

Figure 1- 14 : Évolution de la fonction de coût calculée sur les deux ensembles d‟apprentissage et d‟arrêt.

Documents relatifs