• Aucun résultat trouvé

3.2 Méthodes itératives d’approximation stochastique

3.2.1 Approximation stochastique par la méthode du gradient

Introduit dans les années 50 [Robbins & Monro, 1951], la méthode du gradient stochastique a permis d’élaborer des systèmes adaptatifs dans divers domaines de l’apprentissage artificiel [Amari, 1993; Balakrishmann, 2003; Coulon, 2002]. Un algorithme basé sur le gradient stochastique produit des résultats successifs en optimisation un critère d’erreurs (risque d’apprentissage) ou en maximisant un critère de qualité (critère de vraisemblance). Considérons un problème d’apprentissage dans lequel l’on souhaite estimer le modèle F en optimisant un critère global défini a posteriori sur l’ensemble des données d’apprentissage, sous la forme générale suivante :

[ ] [

( , )

]

( , ) ( )

Z F E J F Xχ J F X dP X

χ

= = 3.1

où ( , )J F X est une mesure d’erreur ou de qualité estimée localement sur la donnée X∈ , et

χ

[ ]

Eχ l’espérance mathématique associée à la variable aléatoire X∈ . Le critère global

χ

Z

est ainsi défini par l’intégrale sur toutes les données distribuées suivant une loi de densité P inconnue. La technique du gradient batch est une première solution proposée pour optimiser

le critère global Z [Bottou, 1998]. Bien que cette technique produit des estimations successives du modèle F , elle ne convient pas aux problèmes en ligne. En effet, elle utilise comme terme d’adaptation le gradient du critère Z estimé sur l’ensemble de données supposées connues a priori. Selon la nature du critère à optimiser, on distingue deux mises en œuvre en ligne du gradient stochastique : la descente du gradient et la montée du gradient. 3.2.1.1 La descente du gradient

Si J est une fonction coût mesurant les erreurs d’apprentissage, l’objectif consiste donc à estimer le modèle F en minimisant le critère global (3.1). On peut remarquer que dans cette situation, le critère Z correspond à un risque d’apprentissage. Le gradient recherche la minimisation du critère en utilisant comme terme d’adaptation le gradient de la fonction coût

J. Si l’on souhaite minimiser un risque, par exemple, cette fonction correspond à une mesure d’erreur ξ évaluée localement sur chaque donnée Xt à l’instant t. Ainsi, l’adaptation du modèle F par la technique de la descente du gradient se fait en utilisant la formule itérative :

1 1 ( , ) t t t t F F F X F η ξ + + = 3.2 0 η> : ratio d’apprentissage.

La figure 3.1 illustre la procédure d’estimation récursive du modèle en utilisant la technique de la descente du gradient.

1 ( , ) FJ F Xt t+ −η

+

Ft+1 Retard 1, , 1,... t t t X+ X X

Figure 3.1 : Procédure de la descente du gradient en ligne.

3.2.1.2 La montée du gradient

Dans certains problèmes d’apprentissage, l’objectif consiste à maximiser un critère de type vraisemblance. C’est le cas par exemple pour la classification avec les modèles de mélange (chapitre 2, section 2.2.2). Dans ces situations, la fonction J du critère (3.2) correspond donc à une mesure de qualité q évaluée localement sur chaque donnée Xt à l’instant t. La technique de la montée de gradient produit des estimations successives du modèle F en maximisant le critère Z. Cette maximisation se fait en utilisant la formule itérative suivante : 1 1 ( , ) t t t t F F q F X F η + + = + 3.3

Hormis les signes, la formule de la descente du gradient et celle de la montée du gradient ont la même expression. Intuitivement, le signe (-) dans la formule (3.2) diminue l’influence des erreurs dans l’estimation du modèle, tandis que le signe (+) dans la formule (3.3) vise à augmenter la qualité du modèle. A partir de la figure 3.1, on peut illustrer la procédure de la montée du gradient en changeant la contre-réaction −η par une réaction positive .

La méthode du gradient stochastique en ligne à travers la mise en œuvre de la descente du gradient ou celle de la montée du gradient ne nécessite pas la connaissance a priori de la loi densité P. Cependant, elle suppose que la fonction J soit différentiable pour pouvoir calculer le terme d’adaptation.

3.2.1.3 Gradient Stochastique Généralisé

Dans les situations où la fonction J du critère (3.1) n’est pas différentiable partout sur

χ, la technique du gradient stochastique généralisé est une solution intéressante. Cette technique est une simple généralisation qui consiste à optimiser le critère global Z en choisissant une fonction H dont l’espérance mathématique satisfait à la condition suivante :

[

( , )

]

Z F

[ ]

E H F X F χ = 3.4

Selon l’objectif du problème d’apprentissage, les règles de mise à jour du gradient stochastique généralisé s’expriment en utilisant comme terme d’adaptation H F X( ,t t+1) :

Minimisation du critère Z : 1 1 ( , ) t t t t F+ F ηH F X + = Maximisation du critère Z : 1 1 ( , ) t t t t F+ F ηH F X + = +

Cette formulation générale étend le champ d’application du gradient stochastique en ligne à divers problèmes [Bottou, 2004]. En utilisant une fonction H quelconque satisfaisant la condition (3.4), on s’affranchit de la dérivation de la vraie fonction coût du critère global (3.1). Cette technique a été utilisée pour la mise en œuvre de l’algorithme CEM incrémental exposé dans la section 3.2.2.2. Sous certaines conditions de régularité et de différentiabilité des fonctions Z , H, Bottou et Bengio [1995] montrent que le gradient stochastique généralisé converge. La convergence vers un optimum global du critère est possible, mais n’est pas toujours garantie car elle dépend d’une manière forte de l’initialisation (figure 3.2).

F Z[F]

Optimum global Optimum local Initialisation

Figure 3.2 : Algorithme du Gradient Stochastique : la convergence vers un optimum local ou global dépend de l’initialisation de l’algorithme.

3.2.1.4 Choix du ratio d’apprentissage

Le choix du ratio d’apprentissage η est prépondérant mais délicat à réaliser. Si ce paramètre est choisi trop petit, très peu d’importance sera accordée aux informations récentes. Ainsi donc, l’adaptation du modèle devient très lente et moins réactive aux variations brusques. En revanche, si le ratio η est choisi trop grand, le risque de non-convergence devient trop élevé. Le ratio d’apprentissage η peut être choisi constant ou variable en fonction du temps. Lorsque l’on souhaite une convergence vers un modèle optimal fixe, on utilise un ratio décroissant vers la valeur 0. Dans les situations de suivi d’évolutions, un ratio d’apprentissage η constant est mieux adapté. Le choix de η est souvent effectué dans l’intervalle

] [

0,1 après plusieurs essais et corrections [Coulon, 2002].

Le gradient stochastique est une méthode itérative convergente [Bottou & Bengio, 1995 ; Bottou, 2004]. Contrairement à la méthode du gradient batch, le gradient stochastique en ligne échappe plus facilement aux optima locaux en environnement bruité. En effet, la sensibilité au bruit produit un comportement d’instabilité bénéfique à la convergence [Genevieve & Todd, 1993]. Ce comportement est très atténué dans l’apprentissage avec le gradient batch à cause du cumul des gradients calculés à chaque instant sur toutes les données.

D’autres qualités de la méthode du gradient stochastique en ligne sont sa simplicité de mise en œuvre et sa rapidité. Par ailleurs, grâce à un oubli progressif des informations anciennes, cette méthode permet le suivi des évolutions du modèle. Le gradient stochastique offre un modèle approximatif qui reste tout de même satisfaisant dans la plupart des applications.