Les différents algorithmes d’apprentissage

Chapitre 2 : Réseaux de neurones artificiels

V. Les différents algorithmes d’apprentissage

Il faut choisir l’algorithme d’optimisation à partir d’une fonction de coût et d’une base d’apprentissage, cet algorithme va permettre d’estimer le vecteur des paramètres pour lequel la fonction de coût choisie est minimale. Il existe de nombreux algorithmes, on va citer par la suite quelques uns qui sont fréquemment mis en œuvre pour l’apprentissage des réseaux de neurones.

1. Modèles linéaires par rapport aux paramètres

Un modèle linéaire par rapport aux paramètres est défini par l’équation :

Avec :

θθθθ : vecteur de dimension P des paramètres inconnus du modèle (dans ce cas, P = nombre

de descripteurs).

: Vecteur de sortie de dimension N (N = nombre d’exemples)

: Matrice des entrées, de dimension N×P (P = nombre de colonnes correspondant aux P variables descriptives du modèle, et N lignes représentant les N exemples)

ωω : ωω vecteur du bruit, centré, non corrélé, de dimension N, normalement distribué (de moyenne nulle et de variance σσσσ ).

Avec un tel modèle, l’estimation des moindres carrées des paramètres () est la solution de l’équation normale :

La solution de cette équation s’obtient par diverses méthodes telles que les méthodes d’orthogonalisation, la décomposition de Cholesky,… [Antoniadis 92 et Press 92].

2. Modèles non linéaires par rapport aux paramètres

Un modèle non linéaire par rapport aux paramètres se définit par l’équation suivante :

Avec f : fonction de régression.

Si le modèle est non linéaire par rapport aux paramètres, les méthodes de résolution citées dans le paragraphe ne sont plus utiles ; et il faut onc faire appel à des méthodes itératives pour trouver une estimation des paramètres. Ces dernières, sont assez simples à mettre en œuvre et elles sont applicables à toutes les fonctions de coûts dérivables par rapport à θ.θ. θ.θ.

Ces méthodes reposent sur le principe de se positionner en un point, trouver une direction de la descente du coût dans l’espace des paramètres θθθθ, et puis de se déplacer d’un pas en suivant

cette direction. Et ça se répète jusqu’à satisfaction d’un critère d’arrêt fixé à l’avance. A l’itération k, la modification du vecteur de paramètres est donnée par :

Avec d_k-1: direction de descente, dépendant des θθθθk−1−1 −1−1

µ_k-1: le pas

Les méthodes d’optimisation non linéaires se différencient dans le choix du pas et de la direction de la descente. Pour cela elles utilisent :

a. Hessien : matrice des dérivées secondes de la fonction de coût par rapport à θθθθ.

b. Gradient : vecteur des dérivées premières de la fonction de coût par rapport à θθθθ.

Pour le calcul du gradient dans le cas des réseaux de neurones, l’algorithme de rétropropagation de l’erreur est utilisé [Rumelhart 86]. Au moment où l’approximation du Hessien est utilisée pour les méthodes de quasi-Newton et Levenberg-Marquardt [Bishop 95].

2.1. Méthode du gradient à pas constant

Simple à mettre en œuvre, elle se base sur le calcul du gradient qui donne la direction de la descente. Le pas µ est constant. La modification des paramètres à l’itération k est :

µ

k-1

=µ

(constant)

La méthode du gradient à pas constant est facile à utiliser et très efficace. Mais le gradient tend vers zéro quand on s’approche du minimum, et donc la vitesse de convergence diminue fortement.

2.2. Méthode du gradient à pas variable

Etant donnée une direction de descente, il est possible d’asservir le pas de telle façon que la fonction de coût diminue à chaque modification des paramètres. Cette méthode est définie par :

A partir de la fonction g, il faut chercher une valeur moyenne du pas. Les méthodes les plus efficaces sont :

a. Celles dites de dichotomie malgré qu’elles requièrent trop de calculs.

b. Les méthodes de minimisation de Nash [Nash 90] et les méthodes de Wolfe et Powell [Wolfe 69 et Powell76] permettent de trouver un pas convenable à partir d’un faible nombre d’évaluations de la fonction de coût. Ainsi qu’elles sont considérées les méthodes les plus économiques.

2.3. Méthode de Newton

Elle utilise la dérivée seconde (courbure) de la fonction de coût pour atteindre le minimum rapidement. La modification des paramètres se fait à travers les formules suivantes :

µ

k-1

=µ

(constant)

Dans ce cas, le pas est constant et égal à un. La direction de descente est fonction du Hessien et du Gradient.

Si la fonction de coût est quadratique, l’algorithme atteint la solution en une seule itération. Si ce n’est pas le cas, cette méthode est efficace au voisinage d’un minimum. Néanmoins, le Hessien oit être défini positif pour que la méthode puisse converger vers le minimum. En

Avec

pratique, cette condition n’est pas toujours vérifiée, et par la suite la méthode peut ne pas converger. La méthode de Newton n’est pas trop employée à cause des calculs compliqués du Hessien, d’où l’apparition des méthodes économiques dites de quasi Newton.

2.4. Méthode de quasi-Newton

La méthode de quasi-Newton se base sur l’approximation de l’inverse du Hessien, par une matrice positive traitée à chaque itération. La suite des matrices d’approximation est construite de manière à converger vers l’inverse du Hessien lorsque la fonction de coût est une quadrique. La modification des différents paramètres est donnée par :

µ_k-1est évalué avec une méthode de minimisation unidimensionnelle.

A la première itération, la matrice d’approximation est égale à la matrice identité. Il existe une large variété des méthodes de quasi-Newton [Minoux 83], mais la plus fréquemment utilisée est celle appelée la méthode BFGS, développée par Broyden [Broyden 70], Fletcher [Fletcher 70], Goldfarb [Goldfarb 70] et Shanno [Shanno 70]. La méthode BFGS est caractérisée par sa grande vitesse de convergence par rapport à la méthode de gradient, en plus de son insensibilité au choix du pas calculé avec la méthode de Nash.

2.5. Méthode de Levenberg-Marquardt

L’algorithme de Levenberg-Marquardt permet d’obtenir une solution numérique au problème de minimisation d’une fonction généralement non linéaire dépendant de plusieurs paramètres.

L’algorithme de Levenberg-Marquardt est particulièrement astucieux car il s’adapte lui-même à la forme de fonction de coût, et cela en effectuant un compromis entre la direction du gradient et la direction donnée par la méthode de Newton.

Levenberg et Marquardt ont proposé une méthode efficace pour passer continûment du schéma d’inversion du Hessien à celui des plus fortes pentes. Ce dernier sera utilisé loin du minimum et on tend à lui substituer le schéma d’inversion du Hessien au fur et à mesure que l’on approche du minimum. Cette méthode a fait ses preuves et fonctionne pour des modèles et des domaines de la physique variés, si bien qu’elle constitue le standard pour résoudre les problèmes d’ajustement aux moindres carrés non linéaires [Malik Ndoye, 2008].

Dans le document Amélioration de l’apprentissage d’un Modèle Neuronal pour la reconnaissance des anomalies cardiaques (Page 62-66)