• Aucun résultat trouvé

semi-transparents.

Fig. 3.2. Illustration du principe d’identification de param`etres par r´eseau de neurones entraˆıne´e par la m´ethode de r´etropropagation du gradient

3.2 Histoire du r´eseau de neurones artificiels

Ces derni`eres ann´ees, avec l’apparition et les progr`es du “machine learning”, de nombreux probl`emes jusque l`a insolubles par les m´ethodes traditionnelles, ont ´et´e r´eso-lus. Cette approche `a ´egalement permis d’apporter de nouvelles solutions, souvent de mani`ere plus pr´ecise et rapide. En tant que branche importante du “machine learning”, le r´eseau de neurones artificiels (ANN) joue un rˆole important dans de nombreux do-maines, tels que la reconnaissance des formes, la classification des images, l’ajustement de syst`emes complexes, etc.

L’histoire des r´eseaux de neurones artificiels remonte aux ann´ees 1950 et 1960 (Mc-Culloch and Pitts [1943]). Inspir´e par les travaux ant´erieurs de Warren S. Mc(Mc-Culloch et de Walter Pitts, Frank Rosenblatt d´eveloppa un neurone artificiel appel´e perceptron (Rosenblatt [1958]). Un perceptron accepte plusieurs entr´ees binaires et produit une sortie binaire en comparant les entr´ees pond´er´ees `a la condition de seuil (cf. Fig.3.3). En 1969, Marvin Minsky et Seymour Papert ont ´ecrit un livre intitul´e “Perceptrons” dans lequel ils soulignent un inconv´enient majeur du perceptron, `a savoir qu’il ´etait incapable de reproduire la fonction exclusive (ou XOR), qui est non lin´eaire (Minsky and Papert [1969]).

En 1974, Paul J. Werbos a propos´e, dans le cadre de son travail de recherche de doctorat `a l’Universit´e de Harvard, le c´el`ebre algorithme d’entrainement de r´eseau bas´e la r´etropropagation du gradient de l’erreur (Werbos [1974]). Sur la base des travaux de Paul J. Werbos, les chercheurs Geoffrey E. Hinton, David E. Rumelhart et Ronald J. Williams ont publi´e en 1986 dans la revue Nature un article intitul´e “Learning representations by back-propagation errors” (Rumelhart et al. [1986]). Dans cet article, ils montrent que l’algorithme de r´etropropagation du gradient a la capacit´e d’apprendre aux neurones situ´es sur les couches cach´ees du r´eseau, des repr´esentations internes capables de r´esoudre des probl`emes complexes. La possibilit´e d’empiler ainsi les couches permet aux r´eseaux de neurones de compenser la faiblesse du perceptron et de pouvoir apprendre et reproduire des fonctions non lin´eaires. L’id´ee principale de l’algorithme de r´etropropagation du gradient est bri`evement expliqu´ee par la Fig. 3.4, o`u

1. E repr´esente l’erreur totale qudratique moyenne de tous les ensembles de donn´ees d’entraˆınement et E(I) repr´esente l’erreur totale correspondant au Iième ensemble de donn´ee d’entraˆınement ;

2. Ntrain repr´esente le nombre total des ensembles de donn´ees d’entraˆınement ; 3. ss repr´esente le nombre des neurones situ´es sur la couche de sortie ;

4. yk(I) et dk(I) repr´esentent respectivement la sortie du kième neurone situ´e sur la couche de sortie et la sortie attendue, correspondant au Ième ensemble de donn´ee d’entraˆınement ;

5. α repr´esente le taux d’apprentissage pendant l’entraˆınement ; Plus la valeur de ce param`etre est grande, plus la convergence est rapide. Inversement, plus sa valeur est petite, plus la pr´ecision d’apprentissage est ´elev´ee.

6. Wij(l) et Wij(l) repr´esentent respectivement la valeur du poid connectant le jème

neurone situ´e sur la (l − 1)ième couche et le ième neurone situ´e sur la lième couche `a l’it´eration actuelle et `a l’it´eration prochaine.

7. b(l)i et b(l)i repr´esentent respectivement la valeur du biais li´e au ième neurone situ´e sur la lième couche `a l’it´eration actuelle et `a l’it´eration prochaine ;

8. f (x) repr´esente la fonction d’activation de type sigmo¨ıde. Pour le ième neurone situ´e sur la lième couche, net(l)i = PWij(l)·h(l−1)j + b(l)i et h(l)i = fnet(l)i  sont respectivement l’entr´ee et la sortie de cette fonction d’activation. Un neurone configur´e avec telle type de fonction d’activation est comme un perceptron lisse, c’est-`a-dire que pour les petits changements de poids et de biais, le neurone peut g´en´erer un petit changement de sortie en cons´equence.

3.2. HISTOIRE DU R´ESEAU DE NEURONES ARTIFICIELS

Fig. 3.4. Id´ee principale de l’algorithme de r´etropropagation du gradient

En 1989, Yann LeCun a propos´e les r´eseaux de neurones convolutif (CNN) pour la reconnaissance d’images (LeCun et al. [1989]). Les r´eseaux de neurones convolutifs se composent g´en´eralement d’une couche d’entr´ee, d’une couche convolutionnelle, d’une couche de regroupement (pooling), d’une couche enti`erement connect´ee et d’une couche de sortie (cf Fig.3.5). La fonction de la couche convolutionnelle est d’extraire les carac-t`eres des donn´ees d’entr´ee, et les caraccarac-t`eres en sortie sont ensuite transmise `a la couche de regroupement pour le filtrage des informations. La couche enti`erement connect´ee est ´equivalente `a une couche cach´ee et son rˆole est de combiner de mani`ere non lin´eaire

les caract´eristiques extraites pour obtenir la sortie. Par la suite, le d´eveloppement des r´eseaux de neurones s’est progressivement ralenti jusqu’`a quasiment disparaitre en rai-son de certains d´efauts tels que la lenteur du processus d’entraˆınement, le probl`eme de sur-apprentissage dˆu au manque d’´echantillons d’entraˆınement, etc.

Fig. 3.5. Id´ee principale du r´eseau de neurones de type convolutif

En 2006, Geoffrey E. Hinton et Ruslan Salakhutdinov ont publi´e dans la revue Science l’article “Reducing the dimensionality of data with neural network” (Hinton and Salakhutdinov [2006]). Dans cet article, ils proposent une ´etape pr´ealable d’entrai-nement non supervis´ee qui consiste `a traiter chaque ensemble voisin de deux couches comme une machine de Boltzmann restreinte (i.e. on consid`ere les neurones d’une mˆeme couche ind´ependants) de sorte `a obtenir une solution acceptable (i.e. des poids proches de la solution finale). Une fois les poids initialis´es, la technique de r´etropropagation est utilis´ee pour affiner les r´esultats. Cet article marque le d´ebut d’une `ere nouvelle dans l’histoire du r´eseau de neurones et sonne la naissance de l’apprentissage profond. En 2012, l’´equipe de Hinton a remport´e le championnat du concours Imagenet avec une bien meilleure note que la deuxi`eme place. La vague de l’apprentissage profond a ainsi commenc´e et se poursuit jusqu’`a pr´esent.