Algorithmes par minimisation du risque empirique

VIII.3 Les algorithmes d’apprentissage et leur consistance

VIII.3.2 Algorithmes par minimisation du risque empirique

Rappelons tout d’abord que le risque d’une fonction de pr´ediction g :X → Y est d´efini par

R(g) =Eℓ[Y, g(X)].

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 181 Le but d’un algorithme d’apprentissage est de trouver une fonction de pr´ediction dont le risque est aussi faible que possible (autrement dit aussi proche que possible du risque des fonctions cibles).

La distributionP générant les données étant inconnue, le risqueR et les fonctions cibles sont inconnus. Néanmoins, le risque R(g) peut être estimé par son équivalent empirique

r(g) = _n¹ Pn

i=1ℓ[Y_i, g(X_i)].

Si nous supposons E

ℓ[Y, g(X)] ² < +∞, alors la L.F.G.N. et le T.C.L. permettent d’affirmer

r(g) −→^p.s.

n→+∞ R(g)

√n

r(g)−R(g) _L

n−→→+∞ N 0,Varℓ[Y, g(X)]

Pour toute fonction de prédictiong, la variable aléatoirer(g) effectue donc des déviations en O(1/√

n) autour de sa moyenneR(g).

Puisque nous cherchons une fonction qui minimise le risque R et puisque ce risque est approché par le risque empirique r, il est naturel de considérer l’algorithme d’apprentissage, dit de minimisation du risque empirique, défini par

g_MRE∈argmin

g∈G

r(g), (VIII.6)

o`uG est un sous-ensemble de F(X,Y).

PrendreG=F(X,Y) n’est pas une bonne idée. Tout d’abord, cela entraˆıne un problème de choix puisqu’en général, pour tout ensemble d’apprentissage, il existe une infinité de fonc-tions de prédiction minimisant le risque empirique (voir figure VIII.4). Par ailleurs et surtout, si on prend l’algorithme du plus proche voisin comme minimiseur du risque empirique (en régression aux moindres carrés ou en classement), alors on peut montrer que cet algorithme est ¡¡loin¿¿ d’être universellement consistant.

Prendre G =F(X,Y) mène en général à un surapprentissage dans la mesure où l’algo-rithme résultant a un risque empirique qui peut être très inférieure à son risque réel (même lorsque la taille de l’ensemble d’apprentissage tend vers l’infini).

En pratique, il faut prendre G suffisamment grand pour pouvoir raisonnablement ap-procher toute fonction tout en ne le prenant pas trop grand pour ´eviter que l’algorithme

¡¡surapprenne¿¿. La ¡¡grandeur¿¿ de l’ensemble G est appelée capacité ou complexité. Un autre point de vue consiste à rajouter àr(g) une pénalisation, quand par exemple, la fonction g est trop irrégulière. Ces deux approches sont en fait proches l’une de l’autre. L’approche par pénalisation sera adoptée pour les S.V.M. (Section VIII.3.2).

Soit ˜gune fonction minimisant le risque sur G :

g∈argmin

g∈G

R(g). (VIII.7)

On suppose le minimum atteint pour simplifier l’exposé. D’après l’inégalité R(ˆg_MRE)≥R(˜g)≥R(g^∗),

L’excès de risque de ˆgMREse décompose en deux termes positifs, appelés erreur d’estimation eterreur d’approximation (ou biais) :

R(ˆg_MRE)−R(g^∗) =R(ˆg_MRE)−R(˜g)

| {z }

erreur d’estimation

+ R(˜g)−R(g^∗)

| {z }

erreur d’approximation

PlusG est grand, plus l’erreur d’approximation est faible mais plus l’erreur d’estimation est en général grande. Il y a donc un compromis à trouver dans le choix de G. Ce compromis est souvent appelé dilemme ¡¡biais-variance¿¿ , où le terme variance provient du lien entre l’erreur d’estimation et la variabilité de l’ensemble d’apprentissage que nous avons supposé dans notre formalisme être une réalisation de variables aléatoires i.i.d..

R´eseaux de neurones

Les réseaux de neurones sont nés de la volonté de modéliser le fonctionnement du cerveau.

Un neurone biologique re¸coit des stimuli de ses voisins, et produit un signal lorsque son seuil d’activation est dépassé. La modélisation de Mc Culloch et Pitts (1943) considère que le neurone fait une combinaison linéaire de ses entrées, d’où la fonction d’activation

g(x) =1^Pd

j=1ajx^(j)+a0>0,

o`u lesxj sont les stimuli envoy´es par les neurones voisins et−a0 est le seuil d’activation.

D´efinition VIII.13. Une sigmo¨ıde σ est une fonction croissante telle que ( σ(x) −→

x→−∞ 0 σ(x) −→

x→+∞ 1 Voici des exemples de sigmo¨ıdes.

1. σ(x) =1_x≥0 2. σ(x) = _1+exp(−x)¹ 3. σ(x) = ¹₂ +_π¹ arctanx

D´efinition VIII.14. – Un neurone (artificiel) est une fonction d´efinie sur R^d par g(x) =σ Pd

j=1a_jx^(j)+a₀

=σ(a·x)˜ o`u a= (a₀,· · · , a_d)^t, x˜= (1, x⁽¹⁾,· · · , x^(d))^t et σ est une sigmo¨ıde.

– Un réseau de neurones à une couche cachée est une fonction f :R^d→Rdéfinie par f(x) =Pk

j=1cjσ(aj·x) +˜ c0

où x˜ = (1, x⁽¹⁾,· · · , x^(d))^t. La sigmo¨ıde σ, le nombre de neurones k et les paramètres a₁, . . . , a_k ∈R^d+1,c₀, c₁, . . . , c_k ∈R caractérisent le réseau.

Le théorème suivant donne un résultat de consistance universelle pour l’algorithme de minimisation du risque empirique sur un ensemble de réseaux de neurones à une couche cachée.

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 183 Théorème VIII.15. Soient (kn) une suite d’entiers et (βn) une suite de réels. Soit Fn

l’ensemble des réseaux de neurones à une couche cachée tels que k ≤k_n et Pk

i=0|c_i| ≤ β_n. L’algorithme fˆqui produit pour l’ensemble d’apprentissage Z₁ⁿ la fonction de pr´ediction de Fn minimisant l’erreur quadratique empirique, i.e.

fˆ∈argmin

f∈Fn

i=1[Yi−f(Xi)]²,

est universellement consistant si k_n→+∞, β_n→+∞ et ^kⁿ^βⁿ⁴^log(k_n ⁿ^βⁿ²⁾ −→

n→+∞ 0.

La minimisation de l’erreur quadratique empirique est un problème d’optimisation non convexe en raison de la sigmo¨ıde. Par conséquent, il n’existe pas en général d’algorithme permettant d’obtenir systématique le minimum global. Il faut donc avoir recours à des heu-ristiques pour trouver les meilleurs minima locaux (et éventuellement) un minimum global.

L’algorithme des réseaux de neurones est une méthode d’apprentissage puissante ayant notamment donné d’excellents résultats sur les problèmes de reconnaissance de visages ([3]) et de reconnaissance de chiffres manuscrits ([9]). Des conseils sur la manière d’implémenter cet algorithme sont donnés dans [6, 5, 9].

Machines à Vecteurs Supports ou Séparateurs à Vastes Marges (S.V.M.)

Pour simplifier l’expos´e, nous pr´esentons cet algorithme dans le cadre du classement bi-naire avec X =R^d,Y ={−1; +1}et ℓ(y, y^′) =1_y₆_=y′. Une fonction cible est alors

g^∗ :x7→

+1 siP(Y = +1|X=x)≥1/2

−1 sinon

Soit k:X × X →R une fonction sym´etrique. Soit H l’espace vectoriel engendr´e par les fonctions

k(x,·) :x^′ 7→k(x, x^′).

On suppose que hP

1≤j≤Jα_jk(x_j,·),P

1≤k≤Kα^′_kk(x^′_k,·)iH=P

j,kα_jα^′_kk(x_j, x^′_k) (VIII.8) définit un produit scalaire sur H, oùJ, K ∈N,α, α^′ sont des vecteurs quelconques deR^J, et x₁, . . . , x_J etx^′₁, . . . , x^′_K sont respectivement desJ-uplet etK-uplet d’éléments de X.

C’est en particulier le cas pour les trois exemples suivants – le noyau lin´eaire k(x, x^′) =hx, x^′i^R^d,

– les noyaux polynˆomiauxk(x, x^′) = 1 +hx, x^′i^R^dp

pour p∈N^∗, – les noyaux gaussiens k(x, x^′) =e^−kx−x^′^k²^/(2σ²⁾ pourσ >0.

Plus généralement, (VIII.8) définit un produit scalaire dès quekest semi-définie positive (i.e.

pour tout J ∈N,α∈R^J et toutJ-upletx₁, . . . , x_J de X,P

1≤j,k≤Jα_jα_kk(x_j, x_k)≥0 ).

L’espace H muni du produit scalaire h , iH est dit `a noyau reproduisant car pour tout f ∈ H, nous avons hf, k(x,·)iH=f(x).La fonction kest appel´ee fonction noyau.

Définition VIII.16. Soit “sgn” la fonction signe : sgn(x) = 1_x_≥₀−1_x<0. Notons u₊ la partie positive d’un réel u : u₊ = max(u,0). Une machine à vecteur support de noyau k et

de paramètre C > 0 est un algorithme d’apprentissage qui produit la fonction de prédiction x7→sgnh(x) + ˆˆ b , où(ˆh,ˆb) est une solution du problème

b∈minR,h∈H CPn

i=1 1−Y_i[h(X_i) +b]

++¹₂khk²_H (P)

Si on impose b= 0 (et on ne minimise donc que sur H), on parle de S.V.M. sans terme constant.

Remarque VIII.17. La machine à vecteur support de noyau linéaire k(x, x^′) = hx, x^′i et de paramètreC >0 est un algorithme d’apprentissage qui produit la fonction de prédiction x7→sgn

hw, xi^R^d+b , o`u w∈R^detb∈R minimisent CPn

i=1 1−Yi[hw, Xii^R^d+b]

++ ¹₂kwk²Rd.

♦ Le théorème suivant donne un résultat de consistance universelle pour les S.V.M. à noyau gaussien.

Théorème VIII.18. Soit X un compact de R^d et soit σ > 0. La S.V.M. (avec ou sans terme constant) de noyau gaussien k : (x, x^′) 7→ e^−k^x⁻^x^′^k²^/(2σ²⁾ et de paramètre C = n^β⁻¹ avec 0< β <1/dest universellement consistante.

Concentrons-nous à présent sur la résolution du problème d’optimisation (P) et sur l’in-terprétation de la solution proposée. Des techniques d’optimisation classiques montrent que le problème d’optimisation (P) sur un e.v. de dimension infinie se ramène (par passage à son problème dual) à un problème d’optimisation sur un e.v. de dimensionnqui est quadratique et avec des contraintes linéaires simples.

Le th´eor`eme suivant explique comment calculer la solution de (P) en pratique.

Théorème VIII.19. Il existe (h, b) solution de (P). De plus, h est unique et s’écrit h=Pn

j=1α_jY_jk(X_j,·), (VIII.9)

o`u α est un vecteur de Rⁿ qui maximise Pn

i=1α_i−¹₂P

1≤i,j≤nα_iα_jY_iY_jk(X_i, X_j) (D) sous les contraintes : Pn

i=1α_iY_i = 0 et ∀i,0≤α_i ≤C. Par ailleurs, si il existe une compo-sante de α telle que 0< α_i < C, alors Y_i−h(X_i) est constant sur l’ensemble des i tel que 0< α_i < C. Soit b la valeur commune. Le couple (h, b) est solution de (P).

Idées de la preuve. Pour l’unicité du h solution de (P), il faut montrer tout d’abord queh appartient nécessairement l’espace vectoriel engendrée park(X₁,·), . . . , k(X_n,·), puis utiliser la stricte convexité deh 7→ khk²_H. (Attention, l’unicité de h n’implique pas en général celle desα_i.)

Pour obtenir (D), la première étape consiste à remarquer que (P) est égal à

b∈minR,h∈H ξi≥0 ξi≥1−Yi[h(Xi)+b]

CPn

i=1ξ_i+¹₂khk²_H,

ce qui ramène le problème convexe (P) à un problème quadratique avec contraintes linéaires.

La suite de la preuve consiste à écrire le dual de ce problème et à utiliser les conditions de Karush-Kuhn-Tucker.

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 185 Remarque VIII.20. La fonction de pr´ediction produite par une S.V.M. de noyau k peut donc s’´ecrire x7→sgn Pn

i=1α^′_ik(X_i, x) +b oùα^′₁, . . . , α^′_n etbsont des paramètres judicieu-sement choisis. Une S.V.M. de noyau kréalise donc une (éventuellement partielle) séparation linéaire des données X1, . . . , Xn représentées respectivement par k(X1,·), . . . , k(Xn,·) dans l’espace vectoriel H. Les α_i utilisés dans (VIII.9) et obtenus par résolution de (D) sont in-trinsèquement liés à la position de k(X_i,·) par rapport à l’hyperplan h(x) +b = 0 (voir figure VIII.5). Connaˆıtre αi et Yi permet de situer k(Xi,·) par rapport à la frontière de décision (d’équation h(x) +b= 0) sans avoir besoin de calculer h(X_i) +b. Cela permet une interprétation rapide des résultats d’une S.V.M.. Notons en particulier que

1. tout point mal classé X_i vérifie nécessairement α_i =C (réciproque fausse),

2. tout point X_i tel que 0 < α_i < C se trouve sur les courbes d’´equations respectives h(x) +b=−1 eth(x) +b= +1,

3. tout pointXi tel queαi= 0 n’influe pas sur la fonction de prédiction produite par une S.V.M. au sens où en retirant ces points de l’ensemble d’apprentissage et en recalculant la solution de (D) pour ce nouvel ensemble d’apprentissage, nous retrouvons la même fonction de prédiction : x7→sgn[h(x) +b].

♦ Dans le contexte du classement binaire, l’algorithme des réseaux de neurones décrits dans le Théorème VIII.15 peut être également utilisé (par exemple en seuillant à 0 la fonction obte-nue par minimisation du risque empirique quadratique : ˆg(x) = +1 si ˆf(x)≥0 et ˆg(x) =−1 sinon). L’inconvénient de cet algorithme d’apprentissage est qu’il doit résoudre un problème d’optimisation non convexe. Rien n’empêche en pratique l’algorithme de minimisation de tomber dans un minimum local. En conséquence, suivant l’implémentation et les heuristiques utilisées pour minimiser le risque empirique, des résultats très inégaux peuvent être observés.

L’algorithme des S.V.M. est en général privilégié par les praticiens car il possède les mêmes propriétés théoriques que l’algorithme des réseaux de neurones sans en avoir les inconvénients pratiques : les S.V.M. résolvent un problème d’optimisation convexe dont la solution est le plus souvent unique et facile à obtenir. De nombreux logiciels implémentant les S.V.M. dans différents langages informatiques sont accessibles en ligne.

Choix du param`etre C et du noyau k.Pour X =R^d, les noyaux les plus populaires sont – le noyau lin´eaire (x, x^′)7→ hx, x^′i^R^d,

– les noyaux polynˆomiaux (x, x^′)7→ 1 +hx, x^′i^R^dp

pour p∈N^∗, – les noyaux gaussiens (x, x^′)7→e^−k^x⁻^x^′^k²^/(2σ²⁾ pour σ >0.

Attention, seul le noyau gaussien peut mener à un algorithme universellement consistant. Il doit donc être en général préféré en pratique.

Pour choisir C, la méthode la plus employée est de faire une validation croisée. Pour limiter le temps de calcul, il faut prendre tout d’abord une grille géométrique grossière (par exemple,{10⁵/n, 10⁴/n, 10³/n, 10²/n, 10/n}), puis prendre une grille géométrique plus fine autour duC ayant donné la plus faible erreur de validation croisée (cf. (VIII.5)), à condition que ce C ne soit pas sur les bords de la grille grossière.

Pour choisir la largeur σ du noyau gaussien, le principe est le même que pour choisir C sauf que l’intervalle de recherche est [σ_min;σ_max], où σ_min est la médiane de l’ensemble des distances d’un point de l’ensemble d’apprentissage à son plus proche voisin et σ_max est le diamètre de {X₁, . . . , X_n}pour la norme euclidienne surR^d, i.e.σ_max= max_i,jkX_i−X_jk^R^d.

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 190-196)