• Aucun résultat trouvé

Algorithmes par minimisation du risque empirique

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 190-196)

VIII.3 Les algorithmes d’apprentissage et leur consistance

VIII.3.2 Algorithmes par minimisation du risque empirique

Rappelons tout d’abord que le risque d’une fonction de pr´ediction g :X → Y est d´efini par

R(g) =Eℓ[Y, g(X)].

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 181 Le but d’un algorithme d’apprentissage est de trouver une fonction de pr´ediction dont le risque est aussi faible que possible (autrement dit aussi proche que possible du risque des fonctions cibles).

La distributionP g´en´erant les donn´ees ´etant inconnue, le risqueR et les fonctions cibles sont inconnus. N´eanmoins, le risque R(g) peut ˆetre estim´e par son ´equivalent empirique

r(g) = n1 Pn

i=1ℓ[Yi, g(Xi)].

Si nous supposons E

ℓ[Y, g(X)] 2 < +∞, alors la L.F.G.N. et le T.C.L. permettent d’affirmer

r(g) −→p.s.

n→+∞ R(g)

√n

r(g)−R(g) L

n−→+ N 0,Varℓ[Y, g(X)]

.

Pour toute fonction de pr´edictiong, la variable al´eatoirer(g) effectue donc des d´eviations en O(1/√

n) autour de sa moyenneR(g).

Puisque nous cherchons une fonction qui minimise le risque R et puisque ce risque est approch´e par le risque empirique r, il est naturel de consid´erer l’algorithme d’apprentissage, dit de minimisation du risque empirique, d´efini par

ˆ

gMRE∈argmin

g∈G

r(g), (VIII.6)

o`uG est un sous-ensemble de F(X,Y).

PrendreG=F(X,Y) n’est pas une bonne id´ee. Tout d’abord, cela entraˆıne un probl`eme de choix puisqu’en g´en´eral, pour tout ensemble d’apprentissage, il existe une infinit´e de fonc-tions de pr´ediction minimisant le risque empirique (voir figure VIII.4). Par ailleurs et surtout, si on prend l’algorithme du plus proche voisin comme minimiseur du risque empirique (en r´egression aux moindres carr´es ou en classement), alors on peut montrer que cet algorithme est ¡¡loin¿¿ d’ˆetre universellement consistant.

Prendre G =F(X,Y) m`ene en g´en´eral `a un surapprentissage dans la mesure o`u l’algo-rithme r´esultant a un risque empirique qui peut ˆetre tr`es inf´erieure `a son risque r´eel (mˆeme lorsque la taille de l’ensemble d’apprentissage tend vers l’infini).

En pratique, il faut prendre G suffisamment grand pour pouvoir raisonnablement ap-procher toute fonction tout en ne le prenant pas trop grand pour ´eviter que l’algorithme

¡¡surapprenne¿¿. La ¡¡grandeur¿¿ de l’ensemble G est appel´ee capacit´e ou complexit´e. Un autre point de vue consiste `a rajouter `ar(g) une p´enalisation, quand par exemple, la fonction g est trop irr´eguli`ere. Ces deux approches sont en fait proches l’une de l’autre. L’approche par p´enalisation sera adopt´ee pour les S.V.M. (Section VIII.3.2).

Soit ˜gune fonction minimisant le risque sur G :

˜

g∈argmin

g∈G

R(g). (VIII.7)

On suppose le minimum atteint pour simplifier l’expos´e. D’apr`es l’in´egalit´e R(ˆgMRE)≥R(˜g)≥R(g),

L’exc`es de risque de ˆgMREse d´ecompose en deux termes positifs, appel´es erreur d’estimation eterreur d’approximation (ou biais) :

R(ˆgMRE)−R(g) =R(ˆgMRE)−R(˜g)

| {z }

erreur d’estimation

+ R(˜g)−R(g)

| {z }

erreur d’approximation

,

PlusG est grand, plus l’erreur d’approximation est faible mais plus l’erreur d’estimation est en g´en´eral grande. Il y a donc un compromis `a trouver dans le choix de G. Ce compromis est souvent appel´e dilemme ¡¡biais-variance¿¿ , o`u le terme variance provient du lien entre l’erreur d’estimation et la variabilit´e de l’ensemble d’apprentissage que nous avons suppos´e dans notre formalisme ˆetre une r´ealisation de variables al´eatoires i.i.d..

R´eseaux de neurones

Les r´eseaux de neurones sont n´es de la volont´e de mod´eliser le fonctionnement du cerveau.

Un neurone biologique re¸coit des stimuli de ses voisins, et produit un signal lorsque son seuil d’activation est d´epass´e. La mod´elisation de Mc Culloch et Pitts (1943) consid`ere que le neurone fait une combinaison lin´eaire de ses entr´ees, d’o`u la fonction d’activation

g(x) =1Pd

j=1ajx(j)+a0>0,

o`u lesxj sont les stimuli envoy´es par les neurones voisins et−a0 est le seuil d’activation.

D´efinition VIII.13. Une sigmo¨ıde σ est une fonction croissante telle que ( σ(x) −→

x→−∞ 0 σ(x) −→

x+ 1 Voici des exemples de sigmo¨ıdes.

1. σ(x) =1x≥0 2. σ(x) = 1+exp(−x)1 3. σ(x) = 12 +π1 arctanx

D´efinition VIII.14. – Un neurone (artificiel) est une fonction d´efinie sur Rd par g(x) =σ Pd

j=1ajx(j)+a0

=σ(a·x)˜ o`u a= (a0,· · · , ad)t, x˜= (1, x(1),· · · , x(d))t et σ est une sigmo¨ıde.

– Un r´eseau de neurones `a une couche cach´ee est une fonction f :Rd→Rd´efinie par f(x) =Pk

j=1cjσ(aj·x) +˜ c0

o`u x˜ = (1, x(1),· · · , x(d))t. La sigmo¨ıde σ, le nombre de neurones k et les param`etres a1, . . . , ak ∈Rd+1,c0, c1, . . . , ck ∈R caract´erisent le r´eseau.

Le th´eor`eme suivant donne un r´esultat de consistance universelle pour l’algorithme de minimisation du risque empirique sur un ensemble de r´eseaux de neurones `a une couche cach´ee.

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 183 Th´eor`eme VIII.15. Soient (kn) une suite d’entiers et (βn) une suite de r´eels. Soit Fn

l’ensemble des r´eseaux de neurones `a une couche cach´ee tels que k ≤kn et Pk

i=0|ci| ≤ βn. L’algorithme fˆqui produit pour l’ensemble d’apprentissage Z1n la fonction de pr´ediction de Fn minimisant l’erreur quadratique empirique, i.e.

fˆ∈argmin

f∈Fn

Pn

i=1[Yi−f(Xi)]2,

est universellement consistant si kn→+∞, βn→+∞ et knβn4log(kn nβn2) −→

n→+∞ 0.

La minimisation de l’erreur quadratique empirique est un probl`eme d’optimisation non convexe en raison de la sigmo¨ıde. Par cons´equent, il n’existe pas en g´en´eral d’algorithme permettant d’obtenir syst´ematique le minimum global. Il faut donc avoir recours `a des heu-ristiques pour trouver les meilleurs minima locaux (et ´eventuellement) un minimum global.

L’algorithme des r´eseaux de neurones est une m´ethode d’apprentissage puissante ayant notamment donn´e d’excellents r´esultats sur les probl`emes de reconnaissance de visages ([3]) et de reconnaissance de chiffres manuscrits ([9]). Des conseils sur la mani`ere d’impl´ementer cet algorithme sont donn´es dans [6, 5, 9].

Machines `a Vecteurs Supports ou S´eparateurs `a Vastes Marges (S.V.M.)

Pour simplifier l’expos´e, nous pr´esentons cet algorithme dans le cadre du classement bi-naire avec X =Rd,Y ={−1; +1}et ℓ(y, y) =1y6=y. Une fonction cible est alors

g :x7→

+1 siP(Y = +1|X=x)≥1/2

−1 sinon

Soit k:X × X →R une fonction sym´etrique. Soit H l’espace vectoriel engendr´e par les fonctions

k(x,·) :x 7→k(x, x).

On suppose que hP

1jJαjk(xj,·),P

1kKαkk(xk,·)iH=P

j,kαjαkk(xj, xk) (VIII.8) d´efinit un produit scalaire sur H, o`uJ, K ∈N,α, α sont des vecteurs quelconques deRJ, et x1, . . . , xJ etx1, . . . , xK sont respectivement desJ-uplet etK-uplet d’´el´ements de X.

C’est en particulier le cas pour les trois exemples suivants – le noyau lin´eaire k(x, x) =hx, xiRd,

– les noyaux polynˆomiauxk(x, x) = 1 +hx, xiRdp

pour p∈N, – les noyaux gaussiens k(x, x) =e−kx−xk2/(2σ2) pourσ >0.

Plus g´en´eralement, (VIII.8) d´efinit un produit scalaire d`es quekest semi-d´efinie positive (i.e.

pour tout J ∈N,α∈RJ et toutJ-upletx1, . . . , xJ de X,P

1j,kJαjαkk(xj, xk)≥0 ).

L’espace H muni du produit scalaire h , iH est dit `a noyau reproduisant car pour tout f ∈ H, nous avons hf, k(x,·)iH=f(x).La fonction kest appel´ee fonction noyau.

D´efinition VIII.16. Soit “sgn” la fonction signe : sgn(x) = 1x0−1x<0. Notons u+ la partie positive d’un r´eel u : u+ = max(u,0). Une machine `a vecteur support de noyau k et

de param`etre C > 0 est un algorithme d’apprentissage qui produit la fonction de pr´ediction x7→sgnh(x) + ˆˆ b , o`u(ˆh,ˆb) est une solution du probl`eme

bminR,h∈H CPn

i=1 1−Yi[h(Xi) +b]

++12khk2H (P)

Si on impose b= 0 (et on ne minimise donc que sur H), on parle de S.V.M. sans terme constant.

Remarque VIII.17. La machine `a vecteur support de noyau lin´eaire k(x, x) = hx, xi et de param`etreC >0 est un algorithme d’apprentissage qui produit la fonction de pr´ediction x7→sgn

hw, xiRd+b , o`u w∈Rdetb∈R minimisent CPn

i=1 1−Yi[hw, XiiRd+b]

++ 12kwk2Rd.

♦ Le th´eor`eme suivant donne un r´esultat de consistance universelle pour les S.V.M. `a noyau gaussien.

Th´eor`eme VIII.18. Soit X un compact de Rd et soit σ > 0. La S.V.M. (avec ou sans terme constant) de noyau gaussien k : (x, x) 7→ e−kxxk2/(2σ2) et de param`etre C = nβ1 avec 0< β <1/dest universellement consistante.

Concentrons-nous `a pr´esent sur la r´esolution du probl`eme d’optimisation (P) et sur l’in-terpr´etation de la solution propos´ee. Des techniques d’optimisation classiques montrent que le probl`eme d’optimisation (P) sur un e.v. de dimension infinie se ram`ene (par passage `a son probl`eme dual) `a un probl`eme d’optimisation sur un e.v. de dimensionnqui est quadratique et avec des contraintes lin´eaires simples.

Le th´eor`eme suivant explique comment calculer la solution de (P) en pratique.

Th´eor`eme VIII.19. Il existe (h, b) solution de (P). De plus, h est unique et s’´ecrit h=Pn

j=1αjYjk(Xj,·), (VIII.9)

o`u α est un vecteur de Rn qui maximise Pn

i=1αi12P

1i,jnαiαjYiYjk(Xi, Xj) (D) sous les contraintes : Pn

i=1αiYi = 0 et ∀i,0≤αi ≤C. Par ailleurs, si il existe une compo-sante de α telle que 0< αi < C, alors Yi−h(Xi) est constant sur l’ensemble des i tel que 0< αi < C. Soit b la valeur commune. Le couple (h, b) est solution de (P).

Id´ees de la preuve. Pour l’unicit´e du h solution de (P), il faut montrer tout d’abord queh appartient n´ecessairement l’espace vectoriel engendr´ee park(X1,·), . . . , k(Xn,·), puis utiliser la stricte convexit´e deh 7→ khk2H. (Attention, l’unicit´e de h n’implique pas en g´en´eral celle desαi.)

Pour obtenir (D), la premi`ere ´etape consiste `a remarquer que (P) est ´egal `a

bminR,h∈H ξi≥0 ξi≥1−Yi[h(Xi)+b]

CPn

i=1ξi+12khk2H,

ce qui ram`ene le probl`eme convexe (P) `a un probl`eme quadratique avec contraintes lin´eaires.

La suite de la preuve consiste `a ´ecrire le dual de ce probl`eme et `a utiliser les conditions de Karush-Kuhn-Tucker.

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 185 Remarque VIII.20. La fonction de pr´ediction produite par une S.V.M. de noyau k peut donc s’´ecrire x7→sgn Pn

i=1αik(Xi, x) +b o`uα1, . . . , αn etbsont des param`etres judicieu-sement choisis. Une S.V.M. de noyau kr´ealise donc une (´eventuellement partielle) s´eparation lin´eaire des donn´ees X1, . . . , Xn repr´esent´ees respectivement par k(X1,·), . . . , k(Xn,·) dans l’espace vectoriel H. Les αi utilis´es dans (VIII.9) et obtenus par r´esolution de (D) sont in-trins`equement li´es `a la position de k(Xi,·) par rapport `a l’hyperplan h(x) +b = 0 (voir figure VIII.5). Connaˆıtre αi et Yi permet de situer k(Xi,·) par rapport `a la fronti`ere de d´ecision (d’´equation h(x) +b= 0) sans avoir besoin de calculer h(Xi) +b. Cela permet une interpr´etation rapide des r´esultats d’une S.V.M.. Notons en particulier que

1. tout point mal class´e Xi v´erifie n´ecessairement αi =C (r´eciproque fausse),

2. tout point Xi tel que 0 < αi < C se trouve sur les courbes d’´equations respectives h(x) +b=−1 eth(x) +b= +1,

3. tout pointXi tel queαi= 0 n’influe pas sur la fonction de pr´ediction produite par une S.V.M. au sens o`u en retirant ces points de l’ensemble d’apprentissage et en recalculant la solution de (D) pour ce nouvel ensemble d’apprentissage, nous retrouvons la mˆeme fonction de pr´ediction : x7→sgn[h(x) +b].

♦ Dans le contexte du classement binaire, l’algorithme des r´eseaux de neurones d´ecrits dans le Th´eor`eme VIII.15 peut ˆetre ´egalement utilis´e (par exemple en seuillant `a 0 la fonction obte-nue par minimisation du risque empirique quadratique : ˆg(x) = +1 si ˆf(x)≥0 et ˆg(x) =−1 sinon). L’inconv´enient de cet algorithme d’apprentissage est qu’il doit r´esoudre un probl`eme d’optimisation non convexe. Rien n’empˆeche en pratique l’algorithme de minimisation de tomber dans un minimum local. En cons´equence, suivant l’impl´ementation et les heuristiques utilis´ees pour minimiser le risque empirique, des r´esultats tr`es in´egaux peuvent ˆetre observ´es.

L’algorithme des S.V.M. est en g´en´eral privil´egi´e par les praticiens car il poss`ede les mˆemes propri´et´es th´eoriques que l’algorithme des r´eseaux de neurones sans en avoir les inconv´enients pratiques : les S.V.M. r´esolvent un probl`eme d’optimisation convexe dont la solution est le plus souvent unique et facile `a obtenir. De nombreux logiciels impl´ementant les S.V.M. dans diff´erents langages informatiques sont accessibles en ligne.

Choix du param`etre C et du noyau k.Pour X =Rd, les noyaux les plus populaires sont – le noyau lin´eaire (x, x)7→ hx, xiRd,

– les noyaux polynˆomiaux (x, x)7→ 1 +hx, xiRdp

pour p∈N, – les noyaux gaussiens (x, x)7→e−kxxk2/(2σ2) pour σ >0.

Attention, seul le noyau gaussien peut mener `a un algorithme universellement consistant. Il doit donc ˆetre en g´en´eral pr´ef´er´e en pratique.

Pour choisir C, la m´ethode la plus employ´ee est de faire une validation crois´ee. Pour limiter le temps de calcul, il faut prendre tout d’abord une grille g´eom´etrique grossi`ere (par exemple,{105/n, 104/n, 103/n, 102/n, 10/n}), puis prendre une grille g´eom´etrique plus fine autour duC ayant donn´e la plus faible erreur de validation crois´ee (cf. (VIII.5)), `a condition que ce C ne soit pas sur les bords de la grille grossi`ere.

Pour choisir la largeur σ du noyau gaussien, le principe est le mˆeme que pour choisir C sauf que l’intervalle de recherche est [σminmax], o`u σmin est la m´ediane de l’ensemble des distances d’un point de l’ensemble d’apprentissage `a son plus proche voisin et σmax est le diam`etre de {X1, . . . , Xn}pour la norme euclidienne surRd, i.e.σmax= maxi,jkXi−XjkRd.

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 190-196)