VIII.3 Les algorithmes d’apprentissage et leur consistance
VIII.3.2 Algorithmes par minimisation du risque empirique
Rappelons tout d’abord que le risque d’une fonction de pr´ediction g :X → Y est d´efini par
R(g) =Eℓ[Y, g(X)].
VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 181 Le but d’un algorithme d’apprentissage est de trouver une fonction de pr´ediction dont le risque est aussi faible que possible (autrement dit aussi proche que possible du risque des fonctions cibles).
La distributionP g´en´erant les donn´ees ´etant inconnue, le risqueR et les fonctions cibles sont inconnus. N´eanmoins, le risque R(g) peut ˆetre estim´e par son ´equivalent empirique
r(g) = n1 Pn
i=1ℓ[Yi, g(Xi)].
Si nous supposons E
ℓ[Y, g(X)] 2 < +∞, alors la L.F.G.N. et le T.C.L. permettent d’affirmer
r(g) −→p.s.
n→+∞ R(g)
√n
r(g)−R(g) L
n−→→+∞ N 0,Varℓ[Y, g(X)]
.
Pour toute fonction de pr´edictiong, la variable al´eatoirer(g) effectue donc des d´eviations en O(1/√
n) autour de sa moyenneR(g).
Puisque nous cherchons une fonction qui minimise le risque R et puisque ce risque est approch´e par le risque empirique r, il est naturel de consid´erer l’algorithme d’apprentissage, dit de minimisation du risque empirique, d´efini par
ˆ
gMRE∈argmin
g∈G
r(g), (VIII.6)
o`uG est un sous-ensemble de F(X,Y).
PrendreG=F(X,Y) n’est pas une bonne id´ee. Tout d’abord, cela entraˆıne un probl`eme de choix puisqu’en g´en´eral, pour tout ensemble d’apprentissage, il existe une infinit´e de fonc-tions de pr´ediction minimisant le risque empirique (voir figure VIII.4). Par ailleurs et surtout, si on prend l’algorithme du plus proche voisin comme minimiseur du risque empirique (en r´egression aux moindres carr´es ou en classement), alors on peut montrer que cet algorithme est ¡¡loin¿¿ d’ˆetre universellement consistant.
Prendre G =F(X,Y) m`ene en g´en´eral `a un surapprentissage dans la mesure o`u l’algo-rithme r´esultant a un risque empirique qui peut ˆetre tr`es inf´erieure `a son risque r´eel (mˆeme lorsque la taille de l’ensemble d’apprentissage tend vers l’infini).
En pratique, il faut prendre G suffisamment grand pour pouvoir raisonnablement ap-procher toute fonction tout en ne le prenant pas trop grand pour ´eviter que l’algorithme
¡¡surapprenne¿¿. La ¡¡grandeur¿¿ de l’ensemble G est appel´ee capacit´e ou complexit´e. Un autre point de vue consiste `a rajouter `ar(g) une p´enalisation, quand par exemple, la fonction g est trop irr´eguli`ere. Ces deux approches sont en fait proches l’une de l’autre. L’approche par p´enalisation sera adopt´ee pour les S.V.M. (Section VIII.3.2).
Soit ˜gune fonction minimisant le risque sur G :
˜
g∈argmin
g∈G
R(g). (VIII.7)
On suppose le minimum atteint pour simplifier l’expos´e. D’apr`es l’in´egalit´e R(ˆgMRE)≥R(˜g)≥R(g∗),
L’exc`es de risque de ˆgMREse d´ecompose en deux termes positifs, appel´es erreur d’estimation eterreur d’approximation (ou biais) :
R(ˆgMRE)−R(g∗) =R(ˆgMRE)−R(˜g)
| {z }
erreur d’estimation
+ R(˜g)−R(g∗)
| {z }
erreur d’approximation
,
PlusG est grand, plus l’erreur d’approximation est faible mais plus l’erreur d’estimation est en g´en´eral grande. Il y a donc un compromis `a trouver dans le choix de G. Ce compromis est souvent appel´e dilemme ¡¡biais-variance¿¿ , o`u le terme variance provient du lien entre l’erreur d’estimation et la variabilit´e de l’ensemble d’apprentissage que nous avons suppos´e dans notre formalisme ˆetre une r´ealisation de variables al´eatoires i.i.d..
R´eseaux de neurones
Les r´eseaux de neurones sont n´es de la volont´e de mod´eliser le fonctionnement du cerveau.
Un neurone biologique re¸coit des stimuli de ses voisins, et produit un signal lorsque son seuil d’activation est d´epass´e. La mod´elisation de Mc Culloch et Pitts (1943) consid`ere que le neurone fait une combinaison lin´eaire de ses entr´ees, d’o`u la fonction d’activation
g(x) =1Pd
j=1ajx(j)+a0>0,
o`u lesxj sont les stimuli envoy´es par les neurones voisins et−a0 est le seuil d’activation.
D´efinition VIII.13. Une sigmo¨ıde σ est une fonction croissante telle que ( σ(x) −→
x→−∞ 0 σ(x) −→
x→+∞ 1 Voici des exemples de sigmo¨ıdes.
1. σ(x) =1x≥0 2. σ(x) = 1+exp(−x)1 3. σ(x) = 12 +π1 arctanx
D´efinition VIII.14. – Un neurone (artificiel) est une fonction d´efinie sur Rd par g(x) =σ Pd
j=1ajx(j)+a0
=σ(a·x)˜ o`u a= (a0,· · · , ad)t, x˜= (1, x(1),· · · , x(d))t et σ est une sigmo¨ıde.
– Un r´eseau de neurones `a une couche cach´ee est une fonction f :Rd→Rd´efinie par f(x) =Pk
j=1cjσ(aj·x) +˜ c0
o`u x˜ = (1, x(1),· · · , x(d))t. La sigmo¨ıde σ, le nombre de neurones k et les param`etres a1, . . . , ak ∈Rd+1,c0, c1, . . . , ck ∈R caract´erisent le r´eseau.
Le th´eor`eme suivant donne un r´esultat de consistance universelle pour l’algorithme de minimisation du risque empirique sur un ensemble de r´eseaux de neurones `a une couche cach´ee.
VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 183 Th´eor`eme VIII.15. Soient (kn) une suite d’entiers et (βn) une suite de r´eels. Soit Fn
l’ensemble des r´eseaux de neurones `a une couche cach´ee tels que k ≤kn et Pk
i=0|ci| ≤ βn. L’algorithme fˆqui produit pour l’ensemble d’apprentissage Z1n la fonction de pr´ediction de Fn minimisant l’erreur quadratique empirique, i.e.
fˆ∈argmin
f∈Fn
Pn
i=1[Yi−f(Xi)]2,
est universellement consistant si kn→+∞, βn→+∞ et knβn4log(kn nβn2) −→
n→+∞ 0.
La minimisation de l’erreur quadratique empirique est un probl`eme d’optimisation non convexe en raison de la sigmo¨ıde. Par cons´equent, il n’existe pas en g´en´eral d’algorithme permettant d’obtenir syst´ematique le minimum global. Il faut donc avoir recours `a des heu-ristiques pour trouver les meilleurs minima locaux (et ´eventuellement) un minimum global.
L’algorithme des r´eseaux de neurones est une m´ethode d’apprentissage puissante ayant notamment donn´e d’excellents r´esultats sur les probl`emes de reconnaissance de visages ([3]) et de reconnaissance de chiffres manuscrits ([9]). Des conseils sur la mani`ere d’impl´ementer cet algorithme sont donn´es dans [6, 5, 9].
Machines `a Vecteurs Supports ou S´eparateurs `a Vastes Marges (S.V.M.)
Pour simplifier l’expos´e, nous pr´esentons cet algorithme dans le cadre du classement bi-naire avec X =Rd,Y ={−1; +1}et ℓ(y, y′) =1y6=y′. Une fonction cible est alors
g∗ :x7→
+1 siP(Y = +1|X=x)≥1/2
−1 sinon
Soit k:X × X →R une fonction sym´etrique. Soit H l’espace vectoriel engendr´e par les fonctions
k(x,·) :x′ 7→k(x, x′).
On suppose que hP
1≤j≤Jαjk(xj,·),P
1≤k≤Kα′kk(x′k,·)iH=P
j,kαjα′kk(xj, x′k) (VIII.8) d´efinit un produit scalaire sur H, o`uJ, K ∈N,α, α′ sont des vecteurs quelconques deRJ, et x1, . . . , xJ etx′1, . . . , x′K sont respectivement desJ-uplet etK-uplet d’´el´ements de X.
C’est en particulier le cas pour les trois exemples suivants – le noyau lin´eaire k(x, x′) =hx, x′iRd,
– les noyaux polynˆomiauxk(x, x′) = 1 +hx, x′iRdp
pour p∈N∗, – les noyaux gaussiens k(x, x′) =e−kx−x′k2/(2σ2) pourσ >0.
Plus g´en´eralement, (VIII.8) d´efinit un produit scalaire d`es quekest semi-d´efinie positive (i.e.
pour tout J ∈N,α∈RJ et toutJ-upletx1, . . . , xJ de X,P
1≤j,k≤Jαjαkk(xj, xk)≥0 ).
L’espace H muni du produit scalaire h , iH est dit `a noyau reproduisant car pour tout f ∈ H, nous avons hf, k(x,·)iH=f(x).La fonction kest appel´ee fonction noyau.
D´efinition VIII.16. Soit “sgn” la fonction signe : sgn(x) = 1x≥0−1x<0. Notons u+ la partie positive d’un r´eel u : u+ = max(u,0). Une machine `a vecteur support de noyau k et
de param`etre C > 0 est un algorithme d’apprentissage qui produit la fonction de pr´ediction x7→sgnh(x) + ˆˆ b , o`u(ˆh,ˆb) est une solution du probl`eme
b∈minR,h∈H CPn
i=1 1−Yi[h(Xi) +b]
++12khk2H (P)
Si on impose b= 0 (et on ne minimise donc que sur H), on parle de S.V.M. sans terme constant.
Remarque VIII.17. La machine `a vecteur support de noyau lin´eaire k(x, x′) = hx, x′i et de param`etreC >0 est un algorithme d’apprentissage qui produit la fonction de pr´ediction x7→sgn
hw, xiRd+b , o`u w∈Rdetb∈R minimisent CPn
i=1 1−Yi[hw, XiiRd+b]
++ 12kwk2Rd.
♦ Le th´eor`eme suivant donne un r´esultat de consistance universelle pour les S.V.M. `a noyau gaussien.
Th´eor`eme VIII.18. Soit X un compact de Rd et soit σ > 0. La S.V.M. (avec ou sans terme constant) de noyau gaussien k : (x, x′) 7→ e−kx−x′k2/(2σ2) et de param`etre C = nβ−1 avec 0< β <1/dest universellement consistante.
Concentrons-nous `a pr´esent sur la r´esolution du probl`eme d’optimisation (P) et sur l’in-terpr´etation de la solution propos´ee. Des techniques d’optimisation classiques montrent que le probl`eme d’optimisation (P) sur un e.v. de dimension infinie se ram`ene (par passage `a son probl`eme dual) `a un probl`eme d’optimisation sur un e.v. de dimensionnqui est quadratique et avec des contraintes lin´eaires simples.
Le th´eor`eme suivant explique comment calculer la solution de (P) en pratique.
Th´eor`eme VIII.19. Il existe (h, b) solution de (P). De plus, h est unique et s’´ecrit h=Pn
j=1αjYjk(Xj,·), (VIII.9)
o`u α est un vecteur de Rn qui maximise Pn
i=1αi−12P
1≤i,j≤nαiαjYiYjk(Xi, Xj) (D) sous les contraintes : Pn
i=1αiYi = 0 et ∀i,0≤αi ≤C. Par ailleurs, si il existe une compo-sante de α telle que 0< αi < C, alors Yi−h(Xi) est constant sur l’ensemble des i tel que 0< αi < C. Soit b la valeur commune. Le couple (h, b) est solution de (P).
Id´ees de la preuve. Pour l’unicit´e du h solution de (P), il faut montrer tout d’abord queh appartient n´ecessairement l’espace vectoriel engendr´ee park(X1,·), . . . , k(Xn,·), puis utiliser la stricte convexit´e deh 7→ khk2H. (Attention, l’unicit´e de h n’implique pas en g´en´eral celle desαi.)
Pour obtenir (D), la premi`ere ´etape consiste `a remarquer que (P) est ´egal `a
b∈minR,h∈H ξi≥0 ξi≥1−Yi[h(Xi)+b]
CPn
i=1ξi+12khk2H,
ce qui ram`ene le probl`eme convexe (P) `a un probl`eme quadratique avec contraintes lin´eaires.
La suite de la preuve consiste `a ´ecrire le dual de ce probl`eme et `a utiliser les conditions de Karush-Kuhn-Tucker.
VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 185 Remarque VIII.20. La fonction de pr´ediction produite par une S.V.M. de noyau k peut donc s’´ecrire x7→sgn Pn
i=1α′ik(Xi, x) +b o`uα′1, . . . , α′n etbsont des param`etres judicieu-sement choisis. Une S.V.M. de noyau kr´ealise donc une (´eventuellement partielle) s´eparation lin´eaire des donn´ees X1, . . . , Xn repr´esent´ees respectivement par k(X1,·), . . . , k(Xn,·) dans l’espace vectoriel H. Les αi utilis´es dans (VIII.9) et obtenus par r´esolution de (D) sont in-trins`equement li´es `a la position de k(Xi,·) par rapport `a l’hyperplan h(x) +b = 0 (voir figure VIII.5). Connaˆıtre αi et Yi permet de situer k(Xi,·) par rapport `a la fronti`ere de d´ecision (d’´equation h(x) +b= 0) sans avoir besoin de calculer h(Xi) +b. Cela permet une interpr´etation rapide des r´esultats d’une S.V.M.. Notons en particulier que
1. tout point mal class´e Xi v´erifie n´ecessairement αi =C (r´eciproque fausse),
2. tout point Xi tel que 0 < αi < C se trouve sur les courbes d’´equations respectives h(x) +b=−1 eth(x) +b= +1,
3. tout pointXi tel queαi= 0 n’influe pas sur la fonction de pr´ediction produite par une S.V.M. au sens o`u en retirant ces points de l’ensemble d’apprentissage et en recalculant la solution de (D) pour ce nouvel ensemble d’apprentissage, nous retrouvons la mˆeme fonction de pr´ediction : x7→sgn[h(x) +b].
♦ Dans le contexte du classement binaire, l’algorithme des r´eseaux de neurones d´ecrits dans le Th´eor`eme VIII.15 peut ˆetre ´egalement utilis´e (par exemple en seuillant `a 0 la fonction obte-nue par minimisation du risque empirique quadratique : ˆg(x) = +1 si ˆf(x)≥0 et ˆg(x) =−1 sinon). L’inconv´enient de cet algorithme d’apprentissage est qu’il doit r´esoudre un probl`eme d’optimisation non convexe. Rien n’empˆeche en pratique l’algorithme de minimisation de tomber dans un minimum local. En cons´equence, suivant l’impl´ementation et les heuristiques utilis´ees pour minimiser le risque empirique, des r´esultats tr`es in´egaux peuvent ˆetre observ´es.
L’algorithme des S.V.M. est en g´en´eral privil´egi´e par les praticiens car il poss`ede les mˆemes propri´et´es th´eoriques que l’algorithme des r´eseaux de neurones sans en avoir les inconv´enients pratiques : les S.V.M. r´esolvent un probl`eme d’optimisation convexe dont la solution est le plus souvent unique et facile `a obtenir. De nombreux logiciels impl´ementant les S.V.M. dans diff´erents langages informatiques sont accessibles en ligne.
Choix du param`etre C et du noyau k.Pour X =Rd, les noyaux les plus populaires sont – le noyau lin´eaire (x, x′)7→ hx, x′iRd,
– les noyaux polynˆomiaux (x, x′)7→ 1 +hx, x′iRdp
pour p∈N∗, – les noyaux gaussiens (x, x′)7→e−kx−x′k2/(2σ2) pour σ >0.
Attention, seul le noyau gaussien peut mener `a un algorithme universellement consistant. Il doit donc ˆetre en g´en´eral pr´ef´er´e en pratique.
Pour choisir C, la m´ethode la plus employ´ee est de faire une validation crois´ee. Pour limiter le temps de calcul, il faut prendre tout d’abord une grille g´eom´etrique grossi`ere (par exemple,{105/n, 104/n, 103/n, 102/n, 10/n}), puis prendre une grille g´eom´etrique plus fine autour duC ayant donn´e la plus faible erreur de validation crois´ee (cf. (VIII.5)), `a condition que ce C ne soit pas sur les bords de la grille grossi`ere.
Pour choisir la largeur σ du noyau gaussien, le principe est le mˆeme que pour choisir C sauf que l’intervalle de recherche est [σmin;σmax], o`u σmin est la m´ediane de l’ensemble des distances d’un point de l’ensemble d’apprentissage `a son plus proche voisin et σmax est le diam`etre de {X1, . . . , Xn}pour la norme euclidienne surRd, i.e.σmax= maxi,jkXi−XjkRd.