• Aucun résultat trouvé

Algorithmes par moyennage locale

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 187-190)

VIII.3 Les algorithmes d’apprentissage et leur consistance

VIII.3.1 Algorithmes par moyennage locale

Autrement dit, siη est une “bonne” fonction de r´egression, alors sa version seuill´eegη est une “bonne” fonction de classement.

VIII.2.4 Consistance universelle

D´efinition VIII.5. Un algorithme d’apprentissage est dit consistant par rapport `a la loi de (X, Y) si et seulement si

ER(ˆgn) −→

n→+∞ R(g).

Un algorithme d’apprentissage est dit universellement consistant si et seulement si il est consistant par rapport `a toute loi possible du couple (X, Y).

Th´eor`eme VIII.6. Si un algorithmeηˆest universellement consistant pour la r´egression aux moindres carr´es `a sorties dans [0; 1] i.e. Y = [0; 1], ℓ(y, y) = (y−y)2

, alors l’algorithme ˆ

g = 1η≥1/2ˆ est universellement consistant pour le probl`eme de classement binaire `a sorties dans {0; 1} i.e. Y ={0; 1}, ℓ(y, y) =1y6=y

.

D´emonstration. Le point de d´epart consiste `a remarquer que si ˆη est universellement consis-tant pour la r´egression aux moindres carr´es `a sorties dans [0; 1], alors ˆη est en particulier consistant par rapport `a toute distribution telle que les sorties sont dans{0; 1}avec probabi-lit´e un (i.e. presque sˆurement). Le r´esultat annonc´e est une cons´equence directe du th´eor`eme VIII.4 et du th´eor`eme de Jensen.

VIII.3 Les algorithmes d’apprentissage et leur consistance

Dans ce paragraphe1, nous consid´erons (sauf mention contraire) le probl`eme de r´egression aux moindres carr´es d´efini par X =Rd,Y = [−B;B] pour B >0 et ℓ(y, y) = (y−y)2. Une fonction cible est alors η :x7→E(Y|X=x).

VIII.3.1 Algorithmes par moyennage locale

Id´ee principale : Pour estimerE(Y|X=x), moyenner lesYi desXi proches dex.

Cette id´ee nous am`ene `a nous int´eresser aux algorithmes d’apprentissage de la forme ˆ

η:x7→Pn

i=1Wi(x)Yi,

o`u les poids r´eels Wi(x) vont ˆetre des fonctions bien choisies dex, n, X1, . . . , Xn.

1Ce paragraphe s’inspire largement des six premiers chapitres du livre [4].

Exemple 1 : Algorithme par partition : soit{A1, A2, . . .}une partition finie ou d´enombra-ble deX (i.e.∪jAj =X etAj∩Ak=∅pourj6=k). SoitA(x) l’´el´ement de la partition qui contientx. L’algorithme par partition consid`ere les poids

Wi(x) = Pn1Xi∈A(x) l=11

Xl∈A(x), (VIII.2)

o`u nous utilisons la convention 00 = 0.

Exemple 2 : Algorithme par noyau (ou estimateur de Nadaraya-Watson) : Soient K : Rd → R+ et h >0 un param`etre (dit de largeur du noyau). L’algorithme par noyau consid`ere les poids

o`u nous utilisons toujours la convention 00 = 0. Les deux noyaux les plus courants sont le noyau fenˆetre K(x) = 1kxk≤1 et le noyau gaussien e−kxk2, avec k · k la norme euclidienne.

Exemple 3 : L’algorithme desk-plus proches voisins (k-p.p.v.) consid`ere les poids Wi(x) =

Pour d´efinir parfaitement l’algorithme desk-p.p.v., il faut pr´eciser ce qui se passe lorsque le pointx `a classer est `a ´egale distance de plusieurs points de l’ensemble d’apprentissage. La r`egle la plus simple consiste `a traiter ces probl`emes d’´egalit´e de distances par tirage au sort : pour une distance d et x ∈ Rd, si l’ensemble E =

i ∈ {1, . . . , n} : kXi −xk = d est de cardinal |E| ≥ 2, alors les points (Xi)i∈E sont ordonn´es en tirant une permutation al´eatoire (suivant la loi uniforme sur l’ensemble des|E|! permutations de E).

Pour cette gestion des ´egalit´es ´eventuelles de distances, nous avons Th´eor`eme VIII.7. Si kn −→

n+ +∞ et kn/n −→

n+ 0, l’algorithme des kn-p.p.v. est universellement consistant.

– L’algorithme des k-p.p.v. n´ecessite de conserver en m´emoire tous les points de la base d’apprentissage, d’o`u un stockage coˆuteux (en O(n)).

– Une impl´ementation na¨ıve de l’algorithme repose sur le calcul des distances entre le point pour lequel la pr´ediction est recherch´ee et les points de l’ensemble d’apprentissage, d’o`u un algorithme en O(n). Des m´ethodes bas´ees sur la construction d’un arbre associ´e

`

a l’ensemble d’apprentissage ont un coˆut moyen en O(logn). Cela n´ecessite n´eanmoins la construction de l’arbre, ce qui a en g´en´eral un coˆut en O(nlogn) (voir par exemple

’kd-tree’ suren.wikipedia.org). Une impl´ementation de cette m´ethode est accessible en ligne sous le nom d’¡¡approximate nearest neighbour¿¿ (www.cs.umd.edu/mount/

ANN/) qui permet ´egalement de rechercher les plus proches voisins de mani`ere approch´ee (ce qui m`ene `a un gain de temps consid´erable). Une astuce pour am´eliorer la recherche approch´ee des plus proches voisins est de construire plusieurs arbres de recherche (si possible les plus diff´erents possibles).

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 179 – Le choix du param`etre k peut ˆetre effectu´e par une m´ethode dite de validation crois´ee que nous d´ecrivons ci-dessous. Cette m´ethode, couramment utilis´ee pour trouver les 1 ou 2 param`etres de r´eglage d’un algorithme d’apprentissage, repose sur l’estimation du risque moyen ER(ˆg) d’un algorithme par

1 n

Pp j=1

P

(x,y)Bj

y,ˆg(∪k6=jBk)(x)

(VIII.5) o`u p est l’ordre de la validation crois´ee et B1,. . .,Bp est une partition ´equilibr´ee (i.e.

n/p−1 <|Bj|< n/p+ 1) de l’ensemble d’apprentissage. Moins formellement, il faut couper l’ensemble d’apprentissage en p parties, entraˆıner l’algorithme sur p−1 de ces parties, regarder la perte qu’encourt cet algorithme sur les donn´ees de la p-`eme partie, et faire cela p fois (correspondant aux p parties pouvant ˆetre laiss´ees de cˆot´e lors de l’apprentissage). Pour p = n, l’estimateur du risque est appel´eerreur ¡¡laisser-un-de-cˆot´e¿¿.

Pour lesk-p.p.v., chaquekd´efinit un algorithme. Choisirkpar validation crois´ee d’ordre psignifie choisir lekqui minimise l’erreur de validation crois´ee donn´ee par (VIII.5). En pratique, on prendkd’ordre 5 `a 10 suivant les contraintes de temps de calcul.

Algorithme par noyau

Le th´eor`eme suivant donne un r´esultat de consistance universelle pour l’algorithme par noyau.

Th´eor`eme VIII.8. On note par B(0, u) la boule euclidienne de Rd de centre 0 et de rayon u >0. Si il existe 0< r≤R etb >0 tels que

∀u∈Rd b1B(0,r)≤K(u)≤1B(0,R) et si hn −→

n→+∞ 0 et nhdn −→

n→+∞ +∞, alors l’algorithme par noyau d´efini par ˆ

g(x) =Pn i=1

K(x−hXi) Pn

l=1K(x−hXl)

Yi

(avec la convention 00 = 0) est universellement consistant.

Remarque VIII.9. C’est un algorithme tr`es employ´e par les praticiens, notamment avec le noyau gaussien. Il est n´eanmoins `a utiliser avec pr´ecaution pour des dimensions de l’espace

d’entr´ees sup´erieures `a 10. ♦

Algorithme par partition

Tout d’abord, rappelons que cet l’algorithme repose sur une partition de Rd A1, A2, . . . finie ou d´enombrable et que pour tout x ∈ Rd, nous notons A(x) l’´el´ement de la partition qui contient le point x. En pratique, cette partition est prise d’autant plus fine que la taille n de l’nesemble d’apprentissage est grande. Le th´eor`eme suivant indique une bonne mani`ere de choisir la partition en fonction de n.

Th´eor`eme VIII.10. On note encore par B(0, u) la boule euclidienne deRdde centre 0et de alors l’algorithme par partition d´efinie par pour tout x∈Rd

ˆ (avec la convention 00 = 0) est universellement consistant.

Remarque VIII.11. Pour une grille (r´eguli`ere) deRdde pasHn, les hypoth`eses du th´eor`eme sont simplementHn −→

n→+∞ 0 et nHnd −→

n→+∞ +∞. En pratique, contrairement `a l’algorithme par noyau gaussien, il y a un effet escalier (bien souvent non d´esir´e) au bord des ´el´ements de la partition, puisque la sortie pr´edite pour une entr´ee x change brusquement lorsque x

change d’´el´ement de la partition. ♦

Remarque VIII.12. Dans les arbres de d´ecision, les ´el´ements de la partition sont d´efinis par les r´eponses `a un ensemble de questions, ces questions ´etant ´eventuellement choisies en fonction de l’ensemble d’apprentissage observ´e. Chaque noeud d’un arbre de d´ecision correspond `a un ensemble de l’espace Rd des entr´ees. Les contraintes sur les parties de Rd associ´ees aux noeuds sont les suivantes :

– la racine est associ´ee `a Rd

– siA⊂Rdest l’ensemble associ´e `a un noeud et siA(1), . . . , A(k) sont les parties associ´ees aux fils de ce noeud, alors

A(1)∪ · · · ∪A(k)=A et ∀1≤i < j ≤k A(i)∩A(j) =∅, autrement ditA(1), . . . , A(k) est une partition deA.

Dans un arbre de d´ecision binaire, tout noeud poss`ede z´ero ou deux fils. Donc tout noeud peut ˆetre vu comme une question sur l’entr´ee x dont la r´eponse est ¡¡oui¿¿ ou ¡¡non¿¿. Les questions typiques surx sont : lai-`eme composante de x est elle plus grande qu’un certain seuil (cf. figure VIII.3) ? De quel cˆot´e x est-il par rapport `a un certain hyperplan de Rd?x appartient-il `a un certain hyperrectangle ?

L’arbre de d´ecision est une variante de l’algorithme par partition qui est tr`es utilis´ee notamment en raison de sa simplicit´e d’interpr´etation, de la rapidit´e de l’algorithme et de sa capacit´e `a ˆetre mis `a jour de mani`ere dynamique (les branches de l’arbre peuvent ˆetre d´evelopp´ees au fur et `a mesure que de nouvelles donn´ees viennent compl´eter l’ensemble

d’ap-prentissage). ♦

VIII.3.2 Algorithmes par minimisation du risque empirique

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 187-190)