Algorithmes par moyennage locale - Les algorithmes d’apprentissage et leur consistance

VIII.3 Les algorithmes d’apprentissage et leur consistance

VIII.3.1 Algorithmes par moyennage locale

Autrement dit, siη est une “bonne” fonction de r´egression, alors sa version seuill´eeg_η est une “bonne” fonction de classement.

VIII.2.4 Consistance universelle

D´efinition VIII.5. Un algorithme d’apprentissage est dit consistant par rapport `a la loi de (X, Y) si et seulement si

ER(ˆgn) −→

n→+∞ R(g^∗).

Un algorithme d’apprentissage est dit universellement consistant si et seulement si il est consistant par rapport `a toute loi possible du couple (X, Y).

Théorème VIII.6. Si un algorithmeηêst universellement consistant pour la régression aux moindres carrés à sorties dans [0; 1] i.e. Y = [0; 1], ℓ(y, y^′) = (y−y^′)²

, alors l’algorithme ˆ

g = 1_η≥1/2_ˆ est universellement consistant pour le probl`eme de classement binaire `a sorties dans {0; 1} i.e. Y ={0; 1}, ℓ(y, y^′) =1_y₆_=y′

Démonstration. Le point de départ consiste à remarquer que si ˆη est universellement consis-tant pour la régression aux moindres carrés à sorties dans [0; 1], alors ˆη est en particulier consistant par rapport à toute distribution telle que les sorties sont dans{0; 1}avec probabi-lité un (i.e. presque sûrement). Le résultat annoncé est une conséquence directe du théorème VIII.4 et du théorème de Jensen.

VIII.3 Les algorithmes d’apprentissage et leur consistance

Dans ce paragraphe¹, nous considérons (sauf mention contraire) le problème de régression aux moindres carrés défini par X =R^d,Y = [−B;B] pour B >0 et ℓ(y, y^′) = (y−y^′)². Une fonction cible est alors η^∗ :x7→E(Y|X=x).

VIII.3.1 Algorithmes par moyennage locale

Id´ee principale : Pour estimerE(Y|X=x), moyenner lesYi desXi proches dex.

Cette idée nous amène à nous intéresser aux algorithmes d’apprentissage de la forme ˆ

η:x7→Pn

i=1W_i(x)Y_i,

où les poids réels W_i(x) vont être des fonctions bien choisies dex, n, X₁, . . . , X_n.

1Ce paragraphe s’inspire largement des six premiers chapitres du livre [4].

Exemple 1 : Algorithme par partition : soit{A1, A2, . . .}une partition finie ou dénombra-ble deX (i.e.∪jA_j =X etA_j∩A_k=∅pourj6=k). SoitA(x) l’élément de la partition qui contientx. L’algorithme par partition considère les poids

W_i(x) = ^Pn¹^Xi^∈A(x) l=11

Xl∈A(x), (VIII.2)

o`u nous utilisons la convention ⁰₀ = 0.

Exemple 2 : Algorithme par noyau (ou estimateur de Nadaraya-Watson) : Soient K : R^d → R₊ et h >0 un param`etre (dit de largeur du noyau). L’algorithme par noyau consid`ere les poids

o`u nous utilisons toujours la convention ⁰₀ = 0. Les deux noyaux les plus courants sont le noyau fenˆetre K(x) = 1_k_x_k≤₁ et le noyau gaussien e^−kxk², avec k · k la norme euclidienne.

Exemple 3 : L’algorithme desk-plus proches voisins (k-p.p.v.) consid`ere les poids W_i(x) =

Pour définir parfaitement l’algorithme desk-p.p.v., il faut préciser ce qui se passe lorsque le pointx à classer est à égale distance de plusieurs points de l’ensemble d’apprentissage. La règle la plus simple consiste à traiter ces problèmes d’égalité de distances par tirage au sort : pour une distance d et x ∈ R^d, si l’ensemble E =

i ∈ {1, . . . , n} : kX_i −xk = d est de cardinal |E| ≥ 2, alors les points (X_i)_i∈E sont ordonn´es en tirant une permutation al´eatoire (suivant la loi uniforme sur l’ensemble des|E|! permutations de E).

Pour cette gestion des égalités éventuelles de distances, nous avons Théorème VIII.7. Si k_n −→

n→+∞ +∞ et k_n/n −→

n→+∞ 0, l’algorithme des k_n-p.p.v. est universellement consistant.

– L’algorithme des k-p.p.v. nécessite de conserver en mémoire tous les points de la base d’apprentissage, d’où un stockage coûteux (en O(n)).

– Une implémentation na¨ıve de l’algorithme repose sur le calcul des distances entre le point pour lequel la prédiction est recherchée et les points de l’ensemble d’apprentissage, d’où un algorithme en O(n). Des méthodes basées sur la construction d’un arbre associé

a l’ensemble d’apprentissage ont un coût moyen en O(logn). Cela nécessite néanmoins la construction de l’arbre, ce qui a en général un coût en O(nlogn) (voir par exemple

’kd-tree’ suren.wikipedia.org). Une impl´ementation de cette m´ethode est accessible en ligne sous le nom d’¡¡approximate nearest neighbour¿¿ (www.cs.umd.edu/^∼mount/

ANN/) qui permet également de rechercher les plus proches voisins de manière approchée (ce qui mène à un gain de temps considérable). Une astuce pour améliorer la recherche approchée des plus proches voisins est de construire plusieurs arbres de recherche (si possible les plus différents possibles).

VIII.3. LES ALGORITHMES D’APPRENTISSAGE ET LEUR CONSISTANCE 179 – Le choix du paramètre k peut être effectué par une méthode dite de validation croisée que nous décrivons ci-dessous. Cette méthode, couramment utilisée pour trouver les 1 ou 2 paramètres de réglage d’un algorithme d’apprentissage, repose sur l’estimation du risque moyen ER(ˆg) d’un algorithme par

1 n

Pp j=1

(x,y)∈Bjℓ

y,ˆg(∪k6=jB_k)(x)

(VIII.5) où p est l’ordre de la validation croisée et B₁,. . .,B_p est une partition équilibrée (i.e.

n/p−1 <|Bj|< n/p+ 1) de l’ensemble d’apprentissage. Moins formellement, il faut couper l’ensemble d’apprentissage en p parties, entraˆıner l’algorithme sur p−1 de ces parties, regarder la perte qu’encourt cet algorithme sur les données de la p-ème partie, et faire cela p fois (correspondant aux p parties pouvant être laissées de côté lors de l’apprentissage). Pour p = n, l’estimateur du risque est appeléerreur ¡¡laisser-un-de-côté¿¿.

Pour lesk-p.p.v., chaquekdéfinit un algorithme. Choisirkpar validation croisée d’ordre psignifie choisir lekqui minimise l’erreur de validation croisée donnée par (VIII.5). En pratique, on prendkd’ordre 5 à 10 suivant les contraintes de temps de calcul.

Algorithme par noyau

Le théorème suivant donne un résultat de consistance universelle pour l’algorithme par noyau.

Th´eor`eme VIII.8. On note par B(0, u) la boule euclidienne de R^d de centre 0 et de rayon u >0. Si il existe 0< r≤R etb >0 tels que

∀u∈R^d b1_B_(0,r)≤K(u)≤1_B_(0,R) et si h_n −→

n→+∞ 0 et nh^d_n −→

n→+∞ +∞, alors l’algorithme par noyau d´efini par ˆ

g(x) =Pn i=1

K(^x−_h^Xi) Pn

l=1K(^x−_h^Xl)

Y_i

(avec la convention ⁰₀ = 0) est universellement consistant.

Remarque VIII.9. C’est un algorithme très employé par les praticiens, notamment avec le noyau gaussien. Il est néanmoins à utiliser avec précaution pour des dimensions de l’espace

d’entrées supérieures à 10. ♦

Algorithme par partition

Tout d’abord, rappelons que cet l’algorithme repose sur une partition de R^d A₁, A₂, . . . finie ou dénombrable et que pour tout x ∈ R^d, nous notons A(x) l’élément de la partition qui contient le point x. En pratique, cette partition est prise d’autant plus fine que la taille n de l’nesemble d’apprentissage est grande. Le théorème suivant indique une bonne manière de choisir la partition en fonction de n.

Théorème VIII.10. On note encore par B(0, u) la boule euclidienne deR^dde centre 0et de alors l’algorithme par partition définie par pour tout x∈R^d

ˆ (avec la convention ⁰₀ = 0) est universellement consistant.

Remarque VIII.11. Pour une grille (régulière) deR^dde pasH_n, les hypothèses du théorème sont simplementH_n −→

n→+∞ 0 et nH_n^d −→

n→+∞ +∞. En pratique, contrairement à l’algorithme par noyau gaussien, il y a un effet escalier (bien souvent non désiré) au bord des éléments de la partition, puisque la sortie prédite pour une entrée x change brusquement lorsque x

change d’´el´ement de la partition. ♦

Remarque VIII.12. Dans les arbres de décision, les éléments de la partition sont définis par les réponses à un ensemble de questions, ces questions étant éventuellement choisies en fonction de l’ensemble d’apprentissage observé. Chaque noeud d’un arbre de décision correspond à un ensemble de l’espace R^d des entrées. Les contraintes sur les parties de R^d associées aux noeuds sont les suivantes :

– la racine est associ´ee `a R^d

– siA⊂R^dest l’ensemble associé à un noeud et siA⁽¹⁾, . . . , A^(k) sont les parties associées aux fils de ce noeud, alors

A⁽¹⁾∪ · · · ∪A^(k)=A et ∀1≤i < j ≤k A⁽ⁱ⁾∩A^(j) =∅, autrement ditA⁽¹⁾, . . . , A^(k) est une partition deA.

Dans un arbre de décision binaire, tout noeud possède zéro ou deux fils. Donc tout noeud peut être vu comme une question sur l’entrée x dont la réponse est ¡¡oui¿¿ ou ¡¡non¿¿. Les questions typiques surx sont : lai-ème composante de x est elle plus grande qu’un certain seuil (cf. figure VIII.3) ? De quel côté x est-il par rapport à un certain hyperplan de R^d?x appartient-il à un certain hyperrectangle ?

L’arbre de décision est une variante de l’algorithme par partition qui est très utilisée notamment en raison de sa simplicité d’interprétation, de la rapidité de l’algorithme et de sa capacité à être mis à jour de manière dynamique (les branches de l’arbre peuvent être développées au fur et à mesure que de nouvelles données viennent compléter l’ensemble

d’ap-prentissage). ♦

VIII.3.2 Algorithmes par minimisation du risque empirique

Dans le document ´ECOLE NATIONALE DES PONTS ET CHAUSS´EES (Page 187-190)