• Aucun résultat trouvé

JFig. 1.6. Mod`ele param´etrique : la egression lin´eaire. Les donn´ees (points rouges) sont un sous-ensemble des mˆemes donn´ees que dans la figure 1.2, et la ache est ici de pr´edire le poids d’un joueur de baseball en fonction de sa taille. La pr´ediction du mod`ele minimisant le crit`ere de l’´eq. 1.5 (ici avecλ= 0, c.`a.d. sans egularisation) est donn´ee par la ligne bleue.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

o`u K(·,·) est appel´ee la fonction noyau (“kernel” en anglais). Il s’agit donc d’une moyenne pond´er´ee des ´etiquettes observ´ees dans l’ensemble d’entraˆıne-mentD, o`u le poids est donn´e par le noyauKqu’on peut interpr´eter comme une fonction de similarit´e entre deux entr´ees. Les exemples (xi, yi)∈ D font donc partie des variables utilis´ees par le mod`ele pour faire sa pr´ediction, mˆeme apr`es que l’apprentissage est termin´e (l’algorithme d’apprentissage le plus simple consiste `a uniquement m´emoriser les paires (xi, yi), mais il serait aussi possible d’optimiser certains param`etres du noyau K, si besoin est).

La figure 1.7 montre un exemple de r´egression par fenˆetres de Parzen en une dimension.

1.5 Retour sur l’efficacit´ e statistique

Maintenant que les bases de l’apprentissage machine ont ´et´e pos´ees, nous sommes en mesure de revenir `a la question de l’efficacit´e statistique intro-duite au d´ebut de ce chapitre. De mani`ere informelle, nous dirons qu’un algo-rithme d’apprentissage est statistiquement efficace s’il est capable d’obtenir une bonne capacit´e de g´en´eralisation avec un nombre limit´e d’exemples d’ap-prentissage. C’est une caract´eristique extrˆemement importante pour plu-sieurs raisons :

12 Introduction

I Fig. 1.7. Mod`ele non param´etrique : egression par fenˆetres de Parzen. Les donn´ees sont les mˆemes que dans l’exemple de la

egression lin´eaire (figure 1.6). Le noyauK utilis´e ici est un noyau de type Gaussien : K(x, xi) =e(x−8xi)2.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

– La collecte de donn´ees est souvent coˆuteuse en temps et en argent.

– Mˆeme dans une situation o`u le nombre d’exemples d’entraˆınement disponibles serait infini, les limites computationnelles (temps de calcul et m´emoire disponibles) pour ex´ecuter un algorithme le contraignent

`

a n’en utiliser qu’un sous-ensemble.

– Les humains sont reconnus pour leur capacit´e `a g´en´eraliser `a partir de tr`es peu d’exemples. Si l’on souhaite reproduire l’intelligence humaine, il faut donc chercher dans la direction d’algorithmes ayant ´egalement cette capacit´e (principe du “one-shot learning”, ´etudi´e par exemple par Fei-Fei et al., 2006).

Un exemple d’algorithme qui peut ˆetre statistiquement inefficace est la r´egression par fenˆetres de Parzen (´eq. 1.6), lorsque la fonction noyau K est le populaire noyau Gaussien, d´efini par

K(xi, xj) =e

kxixjk2

2 (1.7)

o`uσ ∈R(param`etre du noyau). Intuitivement, on peut voir que la pr´ediction f(x) d´efinie par l’´eq. 1.6 ne d´epend alors que des exemples xi proches dex (o`u la notion de proximit´e d´epend deσ). Pour que la pr´ediction soit correcte, on s’attend donc `a avoir besoin d’exemples d’apprentissage dans chaque r´ e-gion de l’espace o`uP(x)>0 (o`u la taille d’une r´egion est proportionnelle `a σ). Ce nombre de r´egions pouvant augmenter de mani`ere exponentielle avec

1.5 Retour sur l’efficacit´e statistique 13

la dimension d de l’espace des entr´ees x ∈ Rd (c’est la mal´ediction de la dimensionalit´e introduite en 1.3.3), cela signifie que le nombre d’exemples d’apprentissage n´ecessaires pour avoir une bonne qualit´e de pr´ediction risque d’augmenter de mani`ere exponentielle avecd. La figure 1.8 montre ainsi ce qu’il se passe lorsque des dimensions suppl´ementaires ind´ependantes de l’´ eti-quette sont rajout´ees : la similarit´e dans l’espace des entr´ees devenant moins indicative de la similarit´e des ´etiquettes, l’algorithme ne peut g´en´eraliser cor-rectement avec peu d’exemples.

JFig. 1.8. Inefficacit´e statistique des fenˆetres de Parzen. Les donn´ees originales ont ´et´e perturb´ees par l’ajout de 10 dimensions al´eatoires en entr´ee. Une petite valeur deσrend la pr´ediction bien trop bruit´ee, tandis qu’une grande valeur

correspond `a une pr´ediction constante. La meilleure valeur deσ (qui minimise l’erreur de en´eralisation estim´ee `a partir d’autres exemples tir´es de la mˆeme distribution) m`ene

´egalement `a une pr´ediction m´ediocre `a cause du faible nombre d’exemples

d’entraˆınement.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

meilleur σ

petit σ

grand σ

Les mod`eles param´etriques peuvent ´egalement ˆetre statistiquement inef-ficaces. En g´en´eral, le nombre d’exemples d’apprentissage n´ecessaires pour optimiserk param`etres est de l’ordre dek. S’il y a moins d’exemples, alors le probl`eme est sur-param´etr´e et on risque le sur-apprentissage : le mod`ele pourrait apprendre des param`etres taill´es “sur mesure” pour les donn´ees d’entraˆınement, mais qui m`eneront `a une mauvaise g´en´eralisation. La cons´ e-quence de cette observation est qu’en g´en´eral, un mod`ele avec un grand nombre de param`etres est statistiquement inefficace (puisqu’il a besoin d’un

La formalisation de cet ´enonc´e d´epend de l’algorithme exact ainsi que de la distribution des donn´ees : nous nous contenterons donc ici de la version intuitive.

14 Bibliographie

grand nombre d’exemples d’apprentissage pour que les param`etres appris g´en´eralisent bien). Par exemple, dans la r´egression lin´eaire (´eq. 1.5), si le nombre d’exemples est plus petit que la taille dewet que les exemples sont lin´eairement ind´ependants, alors il existe une infinit´e de vecteurs wtels que wTxi+b = yi pour i ∈ {1, . . . , n}. La r´egularisation (ici le terme λkwk2) s’av`ere alors essentielle : on peut la voir comme un moyen de limiter impli-citement le nombre de param`etres effectifs du mod`ele, ce qui permet d’avoir besoin de moins d’exemples pour ´eviter le sur-apprentissage (voir figure 1.9).

I Fig. 1.9. Inefficacit´e statistique d’un mod`ele de r´egression lin´eaire sur-param´etris´e. Les donn´ees originales ont

´

et´e augment´ees par l’ajout de 20 dimensions de la forme sin(kx)o`ux est l’entr´ee d’origine (la taille d’un joueur), etk un entier de 1 `a 20. Sans egularisation (petitλ) il n’y a pas assez d’exemples par rapport au nombre de

param`etres, et la pr´ediction – bien que parfaite sur les exemples d’entraˆınement – en´eralise mal. La egularisation permet de limiter le nombre de param`etres effectifs et d’att´enuer le bruit, mais λdoit ˆetre choisi avec soin (s’il est trop grand, la pr´ediction sera constante).

66 68 70 72 74 76 78 80 82 84 taille (pouces)

160 180 200 220 240 260

poids (livres)

meilleur λ petit λ

grand λ

Notons que dans ces deux exemples – fenˆetres de Parzen en figure 1.8 et r´egression lin´eaire en figure 1.9 – l’inefficacit´e statistique des algorithmes consid´er´es est une manifestation de la mal´ediction de la dimensionalit´e vue en section 1.3.3. Nous ´etudierons dans cette th`ese d’autres r´esultats simi-laires, ´egalement reli´es `a ce ph´enom`ene.

Bibliographie 15

Bibliographie

Bellman, R. 1961, Adaptive Control Processes : A Guided Tour, Princeton University Press, New Jersey.

Blumer, A., A. Ehrenfeucht, D. Haussler et M. Warmuth. 1987, “Occam’s razor”, Inf. Proc. Let., vol. 24, p. 377–380.

Fei-Fei, L., R. Fergus et P. Perona. 2006, “One-shot learning of object cate-gories”,IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28, no 4, p. 594–611.

Kolmogorov, A. N. 1965, “Three approaches to the quantitative definition of information”, Problems of Information and Transmission, vol. 1, no 1, p. 1–7.

Kullback, S. 1959,Information Theory and Statistics, Wiley, New York.

Li, M. et P. Vit´anyi. 2008,An Introduction to Kolmogorov Complexity and Its Applications, 3e ´ed., Springer, New York, NY.

Nadaraya, E. A. 1964, “On estimating regression”,Theory of Probability and its Applications, vol. 9, p. 141–142.

Solomonoff, R. J. 1964, “A formal theory of inductive inference”,Information and Control, vol. 7, p. 1–22, 224–254.

Sutton, R. et A. Barto. 1998, Reinforcement Learning : An Introduction, MIT Press.

Vapnik, V. 1998, Statistical Learning Theory, Wiley, Lecture Notes in Eco-nomics and Mathematical Systems, volume 454.

Watson, G. S. 1964, “Smooth regression analysis”, Sankhya - The Indian Journal of Statistics, vol. 26, p. 359–372.

Weizenbaum, J. 1966, “ELIZA-a computer program for the study of natural language communication between man and machine”, Commun. ACM, vol. 9, no 1, p. 36–45.

16

2 Algorithmes d’apprentissage

I

l existe des milliers d’algorithmes d’apprentissage, et le but de ce chapitre n’est ´evidemment pas de tous les recenser. Les algorithmes pr´ e-sent´es ici sont ceux qui apparaissent dans les articles constituant le corps de cette th`ese. Par souci de concision, la description de chaque algorithme est volontairement succinte, se concentrant sur les ´el´ements importants pour la compr´ehension des articles qui y sont reli´es. Des r´ef´erences offrant une pr´esentation plus compl`ete de chaque algorithme seront fournies pour sa-tisfaire la curiosit´e du lecteur avide de d´etails. L’ordre dans lequel les algo-rithmes sont pass´es en revue dans ce chapitre est bas´e sur l’id´ee d’introduire d’abord les concepts les plus simples, sur lesquels se basent les algorithmes qui suivent.

Documents relatifs