Retour sur l’efficacit´ e statistique

JFig. 1.6. Modèle paramétrique : la régression linéaire. Les données (points rouges) sont un sous-ensemble des mêmes données que dans la figure 1.2, et la tâche est ici de prédire le poids d’un joueur de baseball en fonction de sa taille. La prédiction du modèle minimisant le critère de l’éq. 1.5 (ici avecλ= 0, c.à.d. sans régularisation) est donnée par la ligne bleue.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

où K(·,·) est appelée la fonction noyau (“kernel” en anglais). Il s’agit donc d’une moyenne pondérée des étiquettes observées dans l’ensemble d’entraˆıne-mentD, où le poids est donné par le noyauKqu’on peut interpréter comme une fonction de similarité entre deux entrées. Les exemples (xi, yi)∈ D font donc partie des variables utilisées par le modèle pour faire sa prédiction, même après que l’apprentissage est terminé (l’algorithme d’apprentissage le plus simple consiste à uniquement mémoriser les paires (xi, yi), mais il serait aussi possible d’optimiser certains paramètres du noyau K, si besoin est).

La figure 1.7 montre un exemple de r´egression par fenˆetres de Parzen en une dimension.

1.5 Retour sur l’efficacit´ e statistique

Maintenant que les bases de l’apprentissage machine ont été posées, nous sommes en mesure de revenir à la question de l’efficacité statistique intro-duite au début de ce chapitre. De manière informelle, nous dirons qu’un algo-rithme d’apprentissage est statistiquement efficace s’il est capable d’obtenir une bonne capacité de généralisation avec un nombre limité d’exemples d’ap-prentissage. C’est une caractéristique extrêmement importante pour plu-sieurs raisons :

12 Introduction

I Fig. 1.7. Modèle non paramétrique : régression par fenêtres de Parzen. Les données sont les mêmes que dans l’exemple de la

régression linéaire (figure 1.6). Le noyauK utilisé ici est un noyau de type Gaussien : K(x, xi) =e⁻^(x−⁸^xi⁾².

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

– La collecte de donn´ees est souvent coˆuteuse en temps et en argent.

– Même dans une situation où le nombre d’exemples d’entraˆınement disponibles serait infini, les limites computationnelles (temps de calcul et mémoire disponibles) pour exécuter un algorithme le contraignent

a n’en utiliser qu’un sous-ensemble.

– Les humains sont reconnus pour leur capacité à généraliser à partir de très peu d’exemples. Si l’on souhaite reproduire l’intelligence humaine, il faut donc chercher dans la direction d’algorithmes ayant également cette capacité (principe du “one-shot learning”, étudié par exemple par Fei-Fei et al., 2006).

Un exemple d’algorithme qui peut être statistiquement inefficace est la régression par fenêtres de Parzen (éq. 1.6), lorsque la fonction noyau K est le populaire noyau Gaussien, défini par

K(x_i, x_j) =e⁻

kxi−xjk2

2σ2 (1.7)

oùσ ∈R(paramètre du noyau). Intuitivement, on peut voir que la prédiction f(x) définie par l’éq. 1.6 ne dépend alors que des exemples x_i proches dex (où la notion de proximité dépend deσ). Pour que la prédiction soit correcte, on s’attend donc à avoir besoin d’exemples d’apprentissage dans chaque r´ e-gion de l’espace oùP(x)>0 (où la taille d’une région est proportionnelle à σ). Ce nombre de régions pouvant augmenter de manière exponentielle avec

1.5 Retour sur l’efficacit´e statistique 13

la dimension d de l’espace des entrées x ∈ R^d (c’est la malédiction de la dimensionalité introduite en 1.3.3), cela signifie que le nombre d’exemples d’apprentissage nécessaires pour avoir une bonne qualité de prédiction risque d’augmenter de manière exponentielle avecd. La figure 1.8 montre ainsi ce qu’il se passe lorsque des dimensions supplémentaires indépendantes de l’´ eti-quette sont rajoutées : la similarité dans l’espace des entrées devenant moins indicative de la similarité des étiquettes, l’algorithme ne peut généraliser cor-rectement avec peu d’exemples.

JFig. 1.8. Inefficacité statistique des fenêtres de Parzen. Les données originales ont été perturbées par l’ajout de 10 dimensions aléatoires en entrée. Une petite valeur deσrend la prédiction bien trop bruitée, tandis qu’une grande valeur

correspond à une prédiction constante. La meilleure valeur deσ (qui minimise l’erreur de généralisation estimée à partir d’autres exemples tirés de la même distribution) mène

également à une prédiction médiocre à cause du faible nombre d’exemples

d’entraˆınement.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

meilleur σ

petit σ

grand ^σ

Les modèles paramétriques peuvent également être statistiquement inef-ficaces. En général, le nombre d’exemples d’apprentissage nécessaires pour optimiserk paramètres est de l’ordre dek^∗. S’il y a moins d’exemples, alors le problème est sur-paramétré et on risque le sur-apprentissage : le modèle pourrait apprendre des paramètres taillés “sur mesure” pour les données d’entraˆınement, mais qui mèneront à une mauvaise généralisation. La cons´ e-quence de cette observation est qu’en général, un modèle avec un grand nombre de paramètres est statistiquement inefficace (puisqu’il a besoin d’un

∗La formalisation de cet énoncé dépend de l’algorithme exact ainsi que de la distribution des données : nous nous contenterons donc ici de la version intuitive.

14 Bibliographie

grand nombre d’exemples d’apprentissage pour que les paramètres appris généralisent bien). Par exemple, dans la régression linéaire (éq. 1.5), si le nombre d’exemples est plus petit que la taille dewet que les exemples sont linéairement indépendants, alors il existe une infinité de vecteurs wtels que w^Tx_i+b = y_i pour i ∈ {1, . . . , n}. La régularisation (ici le terme λkwk²) s’avère alors essentielle : on peut la voir comme un moyen de limiter impli-citement le nombre de paramètres effectifs du modèle, ce qui permet d’avoir besoin de moins d’exemples pour éviter le sur-apprentissage (voir figure 1.9).

I Fig. 1.9. Inefficacité statistique d’un modèle de régression linéaire sur-paramétrisé. Les données originales ont

eté augmentées par l’ajout de 20 dimensions de la forme sin(kx)oùx est l’entrée d’origine (la taille d’un joueur), etk un entier de 1 à 20. Sans régularisation (petitλ) il n’y a pas assez d’exemples par rapport au nombre de

paramètres, et la prédiction – bien que parfaite sur les exemples d’entraˆınement – généralise mal. La régularisation permet de limiter le nombre de paramètres effectifs et d’atténuer le bruit, mais λdoit être choisi avec soin (s’il est trop grand, la prédiction sera constante).

66 68 70 72 74 76 78 80 82 84 taille (pouces)

160 180 200 220 240 260

poids (livres)

meilleur ^λ petit λ

grand λ

Notons que dans ces deux exemples – fenêtres de Parzen en figure 1.8 et régression linéaire en figure 1.9 – l’inefficacité statistique des algorithmes considérés est une manifestation de la malédiction de la dimensionalité vue en section 1.3.3. Nous étudierons dans cette thèse d’autres résultats simi-laires, également reliés à ce phénomène.

Bibliographie 15

Bibliographie

Bellman, R. 1961, Adaptive Control Processes : A Guided Tour, Princeton University Press, New Jersey.

Blumer, A., A. Ehrenfeucht, D. Haussler et M. Warmuth. 1987, “Occam’s razor”, Inf. Proc. Let., vol. 24, p. 377–380.

Fei-Fei, L., R. Fergus et P. Perona. 2006, “One-shot learning of object cate-gories”,IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28, n^o 4, p. 594–611.

Kolmogorov, A. N. 1965, “Three approaches to the quantitative definition of information”, Problems of Information and Transmission, vol. 1, n^o 1, p. 1–7.

Kullback, S. 1959,Information Theory and Statistics, Wiley, New York.

Li, M. et P. Vitányi. 2008,An Introduction to Kolmogorov Complexity and Its Applications, 3ê éd., Springer, New York, NY.

Nadaraya, E. A. 1964, “On estimating regression”,Theory of Probability and its Applications, vol. 9, p. 141–142.

Solomonoff, R. J. 1964, “A formal theory of inductive inference”,Information and Control, vol. 7, p. 1–22, 224–254.

Sutton, R. et A. Barto. 1998, Reinforcement Learning : An Introduction, MIT Press.

Vapnik, V. 1998, Statistical Learning Theory, Wiley, Lecture Notes in Eco-nomics and Mathematical Systems, volume 454.

Watson, G. S. 1964, “Smooth regression analysis”, Sankhya - The Indian Journal of Statistics, vol. 26, p. 359–372.

Weizenbaum, J. 1966, “ELIZA-a computer program for the study of natural language communication between man and machine”, Commun. ACM, vol. 9, n^o 1, p. 36–45.

2 Algorithmes d’apprentissage

I

l existe des milliers d’algorithmes d’apprentissage, et le but de ce chapitre n’est évidemment pas de tous les recenser. Les algorithmes pr´ e-sentés ici sont ceux qui apparaissent dans les articles constituant le corps de cette thèse. Par souci de concision, la description de chaque algorithme est volontairement succinte, se concentrant sur les éléments importants pour la compréhension des articles qui y sont reliés. Des références offrant une présentation plus complète de chaque algorithme seront fournies pour sa-tisfaire la curiosité du lecteur avide de détails. L’ordre dans lequel les algo-rithmes sont passés en revue dans ce chapitre est basé sur l’idée d’introduire d’abord les concepts les plus simples, sur lesquels se basent les algorithmes qui suivent.

Dans le document Th` ese pr´ esent´ ee ` a la Facult´ e des ´ etudes sup´ erieures en vue de l’obtention du grade de Philosophiæ Doctor (Ph.D.) (Page 29-35)

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

1.5 Retour sur l’efficacit´ e statistique

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

meilleur σ

petit σ

grand σ

66 68 70 72 74 76 78 80 82 84 taille (pouces)

160 180 200 220 240 260

poids (livres)

meilleur λ petit λ

grand λ

Bibliographie

2 Algorithmes d’apprentissage

I

grand ^σ

meilleur ^λ petit λ