Th` ese pr´ esent´ ee ` a la Facult´ e des ´ etudes sup´ erieures en vue de l’obtention du grade de Philosophiæ Doctor (Ph.D.)

(1)

Universit´ e de Montr´ eal

Apprentissage machine efficace : th´ eorie et pratique

par Olivier Delalleau

D´ epartement d’informatique et de recherche op´ erationnelle Facult´ e des arts et des sciences

Th` ese pr´ esent´ ee ` a la Facult´ e des ´ etudes sup´ erieures en vue de l’obtention du grade de Philosophiæ Doctor (Ph.D.)

en informatique

Mars 2012

c Olivier Delalleau, 2012

(2)

Universit´ e de Montr´ eal Facult´ e des arts et des sciences

Cette th` ese intitul´ ee :

Apprentissage machine efficace : th´ eorie et pratique

pr´ esent´ ee par :

Olivier Delalleau

a ´ et´ e ´ evalu´ ee par un jury constitu´ e des personnes suivantes : Pascal Vincent pr´ esident-rapporteur

Yoshua Bengio directeur de recherche

Pierre McKenzie membre du jury

Yves Grandvalet examinateur externe

Patrick Drouin repr´ esentant du doyen

(3)

R´ esum´ e

M ^algr´ e des progr` es constants en termes de capacit´ e de calcul, m´ emoire et quantit´ e de donn´ ees disponibles, les algorithmes d’ap- prentissage machine doivent se montrer efficaces dans l’utilisation de ces ressources. La minimisation des coˆ uts est ´ evidemment un facteur impor- tant, mais une autre motivation est la recherche de m´ ecanismes d’appren- tissage capables de reproduire le comportement d’ˆ etres intelligents. Cette th` ese aborde le probl` eme de l’efficacit´ e ` a travers plusieurs articles traitant d’algorithmes d’apprentissage vari´ es : ce probl` eme est vu non seulement du point de vue de l’efficacit´ e computationnelle (temps de calcul et m´ emoire utilis´ es), mais aussi de celui de l’efficacit´ e statistique (nombre d’exemples requis pour accomplir une tˆ ache donn´ ee).

Une premi` ere contribution apport´ ee par cette th` ese est la mise en lu- mi` ere d’inefficacit´ es statistiques dans des algorithmes existants. Nous mon- trons ainsi que les arbres de d´ ecision g´ en´ eralisent mal pour certains types de tˆ aches (chapitre 3), de mˆ eme que les algorithmes classiques d’appren- tissage semi-supervis´ e ` a base de graphe (chapitre 5), chacun ´ etant affect´ e par une forme particuli` ere de la mal´ ediction de la dimensionalit´ e. Pour une certaine classe de r´ eseaux de neurones, appel´ es r´ eseaux sommes-produits, nous montrons qu’il peut ˆ etre exponentiellement moins efficace de repr´ esen- ter certaines fonctions par des r´ eseaux ` a une seule couche cach´ ee, compar´ e ` a des r´ eseaux profonds (chapitre 4). Nos analyses permettent de mieux com- prendre certains probl` emes intrins` eques li´ es ` a ces algorithmes, et d’orienter la recherche dans des directions qui pourraient permettre de les r´ esoudre.

Nous identifions ´ egalement des inefficacit´ es computationnelles dans les

algorithmes d’apprentissage semi-supervis´ e ` a base de graphe (chapitre 5),

et dans l’apprentissage de m´ elanges de Gaussiennes en pr´ esence de valeurs

manquantes (chapitre 6). Dans les deux cas, nous proposons de nouveaux

algorithmes capables de traiter des ensembles de donn´ ees significativement

plus grands. Les deux derniers chapitres traitent de l’efficacit´ e computation-

nelle sous un angle diff´ erent. Dans le chapitre 7, nous analysons de mani` ere

th´ eorique un algorithme existant pour l’apprentissage efficace dans les ma-

chines de Boltzmann restreintes (la divergence contrastive), afin de mieux

comprendre les raisons qui expliquent le succ` es de cet algorithme. Finale-

ment, dans le chapitre 8 nous pr´ esentons une application de l’apprentissage

machine dans le domaine des jeux vid´ eo, pour laquelle le probl` eme de l’ef-

ficacit´ e computationnelle est reli´ e ` a des consid´ erations d’ing´ enierie logicielle

et mat´ erielle, souvent ignor´ ees en recherche mais ˆ o combien importantes en

pratique.

(4)

iv

Mots-cl´ es : efficacit´ e computationnelle, efficacit´ e statistique, mal´ ediction

de la dimensionalit´ e, arbres de d´ ecision, r´ eseaux de neurones, apprentissage

semi-supervis´ e ` a base de graphe, divergence contrastive, m´ elanges de Gaus-

siennes, appariement de joueurs

(5)

Abstract

D espite constant progress in terms of available computational power, memory and amount of data, machine learning algorithms need to be efficient in how they use them. Although minimizing cost is an obvious major concern, another motivation is to attempt to design algorithms that can learn as efficiently as intelligent species. This thesis tackles the problem of efficient learning through various papers dealing with a wide range of machine learning algorithms: this topic is seen both from the point of view of computational efficiency (processing power and memory required by the algorithms) and of statistical efficiency (number of samples necessary to solve a given learning task).

The first contribution of this thesis is in shedding light on various statis- tical inefficiencies in existing algorithms. Indeed, we show that decision trees do not generalize well on tasks with some particular properties (chapter 3), and that a similar flaw affects typical graph-based semi-supervised learning algorithms (chapter 5). This flaw is a form of curse of dimensionality that is specific to each of these algorithms. For a subclass of neural networks, called sum-product networks, we prove that using networks with a single hidden layer can be exponentially less efficient than when using deep net- works (chapter 4). Our analyses help better understand some inherent flaws found in these algorithms, and steer research towards approaches that may potentially overcome them.

We also exhibit computational inefficiencies in popular graph-based semi- supervised learning algorithms (chapter 5) as well as in the learning of mix- tures of Gaussians with missing data (chapter 6). In both cases we propose new algorithms that make it possible to scale to much larger datasets. The last two chapters also deal with computational efficiency, but in different ways. Chapter 7 presents a new view on the contrastive divergence algo- rithm (which has been used for efficient training of restricted Boltzmann machines). It provides additional insight on the reasons why this algorithm has been so successful. Finally, in chapter 8 we describe an application of machine learning to video games, where computational efficiency is tied to software and hardware engineering constraints which, although often ignored in research papers, are ubiquitous in practice.

Keywords: computational efficiency, statistical efficiency, curse of dimen-

sionality, decision trees, neural networks, graph-based semi-supervised learn-

ing, contrastive divergence, mixtures of Gaussians, matchmaking

(6)

vi

(7)

Table des mati` eres

R´ esum´ e . . . . iii

Abstract . . . . v

Table des mati` eres . . . . vii

Liste des figures . . . . xi

Liste des tableaux . . . . xiii

Abbr´ eviations et notations . . . . xv

Remerciements . . . . xvii

1 Introduction . . . . 1

1.1 Objectif de l’apprentissage machine . . . . 2

1.2 Diff´ erents types d’apprentissage . . . . 2

1.2.1 Apprentissage supervis´ e . . . . 2

1.2.2 Apprentissage non supervis´ e . . . . 3

1.2.3 Apprentissage semi-supervis´ e . . . . 4

1.2.4 Apprentissage par renforcement . . . . 6

1.3 G´ en´ eralisation . . . . 6

1.3.1 Sur-apprentissage . . . . 6

1.3.2 R´ egularisation . . . . 8

1.3.3 Mal´ ediction de la dimensionalit´ e . . . . 9

1.4 Diff´ erents types de mod` eles . . . . 9

1.4.1 Mod` eles param´ etriques . . . . 9

1.4.2 Mod` eles non param´ etriques . . . . 10

1.5 Retour sur l’efficacit´ e statistique . . . . 11

2 Algorithmes d’apprentissage . . . . 17

2.1 k plus proches voisins . . . . 17

2.2 Fenˆ etres de Parzen . . . . 18

2.3 M´ elanges de Gaussiennes . . . . 19

2.4 Apprentissage de vari´ et´ es . . . . 21

2.5 Apprentissage semi-supervis´ e ` a base de graphe . . . . 22

2.6 M´ ethodes ` a noyau . . . . 24

(8)

viii

2.7 Arbres de d´ ecision . . . . 26

2.8 R´ eseaux de neurones . . . . 26

2.9 Machines de Boltzmann restreintes . . . . 29

2.10 Architectures profondes . . . . 30

2.11 M´ ethodes Bayesiennes . . . . 31

2.12 S´ election de mod` eles . . . . 32

3 Decision trees do not generalize to new variations . . . . . 37

3.1 Introduction . . . . 38

3.2 Definitions . . . . 41

3.3 Inability to generalize to new variations . . . . 42

3.3.1 Curse of dimensionality on the parity task . . . . 44

3.3.2 Curse of dimensionality for the checkerboard task . . . 46

3.4 Discussions . . . . 50

3.4.1 Trees vs local non-parametric models . . . . 51

3.4.2 Forests and boosted trees . . . . 51

3.4.3 Architectural depth and distributed representations . 52 3.5 Conclusion . . . . 56

3.6 Commentaires . . . . 58

4 Shallow vs. deep sum-product networks . . . . 63

4.1 Introduction and prior work . . . . 64

4.2 Sum-product networks . . . . 67

4.3 The family F . . . . 67

4.3.1 Definition . . . . 67

4.3.2 Theoretical results . . . . 68

4.3.3 Discussion . . . . 71

4.4 The family G . . . . 72

4.4.1 Definition . . . . 72

4.4.2 Theoretical results . . . . 73

4.4.3 Discussion . . . . 74

4.5 Conclusion . . . . 75

4.6 Commentaires . . . . 76

5 Graph-based semi-supervised learning . . . . 81

5.1 Introduction . . . . 82

5.2 Label propagation on a similarity graph . . . . 83

5.2.1 Iterative algorithms . . . . 83

5.2.2 Markov random walks . . . . 85

5.3 Quadratic cost criterion . . . . 87

5.3.1 Regularization on graphs . . . . 87

5.3.2 Optimization framework . . . . 90

5.3.3 Links with label propagation . . . . 91

5.3.4 Limit case and analogies . . . . 92

5.4 From transduction to induction . . . . 93

(9)

ix

5.5 Incorporating class prior knowledge . . . . 94

5.6 Large-scale algorithms . . . . 95

5.6.1 The scale problem . . . . 95

5.6.2 Cost approximations . . . . 96

5.6.3 Subset selection . . . . 99

5.6.4 Computational issues . . . 101

5.7 Curse of dimensionality for semi-supervised learning . . . 103

5.7.1 The smoothness prior, manifold assumption and non- parametric semi-supervised learning . . . 103

5.7.2 Curse of dimensionality for classical non-parametric learning . . . 106

5.7.3 Manifold geometry: the curse of dimensionality for local non-parametric manifold learning . . . 107

5.7.4 Curse of dimensionality for local non-parametric semi- supervised learning . . . 109

5.7.5 Outlook: non-local semi-supervised learning . . . 111

5.8 Discussion . . . 112

5.9 Commentaires . . . 114

6 Efficient EM for Gaussian Mixtures with Missing Data . . 119

6.1 Introduction . . . 120

6.2 EM for Gaussian mixtures with missing data . . . 122

6.3 Scaling EM to large datasets . . . 124

6.3.1 Cholesky updates . . . 125

6.3.2 Inverse variance lemma . . . 126

6.3.3 Optimal ordering from the minimum spanning tree . . 127

6.3.4 Fast EM algorithm overview . . . 129

6.4 Experiments . . . 129

6.4.1 Learning to model images . . . 129

6.4.2 Combining generative and discriminative models . . . 130

6.5 Conclusion . . . 133

6.6 Commentaires . . . 134

7 Justifying and generalizing contrastive divergence . . . . . 137

7.1 Introduction . . . 138

7.2 Boltzmann machines and contrastive divergence . . . 140

7.2.1 Boltzmann machines . . . 140

7.2.2 Restricted Boltzmann machines . . . 141

7.2.3 Contrastive divergence . . . 142

7.3 Log-likelihood expansion via Gibbs chain . . . 143

7.4 Connection with contrastive divergence . . . 146

7.4.1 Theoretical analysis . . . 146

7.4.2 Experiments . . . 148

7.5 Connection with autoassociator reconstruction error . . . 153

7.6 Conclusion . . . 154

(10)

x

7.7 Commentaires . . . 156

8 Beyond skill rating: advanced matchmaking in GRO . . . . 161

8.1 Introduction . . . 162

8.2 Neural network models . . . 164

8.2.1 Predicting match balance . . . 164

8.2.2 Predicting player enjoyment . . . 167

8.3 Architecture . . . 168

8.3.1 Matchmaking . . . 168

8.3.2 Data collection . . . 169

8.3.3 Model optimization . . . 170

8.4 Experiments . . . 171

8.4.1 Dataset . . . 171

8.4.2 Algorithms . . . 171

8.4.3 Experimental setup . . . 172

8.4.4 Game balance . . . 173

8.4.5 Player fun . . . 175

8.5 Related work . . . 177

8.5.1 Matchmaking . . . 177

8.5.2 Skill rating . . . 178

8.5.3 Player modeling . . . 181

8.6 Conclusion and future directions . . . 182

8.7 Commentaires . . . 184

8.7.1 Efficacit´ e statistique . . . 184

8.7.2 Efficacit´ e computationnelle . . . 184

9 Conclusion . . . . 191

(11)

Liste des figures

1.1 Apprentissage supervis´ e : classification et r´ egression . . . . . 3

1.2 Apprentissage non supervis´ e : estimation de densit´ e . . . . . 4

1.3 Apprentissage semi-supervis´ e : probl` eme des deux lunes . . . 5

1.4 Sur-apprentissage . . . . 7

1.5 Mal´ ediction de la dimensionalit´ e . . . . 10

1.6 Mod` ele param´ etrique : r´ egression lin´ eaire . . . . 11

1.7 Mod` ele non param´ etrique : r´ egression par fenˆ etres de Parzen 12 1.8 Inefficacit´ e statistique de la r´ egression par fenˆ etres de Parzen 13 1.9 Inefficacit´ e statistique d’un mod` ele sur-param´ etris´ e . . . . 14

2.1 k plus proches voisins pour la classification . . . . 18

2.2 Fenˆ etres de Parzen pour l’estimation de densit´ e . . . . 19

2.3 M´ elange de Gaussiennes : apprentissage par EM . . . . 21

2.4 Vari´ et´ e non lin´ eaire de dimension 1 . . . . 21

2.5 Apprentissage de vari´ et´ e pour la visualisation de donn´ ees . . 22

2.6 Apprentissage semi-supervis´ e ` a base de graphe . . . . 24

2.7 Machine ` a vecteurs de support . . . . 25

2.8 Arbre de d´ ecision . . . . 26

2.9 R´ eseau de neurones ` a une couche cach´ ee . . . . 28

2.10 Machine de Boltzmann restreinte . . . . 29

2.11 R´ eseau profond construit par superposition de RBMs . . . . . 31

2.12 Validation crois´ ee et validation s´ equentielle . . . . 33

3.1 Illustration d’un th´ eor` eme de Cucker et al. (1999) . . . . 43

3.2 Lien entre profondeur d’un arbre et erreur de g´ en´ eralisation . 45 3.3 R´ eseau profond calculant la parit´ e . . . . 55

4.1 R´ eseau sommes-produits calculant une fonction dans F . . . 68

4.2 R´ eseau sommes-produits calculant une fonction dans G 1,3 . . 72

5.1 Comparaison du temps de calcul d’algorithmes semi-supervis´ es102 5.2 Mal´ ediction de la dimensionalit´ e pour les vari´ et´ es . . . 108

5.3 Contraintes locales dans l’estimation du plan tangent . . . 109

6.1 D´ etermination des valeurs manquantes dans des images . . . 130

6.2 Elimination des valeurs manquantes pour r´ ´ eseau de neurones 132

6.3 Elimination des valeurs manquantes pour r´ ´ egression ` a noyau . 132

6.4 Comparaison entre m´ ethodes discriminantes et g´ en´ eratives . . 132

(12)

xii Liste des figures

7.1 Biais de la divergence contrastive selon le temps . . . 150

7.2 Biais de la divergence contrastive selon la longeur de la chaˆıne 151

7.3 Magnitude des poids d’une RBM selon la dimension . . . 151

7.4 Diff´ erence de signe entre divergence contrastive et gradient . 152

7.5 Influence de la dimension sur la divergence contrastive . . . . 152

8.1 Les classes de personnages dans Ghost Recon Online . . . 162

8.2 R´ eseau de neurones pour pr´ edire l’´ equipe gagnante . . . 165

8.3 R´ eseau de neurones pour pr´ edire la satisfaction des joueurs . 167

8.4 Architecture pour l’appariement de joueurs . . . 169

8.5 Distribution du nombre de matchs par joueur . . . 171

8.6 Validation s´ equentielle avec s´ election de mod` ele . . . 173

(13)

Liste des tableaux

5.1 Comparaison de la complexit´ e d’algorithmes semi-supervis´ es . 102

5.2 Comparaison des algorithmes NoSub, RandSub et SmartSub . 114

8.1 Performance en pr´ ediction de l’´ equipe gagnante . . . 174

8.2 Performance en pr´ ediction de la satisfaction des joueurs . . . 176

8.3 Performance en pr´ ediction des matchs les plus int´ eressants . . 177

(14)

xiv

(15)

Abbr´ eviations et notations

CD Divergence Contrastive (Contrastive Divergence) EM Esp´ erance-Maximisation (Expectation-Maximization) NLL Log-Vraisemblance N´ egative (Negative Log-Likelihood)

PCA Analyse en Composantes Principales (Principal Component Analysis) RBM Machine de Boltzmann Restreinte (Restricted Boltzmann Machine) SVM Machine ` a Vecteurs de Support (Support Vector Machine)

f (t) valeur de la fonction f appliqu´ ee ` a t f ( · ) fonction f (ayant un argument) ln( · ) ou log( · ) logarithme n´ ep´ erien

argmax _u f(u) la valeur de u qui maximise f (u) argmin _u f (u) la valeur de u qui minimise f (u) R ensemble des nombres r´ eels

v ^T w produit scalaire entre les vecteurs v et w M ^T transpos´ ee de la matrice M

M _ij ´ el´ ement de la matrice M en i-` eme rang´ ee et j-` eme colonne 1 · fonction indicatrice, par exemple 1 i<j vaut 1 si i < j, et 0 sinon

I matrice identit´ e

L matrice Laplacienne associ´ ee ` a un graphe

x i partie “entr´ ee” du i-` eme exemple d’apprentissage

x ij la j-` eme composante de la partie “entr´ ee” du i-` eme exemple d’apprentissage y _i partie “´ etiquette” du i-` eme exemple d’apprentissage

z i i-` eme exemple d’apprentissage (si ´ etiquet´ e : z i = (x i , y i ), sinon : z i = x i ) D = { z 1 , . . . , z n } ensemble d’entraˆınement

T ensemble de test

` nombre d’exemples ´ etiquet´ es dans l’ensemble d’entraˆınement K( · , · ) fonction noyau (ayant deux arguments)

P (V ) distribution de probabilit´ e d’une variable al´ eatoire V P (v) raccourci pour P (V = v) (probabilit´ e discr` ete ou densit´ e)

P (v | w) raccourci pour P (V = v | W = w) (probabilit´ e discr` ete ou densit´ e)

P ˆ distribution empirique

v ∼ P(V ) indique que la quantit´ e v est tir´ ee de la distribution P (V ) E _V [f (V )] esp´ erance de f (V ), ´ egale ` a R

v f (v)P (V = v)dv E _V [f (V ) | w] esp´ erance conditionnelle de f(V ), ´ egale ` a R

v f (v)P(V = v | W = w)dv D KL (P k Q) divergence de Kullback-Leibler entre les distributions P et Q

N ( · ; µ, Σ) densit´ e d’une Gaussienne de moyenne µ et covariance Σ E fonction d’´ energie dans une machine de Boltzmann restreinte

` ₁ type de r´ egularisation qui pour un param` etre θ ∈ R ^k s’´ ecrit P k i=1 | θ _i |

` ₂ type de r´ egularisation qui pour un param` etre θ ∈ R ^k s’´ ecrit P k

i=1 θ _i ²

(16)

xvi

(17)

Remerciements

M ^erci ^` a tous ceux et celles qui ont contribu´ e, de pr` es ou de loin, ` a ce que cette th` ese voie le jour. Je pourrais m’arrˆ eter l` a, mais il serait ingrat de ma part de ne pas insister sur l’importance particuli` ere de l’aide apport´ ee par mon directeur de recherches, le Professeur Yoshua Bengio, sans qui je me demanderais encore quel pourrait bien ˆ etre le sujet de ma th` ese.

J’ai eu l’occasion de travailler dans des environnements vari´ es, que cela soit parmi les ´ etudiants et professeurs du Laboratoire d’Informatique des Syst` emes Adaptatifs (LISA) de l’Universit´ e de Montr´ eal, ou les ´ equipes de ApSTAT Technologies et Ubisoft. Dans tous les cas, je n’ai jamais consid´ er´ e que partir travailler le matin ´ etait une corv´ ee, ` a de rares exceptions pr` es essentiellement dues ` a quelques nuits trop courtes et aux al´ eas du transport en commun. Merci donc ` a vous tous qui participez ` a rendre l’ambiance de travail agr´ eable, et aux employ´ es de la STM qui tentent de minimiser les arrˆ ets de service du m´ etro et retards d’autobus.

Je m’´ etais d´ ej` a demand´ e jadis, ´ etant jeune et na¨ıf, pourquoi les auteurs d’autres th` eses ou livres remerciaient syst´ ematiquement leur conjoint(e).

Maintenant que je connais la r´ eponse, je me dois de remercier Annie de m’avoir support´ e – dans tous les sens du terme. Pour continuer dans la fa- mille, un gros merci ´ egalement ` a mes parents pour leur soutien ind´ efectible.

Et je salue au passage mon fr` ere Ga¨ el, qui n’a pas grand-chose ` a voir avec cette th` ese mais sera sˆ urement content d’en faire partie.

Finalement, m’´ etant inspir´ e de Nicolas Chapados en ce qui a trait ` a la dur´ ee de mon doctorat, il m’a sembl´ e logique de r´ eutiliser le mod` ele L ^A TEX qu’il a d´ evelopp´ e pour sa propre th` ese. Il m´ erite toute ma gratitude pour cela ^∗ , car mˆ eme si je laisserai ` a d’autres le soin de juger de l’aspect esth´ etique de ce document, une chose est certaine : je n’aurais pas fait mieux par moi- mˆ eme.

∗

Pour m’avoir autoris´ e ` a r´ e-utiliser son mod` ele, pas pour m’avoir montr´ e comment

´

etirer un doctorat en longueur.

(18)

xviii

(19)

1 Introduction

C ^{ette th`} ^{ese aborde} des sujets tr` es vari´ es, mais revenant syst´ emati- quement ` a un mˆ eme th` eme central, celui de l’efficacit´ e en apprentis- sage machine. Mon int´ erˆ et principal est de mieux comprendre les forces et limitations des algorithmes typiquement utilis´ es en apprentissage machine.

Cette compr´ ehension th´ eorique n’a pas pour seul but de faire progresser la recherche d’am´ eliorations algorithmiques : elle est ´ egalement cruciale dans l’application judicieuse de ces algorithmes pour la r´ esolution de “vrais” pro- bl` emes. Par “vrais” probl` emes, je parle ici d’applications industrielles de l’apprentissage machine au-del` a des probl` emes de r´ ef´ erence r´ eguli` erement utilis´ es dans les publications scientifiques. Ayant eu l’occasion de travailler sur de telles applications au travers de partenariats industriels avant ^∗ ainsi que pendant ^† mon doctorat, j’ai pu r´ ealiser ` a quel point une telle compr´ e- hension est cruciale pour la r´ eussite de ces projets.

Le terme “efficacit´ e” peut ˆ etre interpr´ et´ e de diff´ erentes mani` eres. La pre- mi` ere est sans doute la plus ´ evidente : il s’agit de l’efficacit´ e computation- nelle, c.` a.d. du temps de calcul et de la m´ emoire requis pour l’ex´ ecution d’un algorithme d’apprentissage. La seconde mani` ere dont l’efficacit´ e est en- visag´ ee dans cette th` ese est du point de vue de l’efficacit´ e statistique, c.` a.d.

du nombre d’exemples n´ ecessaire pour apprendre ` a effectuer une certaine tˆ ache. Cette mesure d’efficacit´ e ne d´ epend pas seulement de la tˆ ache en question, mais ´ egalement de la mani` ere dont elle est apprise (donc de l’al- gorithme d’apprentissage). Le but de ce premier chapitre d’introduction est de pr´ esenter les concepts de base de l’apprentissage machine permettant de comprendre ce ph´ enom` ene.

Le second chapitre introduit les diff´ erents algorithmes qui seront utilis´ es dans les chapitres suivants (correspondant chacun ` a un article). L’ordre de pr´ esentation des articles suit – approximativement – une progression de l’ef- ficacit´ e statistique (plus th´ eorique) vers l’efficacit´ e computationnelle (plus pratique). Chaque article est pr´ ec´ ed´ e d’une mise en contexte, et suivi de commentaires r´ esumant les enseignements principaux ` a en tirer par rapport au th` eme r´ ecurrent de l’efficacit´ e.

∗

Avec Bell Canada.

†

Avec ApSTAT Technologies et Ubisoft.

(20)

2 Introduction

1.1 Objectif de l’apprentissage machine

L’apprentissage machine est une sous-discipline de l’intelligence artifi- cielle dont l’objectif ultime est de reproduire chez l’ordinateur les capacit´ es cognitives de l’ˆ etre humain, par le biais de l’apprentissage. Ici, le terme ap- prentissage est ` a mettre en opposition avec des techniques d’intelligence artificielle bas´ ees sur des comportements (apparemment) intelligents “pr´ e- cod´ es”, comme dans le fameux programme ELIZA (Weizenbaum, 1966) o` u l’ordinateur donnait l’illusion de pouvoir poursuivre une conversation in- telligente avec un humain (` a partir d’un syst` eme en fait tr` es basique de d´ etection de mots-cl´ es et de r´ eponses pr´ e-d´ efinies). L’approche “apprentis- sage machine” consiste plutˆ ot ` a programmer des m´ ecanismes qui permettent de d´ evelopper les connaissances (c.` a.d. d’apprendre) ` a partir d’observations (les exemples d’apprentissage), de mani` ere automatique.

Les ˆ etres humains et les animaux faisant preuve de capacit´ es d’appren- tissage impressionnantes, il est naturel que l’apprentissage machine s’inspire d’eux pour tenter de reproduire leurs comportements. En particulier, les travaux en neurosciences visant ` a comprendre les m´ ecanismes d’apprentis- sage dans le cerveau sont suivis avec grand int´ erˆ et par la communaut´ e de recherche en apprentissage machine. Une classe d’algorithmes d’apprentis- sage tr` es populaire, les r´ eseaux de neurones, a ainsi ´ et´ e inspir´ ee de telles observations biologiques. Mais les d´ etails du fonctionnement du cerveau res- tant pour l’instant en grande partie un myst` ere, nous sommes encore loin d’un “cerveau artificiel”. Les algorithmes d´ evelopp´ es en apprentissage ma- chine ont des objectifs moins ambitieux. Ils ont chacun leurs propres forces et faiblesses – souvent tr` es diff´ erentes de celles des humains – et sont g´ en´ era- lement pr´ evus pour r´ esoudre certains types de probl` emes sp´ ecifiques (alors que le cerveau est capable d’accomplir une multitude de tˆ aches diff´ erentes).

1.2 Diff´ erents types d’apprentissage

1.2.1 Apprentissage supervis´ e

La forme d’apprentissage qui est consid´ er´ ee comme la plus intuitive est celle dite d’apprentissage supervis´ e. Cela signifie que la r´ eponse attendue est observ´ ee dans les donn´ ees collect´ ees. Formellement, si l’on note z un exemple d’apprentissage, alors on peut ´ ecrire z = (x, y) avec x la partie “entr´ ee”, c.` a.d.

les donn´ ees que l’algorithme est autoris´ e ` a utiliser pour faire une pr´ ediction, et y la partie “´ etiquette”, c.` a.d. la valeur correcte pour la pr´ ediction. Par exemple, si la tˆ ache consiste ` a d´ eterminer le sexe d’une personne ` a partir d’une photo d’identit´ e, x serait la photo et y soit “homme”, soit “femme”

(en supposant qu’il s’agisse des deux seules possibilit´ es). Dans un tel cas o` u

les valeurs possibles de l’´ etiquette y ne sont pas interpr´ etables comme des

nombres, on parle de tˆ ache de classification. Si par contre la tˆ ache ´ etait de

(21)

1.2 Diff´ erents types d’apprentissage 3

pr´ edire l’ˆ age de la personne plutˆ ot que son sexe, y serait un nombre et on parlerait d’une tˆ ache de r´ egression. La figure 1.1 illustre ces deux situations.

J Fig. 1.1. Exemples typiques d’apprentissage supervis´ e : classification (` a gauche) pour pr´ edire le sexe, et r´ egression (` a droite) pour pr´ edire l’ˆ age, Les photos aux deux extr´ emit´ es de l’axe des x sont des exemples d’entraˆınement pour lesquels l’´ etiquette est connue, tandis que la photo du milieu est celle pour laquelle on veut obtenir une pr´ ediction.

L’algorithme est entraˆın´ e sur un ensemble de donn´ ees pr´ e-collect´ ees (l’en- semble d’entraˆınement), de la forme D = {z 1 , . . . , z n }, avec z i = (x i , y i ). De nombreux algorithmes supposent que ces exemples sont tir´ es de mani` ere in- d´ ependante et identiquement distribu´ ee (i.i.d.) d’une distribution P , c.` a.d.

z _i ∼ P (X, Y ) (o` u la forme exacte de P n’est pas connue d’avance). Selon la tˆ ache ` a r´ esoudre, la pr´ ediction d’un algorithme d’apprentissage supervis´ e va g´ en´ eralement tenter d’approximer l’une des trois quantit´ es suivantes :

– P(y|x) : dans notre exemple de classification (trouver le sexe), il fau- drait pr´ edire la probabilit´ e qu’une photo soit une photo d’un homme par un nombre p (la probabilit´ e que ce soit la photo d’une femme

´ etant alors 1 − p). Dans notre exemple de r´ egression (trouver l’ˆ age), la pr´ ediction serait une densit´ e de probabilit´ e sur l’intervalle ]0, + ∞ [.

– argmax _y P (y | x) : dans notre exemple de classification, il s’agirait d’une pr´ ediction binaire du sexe le plus probable (“homme” ou “femme”).

Dans notre exemple de r´ egression, il s’agirait de l’ˆ age le plus probable.

– E _Y [Y | x] = R

y yP (y | x)dy : cette quantit´ e n’a de sens que pour la r´ e- gression, et il s’agirait dans notre exemple de pr´ edire l’ˆ age moyen de la personne ´ etant donn´ ee sa photo.

Il faut noter que la pr´ ediction de P (y | x) est la tˆ ache la plus g´ en´ erale (dans la mesure o` u la r´ esoudre permet ´ egalement d’accomplir les deux autres), mais tous les algorithmes d’apprentissage ne sont pas capables d’estimer une distribution de probabilit´ e.

1.2.2 Apprentissage non supervis´ e

Dans l’apprentissage non supervis´ e, un exemple z _i = x _i ∼ P (X) ne

contient pas d’´ etiquette explicite. Il existe plusieurs types de tˆ aches d’ap-

prentissage non supervis´ e, parmi lesquelles les plus souvent rencontr´ ees sont :

– L’estimation de densit´ e : estimer P (x), comme illustr´ e en figure 1.2.

(22)

4 Introduction

– La g´ en´ eration de donn´ ees : tirer de nouveaux exemples d’une distri- bution la plus proche possible de P (X).

– L’extraction de caract´ eristiques : trouver une fonction f telle que f(x) soit “int´ eressant”, par exemple pour :

– compresser x, c.` a.d. que f(x) devrait ˆ etre de dimension plus petite que x tout en permettant de reconstruire x par une fonction g telle que x ' g(f (x)),

– simplifier l’apprentissage ` a partir de x, c.` a.d. que f (x) devrait ˆ etre tel qu’un algorithme d’apprentissage (possiblement supervis´ e) utili- sant f(x) comme entr´ ee au lieu de x donne de meilleurs r´ esultats.

– Le regroupement (“clustering” en anglais) : partitionner les exemples en groupes G ₁ , . . . , G _k tels que tous les exemples dans un mˆ eme groupe soient similaires (o` u plusieurs notions de similarit´ e peuvent ˆ etre utili- s´ ees, menant ` a des r´ esultats potentiellement tr` es diff´ erents).

I Fig. 1.2. Exemple d’apprentissage non supervis´ e : l’estimation de densit´ e. ` A gauche, les donn´ ees d’origine (taille et poids de 1033 joueurs de baseball aux

Etats-Unis). ` ´ A droite, l’estimation de la densit´ e par une

distribution Gaussienne.

66 68 70 72 74 76 78 80 82 84 taille (pouces)

140 160 180 200 220 240 260 280 300

poids (livres)

taille poids

P(taille, poids)

taille poids

P(taille, poids)

1.2.3 Apprentissage semi-supervis´ e

Comme son nom l’indique, l’apprentissage semi-supervis´ e est ` a mi-chemin

entre le supervis´ e et le non supervis´ e : certains exemples z i = (x i , y i ) (1 ≤

i ≤ `) ont une ´ etiquette, tandis que d’autres exemples z i = x i (` + 1 ≤ i ≤ n)

n’en ont pas (on dit qu’ils ne sont pas “´ etiquet´ es”). Les algorithmes d’ap-

prentissage semi-supervis´ e tentent g´ en´ eralement de r´ esoudre des probl` emes

d’apprentissage supervis´ e, mais en utilisant les exemples non ´ etiquet´ es pour

am´ eliorer leur pr´ ediction. L’id´ ee sous-jacente, pr´ esent´ ee plus en d´ etails dans

le prochain chapitre (section 2.5), est que la distribution des entr´ ees P (X)

peut nous donner de l’information sur P (Y | X) mˆ eme en l’absence d’´ eti-

quettes. Un exemple typique o` u c’est le cas, pour une tˆ ache de classification,

est lorsque les exemples de chaque classe forment des groupes distincts dans

l’espace des entr´ ees, s´ epar´ es par des zones de faible densit´ e P(x). La fi-

gure 1.3 montre ainsi deux classes dont la forme en croissant est r´ ev´ el´ ee

par les exemples non ´ etiquet´ es. Un algorithme purement supervis´ e – donc

(23)

1.2 Diff´ erents types d’apprentissage 5

ignorant ces exemples – ne pourrait pas identifier correctement ces deux classes.

J Fig. 1.3. Apprentis- sage semi-supervis´ e : ici seuls 5 exemples sont

´ etiquet´ es (deux de la classe * en rouge, et trois de la classe + en bleu). Un algorithme n’utlisant pas les exemples non ´ etiquet´ es (petits x mauves) s´ eparerait les deux classes par exemple selon la ligne en pointill´ es, alors qu’un algorithme

semi-supervis´ e (ou un humain) pourrait s´ eparer les deux

“croissants de lune”

correspondant ` a chaque classe.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−2.5

−2

−1.5

−1

−0.5 0 0.5 1 1.5 2 2.5

Dans le cadre de l’apprentissage supervis´ e d´ ecrit pr´ ec´ edemment, l’appli- cation d’un algorithme se fait typiquement en deux ´ etapes :

1. L’algorithme va d’abord apprendre une tˆ ache (phase d’entraˆınement) sur un ensemble D = { (x ₁ , y ₁ ), . . . , (x _n , y _n ) } .

2. L’algorithme doit ensuite faire ses pr´ edictions (phase de test) sur un ensemble T dont on ne fournit pas les ´ etiquettes.

Un algorithme semi-supervis´ e peut ´ egalement suivre ces deux ´ etapes (en n’oubliant pas que D peut contenir ´ egalement des exemples non ´ etiquet´ es).

On dit alors que la phase de pr´ ediction sur l’ensemble de test se fait par

induction. Mais puisque l’algorithme peut utiliser des exemples non ´ etique-

t´ es au cours de l’apprentissage, on peut ´ egalement inclure T dans D : on

parle alors de transduction, et en g´ en´ eral les performances seront meilleures

qu’en induction puisque plus d’exemples sont disponibles pour l’apprentis-

sage. Il existe malgr´ e tout des applications o` u il n’est pas possible d’inclure

T dans l’ensemble d’entraˆınement, par exemple lorsque les ´ el´ ements de T

sont g´ en´ er´ es en temps r´ eel et que l’on a besoin de pr´ edictions imm´ ediates : si

r´ e-entraˆıner l’algorithme avant chaque nouvelle pr´ ediction s’av` ere trop lent,

l’induction est alors la seule option possible.

(24)

6 Introduction

1.2.4 Apprentissage par renforcement

L’apprentissage par renforcement est une forme d’apprentissage super- vis´ e o` u l’algorithme n’observe pas une ´ etiquette pour chacune de ses pr´ edic- tions, mais plutˆ ot une mesure de la qualit´ e de ses pr´ edictions (possiblement prenant en compte toute une s´ equence de pr´ edictions). Cette th` ese n’aborde pas l’apprentissage par renforcement, que je mentionne ici uniquement par souci d’exhaustivit´ e. Le lecteur int´ eress´ e par ce sujet pourra se r´ ef´ erer au livre r´ ef´ erence de Sutton et al. (1998).

1.3 G´ en´ eralisation

1.3.1 Sur-apprentissage

L’entraˆınement d’un algorithme d’apprentissage consiste ` a extraire, de mani` ere explicite ou implicite, des caract´ eristiques de la distribution de pro- babilit´ e P qui g´ en` ere les donn´ ees. Mais P ´ etant inconnue, l’algorithme se base ` a la place sur un nombre fini d’exemples d’entraˆınement, c.` a.d. sur la distribution discr` ete ˆ P des exemples disponibles dans D (appel´ ee la dis- tribution empirique). Lorsque certaines caract´ eristiques apprises sur ˆ P ne s’appliquent pas ` a P , on parle de sur-apprentissage, et on risque une mau- vaise g´ en´ eralisation, c.` a.d. que l’algorithme ne va pas obtenir une bonne performance sur de nouveaux exemples tir´ es de P .

Prenons l’exemple de la classification, lorsqu’un mod` ele estime P (y|x) par une fonction q _x (y). Afin de mesurer la similarit´ e entre q _x et P ( ·| x), on peut par exemple utiliser la divergence de Kullback-Leibler D _KL (Kullback, 1959), d´ efinie par :

D KL (P (·|x)kq x ) = X

y

P (y|x) ln P (y | x) q x (y) .

Cette quantit´ e est toujours sup´ erieure ou ´ egale ` a z´ ero, et est ´ egale ` a z´ ero si et seulement si q _x est ´ egale ` a P ( ·| x). La minimisation de la divergence de Kullback-Leibler est donc un crit` ere raisonnable pour obtenir une fonction q x

qui approxime P ( ·| x). Vu que le but est d’obtenir une bonne approximation pour toutes les valeurs de x qui pourraient ˆ etre g´ en´ er´ ees par P , il est logique de consid´ erer la minimisation du crit` ere

C(q) = E _X [D _KL (P ( ·| X) k q _X ]

= Z

x

X

y

P(x)P (y | x) ln P (y | x)

q x (y) dx. (1.1)

C(q) est ici ce que l’on appelle l’erreur de g´ en´ eralisation, c.` a.d. l’erreur

moyenne sur des exemples tir´ es de P . Puisque P est inconnue, on mini-

mise en pratique un crit` ere ˆ C d´ efini de la mˆ eme mani` ere en rempla¸ cant P

(25)

1.3 G´ en´ eralisation 7

par ˆ P . C’est le principe de minimisation du risque empirique (Vapnik, 1998), et ˆ C s’´ ecrit ici :

C(q) = ˆ

n

X

i=1

1 n ln 1

q _x

_i

(y _i ) = − 1 n

n

X

i=1

ln q x

i

(y i ) (1.2) qui est appel´ ee la log-vraisemblance n´ egative (en anglais NLL, pour “Negative Log-Likelihood”). Ce crit` ere est minimis´ e d` es que q _x

_i

(y _i ) = 1 pour tous les exemples d’entraˆınement (x _i , y _i ) ∈ D , et ce quelle que soit la valeur de q _x (y) pour des valeurs de x non observ´ ees dans D . Une fonction q peut donc minimiser ˆ C(q) sans n´ ecessairement minimiser C(q). Si c’est le cas, on est en situation de sur-apprentissage, illustr´ ee en figure 1.4.

X

+ Une séparation qui minimise

l'erreur de généralisation

Une séparation

qui minimise

l'erreur empirique

X

X X

X

X XX X

X X

X X X

X X

X X X X X

X X

+ + + +

+ + + + +

+ + +

+ +

+

+ +

X

+ +

+

J Fig. 1.4. Situation de sur-apprentissage : classifica- tion binaire (les classes sont les cercles rouge et bleu, avec respectivement les × et les + comme exemples d’entraˆıne- ment). Une s´ eparation id´ eale en terme d’erreur de g´ en´ erali- sation serait la ligne en poin- till´ es, mais un algorithme dont le but est uniquement de minimiser l’erreur empi- rique pourrait par exemple s´ eparer les exemples selon la ligne pleine : la classification des exemples d’entraˆınement serait parfaite, mais l’erreur de g´ en´ eralisation serait plus

´ elev´ ee que celle de la ligne en pointill´ es.

Pour une distribution fixe des donn´ ees, deux facteurs principaux aug- mentent le risque de sur-apprentissage :

– Le manque d’exemples d’entraˆınement : moins il y a d’exemples, plus il existe de fonctions minimisant le crit` ere ˆ C(q) (eq. 1.2), parmi lesquelles seulement un petit nombre seront vraiment proches de la “vraie” solu- tion au probl` eme.

– Pas assez de contraintes dans la forme de la fonction q : moins la

classe de fonctions ` a laquelle q appartient est restreinte, plus l’algo-

rithme d’apprentissage risque de tirer parti de la flexibilit´ e de q pour

apprendre des “d´ etails” des exemples d’entraˆınement, qui ne se g´ en´ e-

ralisent pas ` a la vraie distribution P . C’est le cas par exemple dans

la figure 1.4 o` u la s´ eparation tarabiscot´ ee des exemples par la ligne

pleine permet de minimiser l’erreur empirique, mais va mener ` a une

plus grande erreur de g´ en´ eralisation qu’une simple ligne droite.

(26)

8 Introduction

1.3.2 R´ egularisation

Un moyen de lutter contre le sur-apprentissage est d’utiliser une tech- nique dite de r´ egularisation. Il existe plusieurs m´ ethodes de r´ egularisation, mais elles partagent le mˆ eme principe : rajouter au processus d’apprentissage des contraintes qui, si elles sont appropri´ ees, vont am´ eliorer les capacit´ es de g´ en´ eralisation de la solution obtenue.

Reprenons par exemple le cas de la classification, o` u l’on cherche ` a mini- miser le crit` ere C(q) (´ eq. 1.1), que l’on approxime par ˆ C(q) (´ eq. 1.2). Comme nous venons de le voir, ce probl` eme est mal d´ efini car il existe une infinit´ e de fonctions qui minimisent ˆ C, sans donner aucune garantie sur la valeur de C. Une premi` ere fa¸ con de r´ egulariser le probl` eme est donc de restreindre la forme de q : par exemple si x ∈ R ^d et y ∈ {0, 1} on peut se limiter aux fonctions de la forme

q _x (1) = 1

1 + e ^−w

^T

^x (1.3)

o` u w ∈ R ^d est le vecteur de param` etres du mod` ele.

Notons que si les x i de l’ensemble d’entraˆınement sont lin´ eairement in- d´ ependants, alors cette contrainte sur la forme de q n’est pas suffisante, puisqu’il est toujours possible que ˆ C(q) soit arbitrairement proche de z´ ero sans pour autant avoir de garantie sur la valeur de C(q). Une technique clas- sique de r´ egularisation consiste alors ` a rajouter au crit` ere ˆ C une mesure qui p´ enalise la complexit´ e de la solution, suivant le principe du rasoir d’Occam qui dit que les hypoth` eses les plus simples sont les plus vraisemblables (voir par exemple Blumer et al., 1987). Une possibilit´ e est de minimiser

C(q) = ˆ ˜ C(q) + λ k w k ² (1.4) au lieu de ˆ C, pour q d´ efini comme dans l’´ eq. 1.3, afin d’empˆ echer le vecteur w de contenir des valeurs arbitrairement grandes (en valeur absolue). Le param` etre λ contrˆ ole la force de cette contrainte (lorsque λ → + ∞ la seule solution possible est la fonction constante q x (1) = q x (0) = 0.5, qui est la plus simple qu’on puisse imaginer). Le crit` ere empirique ˆ C(q ^∗ ) pour la fonction q ^∗ qui minimise le crit` ere r´ egularis´ e ˜ C pourrait ne pas ˆ etre proche de z´ ero, mais on peut souvent ainsi – pour certaines valeurs de λ – obtenir des valeurs plus basses du crit` ere de g´ en´ eralisation C (celui qui nous int´ eresse vraiment).

C’est le principe de la minimisation du risque structurel (Vapnik, 1998).

Dans cet exemple, nous avons utilis´ e k w k ² pour mesurer la complexit´ e

de la fonction q d´ efinie ` a partir de w par l’´ eq. 1.3. En g´ en´ eral, il n’existe

pas une seule mesure de complexit´ e universelle qui soit appropri´ ee pour tous

les algorithmes d’apprentissage, et le choix de la mesure de complexit´ e ` a

p´ enaliser joue un rˆ ole tr` es important. La complexit´ e de Kolmogorov (So-

lomonoff, 1964; Kolmogorov, 1965), qui sera mentionn´ ee dans cette th` ese,

est une mesure de complexit´ e tr` es g´ en´ erique qui est int´ eressante en th´ eorie,

mˆ eme si en pratique elle est souvent impossible ` a utiliser directement. Elle

consiste ` a dire que la complexit´ e d’une fonction est la taille du plus petit

(27)

1.4 Diff´ erents types de mod` eles 9

programme qui l’impl´ emente. Un premier obstacle ` a l’utilisation de cette complexit´ e est le fait qu’il faille choisir un langage de programmation ap- propri´ e : par exemple si le langage choisi contient une fonction primitive qui calcule le produit scalaire, alors, dans notre exemple ci-dessus la plupart des fonctions q d´ efinies par l’´ eq. 1.3 ont la mˆ eme complexit´ e de Kolmogorov.

Par contre, si le produit scalaire n’est pas une primitive du langage (et qu’il n’y a pas d’instruction de boucle), alors il faut l’´ ecrire comme une somme de produits et q est d’autant plus complexe que w a d’´ el´ ements non nuls.

Une autre difficult´ e est qu’il n’est en g´ en´ eral pas possible d’optimiser la com- plexit´ e de Kolmogorov de mani` ere efficace, ce qui rend vaine son utilisation directe dans un processus d’optimisation. Elle a malgr´ e tout de nombreuses applications, comme d´ ecrit dans le livre de Li et al. (2008).

1.3.3 Mal´ ediction de la dimensionalit´ e

On peut observer empiriquement – et dans certains cas justifier math´ e- matiquement – que plus la dimension d de l’entr´ ee x est ´ elev´ ee, plus les tˆ aches d’apprentissage machine ont tendance ` a ˆ etre difficiles ` a r´ esoudre. C’est ce qu’on appelle la mal´ ediction de la dimensionalit´ e (Bellman, 1961). Il existe plusieurs manifestations de cette mal´ ediction. La plus importante dans le contexte de cette th` ese est le fait que le nombre de combinaisons possibles des entr´ ees augmente exponentiellement avec la dimensionalit´ e d : en notant x ij la valeur associ´ ee ` a la j-` eme dimension de l’entr´ ee x i , si l’on suppose que ces entr´ ees ne peuvent prendre qu’un nombre fini k de valeurs, alors le nombre de combinaisons possibles est ´ egal ` a k ^d . Un algorithme qui ap- prend “bˆ etement” ` a associer une valeur ` a chaque combinaison sans partager d’information entre les diff´ erentes combinaisons n’a aucune chance de fonc- tionner en haute dimension, car il ne pourra pas g´ en´ eraliser aux multiples combinaisons qui n’ont pas ´ et´ e vues dans l’ensemble d’entraˆınement. Dans le cas o` u x ij n’est pas contraint dans un ensemble fini de valeurs, l’intuition reste la mˆ eme pour certains algorithmes qui consistent ` a “partitionner” R ^d en r´ egions ind´ ependantes (possiblement de mani` ere implicite) : si le nombre de ces r´ egions augmente exponentiellement avec d, alors un tel algorithme aura de la difficult´ e ` a g´ en´ eraliser pour de grandes valeurs de d. La figure 1.5 illustre ce ph´ enom` ene en une et deux dimensions, et il faut garder ` a l’esprit que la situation peut s’av´ erer encore bien pire lorsque l’on manipule des entr´ ees ` a plusieurs centaines de dimensions.

1.4 Diff´ erents types de mod` eles

1.4.1 Mod` eles param´ etriques

En apprentissage machine, un mod` ele param´ etrique est d´ efini par un

ensemble Θ de param` etres de dimension finie, et l’algorithme d’apprentis-

sage associ´ e consiste ` a trouver la meilleure valeur possible de Θ. Prenons

(28)

10 Introduction

I Fig. 1.5. Mal´ ediction de la dimensionalit´ e : si l’algorithme partitionne l’espace en r´ egions ind´ ependantes, le nombre d’exemples n´ ecessaires pour remplir ces r´ egions augmente de mani` ere exponentielle avec la dimension. Ici, la couleur d’une r´ egion repr´ esente la classe majoritaire dans cette r´ egion, et un tel

algorithme pourrait bien g´ en´ eraliser ` a partir de 23 exemples d’entraˆınement pour le probl` eme du haut (1D), mais pas pour celui du bas (2D).

X X X X X X X X X X X X X X X X X X X X X X X

X X

X

X X

X

X X X

X

X X

X

X X

X

1D: des exemples sont observés dans chaque région de l'espace

2D : avec le même nombre d'exemples, la plupart des régions sont vides

l’exemple typique de la r´ egression lin´ eaire : le mod` ele tente d’estimer E _Y [Y | x]

o` u y ∈ R et x ∈ R ^d par une fonction f (x) = w ^T x + b, avec w ∈ R ^d et b ∈ R . On a alors Θ = { w, b } et un algorithme d’apprentissage possible serait de minimiser le crit` ere suivant (qui contient un terme de r´ egularisation comme justifi´ e en section 1.3.2) :

n

X

i=1

(w ^T x _i + b − y _i ) ² + λ k w k ² . (1.5) La figure 1.6 montre un exemple de r´ egression lin´ eaire en une dimension, sans r´ egularisation.

1.4.2 Mod` eles non param´ etriques

Un mod` ele non param´ etrique n’a au contraire pas d’ensemble fixe de param` etres : le nombre de variables utilis´ ees par le mod` ele augmente g´ e- n´ eralement avec le nombre d’exemples dans l’ensemble d’entraˆınement. Un exemple de mod` ele non param´ etrique pour r´ esoudre le mˆ eme probl` eme de r´ egression que celui d´ ecrit en 1.4.1 est l’algorithme des fenˆ etres de Par- zen, aussi appel´ e r´ egression de Nadaraya-Watson (Nadaraya, 1964; Watson, 1964). Il consiste ` a ´ ecrire la pr´ ediction du mod` ele comme

f (x) = 1

P n

i=1 K(x, x i )

n

X

i=1

K(x, x _i )y _i (1.6)

(29)

1.5 Retour sur l’efficacit´ e statistique 11

J Fig. 1.6. Mod` ele param´ etrique : la r´ egression lin´ eaire. Les donn´ ees (points rouges) sont un sous-ensemble des mˆ emes donn´ ees que dans la figure 1.2, et la tˆ ache est ici de pr´ edire le poids d’un joueur de baseball en fonction de sa taille. La pr´ ediction du mod` ele minimisant le crit` ere de l’´ eq. 1.5 (ici avec λ = 0, c.` a.d. sans r´ egularisation) est donn´ ee par la ligne bleue.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

o` u K(·, ·) est appel´ ee la fonction noyau (“kernel” en anglais). Il s’agit donc d’une moyenne pond´ er´ ee des ´ etiquettes observ´ ees dans l’ensemble d’entraˆıne- ment D , o` u le poids est donn´ e par le noyau K qu’on peut interpr´ eter comme une fonction de similarit´ e entre deux entr´ ees. Les exemples (x i , y i ) ∈ D font donc partie des variables utilis´ ees par le mod` ele pour faire sa pr´ ediction, mˆ eme apr` es que l’apprentissage est termin´ e (l’algorithme d’apprentissage le plus simple consiste ` a uniquement m´ emoriser les paires (x i , y i ), mais il serait aussi possible d’optimiser certains param` etres du noyau K, si besoin est).

La figure 1.7 montre un exemple de r´ egression par fenˆ etres de Parzen en une dimension.

1.5 Retour sur l’efficacit´ e statistique

Maintenant que les bases de l’apprentissage machine ont ´ et´ e pos´ ees, nous

sommes en mesure de revenir ` a la question de l’efficacit´ e statistique intro-

duite au d´ ebut de ce chapitre. De mani` ere informelle, nous dirons qu’un algo-

rithme d’apprentissage est statistiquement efficace s’il est capable d’obtenir

une bonne capacit´ e de g´ en´ eralisation avec un nombre limit´ e d’exemples d’ap-

prentissage. C’est une caract´ eristique extrˆ emement importante pour plu-

sieurs raisons :

(30)

12 Introduction

I Fig. 1.7. Mod` ele non param´ etrique : r´ egression par fenˆ etres de Parzen. Les donn´ ees sont les mˆ emes que dans l’exemple de la

r´ egression lin´ eaire (figure 1.6). Le noyau K utilis´ e ici est un noyau de type Gaussien : K(x, x i ) = e ⁻

^(x−⁸^xi⁾²

.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

– La collecte de donn´ ees est souvent coˆ uteuse en temps et en argent.

– Mˆ eme dans une situation o` u le nombre d’exemples d’entraˆınement disponibles serait infini, les limites computationnelles (temps de calcul et m´ emoire disponibles) pour ex´ ecuter un algorithme le contraignent

`

a n’en utiliser qu’un sous-ensemble.

– Les humains sont reconnus pour leur capacit´ e ` a g´ en´ eraliser ` a partir de tr` es peu d’exemples. Si l’on souhaite reproduire l’intelligence humaine, il faut donc chercher dans la direction d’algorithmes ayant ´ egalement cette capacit´ e (principe du “one-shot learning”, ´ etudi´ e par exemple par Fei-Fei et al., 2006).

Un exemple d’algorithme qui peut ˆ etre statistiquement inefficace est la r´ egression par fenˆ etres de Parzen (´ eq. 1.6), lorsque la fonction noyau K est le populaire noyau Gaussien, d´ efini par

K(x _i , x _j ) = e ⁻

kxi−xjk2

2σ2

(1.7)

o` u σ ∈ R (param` etre du noyau). Intuitivement, on peut voir que la pr´ ediction

f (x) d´ efinie par l’´ eq. 1.6 ne d´ epend alors que des exemples x _i proches de x

(o` u la notion de proximit´ e d´ epend de σ). Pour que la pr´ ediction soit correcte,

on s’attend donc ` a avoir besoin d’exemples d’apprentissage dans chaque r´ e-

gion de l’espace o` u P (x) > 0 (o` u la taille d’une r´ egion est proportionnelle ` a

σ). Ce nombre de r´ egions pouvant augmenter de mani` ere exponentielle avec

(31)

1.5 Retour sur l’efficacit´ e statistique 13

la dimension d de l’espace des entr´ ees x ∈ R ^d (c’est la mal´ ediction de la dimensionalit´ e introduite en 1.3.3), cela signifie que le nombre d’exemples d’apprentissage n´ ecessaires pour avoir une bonne qualit´ e de pr´ ediction risque d’augmenter de mani` ere exponentielle avec d. La figure 1.8 montre ainsi ce qu’il se passe lorsque des dimensions suppl´ ementaires ind´ ependantes de l’´ eti- quette sont rajout´ ees : la similarit´ e dans l’espace des entr´ ees devenant moins indicative de la similarit´ e des ´ etiquettes, l’algorithme ne peut g´ en´ eraliser cor- rectement avec peu d’exemples.

J Fig. 1.8. Inefficacit´ e statistique des fenˆ etres de Parzen. Les donn´ ees originales ont ´ et´ e perturb´ ees par l’ajout de 10 dimensions al´ eatoires en entr´ ee. Une petite valeur de σ rend la pr´ ediction bien trop bruit´ ee, tandis qu’une grande valeur

correspond ` a une pr´ ediction constante. La meilleure valeur de σ (qui minimise l’erreur de g´ en´ eralisation estim´ ee ` a partir d’autres exemples tir´ es de la mˆ eme distribution) m` ene

´ egalement ` a une pr´ ediction m´ ediocre ` a cause du faible nombre d’exemples

d’entraˆınement.

65 70 75 80 85

taille (pouces) 140

160 180 200 220 240 260 280

poids (livres)

meilleur σ

petit σ

grand ^σ

Les mod` eles param´ etriques peuvent ´ egalement ˆ etre statistiquement inef- ficaces. En g´ en´ eral, le nombre d’exemples d’apprentissage n´ ecessaires pour optimiser k param` etres est de l’ordre de k ^∗ . S’il y a moins d’exemples, alors le probl` eme est sur-param´ etr´ e et on risque le sur-apprentissage : le mod` ele pourrait apprendre des param` etres taill´ es “sur mesure” pour les donn´ ees d’entraˆınement, mais qui m` eneront ` a une mauvaise g´ en´ eralisation. La cons´ e- quence de cette observation est qu’en g´ en´ eral, un mod` ele avec un grand nombre de param` etres est statistiquement inefficace (puisqu’il a besoin d’un

∗

La formalisation de cet ´ enonc´ e d´ epend de l’algorithme exact ainsi que de la distribution

des donn´ ees : nous nous contenterons donc ici de la version intuitive.

(32)

14 Bibliographie

grand nombre d’exemples d’apprentissage pour que les param` etres appris g´ en´ eralisent bien). Par exemple, dans la r´ egression lin´ eaire (´ eq. 1.5), si le nombre d’exemples est plus petit que la taille de w et que les exemples sont lin´ eairement ind´ ependants, alors il existe une infinit´ e de vecteurs w tels que w ^T x _i + b = y _i pour i ∈ { 1, . . . , n } . La r´ egularisation (ici le terme λ k w k ² ) s’av` ere alors essentielle : on peut la voir comme un moyen de limiter impli- citement le nombre de param` etres effectifs du mod` ele, ce qui permet d’avoir besoin de moins d’exemples pour ´ eviter le sur-apprentissage (voir figure 1.9).

I Fig. 1.9. Inefficacit´ e statistique d’un mod` ele de r´ egression lin´ eaire sur-param´ etris´ e. Les donn´ ees originales ont

´

et´ e augment´ ees par l’ajout de 20 dimensions de la forme sin(kx) o` u x est l’entr´ ee d’origine (la taille d’un joueur), et k un entier de 1 ` a 20. Sans r´ egularisation (petit λ) il n’y a pas assez d’exemples par rapport au nombre de

param` etres, et la pr´ ediction – bien que parfaite sur les exemples d’entraˆınement – g´ en´ eralise mal. La r´ egularisation permet de limiter le nombre de param` etres effectifs et d’att´ enuer le bruit, mais λ doit ˆ etre choisi avec soin (s’il est trop grand, la pr´ ediction sera constante).

66 68 70 72 74 76 78 80 82 84 taille (pouces)

160 180 200 220 240 260

poids (livres)

meilleur ^λ petit λ

grand λ

Notons que dans ces deux exemples – fenˆ etres de Parzen en figure 1.8

et r´ egression lin´ eaire en figure 1.9 – l’inefficacit´ e statistique des algorithmes

consid´ er´ es est une manifestation de la mal´ ediction de la dimensionalit´ e vue

en section 1.3.3. Nous ´ etudierons dans cette th` ese d’autres r´ esultats simi-

laires, ´ egalement reli´ es ` a ce ph´ enom` ene.

(33)

Bibliographie 15

Bibliographie

Bellman, R. 1961, Adaptive Control Processes : A Guided Tour, Princeton University Press, New Jersey.

Blumer, A., A. Ehrenfeucht, D. Haussler et M. Warmuth. 1987, “Occam’s razor”, Inf. Proc. Let., vol. 24, p. 377–380.

Fei-Fei, L., R. Fergus et P. Perona. 2006, “One-shot learning of object cate- gories”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 28, n ^o 4, p. 594–611.

Kolmogorov, A. N. 1965, “Three approaches to the quantitative definition of information”, Problems of Information and Transmission, vol. 1, n ^o 1, p. 1–7.

Kullback, S. 1959, Information Theory and Statistics, Wiley, New York.

Li, M. et P. Vit´ anyi. 2008, An Introduction to Kolmogorov Complexity and Its Applications, 3 ^e ´ ed., Springer, New York, NY.

Nadaraya, E. A. 1964, “On estimating regression”, Theory of Probability and its Applications, vol. 9, p. 141–142.

Solomonoff, R. J. 1964, “A formal theory of inductive inference”, Information and Control, vol. 7, p. 1–22, 224–254.

Sutton, R. et A. Barto. 1998, Reinforcement Learning : An Introduction, MIT Press.

Vapnik, V. 1998, Statistical Learning Theory, Wiley, Lecture Notes in Eco- nomics and Mathematical Systems, volume 454.

Watson, G. S. 1964, “Smooth regression analysis”, Sankhya - The Indian Journal of Statistics, vol. 26, p. 359–372.

Weizenbaum, J. 1966, “ELIZA-a computer program for the study of natural

language communication between man and machine”, Commun. ACM,

vol. 9, n ^o 1, p. 36–45.

(34)

16

(35)

2 Algorithmes d’apprentissage

I l existe des milliers d’algorithmes d’apprentissage, et le but de ce chapitre n’est ´ evidemment pas de tous les recenser. Les algorithmes pr´ e- sent´ es ici sont ceux qui apparaissent dans les articles constituant le corps de cette th` ese. Par souci de concision, la description de chaque algorithme est volontairement succinte, se concentrant sur les ´ el´ ements importants pour la compr´ ehension des articles qui y sont reli´ es. Des r´ ef´ erences offrant une pr´ esentation plus compl` ete de chaque algorithme seront fournies pour sa- tisfaire la curiosit´ e du lecteur avide de d´ etails. L’ordre dans lequel les algo- rithmes sont pass´ es en revue dans ce chapitre est bas´ e sur l’id´ ee d’introduire d’abord les concepts les plus simples, sur lesquels se basent les algorithmes qui suivent.

2.1 k plus proches voisins

L’algorithme des k plus proches voisins est un algorithme non param´ e- trique utilis´ e pour la r´ egression et la classification. ´ Etant donn´ ee une mesure de distance dans l’espace d’entr´ ee R ^d – souvent prise comme la distance Eu- clidienne kx i − x j k – la pr´ ediction du mod` ele sur un exemple de test x ∈ T d´ epend uniquement des k plus proches voisins de x dans l’ensemble d’en- traˆınement D . En notant i ₁ (x), . . . , i _k (x) les indices des k exemples de D les plus proches de x selon la distance choisie (ses “voisins”), la pr´ ediction du mod` ele en r´ egression est la moyenne des ´ etiquettes observ´ ees chez ces k voisins :

f (x) = 1 k

k

X

j=1

y _i

_j

_(x)

et en classification il s’agit d’un vote parmi les k voisins : f (x) = argmax _y

k

X

j=1

1 _y=y

_ij_(x)

o` u en cas d’´ egalit´ e parmi les votes le mod` ele choisit al´ eatoirement l’une des classes majoritaires. La classification par les k plus proches voisins est illustr´ ee en figure 2.1.

Les propri´ et´ es th´ eoriques de l’algorithme des k plus proches voisins sont

bien connues, ayant ´ et´ e ´ etudi´ ees depuis longtemps d´ ej` a (Cover et al., 1967).

(36)

18 Algorithmes d’apprentissage

J Fig. 2.1. k plus proches voi- sins (k = 5, tˆ ache de classification) : pour classifier un nouvel exemple (le × blanc) on cherche ses 5 plus proches voisins dans l’ensemble d’en- traˆınement (ce sont ceux ` a l’int´ erieur du cercle), et on compte le nombre d’exemples de chaque classe. Il y a ici 4 exemples de la classe + (rouge) et 1 de la classe − (jaune) donc le × sera classifi´ e comme +.

Les am´ eliorations r´ ecentes de cet algorithme se concentrent sur des tech- niques visant ` a le rendre utilisable sur de grands ensembles de donn´ ees, et

`

a tirer parti de mesures de distances plus ´ evolu´ ees que la simple distance Euclidienne (Shakhnarovich et al., 2006).

2.2 Fenˆ etres de Parzen

L’algorithme des fenˆ etres de Parzen a d´ ej` a ´ et´ e pr´ esent´ e au chapitre pr´ e- c´ edent (section 1.4.2) dans le contexte de la r´ egression non param´ etrique, o` u on l’appelle parfois la r´ egression ` a noyau ou la r´ egression de Nadaraya- Watson (Nadaraya, 1964; Watson, 1964).

On peut ´ egalement utiliser une approche similaire en apprentissage non supervis´ e pour l’estimation de densit´ e (Rosenblatt, 1956; Parzen, 1962), en estimant la densit´ e de probabilit´ e au point x par

f (x) = 1 n

n

X

i=1

K(x, x i )

ce qui correspond ` a placer une masse de probabilit´ e “autour” de chaque exemple d’apprentissage x i , dans un volume d´ efini par le noyau K. Ici, K doit respecter les contraintes

K(x, x _i ) ≥ 0 Z

x

K(x, x i )dx = 1

de mani` ere ` a ce que f soit une densit´ e de probabilit´ e valide. Le choix le

plus r´ epandu pour K est le noyau Gaussien, d´ efini d’une mani` ere similaire

(37)

2.3 M´ elanges de Gaussiennes 19

`

a l’´ eq. 1.7 mais avec la normalisation appropri´ ee : K(x _i , x _j ) = N (x _i ; x _j , σ ² I) = 1

(2π) ^d/2 σ ^d e ⁻

kxi−xjk2 2σ2

o` u l’on note N ( · ; µ, Σ) la densit´ e de probabilit´ e d’une Gaussienne de moyenne µ et covariance Σ. Un exemple d’estimation de densit´ e par fenˆ etres de Parzen avec un noyau Gaussien est montr´ e en figure 2.2.

taille poids

P(taille, poids)

taille poids

P(taille, poids) ^J Parzen pour l’estimation de ^{Fig. 2.2.} ^Fenˆ ^{etres de}

densit´ e : les donn´ ees sont les mˆ emes que dans la figure 1.2.

Au lieu d’estimer la densit´ e par une seule Gaussienne, on utilise une Gaussienne cen- tr´ ee sur chaque point (ici, sigma = 2).

2.3 M´ elanges de Gaussiennes

Les m´ elanges de Gaussiennes g´ en´ eralisent les fenˆ etres de Parzen (avec noyau Gaussien) pour l’estimation de densit´ e, en ´ ecrivant la densit´ e comme une somme pond´ er´ ee de Gaussiennes :

f(x) =

N

X

j=1

α j N (x; µ j , Σ j )

o` u N est le nombre de composantes du m´ elange, et α j le poids de la j-` eme composante (les poids sont tels que α _j ≥ 0 et P

j α _j = 1). L’interpr´ etation dite “g´ en´ erative” de cette ´ equation est que le mod` ele suppose que chaque exemple observ´ e a ´ et´ e g´ en´ er´ e de la fa¸ con suivante :

1. Une composante j est choisie al´ eatoirement, avec probabilit´ e α _j . 2. Un exemple est g´ en´ er´ e par une distribution Gaussienne centr´ ee en µ _j

avec covariance Σ _j .