Apprentissage

Comme pour EM, les itérations de VB garantissent la croissance de la borne et donc la

convergence de l’algorithme. Cependant, cette convergence sera locale et il est rarement

possible de connaître la valeur du maximum global.

Dans notre travail, nous mettrons en place au chapitre 4 une inférence de type

va-riationnelle pour le filtrage collaboratif. Il s’agira en fait d’un algorithme EM car nous

maximiserons les paramètres Θ en phase M. De plus, pour rendre possible les calculs

né-cessités par la phase E, nous devrons considérer une distribution sur les variables cachées

q

(H) complètement factorisée. Cette factorisation complète est souvent appelée méthode

deMean Field en rapport à son introduction initiale en physique statistique (Cha87).

Notons finalement que lorsque qH et q

_Θ

sont complètement factorisées et lorsque la

famille F est exponentielle, l’approche VB peut se réduire à un algorithme de passage de

messages locaux (WB05).

Méthodes variationnelles : Expectation Propagation

Expectation Propagation (EP, (Min01c)) est une méthode variationnelle déterministe

dont la différence avec VB est la fonctionnelle minimisée. En première approximation,

VB minimise D

_KL

(q||p) alors que EP minimise D

_KL

(p||q). Cette différence a plusieurs

conséquences en terme de précision de l’approximation, de choix de la familleF et de temps

de calcul. Nous détaillerons le fonctionnement de EP au chapitre 3 où nous l’utiliserons

pour classer des joueurs d’échecs.

1.7 Apprentissage

Dans cette section, nous nous intéressons plus précisément à la notion d’apprentissage.

Nous commençons par lister les méthodes les plus courantes (Mit97) en les triant en trois

catégories.

1.7.1 Méthodes non probabilistes

Les méthodes non probabilistes sont les plus anciennes, et datent souvent de la première

vague de la cybernétique (1950-1975). Nous pouvons citer les systèmes experts (Jac86), les

systèmes declassifiers (Hol75) et les arbres de décision comme C4.5 (Qui93).

Nous plaçons aussi dans cette catégorie les réseaux de neurones artificiels (Bis95)

et les méta-heuristiques comme les méthodes évolutionnistes (Koz92) et le recuit simulé

(KGV83), bien que ces dernieres soient plus des algorithmes d’optimisation que

d’appren-tissage.

D’autres méthodes simples comme la prédiction par lesK plus proches voisins (SDI06),

ou la classification par l’algorithme du K-mean (Mac67) peuvent être très efficaces dans

certains cas. Elles peuvent aussi servir à initialiser d’autres algorithmes plus complexes.

Notons d’autre part que l’algorithme du K-mean peut être vu comme un EM dégénéré.

Fig. ^{1.7 – Minimisation du risque structurel. Un modèle (h) trop complexe (à droite) aura}

un risque empirique (training error sur le graphe) faible, mais sa VC-dimension (capacity

term) sera si grande que le risque structurel (test error) sera trop fort. Il y auraover-fitting.

À l’opposé un modèle de trop faible complexité aura un risque empirique trop grand. L’idéal

est donc de minimiser la somme de ces deux termes (image de http://www.svms.org/).

1.7.2 Méthodes probabilistes objectives

Tout d’abord nous pouvons considérer que les méthodes de statistiques fréquencistes

(comme les estimateurs sans biais) sont aussi des méthodes d’apprentissage, dans la mesure

où elles permettent de résumer l’information contenue dans un grand nombre de données.

Mais nous plaçons surtout dans cette catégorie les travaux sur les propriétés

calcula-toires des algorithmes d’apprentissage comme la théorie de l’apprentissage statistique de

Vapnik (Vap99) et le cadre PAC (Probably Approximately Correct learning) de Valiant

(Val84).

L’approche de Vapnik est basée sur le principe de minimisation du risque structurel.

C’est un principe inductif permettant de sélectionner un modèle après n’avoir vu qu’une

quantité limitée de données. Le risque structurel est une fonction convexe de la flexibilité

du modèle. Un modèle flexible est un modèle complexe, avec beaucoup de paramètres, qui

peut donc s’adapter fortement aux données. Un modèle trop rigide n’est pas intéressant,

car il ne va rien apprendre des données (under-fitting).

À l’opposé une trop grande flexibilité est aussi un vrai problème. En effet, si un modèle

est trop souple, il est possible qu’un phénomène de sur-apprentissage apparaisse. Ce

phé-nomène (over-fitting) est un problème récurrent en apprentissage : si nous entraînons un

modèle avec beaucoup de paramètres sur un petit jeu de données, le modèle va tellement

bien s’y adapter qu’il n’aura pas un bon pouvoir de généralisation à d’autres données. Le

modèle aura appris par cœur ce jeu de données avec son bruit, sans réellement en extraire

le signal utile. Ce phénomène est aussi appelé dilemme biais-variance en statistique.

Pour éviter le sur-apprentissage, le modèle devra donc être un compromis entre

adéqua-tion aux données et pouvoir de généralisaadéqua-tion. Vapnik propose une mesure de complexité

pour détecter le sur-apprentissage : la VC-dimension (ou terme de capacité). Si cette

me-1.7 Apprentissage 43

sure est grande, alors le modèle est très flexible. Le risque structurel à minimiser est alors la

somme du risque empirique (sur le jeu de données d’apprentissage) et de la VC-dimension

(fig. 1.7). Cette approche théorique a produit un algorithme de classification très

perfor-mant : les SVMs (Support Vector Machine) (BGV92). Les SVMs sont des classificateurs

linéaires, mais en introduisant une fonction de noyau (kernel trick) (ABR64), ils peuvent

s’appliquer à de nombreux problèmes.

Le problème du sur-apprentissage est traité de différentes façons dans les autres

ap-proches. Par exemple, il est recommandé d’arrêter l’apprentissage des poids d’un réseau de

neurones avant la convergence (early stopping). Il est aussi possible d’introduire

explicite-ment une contrainte sur la complexité d’un modèle en ajoutant un terme de régularisation

à la fonction de coût. Le choix du terme de régularisation est toujours assez délicat. Nous

avons aussi vu que le critère BIC comportait un terme pénalisant les modèles les plus

com-plexes. Toutes ces méthodes peuvent être vues comme une instanciation du principe du

rasoir d’Occam (1288-1349). Appliqué à l’apprentissage, ce principe de parcimonie affirme

qu’entre deux explications également vraisemblables, il ne faut en conserver qu’une : la

plus simple.

L’autre grande branche des méthodes probabilistes objectives est le cadre PAC qui a

conduit à l’introduction des méthodes de boosting comme AdaBoost (FS95) permettant

de combiner de médiocres algorithmes d’apprentissage afin de former un algorithme plus

performant.

1.7.3 Méthodes probabilistes subjectives : Apprentissage

bayé-sien

Nous pouvons déjà noter que plusieurs méthodes précédemment citées peuvent être

décrites en termes bayésiens, ou que des extensions bayésiennes en ont été proposées. Par

exemple, en appliquant la méthode bayésienne aux réseaux de neurones, Neal (Nea96) a

montré qu’ils étaient équivalent à des processus gaussiens (RW05) quand le nombre de

neurones de la couche cachée tend vers l’infini. D’autre part, les RVMs (Relevance Vector

Machine) (Tip00) ou les BPMs (Bayes Point Machines) (HGC01) sont ses équivalents des

SVMs qui égalent leurs performances sur certains jeux de données, tout en apportant le

confort théorique du cadre subjectif. De nombreuses autres méthodes de traitement de

données, comme les régressions aux moindres carrés, l’analyse en composantes principales,

peuvent être interprétées en termes bayésiens (Bis06).

L’apprentissage bayésien consiste simplement à appliquer la règle de Bayes pour

cal-culer des distributionsa posteriori sur des quantités qui nous intéressent en marginalisant

les autres variables. Comme il n’y a pas de différence fondamentale entre variables et

para-mètres, il est aisé de formuler un problème d’apprentissage en terme bayésiens : il ne s’agit

que d’inférence. De plus, le contexte temporel de l’apprentissage se reflète dans la notion

d’a prioriet d’a posteriori. L’apprentissage consiste à extraire de l’information de données

afin de mettre à jour sa connaissance, en passant d’un a priorià un a posteriori.

incré-Fig. ^{1.8 – Rasoir d’Occam automatique. Pour un certain jeu de données}^D^{:= ∆, certains}

modèles seront trop complexes, d’autres trop simples. Cette représentation est schématique

car l’axe des abscisses correspond à l’ensemble des jeux de données possibles (source :

Ghahramani).

mentale, efficace, et hiérarchique. Surtout elle apporte une réponse élégante au problème

du sur-apprentissage en fournissant une sorte de rasoir d’Occam automatique, sans que

nous ayons besoin d’invoquer un quelconque principe extérieur.

En effet, si nous devons choisir entre deux modèles de complexité différente

, nous

devons considérer le ratio :

p(M

₁

|∆)

p(M

₂

|∆) ⁼

R

p(∆|Θ

₁

,M

₁

)p(Θ

₁

|M

₁

)dΘ

₁

R

p(∆|Θ

₂

,M

₂

)p(Θ

₂

|M

₂

)dΘ

₂

· ^p⁽^M

⁾

p(M

₂

)^. ^(1.64)

Le second terme est le ratio desa priori, et il est parfois intéressant d’assigner une

probabi-lité plus faible au modèle plus complexe. Mais ceci ne doit être fait que si nos connaissances

préliminaires nous y poussent. Il n’y a pas de raison de limiter a priori la complexité des

modèles dans le cadre bayésien. En effet, une méthode bayésienne bien menée, sans

ap-proximation ni estimation ponctuelle, ne pose pas de problème de sur-apprentissage en

raison de la marginalisation présente dans le premier terme.

Bayesian methods don’t overfit, because they don’t fit anything !

Zoubin Ghahramani

-En effet, en considérant la vraisemblancemoyennesur l’espace des paramètres et non la

vraisemblancemaximale, ce terme va automatiquement pénaliser les modèles dont l’espace

des paramètres est très grand, c’est à dire les modèles complexes, avec beaucoup de

para-mètres. En d’autres termes, comme nous ne considérons pas qu’un seul modèle à chaque

fois, mais une multitude (un par paramètre), il est fort probable que pour certains

para-mètres un modèle complexe collera bien aux données et aura une grande vraisemblance.

Nous considérons que ce choix est imposé, car en général la méthode conseille de garder les deux

modèles avec leur probabilitésa posteriori.

Dans le document Fondations, méthode et applications de l'apprentissage bayésien. (Page 52-56)

Comme pour EM, les itérations de VB garantissent la croissance de la borne et donc la

convergence de l’algorithme. Cependant, cette convergence sera locale et il est rarement

possible de connaître la valeur du maximum global.

Dans notre travail, nous mettrons en place au chapitre 4 une inférence de type

va-riationnelle pour le filtrage collaboratif. Il s’agira en fait d’un algorithme EM car nous

maximiserons les paramètres Θ en phase M. De plus, pour rendre possible les calculs

né-cessités par la phase E, nous devrons considérer une distribution sur les variables cachées

q

(H) complètement factorisée. Cette factorisation complète est souvent appelée méthode

deMean Field en rapport à son introduction initiale en physique statistique (Cha87).

Notons finalement que lorsque qH et q

sont complètement factorisées et lorsque la

famille F est exponentielle, l’approche VB peut se réduire à un algorithme de passage de

messages locaux (WB05).

Méthodes variationnelles : Expectation Propagation

Expectation Propagation (EP, (Min01c)) est une méthode variationnelle déterministe

dont la différence avec VB est la fonctionnelle minimisée. En première approximation,

VB minimise D

(q||p) alors que EP minimise D

(p||q). Cette différence a plusieurs

conséquences en terme de précision de l’approximation, de choix de la familleF et de temps

de calcul. Nous détaillerons le fonctionnement de EP au chapitre 3 où nous l’utiliserons

pour classer des joueurs d’échecs.

1.7 Apprentissage

Dans cette section, nous nous intéressons plus précisément à la notion d’apprentissage.

Nous commençons par lister les méthodes les plus courantes (Mit97) en les triant en trois

catégories.

1.7.1 Méthodes non probabilistes

Les méthodes non probabilistes sont les plus anciennes, et datent souvent de la première

vague de la cybernétique (1950-1975). Nous pouvons citer les systèmes experts (Jac86), les

systèmes declassifiers (Hol75) et les arbres de décision comme C4.5 (Qui93).

Nous plaçons aussi dans cette catégorie les réseaux de neurones artificiels (Bis95)

et les méta-heuristiques comme les méthodes évolutionnistes (Koz92) et le recuit simulé

(KGV83), bien que ces dernieres soient plus des algorithmes d’optimisation que

d’appren-tissage.

D’autres méthodes simples comme la prédiction par lesK plus proches voisins (SDI06),

ou la classification par l’algorithme du K-mean (Mac67) peuvent être très efficaces dans

certains cas. Elles peuvent aussi servir à initialiser d’autres algorithmes plus complexes.

Notons d’autre part que l’algorithme du K-mean peut être vu comme un EM dégénéré.

Fig. 1.7 – Minimisation du risque structurel. Un modèle (h) trop complexe (à droite) aura

un risque empirique (training error sur le graphe) faible, mais sa VC-dimension (capacity

term) sera si grande que le risque structurel (test error) sera trop fort. Il y auraover-fitting.

À l’opposé un modèle de trop faible complexité aura un risque empirique trop grand. L’idéal

est donc de minimiser la somme de ces deux termes (image de http://www.svms.org/).

1.7.2 Méthodes probabilistes objectives

Tout d’abord nous pouvons considérer que les méthodes de statistiques fréquencistes

(comme les estimateurs sans biais) sont aussi des méthodes d’apprentissage, dans la mesure

où elles permettent de résumer l’information contenue dans un grand nombre de données.

Mais nous plaçons surtout dans cette catégorie les travaux sur les propriétés

calcula-toires des algorithmes d’apprentissage comme la théorie de l’apprentissage statistique de

Vapnik (Vap99) et le cadre PAC (Probably Approximately Correct learning) de Valiant

(Val84).

L’approche de Vapnik est basée sur le principe de minimisation du risque structurel.

C’est un principe inductif permettant de sélectionner un modèle après n’avoir vu qu’une

quantité limitée de données. Le risque structurel est une fonction convexe de la flexibilité

du modèle. Un modèle flexible est un modèle complexe, avec beaucoup de paramètres, qui

peut donc s’adapter fortement aux données. Un modèle trop rigide n’est pas intéressant,

car il ne va rien apprendre des données (under-fitting).

À l’opposé une trop grande flexibilité est aussi un vrai problème. En effet, si un modèle

est trop souple, il est possible qu’un phénomène de sur-apprentissage apparaisse. Ce

phé-nomène (over-fitting) est un problème récurrent en apprentissage : si nous entraînons un

modèle avec beaucoup de paramètres sur un petit jeu de données, le modèle va tellement

bien s’y adapter qu’il n’aura pas un bon pouvoir de généralisation à d’autres données. Le

modèle aura appris par cœur ce jeu de données avec son bruit, sans réellement en extraire

le signal utile. Ce phénomène est aussi appelé dilemme biais-variance en statistique.

Pour éviter le sur-apprentissage, le modèle devra donc être un compromis entre

adéqua-tion aux données et pouvoir de généralisaadéqua-tion. Vapnik propose une mesure de complexité

pour détecter le sur-apprentissage : la VC-dimension (ou terme de capacité). Si cette

me-1.7 Apprentissage 43

sure est grande, alors le modèle est très flexible. Le risque structurel à minimiser est alors la

somme du risque empirique (sur le jeu de données d’apprentissage) et de la VC-dimension

(fig. 1.7). Cette approche théorique a produit un algorithme de classification très

perfor-mant : les SVMs (Support Vector Machine) (BGV92). Les SVMs sont des classificateurs

linéaires, mais en introduisant une fonction de noyau (kernel trick) (ABR64), ils peuvent

s’appliquer à de nombreux problèmes.

Le problème du sur-apprentissage est traité de différentes façons dans les autres

ap-proches. Par exemple, il est recommandé d’arrêter l’apprentissage des poids d’un réseau de

neurones avant la convergence (early stopping). Il est aussi possible d’introduire

explicite-ment une contrainte sur la complexité d’un modèle en ajoutant un terme de régularisation

Fig. ^{1.7 – Minimisation du risque structurel. Un modèle (h) trop complexe (à droite) aura}

incré-Fig. ^{1.8 – Rasoir d’Occam automatique. Pour un certain jeu de données}^D^{:= ∆, certains}

|∆) ⁼

· ^p⁽^M

⁾

)^. ^(1.64)