Comme pour EM, les itérations de VB garantissent la croissance de la borne et donc la
convergence de l’algorithme. Cependant, cette convergence sera locale et il est rarement
possible de connaître la valeur du maximum global.
Dans notre travail, nous mettrons en place au chapitre 4 une inférence de type
va-riationnelle pour le filtrage collaboratif. Il s’agira en fait d’un algorithme EM car nous
maximiserons les paramètres Θ en phase M. De plus, pour rendre possible les calculs
né-cessités par la phase E, nous devrons considérer une distribution sur les variables cachées
q
tH
(H) complètement factorisée. Cette factorisation complète est souvent appelée méthode
deMean Field en rapport à son introduction initiale en physique statistique (Cha87).
Notons finalement que lorsque qH et q
Θsont complètement factorisées et lorsque la
famille F est exponentielle, l’approche VB peut se réduire à un algorithme de passage de
messages locaux (WB05).
Méthodes variationnelles : Expectation Propagation
Expectation Propagation (EP, (Min01c)) est une méthode variationnelle déterministe
dont la différence avec VB est la fonctionnelle minimisée. En première approximation,
VB minimise D
KL(q||p) alors que EP minimise D
KL(p||q). Cette différence a plusieurs
conséquences en terme de précision de l’approximation, de choix de la familleF et de temps
de calcul. Nous détaillerons le fonctionnement de EP au chapitre 3 où nous l’utiliserons
pour classer des joueurs d’échecs.
1.7 Apprentissage
Dans cette section, nous nous intéressons plus précisément à la notion d’apprentissage.
Nous commençons par lister les méthodes les plus courantes (Mit97) en les triant en trois
catégories.
1.7.1 Méthodes non probabilistes
Les méthodes non probabilistes sont les plus anciennes, et datent souvent de la première
vague de la cybernétique (1950-1975). Nous pouvons citer les systèmes experts (Jac86), les
systèmes declassifiers (Hol75) et les arbres de décision comme C4.5 (Qui93).
Nous plaçons aussi dans cette catégorie les réseaux de neurones artificiels (Bis95)
et les méta-heuristiques comme les méthodes évolutionnistes (Koz92) et le recuit simulé
(KGV83), bien que ces dernieres soient plus des algorithmes d’optimisation que
d’appren-tissage.
D’autres méthodes simples comme la prédiction par lesK plus proches voisins (SDI06),
ou la classification par l’algorithme du K-mean (Mac67) peuvent être très efficaces dans
certains cas. Elles peuvent aussi servir à initialiser d’autres algorithmes plus complexes.
Notons d’autre part que l’algorithme du K-mean peut être vu comme un EM dégénéré.
Fig. 1.7 – Minimisation du risque structurel. Un modèle (h) trop complexe (à droite) aura
un risque empirique (training error sur le graphe) faible, mais sa VC-dimension (capacity
term) sera si grande que le risque structurel (test error) sera trop fort. Il y auraover-fitting.
À l’opposé un modèle de trop faible complexité aura un risque empirique trop grand. L’idéal
est donc de minimiser la somme de ces deux termes (image de http://www.svms.org/).
1.7.2 Méthodes probabilistes objectives
Tout d’abord nous pouvons considérer que les méthodes de statistiques fréquencistes
(comme les estimateurs sans biais) sont aussi des méthodes d’apprentissage, dans la mesure
où elles permettent de résumer l’information contenue dans un grand nombre de données.
Mais nous plaçons surtout dans cette catégorie les travaux sur les propriétés
calcula-toires des algorithmes d’apprentissage comme la théorie de l’apprentissage statistique de
Vapnik (Vap99) et le cadre PAC (Probably Approximately Correct learning) de Valiant
(Val84).
L’approche de Vapnik est basée sur le principe de minimisation du risque structurel.
C’est un principe inductif permettant de sélectionner un modèle après n’avoir vu qu’une
quantité limitée de données. Le risque structurel est une fonction convexe de la flexibilité
du modèle. Un modèle flexible est un modèle complexe, avec beaucoup de paramètres, qui
peut donc s’adapter fortement aux données. Un modèle trop rigide n’est pas intéressant,
car il ne va rien apprendre des données (under-fitting).
À l’opposé une trop grande flexibilité est aussi un vrai problème. En effet, si un modèle
est trop souple, il est possible qu’un phénomène de sur-apprentissage apparaisse. Ce
phé-nomène (over-fitting) est un problème récurrent en apprentissage : si nous entraînons un
modèle avec beaucoup de paramètres sur un petit jeu de données, le modèle va tellement
bien s’y adapter qu’il n’aura pas un bon pouvoir de généralisation à d’autres données. Le
modèle aura appris par cœur ce jeu de données avec son bruit, sans réellement en extraire
le signal utile. Ce phénomène est aussi appelé dilemme biais-variance en statistique.
Pour éviter le sur-apprentissage, le modèle devra donc être un compromis entre
adéqua-tion aux données et pouvoir de généralisaadéqua-tion. Vapnik propose une mesure de complexité
pour détecter le sur-apprentissage : la VC-dimension (ou terme de capacité). Si cette
me-1.7 Apprentissage 43
sure est grande, alors le modèle est très flexible. Le risque structurel à minimiser est alors la
somme du risque empirique (sur le jeu de données d’apprentissage) et de la VC-dimension
(fig. 1.7). Cette approche théorique a produit un algorithme de classification très
perfor-mant : les SVMs (Support Vector Machine) (BGV92). Les SVMs sont des classificateurs
linéaires, mais en introduisant une fonction de noyau (kernel trick) (ABR64), ils peuvent
s’appliquer à de nombreux problèmes.
Le problème du sur-apprentissage est traité de différentes façons dans les autres
ap-proches. Par exemple, il est recommandé d’arrêter l’apprentissage des poids d’un réseau de
neurones avant la convergence (early stopping). Il est aussi possible d’introduire
explicite-ment une contrainte sur la complexité d’un modèle en ajoutant un terme de régularisation
à la fonction de coût. Le choix du terme de régularisation est toujours assez délicat. Nous
avons aussi vu que le critère BIC comportait un terme pénalisant les modèles les plus
com-plexes. Toutes ces méthodes peuvent être vues comme une instanciation du principe du
rasoir d’Occam (1288-1349). Appliqué à l’apprentissage, ce principe de parcimonie affirme
qu’entre deux explications également vraisemblables, il ne faut en conserver qu’une : la
plus simple.
L’autre grande branche des méthodes probabilistes objectives est le cadre PAC qui a
conduit à l’introduction des méthodes de boosting comme AdaBoost (FS95) permettant
de combiner de médiocres algorithmes d’apprentissage afin de former un algorithme plus
performant.
1.7.3 Méthodes probabilistes subjectives : Apprentissage
bayé-sien
Nous pouvons déjà noter que plusieurs méthodes précédemment citées peuvent être
décrites en termes bayésiens, ou que des extensions bayésiennes en ont été proposées. Par
exemple, en appliquant la méthode bayésienne aux réseaux de neurones, Neal (Nea96) a
montré qu’ils étaient équivalent à des processus gaussiens (RW05) quand le nombre de
neurones de la couche cachée tend vers l’infini. D’autre part, les RVMs (Relevance Vector
Machine) (Tip00) ou les BPMs (Bayes Point Machines) (HGC01) sont ses équivalents des
SVMs qui égalent leurs performances sur certains jeux de données, tout en apportant le
confort théorique du cadre subjectif. De nombreuses autres méthodes de traitement de
données, comme les régressions aux moindres carrés, l’analyse en composantes principales,
peuvent être interprétées en termes bayésiens (Bis06).
L’apprentissage bayésien consiste simplement à appliquer la règle de Bayes pour
cal-culer des distributionsa posteriori sur des quantités qui nous intéressent en marginalisant
les autres variables. Comme il n’y a pas de différence fondamentale entre variables et
para-mètres, il est aisé de formuler un problème d’apprentissage en terme bayésiens : il ne s’agit
que d’inférence. De plus, le contexte temporel de l’apprentissage se reflète dans la notion
d’a prioriet d’a posteriori. L’apprentissage consiste à extraire de l’information de données
afin de mettre à jour sa connaissance, en passant d’un a priorià un a posteriori.
incré-Fig. 1.8 – Rasoir d’Occam automatique. Pour un certain jeu de donnéesD:= ∆, certains
modèles seront trop complexes, d’autres trop simples. Cette représentation est schématique
car l’axe des abscisses correspond à l’ensemble des jeux de données possibles (source :
Ghahramani).
mentale, efficace, et hiérarchique. Surtout elle apporte une réponse élégante au problème
du sur-apprentissage en fournissant une sorte de rasoir d’Occam automatique, sans que
nous ayons besoin d’invoquer un quelconque principe extérieur.
En effet, si nous devons choisir entre deux modèles de complexité différente
9, nous
devons considérer le ratio :
p(M
1|∆)
p(M
2|∆) =
R
p(∆|Θ
1,M
1)p(Θ
1|M
1)dΘ
1R
p(∆|Θ
2,M
2)p(Θ
2|M
2)dΘ
2· p(M
1)
p(M
2). (1.64)
Le second terme est le ratio desa priori, et il est parfois intéressant d’assigner une
probabi-lité plus faible au modèle plus complexe. Mais ceci ne doit être fait que si nos connaissances
préliminaires nous y poussent. Il n’y a pas de raison de limiter a priori la complexité des
modèles dans le cadre bayésien. En effet, une méthode bayésienne bien menée, sans
ap-proximation ni estimation ponctuelle, ne pose pas de problème de sur-apprentissage en
raison de la marginalisation présente dans le premier terme.
Bayesian methods don’t overfit, because they don’t fit anything !
Zoubin Ghahramani
-En effet, en considérant la vraisemblancemoyennesur l’espace des paramètres et non la
vraisemblancemaximale, ce terme va automatiquement pénaliser les modèles dont l’espace
des paramètres est très grand, c’est à dire les modèles complexes, avec beaucoup de
para-mètres. En d’autres termes, comme nous ne considérons pas qu’un seul modèle à chaque
fois, mais une multitude (un par paramètre), il est fort probable que pour certains
para-mètres un modèle complexe collera bien aux données et aura une grande vraisemblance.
9
Nous considérons que ce choix est imposé, car en général la méthode conseille de garder les deux
modèles avec leur probabilitésa posteriori.
Dans le document
Fondations, méthode et applications de l'apprentissage bayésien.
(Page 52-56)