Comparaison empirique des bornes inductives sur le risque de Bayes

risque de Bayes

Nous présentons maintenant une étude empirique des trois bornes sur le risque du vote de majorité contenues dans ce chapitre, c’est-à-dire les bornes 4.9, 4.13 et 4.21. Rappelons les caractéristiques principales de chacune de ces bornes du risque du vote de majorité :

– La borne du vote de majorité 4.9 (page 69) correspond au résultat «classique» de la théorie PAC-bayésienne (Langford et Seeger,2001). Par le biais de la borne du facteur deux (proposition 3.6), la borne sur le risque de Bayes est obtenue en multipliant par deux la borne sur le risque de Gibbs.

– La borne du vote de majorité 4.13 (page 74) est obtenue par le biais de la C-borne (théorème 3.7), en ayant recours à deux estimations PAC-bayésiennes : la première est une borne supérieure sur le risque de Gibbs et la deuxième est une borne inférieure sur l’espérance de désaccord.

– La borne du vote de majorité4.21(page86) est aussi obtenue par le biais de la C-borne (théorème 3.7), mais repose sur une seule estimation PAC-bayésienne. Ce faisant, on borne simultanément l’espérance d’erreur conjointe et l’espérance de désaccord.

Afin de comparer empiriquement ces trois bornes du vote de majorité, nous utilisons l’algo- rithme d’apprentissage AdaBoost – tel que décrit à la section 2.4.2(page 32)– en utilisant ensemble de votants H constitué de souches de décision.

Nous effectuons l’expérimentation sur l’échantillon de données «Mushrooms», provenant du «UCI Machine Learning Repository» (Bache et Lichman,2013), qui contient 8124 exemples. Nous exécutons l’algorithme AdaBoost pour 60 itérations sur un échantillon d’entraînement S contenant 4062 exemples. Nous calculons, à chaque itération, chacune des trois bornes sur le risque du vote de majorité, ainsi que la valeur de l’espérance de désaccord dS

Q, du risque de

Gibbs R_S(G_Q) et de la C-borne C_QS sur l’échantillon d’entraînement S. Enfin, nous calculons aussi le risque RT(BQ) sur l’échantillon de test T , constitué des 4062 exemples de l’échantillon

de données «Mushrooms» qui n’ont pas servi à l’entraînement. Notons que, pour tous ces calculs, nous considérons une distribution a priori P sur H uniforme (c’est-à-dire P (h) := _|H|1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 20 30 40 50 itérations Borne4.9 Borne4.13 Borne4.21 dS Q RS(GQ) CS Q RT(BQ)

Figure 4.3 – Comparaison des bornes sur le risque du vote de majorité pendant les 60 itérations de l’algorithme AdaBoost.

pour tout h ∈ H). La distribution a posteriori Q correspond au vote de majorité construit par AdaBoost, en normalisant les poids donnés par l’algorithme, comme il est montré à l’équation (2.28). L’annexeB.2 présente plus en détail la procédure expérimentale utilisée. La figure4.3 illustre les résultats obtenus. Nous constatons que les deux bornes basées sur la C-borne (bornes4.13 et4.21) sont inférieures à la borne basée sur le facteur deux (borne4.9) après quelques itérations. Nous constatons aussi qu’il y a un avantage certain à borner di- rectement la C-borne (borne 4.13), plutôt que de borner séparément le risque de Gibbs et l’espérance de désaccord (borne4.21).

Malheureusement, aucune des trois bornes obtenues ne reflète le comportement du risque du vote de majorité adéquatement. Malgré le fait que C_QS diminue au fil des itérations, les bornes PAC-bayésiennes augmentent rapidement. Plus précisément, la borne 4.9, basée sur la borne du facteur deux, dégrade dès la première itération. Cela s’explique par le fait que le risque de Gibbs R_S(G_Q) augmente au fil des itérations (ce qui est un comportement fréquem- ment observé lors de l’algorithme AdaBoost). L’augmentation du risque de Gibbs R_S(G_Q) est en partie compensée par l’augmentation de l’espérance de désaccord dS

Q dans le cas des

bornes4.13 et4.21, basées sur la C-borne. Cependant, ces deux bornes commencent à se dé- grader après 8 itérations. Dans ce cas-ci, cela s’explique par le fait que le dénominateur de la C-borne s’approche de 0 (voir théorème3.7). Autrement dit, la borne inférieure de l’espérance

de désaccord est près de 0.5, ce qui entraîne une dégradation de la borne.

4.7 Synthèse des contributions du chapitre

La principale contribution de ce chapitre se situe dans la conceptualisation de la théorie PAC- bayésienne, sur laquelle reposent plusieurs résultats qui sont présentés dans les chapitres à venir (partie IIIde la thèse).

Nous avons commencé le chapitre en présentant un théorème PAC-bayésien pour le cadre d’apprentissage inductif (théorème4.4, page61). Ce théorème, se voulant très général, possède les caractéristiques suivantes :

– Il est valide pour toute espérance de perte de la forme L :Y × Y → [0, 1] ;

– La «distance» entre l’espérance de perte empirique et l’espérance de perte sur la dis- tribution génératrice est exprimée par une fonction convexe ∆ : [0, 1] × [0, 1] → R, que l’on nomme dans la thèse ∆-fonction ;

– L’influence du choix de ∆-fonction, ainsi que l’importance de la loi binomiale dans le cadre inductif, est mis en évidence par le terme I_∆(m) ;

– La technique de démonstration employée pour prouver le théorème facilite sa compré- hension.

Nous avons ensuite montré par quelles ∆-fonction nous retrouvons, une fois le théorème spécialisé au risque de Gibbs RD(GQ), les théorèmes PAC-bayésiens deMcAllester;Langford

et Seeger; Catoni (corollaire 4.8, page 68). Au passage, nous illustrons le calcul d’une borne sur le risque de Bayes R_D(B_Q) à l’aide du théorème deLangford et Seeger et de la borne du facteur deux (borne 4.9, page69).

Ensuite, par la définition du concept de votant jumelé fij et d’une fonction de perte Ld ap-

propriée (définitions4.10et4.11, page71), nous avons formulé des garanties de généralisation sur l’espérance de désaccord dD

Q (corollaire 4.12, page 72). Cela nous permet de calculer une

première borne sur le risque de Bayes RD(BQ) à l’aide de la C-borne (borne4.13, page74)

Le concept de votant jumelé nous a aussi permis de formuler un théorème PAC-bayésien pour borner simultanément deux espérances de perte (théorème 4.19, page82). Pour arriver à ces fins, nous avons dû :

– Introduire les notions d’erreur conjointe eD

Q et de succès conjoint sDQ d’un vote de ma-

jorité, ainsi que les fonctions de pertes Le et Ld associées (définitions 4.14 et 4.15,

page75) ;

– Relier les espérances d’erreur conjointe, de succès conjoint et de désaccord par une loi de probabilité trinomiale (section4.5.2, page78) ;

– Généraliser le résultat de Maurer, qui permet d’appliquer le théorème PAC-bayésien à des votants à valeurs réelles, aux votants jumelés et à la loi trinomiale (lemmes 4.16 et 4.17, page79).

Enfin, ce théorème4.19nous a permis de calculer une deuxième borne sur le risque de Bayes RD(BQ) à l’aide de la C-borne (borne 4.21, page 86). À la section 4.6, nous avons montré

empiriquement l’amélioration qu’apporte cette garantie de généralisation sur les votes de majorité construits par l’algorithme AdaBoost, bien qu’elle se révèle encore imparfaite pour la sélection de modèle.

Troisième partie

Au-delà du cadre d’apprentissage

inductif

Chapitre 5

Théorie PAC-bayésienne pour

l’apprentissage transductif

Le contenu de ce chapitre a fait l’objet d’un article publié dans le cadre de la conférence AISTATS (Bégin et al.,2014).

Résumé. Dans le cadre d’apprentissage transductif (décrit brièvement à la section 1.3.2, page7), on fait l’hypothèse que le choix des exemples étiquetés parmi l’échantillon complet est effectué au hasard uniforme sans remise. Nous énonçons un nouveau théorème PAC-bayésien basé sur cette hypothèse, en remplaçant la loi de probabilité binomiale – intervenant dans théorie inductive – par la loi hypergéométrique. Le théorème PAC-bayésien transductif ainsi obtenu se démarque de son pendant inductif par le fait que toute ∆-fonction mène à une borne facilement calculable sans aucune estimation. Nous présentons aussi une nouvelle borne obtenue grâce à une ∆-fonction conçue en prenant en considération la spécificité du cadre transductif. Ce nouveau résultat permet de formuler des garanties de généralisation beau- coup plus précises que la borne PAC-bayésienne pour apprentissage transductif de Derbeko et al.(2004). Enfin, nous concluons ce chapitre par une étude empirique du comportement de diverses bornes transductives dérivées de notre théorème général.

5.1 Description du cadre d’apprentissage transductif

Dans le cadre d’apprentissage inductif, étudié au chapitre4, nous avons fait l’hypothèse que les exemples d’apprentissage sont générés de manière i.i.d. par une distribution D. Cette hy- pothèse n’est pas toujours réaliste. Dans le cadre d’apprentissage transductif (introduit par Vapnik,1998), nous ne faisons aucune hypothèse sur la manière dont les exemples d’apprentissage sont générés. Nous considérons que les exemples proviennent d’un échantillon de données, noté Z et nommé l’échantillon complet, contenant un nombre N (fini) d’exemples :

L’échantillon d’entraînement S := {(x₁, y₁), (x₂, y₂), . . . , (x_m, y_m)} ⊂ Z est obtenu par un tirage aléatoire sans remise de m exemples parmi Z (avec m < N ). Nous notons les exemples restants par U := Z \ S. En plus de l’échantillon d’entraînement S, un algorithme d’apprentissage transductif a typiquement accès à l’échantillon non étiqueté UX, constitué

des N −m descriptions des exemples de U :

UX def= {xi| (xi, ·) ∈ U } = {xm+1, xm+2, . . . , xN} . (5.1)

L’objectif de l’algorithme d’apprentissage transductif est alors de construire un classificateur

transductif de la forme

h : ZX → Y , (5.2)

où l’ensemble ZX contient descriptions des exemples de l’échantillon complet Z. Nous désirons

que le risque du classificateur transductif h(·) sur l’échantillon complet Z soit minimal. Ce risque, noté R_Z(h), est donné par

RZ(h) = 1 N N X i=1 Ih(xi) 6= yi.

Insistons sur le fait que ce classificateur transductif h(·) sera seulement utilisé pour prédire l’étiquette des exemples contenus dans Z. Ainsi, h(·) est défini sur l’espace ZX uniquement.

Cela contraste avec les classificateurs inductifs, qui sont définis sur tout l’espace d’entrée X .

Remarque sur les hypothèses de travail. Il convient de faire deux précisions pour bien situer nos travaux par rapport à ceux deVapnik (1998), qui sont souvent cités comme point de départ dans la littérature sur l’apprentissage transductif.

1. Le cadre d’apprentissage que nous adoptons correspond au «cadre transductif de type 1» deVapnik(1998), caractérisé par l’hypothèse que les exemples (étiquetés) de l’échantillon d’entraînement proviennent d’un tirage sans remise parmi l’échantillon complet. Nous ne supposons pas l’existence d’une distribution génératrice, comme nous l’avons fait pour le cadre inductif au chapitre4.

À l’inverse, dans le «cadre transductif de type 2» de Vapnik (1998), les exemples (éti- quetés et non étiquetés) proviennent d’observations i.i.d. d’une distribution génératrice de données. Ainsi, l’unique caractéristique qui distingue ce second cadre du cadre d’apprentissage inductif est que l’algorithme d’apprentissage «connaît» les descriptions des exemples que le classificateur transductif devra étiqueter.

2. Dans les travaux deVapnik (1998), le domaine d’un classificateur transductif est l’en- semble UX, tel que défini par l’équation (5.1). Cependant, nos bornes PAC-bayésiennes

nécessiteront la connaissance du risque sur l’échantillon d’entraînement RS(GQ). Le do-

Dans le document Généralisations de la théorie PAC-bayésienne pour l'apprentissage inductif, l'apprentissage transductif et l'adaptation de domaine (Page 107-115)