• Aucun résultat trouvé

Si les méthodes de sélection de modèle guident le praticien dans le choix d’algorithme d’ap- prentissage et d’hyperparamètres à utiliser pour résoudre un problème en particulier, elles fournissent peu de garanties rigoureuses que le classificateur sélectionné prédira adéquatement l’étiquette de nouveaux exemples (que l’on ne connaît pas au moment de l’apprentissage). Au- trement dit, un praticien est confronté aux questions suivantes :

Lorsqu’on a sélectionné un classificateur, comment savoir s’il possède un faible risque ? Autrement dit, comment fournir des garanties qu’il se «comportera bien» lorsqu’on l’utilisera pour classifier de «nouveaux» exemples ?

Pour répondre à ces questions, on cherche à obtenir des garanties de généralisation (ou bornes sur le risque). Cette notion est au cœur de la présente thèse, puisque l’objectif premier de la théorie PAC-bayésienne est de formuler des garanties de généralisation obtenues à partir du risque empirique d’un classificateur (sur l’échantillon d’entraînement).10 Cela étant dit, il est souvent plus simple d’obtenir des garanties de généralisation par le recours à un échantillon de test, comme nous décrivons dans la sous-section suivante.

2.6.1 Garanties de généralisation à partir de l’échantillon de test

Une pratique courante consiste à estimer le risque en calculant le risque empirique sur un

échantillon de test T , contenant mtexemples qui n’ont pas servi au processus d’entraîne-

ment. Comme on suppose que les exemples contenus dans T sont générés de manière i.i.d. selon la distribution génératrice D, le nombre d’erreurs sur l’échantillon de données de test est une variable aléatoire qui suit une loi binomiale.

Plus précisément, considérons une distribution génératrice D sur X × {−1, 1} et un classi- ficateur binaire h : X → {−1, 1}. Le risque de ce classificateur, c’est-à-dire son espérance de perte zéro-un sur la distribution D, est RD(h). Associons le classificateur h(·) à une variable

aléatoire binomiale Xh de mt essais avec probabilité de succès RD(h), ce que nous désignons ainsi : Xh ∼ B  mt, RD(h)  .

Du point de vue de la variable binomiale Xh, un succès correspond à une erreur de prédiction du classificateur h(·). Conséquemment, la probabilité d’observer spécifiquement k erreurs parmi mt exemples est donnée par

Pr T ∼Dmt  RT(h) = k mt  = Pr Xh∼B(mt, RD(h))  Xh= k  = mt k !  RD(h) k 1 − RD(h)mt −k .

Nous présentons ici une borne supérieure sur le risque d’un classificateur obtenu à partir d’un échantillon de test, telle que suggérée par Langford (2005). Remarquons d’abord que la fonction de répartition de la queue de la loi binomiale, notée ici Bin(m0, k, r), exprime la probabilité qu’un classificateur de vrai risque r fasse jusqu’à k erreurs parmi m0 exemples de

10. Idéalement, nous voudrions que ces garanties de généralisation soient aussi de bons critères de sélection de modèle. Cet aspect n’est pas abordé dans cette thèse, bien que les bornes dérivées de la théorie PAC-bayésienne se révèlent, dans certains contextes, de bons critères de sélection de modèle (voirMcAllester,2003a;Langford,

0 0.2 0.4 0.6 0.8 Bin+ 10 500 1000 1500 m0 RT(h) := 0.40 RT(h) := 0.25 RT(h) := 0.10

Figure 2.8 – Valeurs de la borne sur l’échantillon de test Bin+ m0, m0RT(h), δ



en fonction du nombre d’exemples de test m0 := |T | (avec δ := 201) pour des risques empiriques observés RT(h) ∈ {0.10, 0.25, 0.40}. test : Bin(m0, k, r) def= Pr X∼B(m0, r)  X ≤ k = k X i=0 m0 i ! ri(1 − r)m0−i.

Nous nous intéressons maintenant à l’inverse de la queue de la binomiale, Bin+(m0, k, δ),

c’est-à-dire la plus grande valeur de risque r telle que la probabilité est au moins δ de faire jusqu’à k erreurs parmi m0 exemples.

Théorème 2.4 (Langford, 2005). Pour toute distribution D sur X × {−1, 1}, pour tout classificateur h : X → {−1, 1} de risque RD(h) et pour tout δ ∈ (0, 1], on a, avec probabilité au moins 1 − δ sur le choix de T ∼ Dm0,

RD(h) ≤ Bin+



m0, m0RT(h), δ



, (2.30)

où Bin+ correspond à l’inverse de la queue de la binomiale : Bin+  m0, k, δ def= max  r ∈ [0, 1] Bin(m0, k, r) ≥ δ  .

Ainsi, l’inverse de la queue de la binomiale nous donne une borne supérieure sur le risque d’un classificateur à partir du risque observé sur l’échantillon de test. À l’aide d’une méthode similaire, on peut aussi exprimer une borne inférieure sur le risque (voirLangford,2005). Comme l’illustre la figure2.8, il est possible d’obtenir une valeur de borne très serrée grâce au théorème 2.4. Cependant, la borne est valide avec probabilité au moins 1 − δ seulement si on l’évalue sur l’échantillon de test T avec un seul classificateur. Pour obtenir plusieurs bornes simultanément valides pour k classificateurs h1, . . . , hk à partir d’un seul ensemble T

avec probabilité au moins 1 − δ, il faut calculer chacune des k bornes en utilisant dans l’équa- tion (2.30) un paramètre de confiance δ := δk (en vertu de la borne de l’union). Ceci entraîne une importante dégradation des bornes.

2.6.2 Garanties de généralisation à partir l’échantillon d’entraînement

Cette thèse est dédiée à l’étude de la théorie PAC-bayésienne (initiée par McAllester, 1999), qui permet d’obtenir des garanties de généralisation en évitant le recours à un échan- tillon de test, contrairement à la borne découlant du théorème2.4. En effet, comme nous avons brièvement discuté à la sous-section1.2de l’introduction (page4), les bornes PAC-bayésiennes reposent sur le risque empirique (et sur quelques autres éléments que nous définissons rigou- reusement au chapitre 4).

Nous le verrons en détail dans les chapitres suivants, malgré le fait que les bornes sur le risque exprimées à l’aide d’un échantillon test possèdent généralement de plus petites valeurs, l’approche PAC-bayésienne possède deux avantages notables :

1. Les bornes PAC-bayésiennes permettent de calculer des garanties de généralisations (des bornes sur le risque d’un classificateur) statistiquement valides tout en mettant à profit tous les exemples étiquetés à notre disposition lors du processus d’apprentissage. Dans certains contextes où les exemples sont rares ou coûteux à étiqueter (en temps ou en argent), cela peut faire une grande différence.

2. Les bornes PAC-bayésiennes expriment, par leur expression mathématique, un com- promis entre diverses quantités. Ainsi, elles nous enseignent ce que l’on doit prendre en compte pour favoriser un «bon» apprentissage à partir d’un échantillon d’entraîne- ment. Conséquemment, chaque borne PAC-bayésienne est potentiellement une source d’inspiration pour la conception d’un nouvel algorithme d’apprentissage. Un tel algo- rithme consiste essentiellement à minimiser l’expression mathématique de la borne à l’aide d’une procédure d’optimisation appropriée.

Idéalement, nous voudrions que ces garanties de généralisation soient aussi de bons critères de sélection de modèle. Cet aspect n’est pas abordé dans cette thèse, malgré le fait que les bornes dérivées de la théorie PAC-bayésienne se révèlent, dans certains contextes, de bons critères de sélection de modèle (voir McAllester, 2003a; Langford, 2005; Ambroladze et al., 2006;Parrado-Hernández et al.,2012).

Mentionnons que la théorie PAC-bayésienne n’est pas la seule approche permettant d’exprimer des garanties de généralisation à partir de l’échantillon d’entraînement. Les autres théories souvent citées dans la littérature propre à l’apprentissage automatique sont notamment la dimension VC (Vapnik et Chervonenkis,1971) et la complexité de Rademacher (Koltchinskii et Panchenko, 2000). Nous n’abordons pas ces approches dans la présente thèse. Pour une introduction à ces deux théories, nous suggérons la lecture deMohri et al. (2012, chapitre 3) ou Shalev-Shwartz et Ben-David (2014, chapitres 6 et 26).

Deuxième partie

Le cadre d’apprentissage inductif

revisité

Chapitre 3

Étude des votes de majorité

Résumé. Ce chapitre se consacre à l’étude des classificateurs au centre de la théorie PAC- bayésienne : les votes de majorité. Nous y présentons d’abord les concepts de risque de Bayes, de risque de Gibbs et d’espérance de désaccord. Nous exprimons ensuite ces quantités en termes de la marge du vote de majorité. En considérant cette marge comme une variable aléatoire, nous démontrons la C-borne (présentée initialement par Lacasse et al., 2006) de manière élégante et intuitive, en faisant ressortir le rôle joué par l’espérance de désaccord entre les votants. La C-borne permet de borner supérieurement le risque d’un vote de majorité.

3.1

Le risque de Bayes

Comme nous l’avons introduit à la section 2.4 (page 31), nous représentons un vote de

majorité par une distribution Q sur un ensemble (possiblement infini) de votants H. Dans

ce chapitre, nous étudions la classification binaire, où l’espace de sortie est Y := {−1, +1} .

De plus, nous considérons que chaque votant f ∈ H est un régresseur de la forme f : X → [−1, +1] .

Étant donné la description d’un exemple x ∈ X , nous interprétons le signe de f (x) comme la prédiction du votant f (·) quant à l’étiquette de x, et l’amplitude |f (x)| comme une mesure de confiance envers cette prédiction. Le classificateur de vote de majorité associé à ces régresseurs, que l’on nomme aussi le classificateur de Bayes BQ : X → {−1, +1}, est défini par

l’équation (3.1) ci-bas. Notons qu’il s’agit d’une généralisation de l’équation (2.23), présentée en introduction pour les votes de majorité dont les votants sont des classificateurs binaires.

BQ(x) def = sgn  E f ∼Qf (x)  . (3.1)

La présente thèse se consacre à la recherche de garanties, les plus précises possibles, sur le

risque du classificateur de Bayes BQ(·). Nous nommons cette quantité le risque de Bayes, en

opposition au risque de Gibbs défini à la section3.2 (plus bas).

Définition 3.1. Soit une distribution Q sur un ensemble de votants. Le risque de Bayes

RD0(BQ), aussi nommé le risque du vote de majorité, correspond à l’espérance de la perte

zéro-un (voir les définitions2.1et2.2) du classificateur BQ(·) sur D0, RD0(BQ) def= E L01 D0 (BQ) = E (x,y)∼D0I h BQ(x) 6= y i = E (x,y)∼D0I h E f ∼Qy · f (x) ≤ 0 i .

Rappelons que la notation D0 signifie que la définition est valide à la fois pour le risque sur la distribution génératrice D (que l’on nomme aussi erreur de généralisation) et le risque

empirique calculé sur un échantillon d’entraînement S := {(xi, yi)}mi=1. Dans le dernier cas, la définition3.1 est donc équivalente à

RS(BQ) def = EL01 S (BQ) = m X i=1 I h BQ(xi) 6= yi i = m X i=1 I h E f ∼Qyi· f (xi) ≤ 0 i .

Le risque empirique RS(BQ), calculé sur un échantillon S ∼ Dm, est bien sûr un élément très

important pour estimer la valeur sur le «vrai» risque RD(BQ). Dans les prochaines sections de ce chapitre, nous verrons qu’il existe d’autres quantités utiles pour formuler des garanties statistiques sur l’erreur de généralisation.