L’apprentissage par compression d’échantillons et l’algorithme SCM

l’algorithme SCM

Considérons un classificateur obtenu par l’exécution d’un algorithme d’apprentissage sur l’échantillon d’entraînement S contenant m exemples. La théorie de la compression d’échan-

tillons (Floyd et Warmuth,1995) s’intéresse aux classificateurs qu’il est possible d’exprimer par un sous-ensemble S_i de l’échantillon d’entraînement et un message σ contenant de l’in- formation supplémentaire.

L’ensemble S_i est appelé ensemble de compression et le vecteur i réfère aux indices des exemples de l’échantillon d’entraînement S. De plus, on désigne par I l’ensemble des 2m vecteurs d’indices possibles. Ainsi,

i def= hi1, i2, . . . , imi ∈ I avec 1 ≤ i1 < i2 < . . . < i|i|≤ m ,

def

= n(x_i₁, yi1), (xi2, yi2), . . . , (xi|i|, yi|i|) o

Le message σ est choisi parmi un ensemble Σ_i prédéterminé selon les messages pouvant être associés à l’ensemble S_i :

σ ∈ Σi.

Le terme classificateur comprimé désigne un classificateur hσ_i : X → Y qu’il est possible d’exprimer uniquement à partir de l’ensemble de compression Siet le message σ. On suppose donc qu’il existe une fonction de reconstruction R(·, ·) telle que

hσ_i = R(Si, σ) .

Comme expliqué dans les prochaines sous-sections, la recherche d’un classificateur exprimable à l’aide d’un petit ensemble de compression est une méthode de régularisation menant à des algorithmes d’apprentissage efficaces. De plus, il existe des contextes où il est souhaitable d’exprimer un classificateur à l’aide de seulement quelques exemples représentatifs du problème d’apprentissage. En effet, cette caractéristique peut notamment encourager l’adoption d’algorithmes d’apprentissage par des chercheurs d’autres domaines qui désirent comprendre la règle de classification déduite par l’algorithme, car un classificateur comprimé est généralement in- terprétable par un individu non initié aux techniques sophistiquées propres à l’apprentissage automatique.

2.3.1 Un théorème pour l’apprentissage par compression d’échantillons

Le théorème 2.3, énoncé par Marchand et Sokolova (2005) et présenté ci-bas, exprime une borne supérieure sur le risque d’un classificateur comprimé. Cette garantie de généralisation dépend principalement de la taille de l’ensemble de compression |i| et du nombre d’erreurs k du classificateur sur les exemples n’appartenant pas à l’ensemble de compression. Le théorème2.3 requiert aussi une distribution PΣi sur l’ensemble des messages possibles, telle que

σ∈Σi

PΣi(σ) ≤ 1 .

Lors de l’application du théorème, cette distribution permet d’accorder plus d’importance aux messages envers lesquels on a confiance. Typiquement, on définit la distribution PΣi en

fonction de la longueur des messages, accordant davantage de poids aux messages courts.

Théorème 2.3 (Marchand et Sokolova, 2005). Pour toute fonction de reconstruction R, construisant un classificateur comprimé hσ_i à partir d’un ensemble de compression S_i et d’un message σ ∈ Σ_i, pour toute distribution de messages PΣi, pour tout δ ∈ (0, 1], on a, avec

probabilité au moins 1 − δ sur le choix de S ∼ Dm_,

∀ i ∈ I, ∀σ ∈ Σ_i: R(hσ_i) ≤ 1 − exp −1 m−|i|−k " ln m |i| ! + ln m−|i| k ! + ln 1 PΣi(σ) · ξ(|i|) · ξ(k) · δ !#! ,

Figure 2.5 – Exemple de classificateur dépendant des données constitué d’une conjonction de deux boules. Les exemples positifs et négatifs sont respectivement représentés en bleu et en rouge. L’ensemble de compression est formé des quatre exemples à la bordure blanche.

La borne sur le risque d’un classificateur comprimé découlant du théorème 2.3 croit avec l’augmentation du nombre d’erreurs k sur les exemples n’appartenant pas à l’ensemble de compression ainsi qu’avec l’augmentation de la taille de l’ensemble de compression |i|. Cette théorie suggère qu’un algorithme d’apprentissage doit favoriser les classificateurs qui, tout en possédant un risque empirique faible, s’expriment par un petit nombre d’exemples d’apprentissage.

2.3.2 L’algorithme SCM

Peu d’algorithmes sont conçus en accord avec le paradigme de l’apprentissage par compres- sion d’échantillons. C’est toutefois le cas des Machines à couverture d’ensembles (ou SCM , de l’anglais Set Covering Machines) suggéré parMarchand et Shawe-Taylor(2002). Un SCM s’avère une conjonction ou une disjonction de classificateurs qui dépendent des données. Ces formules booléennes sont représentées par un ensemble de classificateurs, que nous dési- gnons par B : h∧B(x) def = ^ h∈B h(x) pour la conjonction, (2.19) h∨B(x) def = _ h∈B h(x) pour la disjonction,

en adoptant la convention vrai ≡ +1 et faux ≡ −1.

En considérant l’ensemble de classificateurs complémentairesB def= {h | h(x) = −h(x), h ∈ B}, on constate qu’il est possible d’exprimer un classificateur par disjonction sur B comme le complément (ou la négation) d’un classificateur par conjonction sur B :

h∨B(x) = _ h∈B h(x) = − ^ h∈B − h(x) = − ^ h∈B h(x) = −h∧_B(x) .

Ainsi, sans perte de généralité, la discussion qui suit traite seulement des classificateurs par conjonction.

Algorithme 1 Construire_Scm(données S, classificateurs H, pénalité p, critère d’arrêt s)

Initialiser N ← {x | (x, −1) ∈ S} et P ← {x | (x, +1) ∈ S} . Initialiser t ← 0 .

tant que (t < s) ou (N 6= ∅) faire

t ← t + 1.

Sélectionner le meilleur classificateur selon la fonction (2.20) : ht:= argmax

h∈H

{ Up(h, N , P) } . Retirer les exemples couverts :

N ← {x ∈ N | ht(x) 6= −1} ; P ← {x ∈ P | ht(x) 6= −1} .

fin tant que

retourner B := {h1, . . . , ht} correspondant au classificateur h∧B défini à l’équation (2.19).

On dit qu’un classificateur appartenant à une conjonction couvre un exemple lorsqu’il le classifie négativement. On constate qu’une conjonction de classificateurs booléens h∧_B classifie un exemple x négativement si et seulement si au moins un classificateur dans B couvre x. Étant donné un échantillon d’entraînement S et un ensemble de classificateurs H, l’algorithme du SCM (voir l’algorithme1) est une procédure gloutonne qui permet de sélectionner un petit sous-ensemble B ⊆ H de classificateurs de telle sorte qu’un nombre élevé d’exemples négatifs de S soient couverts par au moins un classificateur appartenant à B. À l’initialisation, les ensembles N et P contiennent respectivement les descriptions des exemples négatifs et positifs de S. À chaque étape, l’algorithme ajoute à la conjonction un classificateur qui couvre un nombre élevé d’exemples de N et un nombre faible d’exemples de P, puis il retire les exemples couverts des ensembles N et P. Le compromis entre le nombre d’exemples négatifs couverts et le nombre d’exemples positifs couverts est attribuable à un paramètre de pénalité p ∈ [0, ∞[. Plus précisément, le classificateur choisi à chaque itération est celui qui maximise la fonction de coût suivante : Up(h, N , P) def= {x ∈ N | h(x) = −1} − p · {x ∈ P | h(x) = −1} . (2.20)

En plus du paramètre de pénalité, le SCM requiert un critère d’arrêt s ∈ N∗ qui fait office de régularisateur en limitant la taille de la conjonction (c’est-à-dire en imposant |B| ≤ s). Les expérimentations réalisées parMarchand et Shawe-Taylor (2002) utilisent des boules dé- pendantes des données comme ensemble de classificateurs pour créer un SCM. Chaque boule h_i,j ∈ H est caractérisée par deux exemples d’entraînement, soit un centre (xi, yi) ∈ S et une

bordure (x_j, yj) ∈ S : h_i,j(x) def=    +y_i si d(x, x_i) ≤ d(x_i, xj) + · yi, −yi sinon, (2.21)

où > 0 est un nombre arbitrairement petit et d : X × X → R est une mesure de distance entre deux exemples.

2.3.3 Évidences empiriques de l’efficacité du SCM

Bien que la fonction d(·, ·) puisse être de nature variée, les expérimentations de Marchand et Shawe-Taylor (2002) se concentrent sur la distance euclidienne. Il en ressort que l’algorithme SCM construit des classificateurs dont les risques rivalisent souvent avec ceux construits par les SVM utilisant un noyau RBF (tel que présenté à la figure2.4c, page 25). Par sa nature, le SCM est apte à produire des classificateurs beaucoup plus compacts que le SVM, c’est-à-dire des classificateurs exprimables par peu de données.

Les bornes provenant de la théorie de la compression d’échantillons (comme celle présentée au théorème 2.3) s’avèrent d’excellents critères de sélection de modèle pour le paramètre de pénalité p et le critère d’arrêt s du SCM. En effet, la disjonction (ou la conjonction) de boules sélectionnée par la borne et celle sélectionnée par validation croisée8 possèdent des risques comparables. Il est exceptionnel qu’une borne sur le risque se révèle aussi appropriée, ce qui semble confirmer l’existence d’une adéquation entre l’algorithme du SCM et la théorie de la compression d’échantillons.

Travaux connexes éffectués pendant le doctorat

L’article Germain et al. (2012a), coécrit au cours du doctorat, est consacré à l’étude de l’algorithme SCM. Les résultats contenus dans cet article montrent que l’heuristique de recherche employée par l’algorithme du SCM, bien qu’il ne minimise pas directement l’expression de la borne exprimée par le théorème 2.3, trouve presque toujours une solu- tion près du minimum suggéré par la borne. Il s’agit d’un résultat surprenant, puisque l’algorithme (glouton) du SCM est très rapide d’exécution, alors que la recherche du classificateur qui minimise la borne est un problème NP-complet.

Nous donnons un aperçu de cet article à la section 7.3(page 156) et le texte complet du manuscrit est reproduit à l’annexe D(page 201).

Dans le document Généralisations de la théorie PAC-bayésienne pour l'apprentissage inductif, l'apprentissage transductif et l'adaptation de domaine (Page 47-51)