Borne en généralisation pour les schémas de compression

Vote de majorit´e contraint et classification binaire

4.1.3 Borne en généralisation pour les schémas de compression

Nous d´erivons maintenant une preuve de consistance pour MinCq et son extension

π-alignée P-MinCq lorsque les votants sont définis à partir d’exemples de l’échantillon d’apprentissage, ce qui correspond à l’appellation “schéma de compression”.

Cadre général d’un schéma de compression

Un schéma de compression [Floyd et Warmuth, 1995] est un algorithme d’apprentis-sage Atravaillant sur un ensemble de classifieurs dépendant des données. Un classi-fieur est alors représenté par deux éléments :

(i) une séquence d’exemples, appelée la séquence de compression ;

(ii) un message représentant l’information supplémentaire utilisée permettant d’ob-tenir le classifieur à partir de la séquence de compression.

On définit ensuite une fonction de reconstruction capable de renvoyer un classifieur à partir d’une séquence de compression et d’un message.

Plus formellement, un algorithme A est un schéma de compression s’il vérifie la définition suivante.

Définition 4.1 Soit S ∈ (X×Y)m un échantillon d’apprentissage de taille m. On définit Im l’en-semble de tous les vecteurs d’indices possibles :

Im = m [ i=1 n (j1, . . . , ji)∈ {1, . . . , m}io . ´

Etant donnés une famille d’hypothèseHSde X vers Y et un vecteur d’indices i∈Im, on définit la séquence de compression Sicomme étant la sous-séquence indicée par i :

Si = (x_j₁, yj1), . . . ,(x_j_i, yji) .

Un algorithmeA:(X×Y)⁽^∞⁾ 7→ HSest un sch´ema de compression si et seulement s’il existe un triplet(C,R, ω)tel que pour tout ´echantillon d’apprentissage S, on ait :

A(S) =RS_C(_S₎, ω ,

o `uC :(X×Y)(∞)7→^S^∞m=1I_mest la fonction de compression,R:(X×Y)(∞)×Ω_S

C(S)7→ HS est la fonction de reconstruction et ω est un message choisi dans l’ensemble ΩS_C(_S) (défini a priori) de tous les messages qui peuvent être fournis avec la séquence de compression S_C(_S)pour permettre la reconstruction du classifieur.

En d’autres termes, un schéma de compression est une fonction de reconstruction R(·,·)associant une séquence de compression S_C(_S₎ = Si à un ensembleHS de fonc-tions h^ω_S_i telles queA(S) =R (Si, ω) =h^ω_S_i.

Par exemple, les classifieurs de type plus proches voisins sont des classifieurs re-constructibles uniquement à partir d’une séquence de compression encodant les PPV (voir [Floyd et Warmuth, 1995, Graepel et al., 2005]) : un k-PPV est directement défini à partir de tous les exemples de l’échantillon d’apprentissage sans informa-tion supplémentaire. Alors que d’autres classifieurs, comme les decision list machines [Marchand et Sokolova, 2005], requièrent une séquence de compression ainsi qu’un message. Nous donnons dans la suite une borne en généralisation valide pour tout schéma de compression.

Bornes en généralisation dans le cas de votants dépendants des données

Soit Si une séquence de compression composée de |i| exemples issus de l’ensemble d’apprentissage S. Dans le contexte d’un schéma de compression PAC-Bayésien, les er-reurs RP(·)et RS(·)peuvent être biaisées par ces éléments : il est donc préférable de cal-culer l’erreur empirique RS(·) à partir de S\Si [Laviolette et Marchand, 2007]. Cepen-dant, pour dériver une borne sur l’erreur dans une telle situation, [Germain et al., 2011] ont proposé une stratégie différente pour prendre en compte le biais. En suivant cette stratégie et étant donné un échantillon d’apprentissage S, nous considérons HS l’en-semble de tous les classifieurs possibles h^ω_S_i = R(Si, ω)tel que ω ∈ Ω_S_i. Nous notons

ρIm(i)la probabilité qu’une séquence de compression Sisoit choisie par ρ, et ρS_i(ω)la probabilité de choisir un message ω sachant Si. Alors :

ρIm(i) =

Z ω∈ΩSi

ρ(h^ω_S_i)dω, et ρ_S_i(ω) =ρ(h^ω_S_i|Si).

Dans la théorie PAC-Bayésienne, les bornes sur l’erreur en généralisation dépendent de la distribution prior π sur l’ensemble HS. Ce prior est supposé connu avant l’ob-servation de l’échantillon d’apprentissage S, impliquant que π doit être indépendant de S. Or, les votants de HS dépendent de S et empêchent une telle connaissance a

priori. Ce problème peut être contré, selon le principe de [Laviolette et Marchand, 2007,

Germain et al., 2011] en consid´erant une distribution prior d´efinie par le couple : (πIm,(π_S_i)_i_∈_I_m),

o ù πIm est une distribution de probabilité sur l’ensemble d’indices Im et πS_i est une distribution de probabilité sur l’ensemble des messages ΩSi, pour toutes les séquences

Si possibles. Ainsi la distribution prior π indépendante des données de S correspond à la distribution surHSassociée au prior(πIm,(π_S_i)_i_∈_I_m)et est définie par :

∀i ∈I_m, ∀ω ∈Ω_S_i, π(h^ω_S_i) =πImπS_i(ω).

Définition 4.2 Dans le cas d’un schéma de compression, la ρ-marge de Bρ(·)mesurée sur un exemple

(x, y):

Mρ(x, y) =y E hω

Si∼ρ h^ω_S_i(x).

Soit P un domaine sur X×Y. Soit un échantillon S ∼ (P)m. Les premiers moments réelM^ρP et empiriqueM^ρ_Set les seconds moments réelM^ρP² et emiriqueM^ρ_S² de la ρ-marge sont définis comme précédemment par :

M^ρ_P = E (x,y)∼P Mρ(x, y), et M^ρ_S = ¹ m m

∑

i=1 Mρ(x_i, yi), M^ρ_P² = E (x,y)∼P (Mρ(x, y))², et M^ρ_S² = ¹ m m

∑

i=1 (Mρ(x_i, yi))².

Rappelons que nous considérons une famille auto-complémentée de votants HS et uniquement des distributions de probabilité π-alignées sur HS. Pour tout votant hω S

dans l’ensemble HS, son opposé est noté −h^ω_S. Ainsi, étant donné un échantillon S, l’ensemble des messages associé est défini par ΩS× {+,−} et : ∀σ ∈ Ω_S, h⁽_S^σ^,⁺⁾ = −h⁽_S^σ^,⁻⁾. Le résultat principal de cette section est donné dans le théorème suivant.

Théorème 4.1 Soit P un domaine sur X×Y, soit m ≥ 8, soit S un échantillon de m éléments i.i.d.

selon P. Alors pour tout δ ∈ (0, 1], avec une probabilité d’au moins 1−δ sur le choix de S ∼ (P)m (de taille m), pour tout ensembleHS auto-complémenté de votants bornés par B et de taille de séquence de compression au plus|imax| < m

Démonstration. En annexe C.2 (inspirée de la preuve du théorème 3.4, chapitre 3).

Cette borne est `a la fois valide pour MinCq et pour sa version π-align´ee.

Notons que dans le cas de classifieurs indépendants des données d’apprentissage, c’est-à-dire lorsque |i_max| = 0, on retrouve le théorème 3.4. Comme attendu, plus les séquences de compression sont grandes, i.e. plus |i_max| est élevé, moins la borne est précise. Ainsi, pour préserver la consistance du processus d’apprentissage, cette taille ne doit pas être trop importante.

Nous allons maintenant étudier deux instanciations concrètes de l’approche MinCq/P-MinCq. La première, en section 4.2, propose une approche originale pour combiner des

k-PPV avec diff´erentes valeurs de k. Nous proposons un a priori naturel `a chaque votant

qui nous permettra de souligner l’intérêt du π-alignement. La seconde, en section 4.3, se focalise sur un vote de majorité basé sur des votants appris à partir de différentes descriptions des données. Plus précisément, dans le contexte d’une problématique de

fusion de classifieurs en multimédia, nous présentons une régularisation spécifique à la tâche d’indexation de données avec une perspective de recherche d’information. Cette spécialisation met en évidence l’intérêt de l’approche MinCq/P-MinCq dans un tel contexte, mais pour lequel il est complexe de définir un π-alignement pertinent.

Dans le document Apprentissage de vote de majorité pour la classification supervisée et l'adaptation de domaine : approches PAC-Bayésiennes et combinaison de similarités (Page 101-104)