• Aucun résultat trouvé

Vote de majorit´e contraint et classification binaire

4.1.3 Borne en g´en´eralisation pour les sch´emas de compression

Nous d´erivons maintenant une preuve de consistance pour MinCq et son extension

π-align´ee P-MinCq lorsque les votants sont d´efinis `a partir d’exemples de l’´echantillon d’apprentissage, ce qui correspond `a l’appellation “sch´ema de compression”.

Cadre g´en´eral d’un sch´ema de compression

Un sch´ema de compression [Floyd et Warmuth, 1995] est un algorithme d’apprentis-sage Atravaillant sur un ensemble de classifieurs d´ependant des donn´ees. Un classi-fieur est alors repr´esent´e par deux ´el´ements :

(i) une s´equence d’exemples, appel´ee la s´equence de compression ;

(ii) un message repr´esentant l’information suppl´ementaire utilis´ee permettant d’ob-tenir le classifieur `a partir de la s´equence de compression.

On d´efinit ensuite une fonction de reconstruction capable de renvoyer un classifieur `a partir d’une s´equence de compression et d’un message.

Plus formellement, un algorithme A est un sch´ema de compression s’il v´erifie la d´efinition suivante.

D´efinition 4.1 Soit S ∈ (X×Y)m un ´echantillon d’apprentissage de taille m. On d´efinit Im l’en-semble de tous les vecteurs d’indices possibles :

Im = m [ i=1 n (j1, . . . , ji)∈ {1, . . . , m}io . ´

Etant donn´es une famille d’hypoth`eseHSde X vers Y et un vecteur d’indices iIm, on d´efinit la s´equence de compression Sicomme ´etant la sous-s´equence indic´ee par i :

Si = (xj1, yj1), . . . ,(xji, yji) .

Un algorithmeA:(X×Y)() 7→ HSest un sch´ema de compression si et seulement s’il existe un triplet(C,R, ω)tel que pour tout ´echantillon d’apprentissage S, on ait :

A(S) =RSC(S), ω ,

o `uC :(X×Y)(∞)7→Sm=1Imest la fonction de compression,R:(X×Y)(∞)×ΩS

C(S)7→ HS est la fonction de reconstruction et ω est un message choisi dans l’ensemble ΩSC(S) (d´efini a priori) de tous les messages qui peuvent ˆetre fournis avec la s´equence de compression SC(S)pour permettre la reconstruction du classifieur.

En d’autres termes, un sch´ema de compression est une fonction de reconstruction R(·,·)associant une s´equence de compression SC(S) = Si `a un ensembleHS de fonc-tions hωSi telles queA(S) =R (Si, ω) =hωSi.

Par exemple, les classifieurs de type plus proches voisins sont des classifieurs re-constructibles uniquement `a partir d’une s´equence de compression encodant les PPV (voir [Floyd et Warmuth, 1995, Graepel et al., 2005]) : un k-PPV est directement d´efini `a partir de tous les exemples de l’´echantillon d’apprentissage sans informa-tion suppl´ementaire. Alors que d’autres classifieurs, comme les decision list machines [Marchand et Sokolova, 2005], requi`erent une s´equence de compression ainsi qu’un message. Nous donnons dans la suite une borne en g´en´eralisation valide pour tout sch´ema de compression.

Bornes en g´en´eralisation dans le cas de votants d´ependants des donn´ees

Soit Si une s´equence de compression compos´ee de |i| exemples issus de l’ensemble d’apprentissage S. Dans le contexte d’un sch´ema de compression PAC-Bay´esien, les er-reurs RP(·)et RS(·)peuvent ˆetre biais´ees par ces ´el´ements : il est donc pr´ef´erable de cal-culer l’erreur empirique RS(·) `a partir de S\Si [Laviolette et Marchand, 2007]. Cepen-dant, pour d´eriver une borne sur l’erreur dans une telle situation, [Germain et al., 2011] ont propos´e une strat´egie diff´erente pour prendre en compte le biais. En suivant cette strat´egie et ´etant donn´e un ´echantillon d’apprentissage S, nous consid´erons HS l’en-semble de tous les classifieurs possibles hωSi = R(Si, ω)tel que ω ∈ ΩSi. Nous notons

ρIm(i)la probabilit´e qu’une s´equence de compression Sisoit choisie par ρ, et ρSi(ω)la probabilit´e de choisir un message ω sachant Si. Alors :

ρIm(i) =

Z ω∈ΩSi

ρ(hωSi)dω, et ρSi(ω) =ρ(hωSi|Si).

Dans la th´eorie PAC-Bay´esienne, les bornes sur l’erreur en g´en´eralisation d´ependent de la distribution prior π sur l’ensemble HS. Ce prior est suppos´e connu avant l’ob-servation de l’´echantillon d’apprentissage S, impliquant que π doit ˆetre ind´ependant de S. Or, les votants de HS d´ependent de S et empˆechent une telle connaissance a

priori. Ce probl`eme peut ˆetre contr´e, selon le principe de [Laviolette et Marchand, 2007,

Germain et al., 2011] en consid´erant une distribution prior d´efinie par le couple : (πIm,(πSi)iIm),

o `u πIm est une distribution de probabilit´e sur l’ensemble d’indices Im et πSi est une distribution de probabilit´e sur l’ensemble des messages ΩSi, pour toutes les s´equences

Si possibles. Ainsi la distribution prior π ind´ependante des donn´ees de S correspond `a la distribution surHSassoci´ee au prior(πIm,(πSi)iIm)et est d´efinie par :

iIm, ∀ω ∈ΩSi, π(hωSi) =πImπSi(ω).

D´efinition 4.2 Dans le cas d’un sch´ema de compression, la ρ-marge de Bρ(·)mesur´ee sur un exemple

(x, y):

Mρ(x, y) =y E

Siρ hωSi(x).

Soit P un domaine sur X×Y. Soit un ´echantillon S ∼ (P)m. Les premiers moments r´eelMρP et empiriqueMρSet les seconds moments r´eelMρP2 et emiriqueMρS2 de la ρ-marge sont d´efinis comme pr´ec´edemment par :

MρP = E (x,y)∼P Mρ(x, y), et MρS = 1 m m

i=1 Mρ(xi, yi), MρP2 = E (x,y)∼P (Mρ(x, y))2, et MρS2 = 1 m m

i=1 (Mρ(xi, yi))2.

Rappelons que nous consid´erons une famille auto-compl´ement´ee de votants HS et uniquement des distributions de probabilit´e π-align´ees sur HS. Pour tout votant hω S

dans l’ensemble HS, son oppos´e est not´e −hωS. Ainsi, ´etant donn´e un ´echantillon S, l’ensemble des messages associ´e est d´efini par ΩS× {+,−} et : ∀σ ∈ ΩS, h(Sσ,+) = −h(Sσ,−). Le r´esultat principal de cette section est donn´e dans le th´eor`eme suivant.

Th´eor`eme 4.1 Soit P un domaine sur X×Y, soit m8, soit S un ´echantillon de m ´el´ements i.i.d.

selon P. Alors pour tout δ ∈ (0, 1], avec une probabilit´e d’au moins 1δ sur le choix de S ∼ (P)m (de taille m), pour tout ensembleHS auto-compl´ement´e de votants born´es par B et de taille de s´equence de compression au plus|imax| < m

2 et pour toute distribution π-align´ee ρ sur l’ensembleHS, on a : MρP− MρS ≤ p 2B 2(m− |imax|) s |imax| +ln  2√ m δ  , (4.2) et : MρP2− MρS2 ≤ p 2B2 2(m−2|imax|) s 2|imax| B2δ +ln  2√ m δ  . (4.3)

D´emonstration. En annexe C.2 (inspir´ee de la preuve du th´eor`eme 3.4, chapitre 3).

Cette borne est `a la fois valide pour MinCq et pour sa version π-align´ee.

Notons que dans le cas de classifieurs ind´ependants des donn´ees d’apprentissage, c’est-`a-dire lorsque |imax| = 0, on retrouve le th´eor`eme 3.4. Comme attendu, plus les s´equences de compression sont grandes, i.e. plus |imax| est ´elev´e, moins la borne est pr´ecise. Ainsi, pour pr´eserver la consistance du processus d’apprentissage, cette taille ne doit pas ˆetre trop importante.

Nous allons maintenant ´etudier deux instanciations concr`etes de l’approche MinCq/P-MinCq. La premi`ere, en section 4.2, propose une approche originale pour combiner des

k-PPV avec diff´erentes valeurs de k. Nous proposons un a priori naturel `a chaque votant

qui nous permettra de souligner l’int´erˆet du π-alignement. La seconde, en section 4.3, se focalise sur un vote de majorit´e bas´e sur des votants appris `a partir de diff´erentes descriptions des donn´ees. Plus pr´ecis´ement, dans le contexte d’une probl´ematique de

fusion de classifieurs en multim´edia, nous pr´esentons une r´egularisation sp´ecifique `a la tˆache d’indexation de donn´ees avec une perspective de recherche d’information. Cette sp´ecialisation met en ´evidence l’int´erˆet de l’approche MinCq/P-MinCq dans un tel contexte, mais pour lequel il est complexe de d´efinir un π-alignement pertinent.