• Aucun résultat trouvé

4.3 Algorithme d’apprentissage et analyse de complexité

4.3.4 Complexité du modèle

Jusqu’à présent, nous avons présenté un modèle de détecteur précoce ainsi qu’une manière permettant de déterminer ses paramètres (i.e. calculer un hyperplan séparateur et sélection- ner des prototypes pertinents parmi un grand ensemble d’instantanés mis à notre disposi- tion). Cette approche est très semblable à une SVM régularisée par une norme `1, de sorte qu’elle bénéficie de garanties de généralisation comparables. Nous revenons donc ici sur la théorie de l’apprentissage statistique (section 1.2) afin de montrer comment des résultats existants peuvent s’appliquer au cadre construit.

Les espaces de similarité ont très tôt été accompagnés de théories sur les aptitudes des mesures de proximité (goodness of a similarity function) et sur les capacités de généralisation que l’on peut en attendre[Balcan et Blum, 2006, Kar et Jain, 2012]. Au contraire, nous nous intéressons ici à une approche plus générale, qui ne fait aucune supposition sur la fonction de similarité. Celle-ci découle directement des travaux présentés dans[Kakade et coll., 2009], qui fournissent un ensemble d’outils théoriques pour analyser les SVM linéaires.

Si l’on reprend le formalisme introduit dans la section 1.2 et l’argument d’équivalence entre les formulations de Tikhonov et d’Ivanov pour les problèmes d’optimisation convexes[Ti- khonov et Arsenin, 1977], le problème d’apprentissage (convexe) (4.1) d’un détecteur pré- coce (w, b) peut s’écrire :

minimiser f ∈F 1 n n X i=1 Lyi, f  ψTL(x(i)∼)  ,

où L: (a, b) ∈ R × R 7→ max(0, 1 − ab) est la fonction de perte charnière et la classe des détecteurs précoces est définie à partir d’un majorant positif c1 par :

F = {x 7→ hw | xi`2 − b, w ∈ R

r

Données: matrice Q, vecteurs µ, α, w, seuil b et ensembles I, M, O, S, S et A. 1 retourner vecteurs α, w et seuil b à l’équilibre.

2 W ← ∅ ;

3 A∗ ← restriction de A vérifiant : QA∗,I∪MαI∪M ≤ µA∗ ;

4 A ← A\A∗;

5 affecter des éléments de A∗à S et S ; 6 tant queA non-vide faire

7 φ← solution de (4.4) ;

8 η← pas maximum admissible ; 9 si aucun risque de cycle alors

10 [b, αM, wS]T ← [b, αM, wS]T + ηφ;

11 αA← αA+ η1 ;

12 mettre à jour les ensembles I, M, O, S, S et A suivant l’événement apparu ;

13 sinon

14 si le risque est sur un point peuplant la marge alors 15 lancer une procédure de pénétration ; 16 si le risque est sur une dimension (notée∗) alors

17 W ← W ∪ {∗} ;

18 S ← S\{∗} ;

19 siA est vide alors

20 A∗ ← restriction de W vérifiant : QA∗,I∪MαI∪M ≤ µA∗ ;

21 A ← W\A∗;

22 affecter des éléments de A∗à S et S ;

Algorithme 5 :Apprentissage du détecteur linéaire par incréments dimensionnels.

Cette formulation du problème d’optimisation nous rapproche des travaux de Kakade et coll. concernant les bornes de généralisation des SVM linéaires. Ces derniers présentent notamment une majoration de la complexité de Rademacher de ce type de séparateurs, via un théorème que nous donnons à présent, après avoir rappelé la notion de forte convexité.

Définition 4.3.1(Fonction fortement convexe[Kakade et coll., 2009]).

Une fonction f : X → R est dite σ-fortement convexe (σ ∈ R∗

+) par rapport à une norme k · k∗ssi :

∀(x, z) ∈ X2,∀λ ∈ [0, 1]: f(λx + (1 − λ)z) ≤ λf(x) + (1 − λ)f(z) − σ

2λ(1− λ)kx − zk 2 ∗. Cette définition est équivalente à affirmer que x 7→ f(x) −σ

2kxk2∗est convexe.

Théorème 4.3.1(Borne de complexité[Kakade et coll., 2009]).

Soientk · k une norme et k · k∗sa norme duale. Supposons que : ∃cX ∈ R+/∀x ∈ X , kxk ≤ cX.

Soient maintenantS un ensemble fermé et convexe (de même dimension que X ) et F : S → R une fonction σ-fortement convexe (σ > 0) par rapport àk · k∗ telle que inf

x∈SF (x) = 0. Soient alors cW un réel positif etW un sous-ensemble de S vérifiant :

W = {w ∈ S / F (w) ≤ c2W}.

Nous définissons la classe de fonctions d’intérêtFW parFW ={x 7→ hw | xi`2, w∈ W}. Alors la complexité de Rademacher de cette classe de fonctions est bornée de la manière suivante :

Rn(FW)≤ cXcW r

2 σn.

4.3. ALGORITHME D’APPRENTISSAGE ET ANALYSE DE COMPLEXITÉ 113

La première hypothèse de ce théorème est automatiquement vérifiée puisque nous nous sommes assurés que X est un espace compact. Le reste du théorème est assez général et suppose que l’on travaille avec des séparateurs linéaires hw | ·i`2 dont une mesure F (w)

est bornée. Nous énonçons à présent le corollaire qui établit le lien entre ce théorème et les SVM régularisées en norme `1.

Corollaire 4.3.2(Borne de complexité pour contrainte `1[Kakade et coll., 2009]). Soient c1 un nombre réel positif etF = {x 7→ hw | xi`2, w∈ R

r +,kwk`1 ≤ c1}. Si ∃c∞∈ R+/∀x ∈ X , kxk∞≤ c∞, alors Rn(F) ≤ c1c∞ r 2(ln(r) + e−1) n .

Dans [Kakade et coll., 2009], les auteurs énoncent ce corollaire sans le terme e−1, qui nous semble manquer. Nous reprenons donc leur démonstration en détaillant les étapes.

Démonstration. Choisissons la norme k · k = k · k∞et sa norme duale k · k∗ = k · k1. Soit alors c1 un réel positif. Prenons S = {w ∈ Rr / w < 0,kwk`1 ≤ c1} (S est fermé et convexe) et considérons la fonction entropie :

F : w∈ S 7→ r X j=1 wj c1 ln rwj c1  + e−1. Démontrons que F est 1

c2

1-fortement convexe par rapport à k·k`1 et que infw∈SF (w) = 0. Tout d’abord, F est doublement dérivable sur tout S sauf là où une coordonnée de w s’annule. On vérifie aisément que la hessienne ∇2F de F est (δ

p,qc11wp)1≤p,q≤r (où δp,q est le dirac valant 1 ssi p = q). Chaque élément sur la diagonale est minoré par 1

c2

1 puisque

0≤ wj ≤ c1,∀j ∈ Nr. Ainsi ∇2F−c12 1

Iest semi-définie positive, ce qui prouve la convexité de F − 1

2c2 1k·k

2

`1 et la forte convexité de F .

Considérons maintenant le problème min w∈Rd + Pr j=1 wj c1 ln rw j

c1 . Par annulation du gradient,

on obtient un unique minimum global en w∗ = c1

re−11, valant−e−1. Puisque w∗ ∈ S, w∗ = arg min w∈S F (w)et F (w∗) = 0. Définissons à présent W = {w ∈ S / F (w) ≤ c2 W} pour cW = pln(r) + e−1. Puisque ∀w ∈ S, ∀j ∈ Nr, 0≤ wj ≤ c1, 0 ≤ rwc1j ≤ r, puisPrj=1wc1j ln rw j c1  ≤ ln(r)Pr j=1 wj c1 ≤ ln(r)

(on utilise la continuité là où les coordonnées de w s’annulent). D’où ∀w ∈ S, F (w) ≤ c2 W. Ainsi W = S et F = {x 7→ hw | xi`2, w ∈ S} = FW (tel que défini dans l’énoncé du

théorème 4.3.1). On peut donc appliquer la majoration du théorème 4.3.1 en prenant cX = c∞, cW =pln(r) + e−1et σ = c12

1. 

Forts de ce corollaire, on obtient immédiatement une majoration de la complexité de Rade- macher de notre classe de détecteurs précoces.

Corollaire 4.3.3(Borne de complexité pour détecteur précoce).

Soient r > 0 la dimension des données, µ∈ Rr

+un vecteur de pondération, λ∈]0, 1[, c1un nombre réel positif etF l’ensemble des détecteurs précoces considérés :

F = {x 7→ hw | xi`2 − b, w ∈ R

r

Si la plus petite composante de µ est 1 et si : ∃c∞≥ 1 / ∀x∼∈ X[0,T ],∀t ∈ [0, T ]: ψLt(x∼) ≤ c∞, alors : Rn(F) ≤ c1c∞ min(λ, 1− λ) r 2(ln(r + 2) + e−1) n .

Démonstration. Soient µ, λ, c1 et F tels que définis dans l’énoncé. Soit aussi la matrice Aµ,λ ∈ R(r+2)×(r+2)définie par Aµ,λ= Diag([(1− λ)µ1, . . . , (1− λ)µr, λ, λ]). Alors en effectuant les changements de variables ˆw = [w, u, v](avec b = u − v et u, v ≥ 0) et ˆx = [ψL

t(x∼),−1, 1], on obtient :

F = {ˆx 7→ h ˆw| ˆxi`2, ˆw∈ R

r+2

+ ,kAµ,λwˆk`1 ≤ c1}.

Notons d’abord qu’avec ce changement de variable et les hypothèses du corollaire 4.3.3, les données augmentées sont toujours majorées par c∞(car c∞≥ 1) :

kˆxk∞≤ max( ψLt(x) ∞, 1)≤ c∞. Ensuite, puisque la plus petite valeur de µ est 1 et que 1 ≤ 1−λ

min(λ,1−λ), on a pour tout j de Nr: 1 ≤ min(λ,1−λ)1−λ µj, puis ˆwj ≤ min(λ,1−λ)1−λ µjwˆj ( ˆwj ≥ 0). De même, puisque 1 ≤ min(λ,1−λ)λ , alors ∀j ∈Jr + 1, r + 2K :wˆj ≤

λ

min(λ,1−λ)wˆj. Ainsi ˆw 4 min(λ,1−λ)1 Aµ,λw. On en déduit queˆ 1Twˆ ≤ min(λ,1−λ)1 1TAµ,λw, i.e.ˆ k ˆwk`1 ≤ 1 min(λ, 1− λ)kAµ,λwˆk`1 ≤ c1 min(λ, 1− λ).

Il suffit maintenant d’appliquer le corollaire 4.3.2 en notant que la dimension des données ˆ

xest r + 2 et que la borne de contrôle de la complexité de F est c1

min(λ,1−λ). 

Comme mentionné dans[Kakade et coll., 2009], ce type de majoration sert de substitut dans le théorème 1.2.2 [Bartlett et Mendelson, 2002]afin d’obtenir une borne de généralisation pour l’ensemble des détecteurs précoces F.

Remarque18.

La borne de généralisation obtenue par majoration de la complexité de Rademacher de l’ensemble des détecteurs précoces F dépend de la dimension des données (i.e. du nombre rde prototypes), qui d’une part est susceptible d’être très grande et d’autre part contredit l’une des propriétés de la théorie SVM qui est précisément de ne pas dépendre de ladite dimension. Deux observations peuvent alors être émises :

 cette dépendance est faible puisqu’en ln(r + 2) ;

 cette borne est vérifiée pour tout estimateur f de F. En revanche, nous ne nous intéres- sons en réalité qu’à un estimateur optimal f∗résolvant le problème d’apprentissage. Or la norme `1 favorise la parcimonie, donc le support du vecteur de pondération wde f∗ est restreint et la dimension effective de w est donc bien inférieure à r en pratique.

Ayant montré que la similarité de notre approche avec les SVM linéaires permet de donner des garanties théoriques de généralisation au cadre mis en place, nous retournons à présent à des aspects numériques. Plus précisément, la prochaine section est vouée à mettre en lumière les points communs et les différences de notre détecteur précoce en comparaison à deux approches existantes. Finalement, une ultime partie permet de valider empiriquement nos travaux.