• Aucun résultat trouvé

Apprentissage semi-supervisé pour la classification des données

Algorithme 3.1. Auto-Apprentissage [Goldberg 2010]

1.1.3. Séparateurs Semi-Supervisée à Vaste Marge

Enfin, nous discutons une extension semi-supervisée des Séparateurs à Vaste Marge (SVM). L'intuition derrière les Séparateurs Semi-Supervisé à Vaste Marge (S3VM) (ou Séparateur à Vaste Marge Transductif (TSVM)) est très simple. La figure 3.3 (a) montre un ensemble de données entièrement étiquetées. Si on veut tracer une ligne droite pour séparer les deux classes, une place raisonnable est juste au milieu. C'est la limite de décision linéaire trouvée par les SVMs et est montrée dans la figure 3.3 (a). Le classifieur SVM maximise la marge géométrique « la distance à l'instance positive ou négative la plus proche » qui est illustrée à l'aide de lignes pointillées.

(a) SVM (b) S3VM

Figure 3.3. (a) Avec seulement des données étiquetées, la limite de décision linéaire qui maximise la distance à n'importe quelle instance étiquetée est tracée avec un trait en gras. La

marge associée est représentée en pointillé. (b) Avec des données non étiquetées + L + V + - - M - + + + - - - - -

supplémentaires, en supposant que les classes sont bien séparées, la frontière de décision cherche un écart dans les données non étiquetées [Goldberg 2010].

Que se passe-t-il si nous avons plusieurs instances non étiquetées supplémentaires distribuées comme dans la Figure 3.3 (b) ? La limite de décision du SVM couperait à travers des régions denses de données non étiquetées. Si nous supposons que les deux classes sont bien séparées, cela semble indésirable. Au lieu de cela, la meilleure limite de décision semble maintenant être celle de la figure 3.3 (b), qui se situe dans l'écart entre les données non étiquetées. Cette nouvelle frontière de décision sépare toujours les deux classes dans les données étiquetées, bien que sa marge soit plus petite que la limite de décision du SVM. La nouvelle frontière de décision est celle trouvée par les S3VMs, elle est définie à la fois par des données étiquetées et non étiquetées.

Pour formaliser cette intuition, nous passons brièvement sur les classifieurs SVMs supervisés, puis nous décrivons précisément les S3VMs. Pour simplifier, nous supposerons qu'il y a deux classes :𝑦 ∈ {−1,1}. Nous supposerons également que la frontière de décision est linéaire dans ℝ𝐷, c'est-à-dire qu'une frontière de décision est définie par l'ensemble {𝑥|𝑓(𝑥) = 𝑤𝑇𝑥 + 𝑏 = 0}, où 𝑤 ∈ ℝ𝐷 est le vecteur paramètre qui spécifie l'orientation et l'échelle de la frontière de décision, et 𝑏 ∈ ℝ est un paramètre de décalage. La frontière de décision est donc définie par 𝑓(𝑥) = 0, et l'étiquette de x est prédite par 𝑠𝑖𝑔𝑛(𝑓(𝑥)).

Le problème d'optimisation du SVM primal peut s'écrire comme un problème de minimisation du risque régularisé :

𝑚𝑖𝑛𝑤,𝑏∑ max (1 − 𝑦𝑖( 𝑙

𝑖=1

𝑤𝑇𝑥 + 𝑏),0) + 𝜆‖𝑤‖2 (3.5)

Où le premier terme correspond à la fonction de perte hinge-loss :

𝑐(𝑥, 𝑦, 𝑓(𝑥)) = 𝑚𝑎𝑥 (1 − 𝑦(𝑤𝑇𝑥 + 𝑏),0) (3.6)

et le second terme correspond à la régularisation Ω(𝑓) = ‖𝑤‖2. Le poids 𝜆 équilibre les deux objectifs. Il s'avère que la marge peut être mesurée comme 1/‖𝑤‖, donc minimiser ‖𝑤‖2 est équivalent à la maximisation de la marge.

Cette formulation tente donc de trouver la séparation maximale de la marge, mais permet à certaines instances d'apprentissage d'être du mauvais côté de la frontière de décision.

Nous pouvons maintenant introduire S3VM, qui étaient à l'origine appelés TSVM (Transductive Support Vector Machines) lorsque [Vapnik 1998] les proposait, car leur théorie a été développée pour donner des garanties théoriques à l'échantillon non étiqueté.

Rappelons-nous que dans la figure 3.3 (b), l'intuition des S3VMs est de placer les instances étiquetées et non étiquetées en dehors de la marge. Nous avons vu comment cela peut être encouragé pour les instances étiquetées en utilisant la fonction de perte hinge-loss. Mais qu'en est-il des instances non étiquetées ? Sans étiquette, nous ne savons pas si une instance non étiquetée x est du bon ou du mauvais côté de la frontière de décision.

Une façon d'incorporer l'instance x non étiquetée dans l'apprentissage est de traiter la prédiction d'étiquette sur x, c'est-à-dire, 𝑦̂ = 𝑠𝑖𝑔𝑛(𝑓(𝑥)), comme étiquette putative de x (comme dans l'auto-apprentissage). Ensuite, nous pouvons appliquer la fonction de perte hinge- loss sur x :

𝑐(𝑥, 𝑦̂, 𝑓(𝑥)) = max(1 − 𝑦̂(𝑤𝑇𝑥 + 𝑏), 0)

= max(1 − 𝑠𝑖𝑔𝑛(𝑤𝑇𝑥 + 𝑏)(𝑤𝑇𝑥 + 𝑏), 0) = max(1 − |𝑤𝑇𝑥 + 𝑏|,0)

(3.7)

La nouvelle fonction de perte obtenue, est appelée hat-loss [Goldberg 2010].

La fonction hat-loss a quelques propriétés clés qui la rendent souhaitable pour l'apprentissage semi-supervisé. Spécifiquement, elle préfère 𝑓(𝑥) ≥ 1 ou 𝑓(𝑥) ≤ −1. Ce sont des instances en dehors de la marge, loin de la frontière de décision. D'autre part, elle affecte une valeur de perte importante aux instances non-étiquetées avec -1 <f (x) <1, en particulier celles avec 𝑓(𝑥) ≈ 0. Ce sont des instances non étiquetées dans la marge, celles qui sont incertaines.

Nous incorporons maintenant la fonction hat-loss sur les données non-étiquetées {𝑥𝑗}𝑗=𝑙+1𝑙+𝑢 dans l’objectif du SVM (3.5) pour former l’objectif du S3VM :

𝑚𝑖𝑛𝑤,𝑏∑ max (1 − 𝑦𝑖( 𝑙 𝑖=1 𝑤𝑇𝑥 + 𝑏),0) + 𝜆 1‖𝑤‖2+ 𝜆2 ∑ max(1 − |𝑤𝑇𝑥 + 𝑏|,0) 𝑙+𝑢 𝑗=𝑙+1 (3.8)

De toute évidence, l'objectif du S3VM/ TSVM est que les instances non étiquetées soient en dehors de la marge. De manière équivalente, nous voulons trouver une limite de décision dans un intervalle de faible densité dans l'ensemble de données, de sorte que peu d'instances non étiquetées soient proches.

Notez qu'une contrainte d’équilibre de classe est généralement appliquée au-dessus de l’équation (3.8). Pour des raisons mal comprises, la majorité (voire la totalité) des instances non étiquetées est parfois prédite dans une seule classe. Pour corriger ce déséquilibre, une heuristique consiste à contraindre la proportion de la classe prédite (ou la somme des prédictions continues) sur les données non étiquetées, de sorte qu'elle soit la même que la proportion de la classe sur les données étiquetées : 𝑢1∑𝑙+𝑢𝑗=𝑙+1𝑓(𝑥𝑗) =1𝑙∑𝑙𝑖=1𝑦𝑖.

Généralement, les données réelles utilisées peuvent être linéairement ou non linéairement séparables. Le S3VM / TSVM peut facilement et efficacement gérer ces deux types de données. Depuis son introduction, S3VM/TSVM est devenu l'une des techniques de classification les plus utilisées et a été appliqué avec succès dans différents domaines. Il a montré des résultats très prometteurs surtout dans le domaine d’aide à la décision médicale [Yinghuan 2013 ; Zhengxia 2016 ; Jun 2015] ainsi que dans d’autres domaines [Jian 2013 ; Cui 2013 ; Yang 2014 ; Xie 2014]. Pour savoir davantage sur la technique S3VM/TSVM le lecteur peut se référer à [Shifei 2017].

Plusieurs autres méthodes exploitent également l'idée que les données non étiquetées ne devraient pas être très proches de la frontière de décision. Cette intuition peut être implémentée dans les processus gaussiens (Gaussian Process) [Lawrence 2005 ; Srijith 2013], la régularisation de l'information [Corduneanu 2005] ou la minimisation de l'entropie [Mahdaviani 2008].