• Aucun résultat trouvé

3.3 Apprentissage semi-supervisé

3.3.1 Définition et état de l’art

Dans l’objectif d’améliorer notre détecteur de parole émotionnelle, nous exploitons une approche de classification semi-supervisée qui permet de com-biner des données étiquetées et des données non étiquetées pour l’apprentis-sage. La classification semi-supervisée se situe entre la classification super-visée et la classification non supersuper-visée (cf. la figure 3.1) [Chapelle et al., 2006]. On peut ainsi chercher à catégoriser les données non étiquetées en contraignant le nombre de classes ou se basant sur le prédicteur. On peut également chercher à améliorer les performances de la règle de catégorisation apprise. L’apprentissage semi-supervisé intervient lorsqu’on dispose à la fois d’un ensemble de données étiquetées <(x1, y1), ...,(xm, ym) > et non étique-tées <(xm+1,?), ...,(xn,?)> (cf. figure3.1).

Depuis les années 1970, de nombreux travaux ont été proposés autour de l’apprentissage semi-supervisé, parmi les premiers nous citons les travaux de O’Neill [1978] et les travaux de Ganesalingam et McLachlan [1978]. Ces tra-vaux reposent sur le concept de données manquantes. Dans la même période, Dempster et al. [1977] ont proposé un algorithme d’estimation du maximum de vraisemblance par itération successive en deux étapes. Un peu plus tard, vers les années 1990, grâce au développement des dispositifs d’acquisition de données qui ont permis d’avoir beaucoup de données disponibles, plusieurs chercheurs se sont intéressés à ce domaine de recherche. La plupart des tra-vaux étaient consacrés à la classification de documents et de pages web. Ni-gam et al. [2000] ont proposé une méthode partiellement supervisée pour la classification automatique de textes. Ils ont présenté un des tous premiers al-gorithmes semi-supervisé pour apprendre les paramètres du modèle génératif Naïve Bayes pour la classification de textes. Enfin, Chapelle et al. [2006] ont publié un livre sur ce thème de recherche très actif, ce qui constitue une preuve de l’intérêt actuel suscité par ce sujet.

3.3.2 Techniques d’apprentissage semi-supervisé

Les solutions proposées au problème de l’apprentissage semi-supervisé dans la littérature s’appuient sur des hypothèses et sur des modèles différents. Nous trouvons les méthodes génératives et discriminatives, ainsi que d’autres mé-thodes ne reposant pas sur un modèle probabiliste. Parmi les mémé-thodes les plus utilisées nous citons les méthodes génératives, les méthodes prédictives en particulier les méthodes transductives, la méthode self-training et les mé-thodes de co-apprentissage automatique (co-training) [Zhu, 2006].

3.3.2.1 Les méthodes génératives

Quand le problème de l’utilisation de données partiellement étiquetées a été posé pour la première fois, les modèles génératifs ont été les premiers à être adaptés pour combiner des données étiquetées et non étiquetées pour l’apprentissage automatique [Hosmer, 1973] [McLachlan, 1977]. Les premiers travaux deHosmer [1973] ont consisté à chercher la proportion de mâles et de femelles d’une population des flétans (grand poisson plat des mers froides) à partir d’une base de données partiellement étiquetées. L’utilisation d’échan-tillons étiquetés avec une grande quantité d’échand’échan-tillons non étiquetés a permis à Hosmer d’estimer plus précisément des paramètres d’apprentissage. D’un point de vue théorique, Hosmer [1973] a réalisé son travail par maximum de vraisemblance grâce à un algorithme itératif, qui été développé par la suite par Dempster et al. [1977] en un algorithme,EM, connu et assez utilisé dans les problèmes de données partiellement étiquetées. Cet algorithme est mieux adapté pour traiter les problèmes de données manquantes ce qui est le cas des données non-étiquetées pour lesquelles les étiquettes constituent les don-nées manquantes. Les modèles considérés consistent principalement en des mélanges de distributions de gaussiennes et des mélanges de distributions multinomiales [Cooper et Freeman,1970].

Principe de l’algorithme EM Comme nous l’avons dit dans la section 3.2.2, les méthodes de classification non supervisée supposent une variable la-tente. Ainsi, dans le cas de données manquantes, ces variables latentes ne sont pas observées lors de la phase d’estimation des paramètres de classification.

Pour résoudre ce problème, l’algorithme EM a été proposé afin de pallier le problème de données partiellement étiquetées. L’algorithme EM consiste d’abord à reconstituer les données manquantes. Il construit une distribution de probabilité sur les valeurs pouvant être prises par les variables latentes et se sert de celles-ci pour mettre à jour les paramètres utilisés dans les expressions de la densité marginale. L’algorithme EM est un processus itératif constitué de deux étapes :

– étape E : lors de cette étape, l’information actuellement disponible, les données observées mais aussi l’estimé courant des paramètres, est utilisée pour construire une distribution de probabilité sur les valeurs pouvant être prises par les variables latentes pour chacun des exemples (P(X, Y)).

– étape M : lors de cette étape, les paramètres du modèle sont estimés en utilisant les distributions de probabilité définies à l’étape précédente.

Cette étape peut généralement être traitée en ayant recours aux mé-thodes d’estimation utilisées lorsque toutes les données sont observées,

3.3. Apprentissage semi-supervisé 93

comme le maximum de vraisemblance.

3.3.2.2 Les méthodes transductives

La méthode transductive est un cas particulier de la classification prédic-tive. Un exemple en est le SVM transductif [Joachims,1999b]. Les machines à vecteurs supports tranductives utilisent la notion de marge appliquée aux exemples non étiquetés pour déplacer la frontière de décision vers des zones où peu d’exemples de l’ensemble d’apprentissage peuvent être trouvés. Au contraire du SVM supervisé qui consiste à maximiser la marge uniquement à partir de données étiquetées, le SVM transductif propose de maximiser la marge sur l’ensemble des données étiquetées et non étiquetées, en choisissant l’étiquetage des données non étiquetées le plus favorable. Ce qui revient à minimiser l’équation suivante :

1

2||w||2 (3.3)

sujet à :

( ∀i∈ {1, ..., nl}:yi[w0xi+b]≥1,

∀j ∈ {nl+ 1, ..., n}:yj[w0xj+b]≥1, θ (3.4) oùnl est le nombre de données étiquetées parmi n exemples.

D’un point de vue théorique, le but du SVM transductif est de minimiser une borne sur l’erreur commise sur les données non étiquetées [Vapnik, 1995].

Cependant, cette technique n’est pas suffisante et ne permet pas de résoudre correctement le problème surtout quand l’ensemble des données non étiquetées dépassent la centaine. Par conséquent, des approches heuristiques permettant de faire face à ce problème sont apparues.Joachims[1999a] a proposé la tech-nique SV Mlight qui nécessitent en pratique de fixer la proportion d’exemples étiquetés positivement et négativement afin d’éviter l’obtention de solutions dégénérées. Les SVM transductifs ont été appliqué à plusieurs domaines et ils ont aboutis à de bonnes performances notamment pour la classification de données textuelles [Joachims, 1999b].

3.3.2.3 Self-training

La technique d’apprentissage self-training est largement utilisée et étu-diée par la communauté de l’apprentissage semi-supervisé du fait de sa faci-lité d’implémentation mais aussi de ses bonnes performances. Cette méthode comme la plupart des algorithmes d’apprentissage semi-supervisé consiste à entraîner un classifieur avec des données étiquetées et des données non éti-quetées. Elle utilise ses propres prédictions sur des exemples non étiquetées

Tab. 3.1 – Algorithme Self-training Entrée :

Ensemble Ldes données étiquetées Ensemble U des données non étiquetées

Un nombren des données à ajouter à l’ensemble Là chaque itération Tant que U 6=∅

Apprendre un classifieur hsur l’ensembleL Etiqueter l’ensembleU en utilisant le classifieurh

T est l’ensemble des n exemples deU prédits avec la meilleure confiance par h Ajouter T à L

Supprimer T deU Fin

afin d’élargir son ensemble d’apprentissage. L’algorithme deself-training a été proposée par Zhuet al.[2003]. Le principe de cette méthode est présenté dans le tableau3.1:hest un algorithme de classification traditionnel qu’on entraîne d’abord avec les données d’apprentissage étiquetées L, puis on l’utilise pour classifier les données non étiquetées. A chaque itération nous sélectionnons un certain nombre d’exemples n de la base U, les n exemples sélectionnés sont les exemples prédits avec la meilleure confiance (prédits avec des probabilités supérieures à un seuil fixé). Ces exemples sont considérés maintenant comme des données d’apprentissage étiquetées. Ce processus est répété jusqu’à que l’ensemble des données non étiquetées devient vide.

L’algorithmeself-training a été appliqué à de nombreux problèmes de clas-sification, par exemple dans la désambiguïsons de sens [Yarowsky,1995], l’ana-lyse syntaxique et la segmentation automatique de la parole [Guzet al.,2010].

3.3.2.4 Co-apprentissage automatique (Co-training)

La méthode de co-apprentissage automatique suppose que chaque exemple xt peut être divisé en au moins deux parties x1t et x2t contenant chacune suffisamment d’information pour bien prédire l’étiquette yt. Cette méthode consiste à entraîner plusieurs classifieurs, chacun basé sur un descripteur donné, puis à les améliorer entre eux à l’aide d’une masse importante de données non étiquetées. En entraînant deux modèles différents sur ces deux représentations, on peut alors utiliser leurs prédictions sur des entrées non-étiquetées afin qu’ils élargissent mutuellement leurs ensembles d’entraînement.

La régularisation implicite de cette approche force donc les sorties de chaque modèle à être similaires sur les entrées non étiquetées. Cette régularisation est aussi explicitement utilisée par des approches qui sont dites du multi-view learning que nous détaillerons par la suite.