• Aucun résultat trouvé

Supervision active en-ligne

2.3 Méthodes d’échantillonnage

Dans tous les types de problèmes mentionnés ci-dessus, le système doit choisir quels sont les exemples dont il veut l’étiquette pour pouvoir apprendre. De nombreuses méthodes existent pour prendre cette décision :

— la méthode de l’incertitude maximale ; — la méthode du comité de sélection ; — la méthode de l’impact maximal ; — la méthode de minimisation de l’erreur ; — la méthode de réduction de la variance ; — la méthode de la densité.

2.3.1 Méthode de l’incertitude maximale

La méthode la plus courante pour prendre cette décision d’échantillonnage est la mé-thode de l’incertitude maximale [Settles, 2010]. Son principe est simple : il s’agit de choisir

les données que le système est le moins sûr de savoir reconnaître. Ces données, pour les-quelles les incertitudes de classification sont les plus grandes, sont celles qui correspondent le moins bien à la connaissance actuelle du classifieur. Elles vont donc permettre d’amé-liorer le modèle du classifieur en apportant de l’information dans les zones inconnues ou à fort potentiel de confusion.

Pour utiliser la méthode de l’incertitude maximale, le plus simple est d’avoir un système qui dispose d’une option de rejet des données, comme nous le détaillons en section 2.4. En effet, l’option de rejet permet de sélectionner les données pour lesquelles le classifieur a le plus de chance de commettre une erreur, c’est-à-dire les données avec les plus fortes incertitudes de reconnaissance.

2.3.2 Méthode du comité de sélection (query by committee)

La méthode du comité de sélection consiste à maintenir un groupe (comité) de modèles représentant des hypothèses concurrentes. Chaque membre du comité tente de reconnaître les données, comme dans un ensemble de classifieurs simplistes – dit faibles. La décision d’échantillonnage est ensuite prise en sélectionnant les exemples pour lesquels les membres du comité sont les moins d’accord, c’est-à-dire pour lesquels les étiquettes mises par les différents modèles sont les plus variées.

Pour les systèmes modélisant la distribution des données (modèles génératifs), le comité peut être créé en échantillonnant aléatoirement la distribution postérieure. Par exemple, pour un classifieur Bayésien naïf, le comité peut être généré en échantillonnant les para-mètres du modèle avec une distribution de Dirichlet [McCallum and Nigamy, 1998]. De même, pour les chaines de Markov cachées, le comité peut être réalisé en échantillonnant leurs paramètres avec une loi Normale [Dagan and Engelson, 1995]. Pour les modèles discri-minatifs ou non-probabilistes, il est possible d’utiliser les méthodes de boosting et de bagging pour construire le comité [Abe and Mamitsuka, 1998]. Muslea et al. [Muslea et al., 2000] construisent un comité de deux modèles en partitionnant l’espace des caractéristiques.

Dans notre contexte d’apprentissage de commandes gestuelles, il est difficilement envi-sageable de générer un comité pour prendre la décision d’échantillonnage en temps réel.

2.3.3 Méthode de l’impact maximal (expected model change)

Une autre méthode d’échantillonnage est la méthode de l’impact maximal, qui consiste à faire étiqueter l’exemple qui aura le plus d’impact sur le modèle de connaissance du classifieur.

La méthode de l’impact maximal la plus répandue est celle de la norme du gradient attendu (expected gradient length) [Settles et al., 2008]. Cette méthode peut s’appliquer à tous les systèmes optimisés par une descente de gradient. En particulier, elle s’applique très bien sur la majorité des systèmes probabilistes discriminatifs. Dans cette approche, le changement est quantifié comme la norme du vecteur du gradient d’apprentissage. Les données qui doivent être étiquetées sont donc choisies comme celles qui engendreraient le gradient d’apprentissage le plus grand.

Chapitre 2. Supervision active en-ligne 41

Cette approche a montré de bons résultats empiriquement, mais elle peut se révéler coûteuse en matière de calculs si à la fois la dimension de l’espace d’entrée (nombre de caractéristiques des données) et la dimension de l’espace de sortie (nombre de classes) sont grandes.

2.3.4 Méthode de minimisation de l’erreur (expected error reduction)

Cette approche consiste à évaluer non pas combien le modèle va changer, mais combien son erreur de généralisation est susceptible de diminuer. Pour cela, l’erreur future est estimée sur le reste des données parmi lesquelles l’échantillonnage est à réaliser. Les données qui sont étiquetées sont alors celles qui permettent d’obtenir l’estimation de l’erreur future la plus basse.

Cette méthode a été utilisée avec succès pour de nombreux systèmes comme les sys-tèmes Bayésiens naïfs [Roy and McCallum, 2001], des champs aléatoires gaussiens [Zhu et al., 2003], des régressions logistiques [Guo and Greiner, 2007], des machines à vecteurs supports [Moskovitch et al., 2007] [Nissim et al., 2012] [Nissim et al., 2014].

Le principal inconvénient de cette approche est son importante complexité, car non seulement l’erreur doit être ré-estimée pour chaque exemple d’apprentissage potentiel, mais pour cela le modèle doit être mis à jour à chaque fois. Enfin, cette méthode ne s’applique qu’aux problèmes d’échantillonnage de bases de données, alors que notre contexte applicatif implique une méthode d’échantillonnage de flux de données.

2.3.5 Méthode de réduction de la variance

Minimiser l’estimation d’une fonction de coût directement est complexe. Cependant, l’erreur de généralisation peut être réduite indirectement en minimisant la variance de la sortie du système.

Cette approche est par exemple utilisée dans [Cohn, 1994] pour générer des exemples à échantillonner.

L’avantage de cette approche par rapport aux méthodes de minimisation de l’erreur est que le modèle n’a pas besoin d’être mis à jour, ce qui réduit le coût en matière de calcul. Cette méthode reste cependant plus coûteuse que les méthodes d’échantillonnage par incertitude maximale par exemple.

2.3.6 Méthode utilisant la densité

Le problème des méthodes d’échantillonnage simples, comme les méthodes d’incerti-tude maximales, de l’impact maximal et du comité de sélection, est qu’elles ont tendance à se concentrer sur les données atypiques, et potentiellement aberrantes. Les données aber-rantes sont en effet loin du modèle de connaissance de classifieur, et ont donc une forte incertitude et un impact potentiel sur le modèle important. Cependant, ces exemples ne sont pas toujours représentatifs du reste des données, et leur étiquetage n’améliorera pro-bablement pas la qualité générale du modèle. L’idée des méthodes utilisant la densité est que les données intéressantes à faire étiqueter sont celles qui sont incertaines et qui sont

représentatives de la distribution des données, c’est-à-dire situées dans les zones de fortes densités.

Plusieurs approches de la littérature considèrent la densité et la représentativité des données pour prendre la décision d’échantillonnage [Settles and Craven, 2008].

Par exemple, des méthodes utilisant ce principe ont été proposées pour les classifieurs Bayésiens naïfs [McCallum and Nigamy, 1998] et pour les classifieurs des plus proches voisins [Fujii et al., 1998].

L’inconvénient de cette approche par rapport à notre contexte de reconnaissance de commandes gestuelles est qu’il est difficile d’estimer la densité sur un flux de données.