1.2 Cadre semi-supervisé
1.2.2 Variantes sur les données disponibles et l’objectif suivi
Autre type d’information sur la classe
Un autre type d’information s’inscrit dans le cadre semi-supervisé. Il s’agit de situations
où l’on dispose de l’information suivante : on sait que l’individu Aest dans la même classe
que l’individu B (Must-Link) mais dans une classe différente de l’individu C (
Cannot-Link). Cette information est appelée contrainte de paire. Il s’agit d’une connaissance
partielle de la classe, puisque seules les appartenances relatives de certains individus sont
connues. Ce type de données est facile à obtenir, il suffit pour cela de demander à un expert
s’il pense que deux données (textes, images, . . .) sont dans une même classes ou dans des
classes différentes. Cette approche n’implique pas pour autant que l’expert ait une idée
précise du nombre et de la signification des classes. On peut d’ailleurs voir cette approche
également comme du non supervisé avec une information supplémentaire. Les contraintes
aident alors à obtenir des classes plus en accord avec l’idée que s’en fait l’expert. Elle pose
principalement deux questions. D’une part, une question de faisabilité : « Existe-t-il une
solution qui vérifie l’ensemble des contraintes ? ». D’autre part, on pose la question de la
prise en compte de ces contraintes dans l’algorithme de classification non supervisée.
Nous ne traiterons par la suite pas ce type de problème qui se ramène plutôt à du non
supervisé avec de l’information supplémentaire, là où nous avons décidé de nous focaliser
sur le cadre décisionnel.
Cadre transductif
Dans le cadre semi-supervisé, on souhaite généralement classer les données non
éti-quetées à disposition. On ne souhaite pas forcément apprendre une règle de classement
deX dans Z (apprentissage inductif), mais seulement une application de(x
n`+1, . . . ,x
n)
dans Z
nu(apprentissage transductif). L’apprentissage transductif semble plus simple que
l’apprentissage inductif puisqu’il ne requiert pas l’apprentissage d’une fonction définie sur
X tout entier, mais uniquement celui d’une application à support discret fini. Cet
as-pect s’inscrit bien dans la philosophie de l’apprentissage statistique introduite par Vapnik
(1995)
– Do not estimate a density if you need to estimate a function.
– Do not estimate a function if you need to estimate values at given points.
– Do not estimate predictive values if your goal is to act well.
La deuxième proposition correspond à la philosophie de l’apprentissage transductif. On
peut parler d’algorithme transductif dès qu’une donnée non étiquetée est présente.
Ce-pendant comme remarqué dans la discussion de Chapelle et al. (2006, chap. 24), l’aspect
transductif commence à avoir un réel impact quand le nombre de données non étiquetées
est relativement grand. En effet, l’aspect transductif se manifeste avant tout lorsqu’on
effectue simultanément le classement d’un grand nombre de données.
L’aspect transductif est également présent en classification bayesienne, puisque dans
ce contexte pour classer un individu x
n+1, on cherche à maximiser p(z
n+1|x
`,z
`,x
n+1)
en z
n+1. Les covariables de l’individu à classer interviennent dans la règle de classement.
Dans le cadre semi-supervisé, on peut souhaiter classifier tous les individus simultanément,
c’est-à-dire trouver z
uqui maximise p(z
u|x
`,z
`,x
u). Cependant dans certains cas, cette
stratégie peut dégrader la règle de classement obtenue. En effet, quand le nombre de
données est assez grand on a
p(z
u,x
`,z
`,x
u)≈p(z
u,x
`,z
`,x
u; ˆθ
zu,x`,z`,xu). (1.8)
L’approche précédente revient asymptotiquement à apprendre le paramètre en maximisant
la vraisemblance complétée. On substitue alors à une estimation des paramètres
asymp-totiquement sans biais une estimation biaisée des paramètres. Dans certaines situations,
l’aspect transductif conduit donc à l’obtention d’une règle de classement biaisée. Dans
le cadre bayésien l’aspect transductif est difficile à mettre en œuvre car il faut classer
une observation à la fois. De même dans le cadre fréquentiste, l’aspect classifiant produit
une estimation biaisée tandis que l’estimation par maximum de vraisemblance produit un
résultat asymptotiquement sans biais.
Apprentissage actif
Dans un certain nombre de situations réelles, le praticien dispose d’un ensemble de
données non étiquetées et il a la possibilité d’en étiqueter quelques unes. L’apprentissage
actif consiste alors à choisir le plus judicieusement possible les données à étiqueter dans
cet ensemble de données non étiquetées. Cette question se pose par exemple en indexation
d’images (Grira et al. , 2005). Ce cadre est appelé apprentissage actif par opposition à
l’apprentissage passif qui lui choisit les points à étiqueter au hasard. Prenons l’exemple
d’un étudiant qui déciderait de choisir au hasard les matières à réviser. Il risque de perdre
du temps car il risque de tomber souvent sur des matières qu’il maitrise déjà bien et à
l’inverse ne pas tomber assez souvent sur les points où il a des lacunes. Ainsi, il serait
plus utile pour lui dans un premier temps de repérer les matières dans lesquelles il a des
lacunes puis de se concentrer sur ces dernières. Il en est de même pour l’apprentissage
actif. On connait quelque chose à partir des données étiquetées, les données non étiquetées
nous permettent de juger de l’étendue de nos lacunes. Une fois cette étendue connue on
sait dans quelle direction il faut apprendre.
D’un point de vue théorique, il est difficile de prouver qu’il est possible de choisir mieux
que le hasard les exemples les plus pertinents à étiqueter. Pour cette tâche les modèles
prédictifs semblent offrir de meilleures garanties que les modèles génératifs. En effet, dans
certaines situations où les données sont séparables, Dasguptaet al. (2005) ont montré que
le nombre de données nécessaires pour apprendre activement est très réduit par rapport
au nombre de données obtenues passivement et nécessaires pour avoir le même résultat.
Cependant dans les situations où ces hypothèses ne sont pas vérifiées, l’apprentissage
actif peut causer la perte de la consistance de l’apprentissage passif. De telles situations
font douter de l’utilité réelle de l’apprentissage actif. La question qui se pose alors est
l’existence d’une approche permettant de préserver la consistance de l’estimation tout en
limitant le nombre de données à étiqueter. Ce point est traité par Bach (2007) dans le cas
des modèles linéaires généralisés, où les données étiquetées activement sont repondérées
pour corriger le biais d’échantillonnage introduit par le choix des données à étiqueter. Plus
récemment, ce problème a été traité dans un contexte plus général par Beygelzimer et al.
(2009) dans le cas où les données non étiquetées arrivent de manière séquentielle. Leur
approche permet alors de limiter le nombre de données à étiqueter pour avoir des résultats
comparables à l’apprentissage passif. Notons toutefois que ces méthodes ne permettent pas
de faire usage des données non étiquetées dans l’apprentissage, ce qui représente une perte
d’information. D’autre part, la dernière méthode énoncée implique que les données arrivent
séquentiellement ce qui est naturel dans certaines situations mais pas dans d’autres. Ainsi
les méthodes prédictives peuvent faire un usage efficace de l’apprentissage actif.
Pour les méthodes génératives, l’avantage de l’apprentissage actif est moins évident. En
effet l’information apportée par les données non étiquetées est déjà intégralement prise
en compte. Toutefois cette approche a été utilisée par McCallum & Nigam (1998) en
classification de textes où l’algorithme Query By Commitee (Freund et al. , 1997) a été
utilisé. Cet algorithme choisit le point qui produit le plus grand désaccord pour différents
classifieurs appris. La justification de cette approche est avant tout heuristique. Il n’est
pas évident d’un point de vue théorique qu’une telle approche puisse nous aider. En
ef-fet, si le modèle postulé est correct, l’hypothèse MAR reste respectée et préserve donc la
consistance de l’estimation par maximum de vraisemblance. Il n’est toutefois ni évident
que cette approche réduise la variance des estimateurs ni qu’elle améliore
systématique-ment la règle de classesystématique-ment. D’autre part, contrairesystématique-ment aux approches prédictives, si le
modèle postulé est incorrect, on ne peut rien dire d’un point de vue théorique sur cette
approche.
Un autre problème relié à l’apprentissage actif est celui de la découverte de nouvelles
classes dans l’échantillon de données non étiquetées. La présence de nouvelles classes peut
avoir deux causes :
– soit l’échantillon de données étiquetées est petit et certaines classes sont en faibles
proportions,
– soit il y a un biais d’étiquetage c’est-à-dire que même si le nombre de données
éti-quetées augmentait certaines classes ne seraient jamais observées.
Le problème est alors plutôt un problème de classification non supervisée auquel les
mé-thodes prédictives sont incapables répondre. Il s’agit principalement de trouver le nombre
de classes dans un mélange de distributions. Ce problème trouve des solutions en
classifica-tion non supervisée via des critères de choix de modèle comme les critères BIC (Schwarz,
1978) ou ICL (Biernacki et al. , 2000). Une question qui se pose une fois les nouvelles
classes détectées est de les nommer, cela est possible quand on peut étiqueter de nouvelles
données c’est-à-dire faire de l’apprentissage actif. Cette approche peut notamment être
utilisée en astronomie pour la découverte de classes en classification de galaxies (Bazell &
Miller, 2005).
Dans le document
Estimation et sélection en classification semi-supervisée
(Page 36-39)