Variantes sur les données disponibles et l’objectif suivi

1.2 Cadre semi-supervisé

1.2.2 Variantes sur les données disponibles et l’objectif suivi

Autre type d’information sur la classe

Un autre type d’information s’inscrit dans le cadre semi-supervisé. Il s’agit de situations

où l’on dispose de l’information suivante : on sait que l’individu Aest dans la même classe

que l’individu B (Must-Link) mais dans une classe différente de l’individu C (

Cannot-Link). Cette information est appelée contrainte de paire. Il s’agit d’une connaissance

partielle de la classe, puisque seules les appartenances relatives de certains individus sont

connues. Ce type de données est facile à obtenir, il suffit pour cela de demander à un expert

s’il pense que deux données (textes, images, . . .) sont dans une même classes ou dans des

classes différentes. Cette approche n’implique pas pour autant que l’expert ait une idée

précise du nombre et de la signification des classes. On peut d’ailleurs voir cette approche

également comme du non supervisé avec une information supplémentaire. Les contraintes

aident alors à obtenir des classes plus en accord avec l’idée que s’en fait l’expert. Elle pose

principalement deux questions. D’une part, une question de faisabilité : « Existe-t-il une

solution qui vérifie l’ensemble des contraintes ? ». D’autre part, on pose la question de la

prise en compte de ces contraintes dans l’algorithme de classification non supervisée.

Nous ne traiterons par la suite pas ce type de problème qui se ramène plutôt à du non

supervisé avec de l’information supplémentaire, là où nous avons décidé de nous focaliser

sur le cadre décisionnel.

Cadre transductif

Dans le cadre semi-supervisé, on souhaite généralement classer les données non

éti-quetées à disposition. On ne souhaite pas forcément apprendre une règle de classement

deX dans Z (apprentissage inductif), mais seulement une application de(x

_n`₊₁

, . . . ,x

)

dans Z

(apprentissage transductif). L’apprentissage transductif semble plus simple que

l’apprentissage inductif puisqu’il ne requiert pas l’apprentissage d’une fonction définie sur

X tout entier, mais uniquement celui d’une application à support discret fini. Cet

as-pect s’inscrit bien dans la philosophie de l’apprentissage statistique introduite par Vapnik

(1995)

– Do not estimate a density if you need to estimate a function.

– Do not estimate a function if you need to estimate values at given points.

– Do not estimate predictive values if your goal is to act well.

La deuxième proposition correspond à la philosophie de l’apprentissage transductif. On

peut parler d’algorithme transductif dès qu’une donnée non étiquetée est présente.

Ce-pendant comme remarqué dans la discussion de Chapelle et al. (2006, chap. 24), l’aspect

transductif commence à avoir un réel impact quand le nombre de données non étiquetées

est relativement grand. En effet, l’aspect transductif se manifeste avant tout lorsqu’on

effectue simultanément le classement d’un grand nombre de données.

L’aspect transductif est également présent en classification bayesienne, puisque dans

ce contexte pour classer un individu x

_n₊₁

, on cherche à maximiser p(z

_n₊₁

|x

,z

,x

_n₊₁

)

en z

_n₊₁

. Les covariables de l’individu à classer interviennent dans la règle de classement.

Dans le cadre semi-supervisé, on peut souhaiter classifier tous les individus simultanément,

c’est-à-dire trouver z

qui maximise p(z

|x

,z

,x

). Cependant dans certains cas, cette

stratégie peut dégrader la règle de classement obtenue. En effet, quand le nombre de

données est assez grand on a

p(z

,x

,z

,x

)≈p(z

,x

,z

,x

; ˆθ

_z_u,_x_`,_z_`,_x_u

). (1.8)

L’approche précédente revient asymptotiquement à apprendre le paramètre en maximisant

la vraisemblance complétée. On substitue alors à une estimation des paramètres

asymp-totiquement sans biais une estimation biaisée des paramètres. Dans certaines situations,

l’aspect transductif conduit donc à l’obtention d’une règle de classement biaisée. Dans

le cadre bayésien l’aspect transductif est difficile à mettre en œuvre car il faut classer

une observation à la fois. De même dans le cadre fréquentiste, l’aspect classifiant produit

une estimation biaisée tandis que l’estimation par maximum de vraisemblance produit un

résultat asymptotiquement sans biais.

Apprentissage actif

Dans un certain nombre de situations réelles, le praticien dispose d’un ensemble de

données non étiquetées et il a la possibilité d’en étiqueter quelques unes. L’apprentissage

actif consiste alors à choisir le plus judicieusement possible les données à étiqueter dans

cet ensemble de données non étiquetées. Cette question se pose par exemple en indexation

d’images (Grira et al. , 2005). Ce cadre est appelé apprentissage actif par opposition à

l’apprentissage passif qui lui choisit les points à étiqueter au hasard. Prenons l’exemple

d’un étudiant qui déciderait de choisir au hasard les matières à réviser. Il risque de perdre

du temps car il risque de tomber souvent sur des matières qu’il maitrise déjà bien et à

l’inverse ne pas tomber assez souvent sur les points où il a des lacunes. Ainsi, il serait

plus utile pour lui dans un premier temps de repérer les matières dans lesquelles il a des

lacunes puis de se concentrer sur ces dernières. Il en est de même pour l’apprentissage

actif. On connait quelque chose à partir des données étiquetées, les données non étiquetées

nous permettent de juger de l’étendue de nos lacunes. Une fois cette étendue connue on

sait dans quelle direction il faut apprendre.

D’un point de vue théorique, il est difficile de prouver qu’il est possible de choisir mieux

que le hasard les exemples les plus pertinents à étiqueter. Pour cette tâche les modèles

prédictifs semblent offrir de meilleures garanties que les modèles génératifs. En effet, dans

certaines situations où les données sont séparables, Dasguptaet al. (2005) ont montré que

le nombre de données nécessaires pour apprendre activement est très réduit par rapport

au nombre de données obtenues passivement et nécessaires pour avoir le même résultat.

Cependant dans les situations où ces hypothèses ne sont pas vérifiées, l’apprentissage

actif peut causer la perte de la consistance de l’apprentissage passif. De telles situations

font douter de l’utilité réelle de l’apprentissage actif. La question qui se pose alors est

l’existence d’une approche permettant de préserver la consistance de l’estimation tout en

limitant le nombre de données à étiqueter. Ce point est traité par Bach (2007) dans le cas

des modèles linéaires généralisés, où les données étiquetées activement sont repondérées

pour corriger le biais d’échantillonnage introduit par le choix des données à étiqueter. Plus

récemment, ce problème a été traité dans un contexte plus général par Beygelzimer et al.

(2009) dans le cas où les données non étiquetées arrivent de manière séquentielle. Leur

approche permet alors de limiter le nombre de données à étiqueter pour avoir des résultats

comparables à l’apprentissage passif. Notons toutefois que ces méthodes ne permettent pas

de faire usage des données non étiquetées dans l’apprentissage, ce qui représente une perte

d’information. D’autre part, la dernière méthode énoncée implique que les données arrivent

séquentiellement ce qui est naturel dans certaines situations mais pas dans d’autres. Ainsi

les méthodes prédictives peuvent faire un usage efficace de l’apprentissage actif.

Pour les méthodes génératives, l’avantage de l’apprentissage actif est moins évident. En

effet l’information apportée par les données non étiquetées est déjà intégralement prise

en compte. Toutefois cette approche a été utilisée par McCallum & Nigam (1998) en

classification de textes où l’algorithme Query By Commitee (Freund et al. , 1997) a été

utilisé. Cet algorithme choisit le point qui produit le plus grand désaccord pour différents

classifieurs appris. La justification de cette approche est avant tout heuristique. Il n’est

pas évident d’un point de vue théorique qu’une telle approche puisse nous aider. En

ef-fet, si le modèle postulé est correct, l’hypothèse MAR reste respectée et préserve donc la

consistance de l’estimation par maximum de vraisemblance. Il n’est toutefois ni évident

que cette approche réduise la variance des estimateurs ni qu’elle améliore

systématique-ment la règle de classesystématique-ment. D’autre part, contrairesystématique-ment aux approches prédictives, si le

modèle postulé est incorrect, on ne peut rien dire d’un point de vue théorique sur cette

approche.

Un autre problème relié à l’apprentissage actif est celui de la découverte de nouvelles

classes dans l’échantillon de données non étiquetées. La présence de nouvelles classes peut

avoir deux causes :

– soit l’échantillon de données étiquetées est petit et certaines classes sont en faibles

proportions,

– soit il y a un biais d’étiquetage c’est-à-dire que même si le nombre de données

éti-quetées augmentait certaines classes ne seraient jamais observées.

Le problème est alors plutôt un problème de classification non supervisée auquel les

mé-thodes prédictives sont incapables répondre. Il s’agit principalement de trouver le nombre

de classes dans un mélange de distributions. Ce problème trouve des solutions en

classifica-tion non supervisée via des critères de choix de modèle comme les critères BIC (Schwarz,

1978) ou ICL (Biernacki et al. , 2000). Une question qui se pose une fois les nouvelles

classes détectées est de les nommer, cela est possible quand on peut étiqueter de nouvelles

données c’est-à-dire faire de l’apprentissage actif. Cette approche peut notamment être

utilisée en astronomie pour la découverte de classes en classification de galaxies (Bazell &

Miller, 2005).

Dans le document Estimation et sélection en classification semi-supervisée (Page 36-39)