Hypothèses d’échantillonnage - Cadre semi-supervisé

1.2 Cadre semi-supervisé

1.2.1 Hypothèses d’échantillonnage

Différentes hypothèses possibles

La question des données partiellement étiquetées se replace dans le cadre plus général

des données manquantes. Les étiquettes des données non étiquetées, constituent ici ces

données manquantes. Face à ce type de données, la première question qui vient à l’esprit

est « Pourquoi les étiquettes des données non étiquetées sont-elles manquantes ? ». On

suppose que l’échantillon de données partiellement étiquetées provient de la réalisation

d’un n échantillon indépendant et identiquement distribué (i.i.d.) :

{(X

₁

,Z

₁

, S

₁

), . . . ,(X

,Z

, S

)},

où

S

=

1si la donnée i est étiquetée

0sinon.

On distingue trois cas (Heitjan & Rubin, 1991) :

– Soit les données sont manquantes totalement au hasard («Missing Completely At

Random» : MCAR) :p(s|x,z) = p(s). Dans ce cas la distribution deS est modélisée

par une distribution de Bernoulli de paramètreβ ∈]0; 1[.

– Soit les données sont manquantes au hasard (« Missing At Random » : MAR) :

p(s|x,z) = p(s|x).

– Soit les données sont manquantes de manière non aléatoire («Missing Not At

Ran-dom » : MNAR) : p(s|x,z)6=p(s|x).

Par la suite, pour simplifier les notations, on notera les n

données étiquetées en

pre-mier puis les n

données non étiquetées de telle sorte que notre échantillon de données

partiellement étiquetées s’écrira

(x

,z

,x

) ={(x

₁

,z

₁

), . . . ,(x

_n`

,z

_n`

),x

_n`₊₁

, . . . ,x

}.

Nous noterons z

les étiquettes des données non étiquetées qui n’ont ici pas été observées.

Il est en général difficile de tester les hypothèses d’échantillonnage. L’hypothèse MAR

ne peut pas être testée, puisque ce test nécessiterait l’observation de l’étiquette des données

non étiquetées. Sous l’hypothèse MCAR, les covariables des données étiquetées et non

étiquetées ont la même distribution. Cette propriété peut donc être testée par le test de

Kolmogorov-Smirnov. Remarquons que MCAR est réaliste dans la plupart des cas où on

dispose initialement de données non étiquetées et où on choisit de manière aléatoire dans

cet échantillon les données à étiqueter.

Les méthodes génératives et prédictives sont consistantes sous les hypothèses MCAR

et MAR. Cependant, en cas de MAR la validation croisée du taux d’erreur n’évalue pas

correctement le taux d’erreur sur les données à venir, puisque les données non

étique-tées ont une distribution différente de celle qui est évaluée. Dans la situation MNAR, il

faut modéliser p(s|x,z), ce qui est plus délicat. Dans ce qui suit, sauf exception, nous

nous placerons sous l’hypothèse MCAR. Cette hypothèse est souvent faite implicitement,

puisque la règle de classement est généralement apprise pour classer des données supposées

provenir de la même distribution que celles qui ont servi à l’apprendre.

Discussion dans le cas MNAR

Nous avons choisi de nous placer sous l’hypothèse MCAR. Cependant, l’objectif est

ici de discuter des autres situations pour un objectif d’estimation. En classification

su-pervisée, l’échantillon de données non étiquetées sur lequel on souhaite appliquer la règle

de classement par la suite n’a pas été observé. Nous sommes donc obligés de faire

l’hy-pothèse que les données à classer dans l’avenir sont issues de la même distribution que

les données étiquetées qui ont servi à apprendre la règle de classement. En classification

semi-supervisée, l’échantillon auquel on souhaite appliquer la règle de classement est

gé-néralement disponible, puisqu’il s’agit souvent de l’échantillon de données non étiquetées

à disposition. Ainsi le cadre semi-supervisé permet de traiter des situations où les données

à classer n’ont pas la même distribution que les données étiquetées.

Estimation des proportions Considérons le cas où l’échantillon de données étiquetées

résulte d’un échantillonnage rétrospectif et l’échantillon de données non étiquetées résulte

d’un échantillonnage mélange. C’est par exemple le cas dans les études cliniques où le

nombre de patients sains et malades est fixé à l’avance. L’estimation du biais reste assez

facile dans ce cas puisque p(s|z,x) =p(s|z). Seules les proportions du mélange diffèrent

entre les données étiquetées et non étiquetées. Les données non étiquetées supposées

prove-nir de la distribution mélange permettent d’estimer les proportions des différentes classes.

Ces proportions permettent de classer les individus si les distributions conditionnellement

à la classe sont connues. Par ailleurs différents types d’information peuvent être extraits

des données non étiquetées. Pour ce faire, on peut citer Hosmer (1973) pour les modèles

génératifs et Anderson & Richardson (1979) pour la régression logistique. Dans un cadre

plus général, des approches non paramétriques ont été proposées par Zou et al. (2004).

Les auteurs proposent une méthode pour lever ce biais grâce aux données non étiquetées

via une fonction de perte pondérée. Les principaux éléments sont les suivants : soit un

problème à deux classes, où y ∈ {−1,1}, et h une fonction de X à valeurs dans _R. Afin

d’obtenir un estimateur consistant de π

₁

la probabilité que y = 1, une méthode de type

moment est proposée. Elle part de la décomposition

p(x) =π

₁

p(x|y= 1) + (1−π

₁

)p(x|y=−1),

et en prenant l’espérance de h(X), on a

E

[h(X)] =π

E

X|Y=1

[h(X)] + (1−π

)_E

_X|Y=−1

[h(X)].

Si _E

_X|Y=1

[h(X)]6=_E

_X|Y=−1

[h(X)], on a

π

₁

= ^E

^[^h⁽^X^)]−_E

_X|Y=−1

[h(X)]

E

X|Y=1

[h(X)]−_E

_X|Y=−1

[h(X)]^.

En utilisant la distribution empirique, des données non étiquetées on obtient un

estima-teur consistant de _E

[h(X)], tandis que les données étiquetées donnent des estimateurs

consistants de_E

_X|Y=1

[h(X)]et_E

_X|Y=−1

[h(X)], on obtient par suite un estimateur

consis-tant de π

₁

. Cet estimateur est ensuite utilisé dans un algorithme de classification via une

fonction de coût pondérée.

Estimation générale du biais d’étiquetage Dans le cas où le biais d’étiquetage est

plus général, une autre approche a été proposée par Rosset et al. (2004) et par Fan et al.

(2005). L’approche proposée consiste encore en une méthode de type moment, celle-ci

permet d’estimer le biais d’étiquetage aussi bien en régression qu’en classification. Pour

cela postulons un modèle paramétré par γ sur le biais d’étiquetage p(S = 1|x,z;γ). Les

auteurs introduisent une fonction g et posent

f(x,z, s) =

(

g(x)

p(S=1|x,z;γ)

si s= 1

0 sinon.

Si p(S = 1|x,z;γ)>0,∀(x,z)∈ X × Z alors _E[g(X)] =_E[f(X,Z, S)], ce qui conduit à

l’équation suivante :

1 n

X

i=1

f(x

,z

, s

)≈ ¹

n

X

i=1

g(x

). (1.7)

Le paramètre γ est alors estimé en résolvant le système d’équations. Bien que cette

mé-thode soit très générale, et qu’elle puisse s’appliquer à un grand nombre de situations, elle

souffre d’instabilités comme toute méthode de type moment.

Une autre possibilité pour apprendre le biais d’étiquetage existe quand on considère des

modèles génératifs et qu’on modélise les distributions de X,Z|S = 1 et X,Z|S = 0. Ici

l’objectif est d’apprendre au mieux la distribution deZ|X,S= 0, c’est-à-dire d’apprendre

la meilleure règle de classement possible pour les données non étiquetées, ce qui s’inscrit

dans un contexte transductif. En établissant un lien entre ces deux distributions,

Bier-nacki et al. (2002) ont montré qu’une meilleure classification pouvait être obtenue pour

l’échantillon de données non étiquetées. L’application était la transposition d’une règle

de classement mâle/femelle d’une population d’oiseaux tous étiquetés à une population

pour laquelle aucun oiseau n’est étiqueté. En effet, si on considère la figure 1.6 on voit

qu’il y a une relation entre les deux espèces considérées et qu’on doit pouvoir transposer

la règle de classement de l’espèce diomedea à l’espèceborealis. Des modèles parcimonieux

établissant un lien entre la distribution de l’espèce diomedea et la distribution de l’espèce

borealis peuvent alors être utilisés.

Exemple de situation MNAR Le biais d’étiquetage survient typiquement en

évalua-tion de risques clients (Thomaset al., 2002). En effet, considérons des prêts octroyés selon

une règle reposant sur un ensemble de variables x qu’on peut décomposer sous la forme

x = (x

,x

). Si par la suite la règle de classement n’est plus apprise qu’à partir de x

on sera alors dans le contexte MNAR. En effet, on a bien p(s|z,x) = p(s|x), mais on n’a

plus p(s|z,x

) = p(s|x

)sauf siZ⊥X

|X

. Cette situation a lieu si pour diverses raisons

certaines variables ne sont plus prises en compte dans le calcul du score. Pour éviter ce

problème, il faudrait une période transitoire où les clients ne sont acceptés ou refusés qu’à

partir dex

, puis ne réapprendre la règle de classement qu’à partir des individus acceptés

ou refusés selon cette règle.

11 12 13 14 15 16 17 18 19 46 48 50 52 54 56 58 60 62 Mâle Borealis Mâle Diomedea Femelle Borealis Femelle Diomedea

Fig. ^{1.6 – Analyse discriminante généralisée.}

Dans le document Estimation et sélection en classification semi-supervisée (Page 33-36)