1.2 Cadre semi-supervisé
1.2.1 Hypothèses d’échantillonnage
Différentes hypothèses possibles
La question des données partiellement étiquetées se replace dans le cadre plus général
des données manquantes. Les étiquettes des données non étiquetées, constituent ici ces
données manquantes. Face à ce type de données, la première question qui vient à l’esprit
est « Pourquoi les étiquettes des données non étiquetées sont-elles manquantes ? ». On
suppose que l’échantillon de données partiellement étiquetées provient de la réalisation
d’un n échantillon indépendant et identiquement distribué (i.i.d.) :
{(X
1,Z
1, S
1), . . . ,(X
n,Z
n, S
n)},
où
S
i=
1si la donnée i est étiquetée
0sinon.
On distingue trois cas (Heitjan & Rubin, 1991) :
– Soit les données sont manquantes totalement au hasard («Missing Completely At
Random» : MCAR) :p(s|x,z) = p(s). Dans ce cas la distribution deS est modélisée
par une distribution de Bernoulli de paramètreβ ∈]0; 1[.
– Soit les données sont manquantes au hasard (« Missing At Random » : MAR) :
p(s|x,z) = p(s|x).
– Soit les données sont manquantes de manière non aléatoire («Missing Not At
Ran-dom » : MNAR) : p(s|x,z)6=p(s|x).
Par la suite, pour simplifier les notations, on notera les n
`données étiquetées en
pre-mier puis les n
udonnées non étiquetées de telle sorte que notre échantillon de données
partiellement étiquetées s’écrira
(x
`,z
`,x
u) ={(x
1,z
1), . . . ,(x
n`,z
n`),x
n`+1, . . . ,x
n}.
Nous noterons z
ules étiquettes des données non étiquetées qui n’ont ici pas été observées.
Il est en général difficile de tester les hypothèses d’échantillonnage. L’hypothèse MAR
ne peut pas être testée, puisque ce test nécessiterait l’observation de l’étiquette des données
non étiquetées. Sous l’hypothèse MCAR, les covariables des données étiquetées et non
étiquetées ont la même distribution. Cette propriété peut donc être testée par le test de
Kolmogorov-Smirnov. Remarquons que MCAR est réaliste dans la plupart des cas où on
dispose initialement de données non étiquetées et où on choisit de manière aléatoire dans
cet échantillon les données à étiqueter.
Les méthodes génératives et prédictives sont consistantes sous les hypothèses MCAR
et MAR. Cependant, en cas de MAR la validation croisée du taux d’erreur n’évalue pas
correctement le taux d’erreur sur les données à venir, puisque les données non
étique-tées ont une distribution différente de celle qui est évaluée. Dans la situation MNAR, il
faut modéliser p(s|x,z), ce qui est plus délicat. Dans ce qui suit, sauf exception, nous
nous placerons sous l’hypothèse MCAR. Cette hypothèse est souvent faite implicitement,
puisque la règle de classement est généralement apprise pour classer des données supposées
provenir de la même distribution que celles qui ont servi à l’apprendre.
Discussion dans le cas MNAR
Nous avons choisi de nous placer sous l’hypothèse MCAR. Cependant, l’objectif est
ici de discuter des autres situations pour un objectif d’estimation. En classification
su-pervisée, l’échantillon de données non étiquetées sur lequel on souhaite appliquer la règle
de classement par la suite n’a pas été observé. Nous sommes donc obligés de faire
l’hy-pothèse que les données à classer dans l’avenir sont issues de la même distribution que
les données étiquetées qui ont servi à apprendre la règle de classement. En classification
semi-supervisée, l’échantillon auquel on souhaite appliquer la règle de classement est
gé-néralement disponible, puisqu’il s’agit souvent de l’échantillon de données non étiquetées
à disposition. Ainsi le cadre semi-supervisé permet de traiter des situations où les données
à classer n’ont pas la même distribution que les données étiquetées.
Estimation des proportions Considérons le cas où l’échantillon de données étiquetées
résulte d’un échantillonnage rétrospectif et l’échantillon de données non étiquetées résulte
d’un échantillonnage mélange. C’est par exemple le cas dans les études cliniques où le
nombre de patients sains et malades est fixé à l’avance. L’estimation du biais reste assez
facile dans ce cas puisque p(s|z,x) =p(s|z). Seules les proportions du mélange diffèrent
entre les données étiquetées et non étiquetées. Les données non étiquetées supposées
prove-nir de la distribution mélange permettent d’estimer les proportions des différentes classes.
Ces proportions permettent de classer les individus si les distributions conditionnellement
à la classe sont connues. Par ailleurs différents types d’information peuvent être extraits
des données non étiquetées. Pour ce faire, on peut citer Hosmer (1973) pour les modèles
génératifs et Anderson & Richardson (1979) pour la régression logistique. Dans un cadre
plus général, des approches non paramétriques ont été proposées par Zou et al. (2004).
Les auteurs proposent une méthode pour lever ce biais grâce aux données non étiquetées
via une fonction de perte pondérée. Les principaux éléments sont les suivants : soit un
problème à deux classes, où y ∈ {−1,1}, et h une fonction de X à valeurs dans R. Afin
d’obtenir un estimateur consistant de π
1la probabilité que y = 1, une méthode de type
moment est proposée. Elle part de la décomposition
p(x) =π
1p(x|y= 1) + (1−π
1)p(x|y=−1),
et en prenant l’espérance de h(X), on a
E
X[h(X)] =π
1E
X|Y=1[h(X)] + (1−π
1)E
X|Y=−1[h(X)].
Si E
X|Y=1[h(X)]6=E
X|Y=−1[h(X)], on a
π
1= E
X[h(X)]−E
X|Y=−1[h(X)]
E
X|Y=1[h(X)]−E
X|Y=−1[h(X)].
En utilisant la distribution empirique, des données non étiquetées on obtient un
estima-teur consistant de E
X[h(X)], tandis que les données étiquetées donnent des estimateurs
consistants deE
X|Y=1[h(X)]etE
X|Y=−1[h(X)], on obtient par suite un estimateur
consis-tant de π
1. Cet estimateur est ensuite utilisé dans un algorithme de classification via une
fonction de coût pondérée.
Estimation générale du biais d’étiquetage Dans le cas où le biais d’étiquetage est
plus général, une autre approche a été proposée par Rosset et al. (2004) et par Fan et al.
(2005). L’approche proposée consiste encore en une méthode de type moment, celle-ci
permet d’estimer le biais d’étiquetage aussi bien en régression qu’en classification. Pour
cela postulons un modèle paramétré par γ sur le biais d’étiquetage p(S = 1|x,z;γ). Les
auteurs introduisent une fonction g et posent
f(x,z, s) =
(
g(x)p(S=1|x,z;γ)
si s= 1
0 sinon.
Si p(S = 1|x,z;γ)>0,∀(x,z)∈ X × Z alors E[g(X)] =E[f(X,Z, S)], ce qui conduit à
l’équation suivante :
1
n
nX
i=1f(x
i,z
i, s
i)≈ 1
n
nX
i=1g(x
i). (1.7)
Le paramètre γ est alors estimé en résolvant le système d’équations. Bien que cette
mé-thode soit très générale, et qu’elle puisse s’appliquer à un grand nombre de situations, elle
souffre d’instabilités comme toute méthode de type moment.
Une autre possibilité pour apprendre le biais d’étiquetage existe quand on considère des
modèles génératifs et qu’on modélise les distributions de X,Z|S = 1 et X,Z|S = 0. Ici
l’objectif est d’apprendre au mieux la distribution deZ|X,S= 0, c’est-à-dire d’apprendre
la meilleure règle de classement possible pour les données non étiquetées, ce qui s’inscrit
dans un contexte transductif. En établissant un lien entre ces deux distributions,
Bier-nacki et al. (2002) ont montré qu’une meilleure classification pouvait être obtenue pour
l’échantillon de données non étiquetées. L’application était la transposition d’une règle
de classement mâle/femelle d’une population d’oiseaux tous étiquetés à une population
pour laquelle aucun oiseau n’est étiqueté. En effet, si on considère la figure 1.6 on voit
qu’il y a une relation entre les deux espèces considérées et qu’on doit pouvoir transposer
la règle de classement de l’espèce diomedea à l’espèceborealis. Des modèles parcimonieux
établissant un lien entre la distribution de l’espèce diomedea et la distribution de l’espèce
borealis peuvent alors être utilisés.
Exemple de situation MNAR Le biais d’étiquetage survient typiquement en
évalua-tion de risques clients (Thomaset al., 2002). En effet, considérons des prêts octroyés selon
une règle reposant sur un ensemble de variables x qu’on peut décomposer sous la forme
x = (x
1,x
2). Si par la suite la règle de classement n’est plus apprise qu’à partir de x
1on sera alors dans le contexte MNAR. En effet, on a bien p(s|z,x) = p(s|x), mais on n’a
plus p(s|z,x
1) = p(s|x
1)sauf siZ⊥X
2|X
1. Cette situation a lieu si pour diverses raisons
certaines variables ne sont plus prises en compte dans le calcul du score. Pour éviter ce
problème, il faudrait une période transitoire où les clients ne sont acceptés ou refusés qu’à
partir dex
1, puis ne réapprendre la règle de classement qu’à partir des individus acceptés
ou refusés selon cette règle.
11 12 13 14 15 16 17 18 19 46 48 50 52 54 56 58 60 62 Mâle Borealis Mâle Diomedea Femelle Borealis Femelle Diomedea
Fig. 1.6 – Analyse discriminante généralisée.
Dans le document
Estimation et sélection en classification semi-supervisée
(Page 33-36)