2.4 Expérimentations
2.4.4 Données sur le syndrome de Cushing
L’intérêt du semi-supervisé se manifeste avant tout lorsque le nombre de données non
étiquetées est grand devant le nombre de données étiquetées. Cependant dans certaines
situations le nombre de données est tellement petit que l’utilisation de quelques données
non étiquetées permet une amélioration des performances de l’analyse statistique. Il s’agit
par exemple de l’étude des données d’Aitchison & Dunsmore (1975) sur le syndrome de
Cushing. Le syndrome de Cushing est une maladie hypertensive associée à la sur-sécrétion
de Cortisol par la glande surrénale. Il existe trois types différents de syndrome de Cushing :
le type a (adénome), le type b (hyperplasie latérale), le type c (cancéreux). Les données
d’Aitchison & Dunsmore sont constituées de 27 patients pour lesquels les concentrations
urinaires de deux hormones stéroïdiennes ont été mesurées. Pour 6 des 27 patients le
type est inconnu. Une transformation logarithmique des données permet d’obtenir des
distributions relativement proches de la normalité conditionnellement à la classe. On trace
figure 2.15 les isodensités conditionnellement à la classe quand les paramètres sont estimés
dans le cadre supervisé et où le modèle est sélectionné en utilisant le critère BIC. Le modèle
sélectionné est [πλD
kAD
k0] c’est-à-dire que les classes ont des proportions identiques, le
même volume et la même forme mais des orientations différentes. Deux des points non
étiquetées en noir n’appartiennent à aucune isodensité, ce qui tend à montrer que la
distribution marginale des données est relativement mal approchée lorsque les données
étiquetées sont utilisées seules. Maintenant si les données non étiquetées sont prises en
compte dans l’estimation des paramètres on obtient la figure 2.16, et le modèle sélectionné
par BIC est[πλ
kD
kAD
0k]c’est-à-dire que les classes ont la même forme mais des volumes
et des orientations différentes. On voit que les densités estimées « collent » maintenant
mieux à la distribution de l’ensemble des données. La question qu’on se pose est « Dans
quelle mesure cette amélioration en terme d’approximation de densité conduit-elle à une
amélioration en terme de prédiction de la classe ? ». Les probabilitésa posteriori pour les
individus non étiquetés sont présentées tables 2.4 et 2.5. Les classes d’appartenance des
individus non étiquetées sont inconnues, cependant les 4 premiers individus sont suspectés
d’appartenir aux classes b, c, b et a. On remarque donc que tous les individus sont biens
classés en utilisant la règle de classement supervisée, tandis qu’un individu est mal classé
en utilisant la règle de classement semi-supervisée.
Les appartenances de ces 4 individus ne sont pas certaines, en pratique on peut se
demander si les deux cas qui modifient fortement l’analyse pour le type c ne serait en fait
pas issus d’un nouveau type.
0 1 2 3 4 5 6 −4 −3 −2 −1 0 1 2 3 4
Syndrome de Cohn : Nuage de point et isodensité à 5% dans le cas supervisé échelle logarithmique
Type a Type b Type c Inconnu
Fig. 2.15 – Syndrome de Cushing :
si-tuation supervisée.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 −5 −4 −3 −2 −1 0 1 2 3 4 5Syndrome de Cohn : Nuage de point et isodensité à 5% dans le cas semi−supervisé échelle logarithmique
Type a Type b Type c Inconnu
Fig. 2.16 – Syndrome de Cushing :
si-tuation semi-supervisée.
Type a Type b Type c
10,64 89,36 0,00
0,00 15,02 84,98
0,00 100,00 0,00
70,60 29,40 0,00
0,05 99,95 0,00
0,00 99,96 0,04
Tab. 2.4 – Syndrome de Cushing :
pro-babilités a posteriori supervisée.
Type a Type b Type c
12,87 87,10 0,03
0,02 14,61 85,37
0,04 38,56 61,40
82,44 17,56 0,00
0,00 0,00 100,00
0,00 0,12 99,88
Tab. 2.5 – Syndrome de Cushing :
pro-babilités à posteriori semi-supervisée.
2.5 Conclusion
Nous avons détaillé la richesse des modèles génératifs. Ceux-ci permettent de prendre en
compte toute l’information disponible. On a pu voir l’importance du modèle choisi pour
prendre efficacement en compte l’information apportée par les données non étiquetées.
Deux questions se posent alors. Tout d’abord « Comment juger de la pertinence du modèle
postulé à partir de données non étiquetées ». Ce qui fera l’objet du chapitre 3. Puis
« Comment choisir le meilleur modèle possible compte tenu de l’objectif décisionnel ? ».
Ce qui fera l’objet du chapitre 4.
Utilisation des données non étiquetées
pour juger de la pertinence d’un modèle
Comme mentionné dans Cozman & Cohen (2002) les données non étiquetées peuvent
dans un certain nombre de situations dégrader la règle de classement. Sous l’hypothèse
d’échantillonnage MCAR (section 1.2.1), ceci ne peut-être le cas que si le modèle postulé
est mal spécifié. En effet, si le modèle postulé est bien spécifié l’information apportée par
ces dernières est efficacement prise en compte par le modèle, et conduit à une amélioration
de la règle de classement supervisée. Dans ce chapitre on cherche à répondre à la question
« Le modèle utilisé est-il pertinent ? ». Pour cela, nous partons de l’idée que lorsque
diffé-rentes méthodes peuvent être utilisées pour estimer un même paramètre il est intéressant
de les comparer (Mclachlan, 2004). Nous comparons alors les estimations non supervisée,
supervisée et semi-supervisée des paramètres.
Nous proposons alors la mise en place d’un test statistique qui permet de détecter, si
les paramètres estimés de ces différentes façons sont suffisamment proches compte tenu de
l’hypothèse que le modèle est bien spécifié. La mise en place de ce test à fait l’objet d’un
communication lors des rencontres Franco-Italiennes SFC-CLADDAG Vandewalle et al.
(2008)
1. Ce test permet de détecter des situations où le semi-supervisé est susceptible
d’améliorer les performances du supervisé ; dans le cas contraire il faudra proposer d’autres
modèles. Nous abordons dans un second temps la question de la pertinence du modèle
proposé sous l’angle du choix de modèle. Ainsi, nous proposons une procédure de choix
de modèle utilisant le critère BIC et dont l’utilisation est pleinement justifiée compte tenu
des propriétés de la statistique de test utilisée dans la partie précédente.
3.1 Introduction
L’apprentissage semi-supervisé des paramètres d’un modèle génératif consiste à
utili-ser ensemble les données étiquetées et non étiquetées pour estimer le même vecteur des
paramètres. Or, ces paramètres pourraient très bien être estimés séparément en utilisant
d’une part les données étiquetées et d’autre part les données non étiquetées. On note les
1
http://math.univ-lille1.fr/~vandewal/documents/vbcg.pdf
79
log-vraisemblances théoriques suivantes
L
s(θ) = E
X,Z[logp(X,Z;θ)], (3.1)
L
ns(θ) = E
X[logp(X;θ)], (3.2)
L
ss(θ) = βL
s(θ) + (1−β)L
ns(θ), (3.3)
où, rappelons le, β indique la fraction de données étiquetées (voir définition précise au
chapitre 1, section 1.2.1). Quand les paramètres sont estimés à partir des seules données
étiquetées, les paramètres estimés θˆ
x`,z`convergent vers
θ
∗s= arg max
θ∈Θ
L
s(θ).
Cela correspond aux paramètres du modèle qui minimisent la divergence de
Kullback-Leibler à la distribution jointe de(X,Z). Quand les paramètres sont estimés à partir des
seules données non étiquetées, les paramètres estimés θˆ
xuconvergent vers
θ
∗ns= arg max
θ∈Θ
L
ns(θ).
Cela correspond aux paramètres qui minimisent la divergence de Kullback-Leibler à la
distribution marginale de X. Ainsi d’un côté on cherche à approcher au mieux une
dis-tribution jointe, et de l’autre à approcher au mieux une disdis-tribution marginale. Ces deux
objectifs sont réconciliés en pratique si l’hétérogénéité de la distribution de X est
expli-quée par la variable Z. Plus précisément, ceci est le cas si le modèle est bien spécifié,
puisqu’on a alorsθ
s∗=θ
∗nsà une permutation des classes près. Dans ce cas le fait d’utiliser
toute l’information disponible pour estimer les paramètres permet une réduction de la
variance des estimateurs, et par suite une réduction de l’erreur de classement moyenne, ce
qui justifie pleinement l’utilisation de l’approche semi-supervisée. En semi-supervisé, les
paramètres estimés θˆ
x,z`convergent vers
θ
∗ss= arg max
θ
L
ss(θ).
Ainsi cette estimation correspond asymptotiquement à minimiser une combinaison convexe
de la divergence de Kullback-Leibler à la distribution jointe de (X,Z)et de la divergence
de Kullback-Leibler à la distribution marginale de X. Comme dit précédemment, si la
distribution d’échantillonnage appartient au modèle postulé on a bien entendu :
θ
∗s=θ
∗ns=θ
ss∗.
Si jamais ce n’est pas le cas, cela signifie que le modèle est mal spécifié et la valeur de θ
ss∗se rapprochera plus ou moins de θ
∗sou θ
ns∗selon la fraction β de données étiquetées dans
le cas où le modèle est mal spécifié.
Remarquons ici que l’hypothèse que les données sont exactement issues du modèle
pos-tulé est bien sûr irréaliste, cependant cette hypothèse peut fournir dans de nombreuses
situations une approximation raisonnable de la réalité. Ainsi, nous allons chercher à
dé-tecter quand cette hypothèse est raisonnable, c.-à-d. quand les paramètres estimés de
différentes manières sont suffisamment proches pour qu’une amélioration puisse être
at-tendue quand ces derniers sont estimés ensembles.
Dans le document
Estimation et sélection en classification semi-supervisée
(Page 77-82)