• Aucun résultat trouvé

Données sur le syndrome de Cushing

2.4 Expérimentations

2.4.4 Données sur le syndrome de Cushing

L’intérêt du semi-supervisé se manifeste avant tout lorsque le nombre de données non

étiquetées est grand devant le nombre de données étiquetées. Cependant dans certaines

situations le nombre de données est tellement petit que l’utilisation de quelques données

non étiquetées permet une amélioration des performances de l’analyse statistique. Il s’agit

par exemple de l’étude des données d’Aitchison & Dunsmore (1975) sur le syndrome de

Cushing. Le syndrome de Cushing est une maladie hypertensive associée à la sur-sécrétion

de Cortisol par la glande surrénale. Il existe trois types différents de syndrome de Cushing :

le type a (adénome), le type b (hyperplasie latérale), le type c (cancéreux). Les données

d’Aitchison & Dunsmore sont constituées de 27 patients pour lesquels les concentrations

urinaires de deux hormones stéroïdiennes ont été mesurées. Pour 6 des 27 patients le

type est inconnu. Une transformation logarithmique des données permet d’obtenir des

distributions relativement proches de la normalité conditionnellement à la classe. On trace

figure 2.15 les isodensités conditionnellement à la classe quand les paramètres sont estimés

dans le cadre supervisé et où le modèle est sélectionné en utilisant le critère BIC. Le modèle

sélectionné est [πλD

k

AD

k0

] c’est-à-dire que les classes ont des proportions identiques, le

même volume et la même forme mais des orientations différentes. Deux des points non

étiquetées en noir n’appartiennent à aucune isodensité, ce qui tend à montrer que la

distribution marginale des données est relativement mal approchée lorsque les données

étiquetées sont utilisées seules. Maintenant si les données non étiquetées sont prises en

compte dans l’estimation des paramètres on obtient la figure 2.16, et le modèle sélectionné

par BIC est[πλ

k

D

k

AD

0k

]c’est-à-dire que les classes ont la même forme mais des volumes

et des orientations différentes. On voit que les densités estimées « collent » maintenant

mieux à la distribution de l’ensemble des données. La question qu’on se pose est « Dans

quelle mesure cette amélioration en terme d’approximation de densité conduit-elle à une

amélioration en terme de prédiction de la classe ? ». Les probabilitésa posteriori pour les

individus non étiquetés sont présentées tables 2.4 et 2.5. Les classes d’appartenance des

individus non étiquetées sont inconnues, cependant les 4 premiers individus sont suspectés

d’appartenir aux classes b, c, b et a. On remarque donc que tous les individus sont biens

classés en utilisant la règle de classement supervisée, tandis qu’un individu est mal classé

en utilisant la règle de classement semi-supervisée.

Les appartenances de ces 4 individus ne sont pas certaines, en pratique on peut se

demander si les deux cas qui modifient fortement l’analyse pour le type c ne serait en fait

pas issus d’un nouveau type.

0 1 2 3 4 5 6 −4 −3 −2 −1 0 1 2 3 4

Syndrome de Cohn : Nuage de point et isodensité à 5% dans le cas supervisé échelle logarithmique

Type a Type b Type c Inconnu

Fig. 2.15 – Syndrome de Cushing :

si-tuation supervisée.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 −5 −4 −3 −2 −1 0 1 2 3 4 5

Syndrome de Cohn : Nuage de point et isodensité à 5% dans le cas semi−supervisé échelle logarithmique

Type a Type b Type c Inconnu

Fig. 2.16 – Syndrome de Cushing :

si-tuation semi-supervisée.

Type a Type b Type c

10,64 89,36 0,00

0,00 15,02 84,98

0,00 100,00 0,00

70,60 29,40 0,00

0,05 99,95 0,00

0,00 99,96 0,04

Tab. 2.4 – Syndrome de Cushing :

pro-babilités a posteriori supervisée.

Type a Type b Type c

12,87 87,10 0,03

0,02 14,61 85,37

0,04 38,56 61,40

82,44 17,56 0,00

0,00 0,00 100,00

0,00 0,12 99,88

Tab. 2.5 – Syndrome de Cushing :

pro-babilités à posteriori semi-supervisée.

2.5 Conclusion

Nous avons détaillé la richesse des modèles génératifs. Ceux-ci permettent de prendre en

compte toute l’information disponible. On a pu voir l’importance du modèle choisi pour

prendre efficacement en compte l’information apportée par les données non étiquetées.

Deux questions se posent alors. Tout d’abord « Comment juger de la pertinence du modèle

postulé à partir de données non étiquetées ». Ce qui fera l’objet du chapitre 3. Puis

« Comment choisir le meilleur modèle possible compte tenu de l’objectif décisionnel ? ».

Ce qui fera l’objet du chapitre 4.

Utilisation des données non étiquetées

pour juger de la pertinence d’un modèle

Comme mentionné dans Cozman & Cohen (2002) les données non étiquetées peuvent

dans un certain nombre de situations dégrader la règle de classement. Sous l’hypothèse

d’échantillonnage MCAR (section 1.2.1), ceci ne peut-être le cas que si le modèle postulé

est mal spécifié. En effet, si le modèle postulé est bien spécifié l’information apportée par

ces dernières est efficacement prise en compte par le modèle, et conduit à une amélioration

de la règle de classement supervisée. Dans ce chapitre on cherche à répondre à la question

« Le modèle utilisé est-il pertinent ? ». Pour cela, nous partons de l’idée que lorsque

diffé-rentes méthodes peuvent être utilisées pour estimer un même paramètre il est intéressant

de les comparer (Mclachlan, 2004). Nous comparons alors les estimations non supervisée,

supervisée et semi-supervisée des paramètres.

Nous proposons alors la mise en place d’un test statistique qui permet de détecter, si

les paramètres estimés de ces différentes façons sont suffisamment proches compte tenu de

l’hypothèse que le modèle est bien spécifié. La mise en place de ce test à fait l’objet d’un

communication lors des rencontres Franco-Italiennes SFC-CLADDAG Vandewalle et al.

(2008)

1

. Ce test permet de détecter des situations où le semi-supervisé est susceptible

d’améliorer les performances du supervisé ; dans le cas contraire il faudra proposer d’autres

modèles. Nous abordons dans un second temps la question de la pertinence du modèle

proposé sous l’angle du choix de modèle. Ainsi, nous proposons une procédure de choix

de modèle utilisant le critère BIC et dont l’utilisation est pleinement justifiée compte tenu

des propriétés de la statistique de test utilisée dans la partie précédente.

3.1 Introduction

L’apprentissage semi-supervisé des paramètres d’un modèle génératif consiste à

utili-ser ensemble les données étiquetées et non étiquetées pour estimer le même vecteur des

paramètres. Or, ces paramètres pourraient très bien être estimés séparément en utilisant

d’une part les données étiquetées et d’autre part les données non étiquetées. On note les

1

http://math.univ-lille1.fr/~vandewal/documents/vbcg.pdf

79

log-vraisemblances théoriques suivantes

L

s

(θ) = E

X,Z

[logp(X,Z;θ)], (3.1)

L

ns

(θ) = E

X

[logp(X;θ)], (3.2)

L

ss

(θ) = βL

s

(θ) + (1−β)L

ns

(θ), (3.3)

où, rappelons le, β indique la fraction de données étiquetées (voir définition précise au

chapitre 1, section 1.2.1). Quand les paramètres sont estimés à partir des seules données

étiquetées, les paramètres estimés θˆ

x`,z`

convergent vers

θ

s

= arg max

θ∈Θ

L

s

(θ).

Cela correspond aux paramètres du modèle qui minimisent la divergence de

Kullback-Leibler à la distribution jointe de(X,Z). Quand les paramètres sont estimés à partir des

seules données non étiquetées, les paramètres estimés θˆ

xu

convergent vers

θ

ns

= arg max

θ∈Θ

L

ns

(θ).

Cela correspond aux paramètres qui minimisent la divergence de Kullback-Leibler à la

distribution marginale de X. Ainsi d’un côté on cherche à approcher au mieux une

dis-tribution jointe, et de l’autre à approcher au mieux une disdis-tribution marginale. Ces deux

objectifs sont réconciliés en pratique si l’hétérogénéité de la distribution de X est

expli-quée par la variable Z. Plus précisément, ceci est le cas si le modèle est bien spécifié,

puisqu’on a alorsθ

s

ns

à une permutation des classes près. Dans ce cas le fait d’utiliser

toute l’information disponible pour estimer les paramètres permet une réduction de la

variance des estimateurs, et par suite une réduction de l’erreur de classement moyenne, ce

qui justifie pleinement l’utilisation de l’approche semi-supervisée. En semi-supervisé, les

paramètres estimés θˆ

x,z`

convergent vers

θ

ss

= arg max

θ

L

ss

(θ).

Ainsi cette estimation correspond asymptotiquement à minimiser une combinaison convexe

de la divergence de Kullback-Leibler à la distribution jointe de (X,Z)et de la divergence

de Kullback-Leibler à la distribution marginale de X. Comme dit précédemment, si la

distribution d’échantillonnage appartient au modèle postulé on a bien entendu :

θ

s

ns

ss

.

Si jamais ce n’est pas le cas, cela signifie que le modèle est mal spécifié et la valeur de θ

ss

se rapprochera plus ou moins de θ

s

ou θ

ns

selon la fraction β de données étiquetées dans

le cas où le modèle est mal spécifié.

Remarquons ici que l’hypothèse que les données sont exactement issues du modèle

pos-tulé est bien sûr irréaliste, cependant cette hypothèse peut fournir dans de nombreuses

situations une approximation raisonnable de la réalité. Ainsi, nous allons chercher à

dé-tecter quand cette hypothèse est raisonnable, c.-à-d. quand les paramètres estimés de

différentes manières sont suffisamment proches pour qu’une amélioration puisse être

at-tendue quand ces derniers sont estimés ensembles.