Stratégies de décodage - Classification supervisée d’un problème multiclasse

2.4 Classification supervisée d’un problème multiclasse

2.4.3 Stratégies de décodage

Les sorties des classifieurs issues du schéma de décomposition doivent être combinées (décodées) de manière à pouvoir rendre une décision sur la classe à choisir. Les difficul-tés vont venir des classifieurs qui ne sont pas parfaits et qui peuvent donner des erreurs de prédiction dont il faut minimiser l’influence. Il faut également prendre en compte les inconsistances de certains classifieurs. Par exemple, un classifieur ψω_i,ωj ne sera pas perti-nent dans l’analyse d’une classe ω_k.

Deux familles de principe de décodage sont en général reconnues : le décodage di-rect et le décodage par élimination. Dans le décodage didi-rect, une valeur de confiance (ou probabilité) est déterminée pour chaque classe du problème initial à partir des sorties des fonctions de décision issues du schéma de décomposition. La valeur de confiance la plus probable est choisie. Dans le décodage par élimination, à chaque étape, seul un sous-ensemble restreint des classes initiales est retenu (soit directement, soit par élimination) de telle manière qu’il ne reste plus qu’une seule classe après la dernière étape.

Nous allons présenter les principales stratégies de décodage de la littérature pour ces deux familles, suivant le schéma de décomposition utilisé.

2.4.3.1 Décodage direct

- Classifieur un contre tous La valeur de confiance est directement donnée par : p(ω = ωi|x) = _K^{D(ψi, x)}

X j=1

D(ψj, x)

, (2.75)

où D(ψi, x) est la décision prise par le classifieur ψien réponse aux données x. On obtient ensuite la classe vainqueur par : w(x) = arg max

ωi

p(ω = ωi|x).

- Classifieur un contre un Dans la décomposition un contre un, la sortie du classifieur binaire ψ_ω_i_,ω_j, D(ψ_ω_i_,ω_j, x) fournit une estimation de la probabilité qu’un exemple x soit issu de la classe ωilorsque l’on sait qu’il provient du couple (ωi, ωj) [Price et al., 1994] :

D(ψωi,ωj, x)≈ p(ω = ωi|x, ω ∈ {ωi, ωj}). (2.76) La difficulté est de définir les valeurs de p(ω = ωi|x) à partir des estimations des

p(ω = ωi|x, ω ∈ {ωi, ωj}).

p(ω = ωi|x) est supposé satisfaire la relation suivante :

p(ω = ωi|x, ω ∈ {ωi, ωj}) = ^{p(ω = ω}^i|x)

La classe vainqueur sera ensuite déterminée par : w(x) = arg max ωi

p(ω = ωi|x).

Il existe de nombreuses méthodes pour déterminer p(ω = ωi|x). Nous allons passer en revue les principales.

+ Vote Majoritaire : La méthode du Vote Majoritaire [Friedman, 1996] est proba-blement la plus simple : chaque classifieur apporte sa voix à la classe qui lui semble la plus probable. La classe ayant reçu le plus de voix sera déclarée vainqueur.

L’estimation de la probabilité d’appartenance à une classe est donnée par : p(ω = ωi|x) = ¹ N K X j=1 j6=i ID(ψωi,ωj, x) > 0, 5, (2.78)

où N = K(K − 1)/2 est le nombre de classifieurs et I(η) est une fonction qui vaut 1 si η est vraie et 0 sinon.

+ Méthode de Refregier : En partant de (2.77), on peut écrire que : D(ψ_ω_i_,ω_j, x)

D(ψω_j,ωi, x) ≈ ^{p(ω = ωi}^{|x, ω ∈ {ωi, ωj})} p(ω = ωj|x, ω ∈ {ωi, ωj}) ⁼

p(ω = ωi|x)

p(ω = ωj|x)^. ^(2.79) Réfregier et Vallet [Refregier et Vallet, 1991] proposent de transformer (2.79) en une égalité. Ils obtiennent ainsi un système de K(K−1)/2 équations à K inconnues. Il suffit de choisir (K − 1) D(ψωi,ωj, x) et de résoudre le système pour déterminer les p(ω = ωi|x). Cependant, le choix des (K − 1) D(ψωi,ωj, x) est crucial et trouver un sous-ensemble optimal peut être coûteux [Price et al., 1994].

+ Méthode de Price : Dans [Price et al., 1994], Price et ses collaborateurs dé-montrent que

K X

j=1 j6=i

p(ωi|x, ω ∈ {ωi, ωj}) − (K − 2)p(ω = ωi|x) = 1 (2.80)

À partir de cette équation et de (2.77), ils calculent p(ω = ωi|x) comme étant : p(ω = ωi|x) = _K ¹ X j=1,j6=i 1 D(ψj, x) − (K − 2) (2.81)

p(ω = ωi|x) doit ensuite être normalisé afin que K X

i=1

+ Méthode de Hastie : Hastie et Tibshirani [Hastie et Tibshirani, 1998] proposent de choisir p(ω = ωi|x) de manière à minimiser la distance de Kullback-Leiber entre les valeurs prédites par les fonctions de décision binaires D(ψ_ω_i_,ω_j, x) et le résultat de l’appli-cation du calcul de (2.77). L’objectif est de minimiser la fonctionnelle suivante :

l(p) =^X i6=j

ni,jD(ψω_i,ωj, x) ln ^D(ψωi,ωj, x)

p(ω = ωi|x, ω ∈ {ωi, ωj})^, ^(2.82) où p est le vecteur contenant tous les p(ω = ωi|x) et ni,j est le nombre de données d’en-traînement des classes i et j. Hastie et Tibshirani proposent un algorithme itératif pour réaliser cette minimisation.

Wu et ses collaborateurs ont proposé une amélioration de cette méthode [Wu et al., 2004] qui simplifie l’implémentation et l’analyse algorithmique.

- ECOC La décomposition ECOC produit une matrice Ψ de K lignes (correspondant aux K classes) et n colonnes. Pour chaque colonne, une fonction de décision est produite. Si on considère le vecteur de sortie des n classifieurs D(x) = D(ψ1, x),· · · , D(ψn, x)

, la classe la plus probable sera celle dont la ligne Ψi de la matrice Ψ est la plus proche du vecteur D(x) au sens d’une distance :

ω(x) = arg min ωi

dist(D(x), Ψi). (2.83)

Cette distance peut être la distance de Hamming [Dietterich et Bakiri, 1995] : dH(D(x), Ψi) = n X s=1 1− sign(D(ψs, x), Ψi(s)) 2 ! (2.84) où sign(z) vaut +1 si z > 0, −1 si z < 0 et 0 sinon. La distance peut aussi être une fonc-tion de perte [Allwein et al., 2000] (Loss Base Decoding, LBD), ce qui permet de prendre en compte la valeur des sorties et non leurs seuls signes.

La distance de Hamming minimum d est la distance minimum existant entre tous les mots-coded’un dictionnaire. Pour qu’une erreur de poids t (c’est-à-dire lorsque t bits sont er-ronés) soit corrigée, il faut que d > 2t + 1 [Dietterich et Bakiri, 1995]. Dans le cas du un contre tous, la distance minimum de Hamming entre tous les codes est de 2. Il est donc impossible de corriger une erreur sur la sortie d’un classifieur avec cet encodage [Allwein et al., 2000]. La table 2.1 présente un code ECOC pour un problème à 10 classes avec 15 classifieurs pour lequel la distance de Hamming minimum d est de 7. Il est ainsi pos-sible de corriger des erreurs dans 3 résultats de classifieurs. En pratique, il est souvent rare d’avoir une distance de Hamming minimum élevée [Dietterich et Bakiri, 1995] et la meilleure stratégie de codage est souvent problème-dépendante [Allwein et al., 2000]. 2.4.3.2 Décodage par élimination

- Les Graphes Directs Acycliques Un autre schéma de décodage est le décodage par élimination (aussi appelé décodage en cascade), initialement décrit par Kreßel [Kreßel, 1999] puis réintroduit par l’équipe de Platt [Platt et al., 2000] sous le nom de Graphe Di-rect Acyclique(Direct Acyclic Graph : DAG). Le décodage par élimination correspond à

TAB. 2.1 – Code ECOC à 15 bits et distance minimum de Hamming de 7 pour un pro-blème à 10 classes. Classe ^Mot-Code f0 f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 0 1 1 -1 -1 -1 -1 1 -1 1 -1 -1 1 1 -1 1 1 -1 -1 1 1 1 1 -1 1 -1 1 1 -1 -1 1 -1 2 1 -1 -1 1 -1 -1 -1 1 1 1 1 -1 1 -1 1 3 -1 -1 1 1 -1 1 1 1 -1 -1 -1 -1 1 -1 1 4 1 1 1 -1 1 -1 1 1 -1 -1 1 -1 -1 -1 1 5 -1 1 -1 -1 1 1 -1 1 1 1 -1 -1 -1 -1 1 6 1 -1 1 1 1 -1 -1 -1 -1 1 -1 1 -1 -1 1 7 -1 -1 -1 1 1 1 1 -1 1 -1 1 1 -1 -1 1 8 1 1 -1 1 -1 1 1 -1 -1 1 -1 -1 -1 1 1 9 -1 1 1 1 -1 -1 -1 -1 1 -1 1 -1 -1 1 1

un arbre de décision dont tous les nœuds sont des classifieurs binaires. Pour réaliser une classification multiclasse, un exemple est présenté à chaque nœud et suit un chemin dans l’arbre en éliminant une classe à chaque nœud. La figure 2.14 présente un exemple de décodage par élimination pour une décomposition un contre un d’un problème à quatre classes. Il existe des arbres pour d’autres schémas de décomposition [Lei et Govindaraju, 2005]. Pujol et son équipe [Pujol et al., 2006] ont proposé un arbre de décision où chaque nœud sépare les classes présentes selon un critère de discrimination maximum et dont les codes obtenus à chaque nœud composent les colonnes d’une matrice ECOC.

1 vs 4 2 vs 4 1 vs 3 3 vs 4 2 vs 3 1 vs 2 4 3 2 1 4 1 4 2 3 1 4 ³ ³ ² ² 1 1 2 3 4 2 3 4 1 2 3 3 4 ²3 ¹2

FIG. 2.14 – Arbre de classificateurs binaires avec un schéma de décomposition un contre un. Les chiffres verts à gauche des nœuds représentent les états possibles, alors que les flèches bleues et les nœuds grisés présentent un chemin dans l’arbre.

Il existe cependant plusieurs inconvénients à l’utilisation des DAG. Tout d’abord, le choix de la classe vainqueur dépend fortement de l’ordre dans lequel les classifieurs

bi-naires des nœuds sont rencontrés, ce qui affecte la fiabilité de l’algorithme. De plus, la classe à prédire est plus ou moins avantagée par rapport à sa distance à la racine [Lézoray et Cardot, 2008] (il y a un plus fort risque d’être rejeté dans les nœuds près de la racine). Pour remédier à ces problèmes, certains auteurs ont proposé d’utiliser des DAG adaptatifs (ADAG) [Ko et al., 2004], mais leur capacité de généralisation dépend fortement de la structure de l’arbre.

Il faut enfin noter que beaucoup de classifieurs ne sont pas pertinents pour une classifi-cation donnée, ce qui peut provoquer de graves erreurs. Nous verrons dans le paragraphe suivant comment prendre en compte ce fait.

- Prise en compte des classes non présentes Une analyse plus fine de la combinaison de classifieurs binaires révèle un problème important lié à l’erreur introduite par les valeurs de D(ψ_ω_i_,ω_j, x) lorsque l’exemple considéré n’appartient ni à la classe ωini à la classe ω_j. Ainsi, l’estimation de p(ω = ωi|x) qui prend en compte tous les résultats des classifieurs, qu’ils soient pertinents ou non, peut être fausse. La figure 2.15 présente un exemple d’arbre de décision et la matrice des D(ψ_ω_i_,ω_j, x) s’y rapportant. Dans le cas où un élément de classe ω = 3 est présenté, l’utilisation comme racine du classifieur 1 vs 2 (non pertinent car il n’a pas été entraîné avec des données de classe 3) donnera lieu à un résultat faux dans la majorité des cas. Le problème réside dans le fait que la classe de l’exemple n’est pas connue a priori (puisque c’est justement le but de la classification...) et que les classifieurs significatifs ne peuvent pas être pré-sélectionnés. Ainsi, dans le cas du un contre un, (K − 2)(K − 1)/2 classifieurs sont non pertinents pour juger une classe ωi. Plus le problème aura de classes, plus le bruit induit par l’ensemble des classifieurs non pertinents rendra le décodage difficile. 1 vs 2 1 vs 3 3 vs 2 3 1 2 1 2 1 3 3 2 1 2 3 1 3 ²3   - 0.6 0.51 0.4 - 0.1 0.49 0.9 - 

FIG. 2.15 – Exemple de décodage non pertinent : Le classifieur 1 vs 3 est faible et le classifieur 3 vs 2 est fort. Un exemple de classe 3 arrivant sur 1 vs 2 (classifieur non pertinent) sera orienté vers 1, puis sera à nouveau orienté vers 1 par 1 vs 3, et sera donc mal classé. Il n’aura pas été pris en compte le fait que 3 vs 2 est un classifieur fort.

Pour éviter de telles erreurs, plusieurs schémas de décodage ont été introduits. Ainsi, Moreira et Mayoraz proposent que pour chaque classifieur binaire séparant les classes i et j (i 6= j), un classifieur supplémentaire soit entraîné à différencier les classes i et j des autres classes [Moreira et Mayoraz, 1998]. Ce classifieur donne une estimation de la probabilité que x appartienne à i ou à j : D(ψ_i,j⁽²⁾, x)≈ p(ω ∈ {ωi, ωj}|x). Il y a au final K(K + 1)/2 classifieurs à entraîner. Ce schéma est appelé PWC-CC (PairWise Coupling

Correcting Classifiers). La figure 2.16 présente les matrices de décomposition correspon-dant à un problème à quatre classes. Cette approche a tout de même le défaut d’avoir à entraîner, comme dans le cas des classifieurs un contre tous, chaque classifieur avec l’en-semble des données.

    +1 +1 +1 0 0 0 −1 0 0 +1 +1 0 0 −1 0 −1 0 +1 0 0 −1 0 −1 −1         +1 +1 +1 −1 −1 −1 +1 −1 −1 +1 +1 −1 −1 +1 −1 +1 −1 +1 −1 −1 +1 −1 +1 +1    

FIG. 2.16 – Les matrices de décomposition du schéma PWC-CC. À gauche : décomposi-tion classique en un contre un. À droite : la matrice des classifieurs correctifs.

La probabilité a posteriori de la classe ω_i est donnée par :

p(ω = ωi|x) = ¹ N K X j=1 j6=i D(ψ_ω⁽¹⁾_i_,ω_j, x)· D(ψ⁽²⁾ωi,ωj, x), (2.85) où N = K(K − 1)/2, D(ψ(1)

ωi,ωj, x) est la sortie du classifieur un contre un et D(ψω⁽²⁾i,ωj, x) la sortie du classifieur supplémentaire.

Lorsque l’on utilise un décodage direct, la classe sélectionnée est celle qui possède la probabilité la plus importante (h = arg max). Dans le cas du décodage par élimination, la classe à éliminer est celle qui est la moins crédible, c’est-à-dire celle dont la probabilité est la plus faible (h = arg min). En partant de ce constat, Lézoray et Cardot [Lézoray et Cardot, 2008] ont proposé un autre schéma de décodage par élimination qu’ils appliquent au schéma un contre un. À la première itération, ils éliminent la classe possédant la plus petite probabilité, déterminée par une des méthodes de combinaison vues précédemment (Vote majoritaire, Hastie, Price, ECOC...) à partir des sorties des K(K − 1)/2 classi-fieurs des classes présentes. À l’étape suivante, les K − 1 classiclassi-fieurs de la classe éliminée précédemment sont retirés. La classe de probabilité la plus petite, calculée à partir des (K− 1)(K − 2)/2 classifieurs restants, est éliminée, et les K − 2 classifieurs l’impliquant sont retirés. La méthode est répétée jusqu’à ce qu’il ne reste plus qu’une seule classe. La figure 2.17 illustre ce décodage.

1 vs 2 1 vs 3 1 vs 4 2 vs 3 2 vs 4 3 vs 4 µ(C1|x) µ(C2|x) µ(C3|x) µ(C4|x) Classes présentes 1 2 3 4 Élimination de la classe 2 1 vs 3 1 vs 4 3 vs 4 µ(C1|x) µ(C₃|x) µ(C4|x) 1 3 4 Élimination de la classe 4 1 vs 3 µ(C1|x) µ(C3|x) 1 3 Élimination de la classe 1 La classe choisie est la classe 3

FIG. 2.17 – Décodage en cascade par élimination de la classe la moins probable à chaque itération.

Dans ce chapitre, nous avons passé en revue les différentes manières de représenter une image. Nous nous sommes intéressés à sa représentation couleur, et nous avons vu qu’il existait de nombreux espaces couleur. Il n’est pas simple de déterminer quel espace (ou quelle composante) couleur sera le mieux adapté(e) pour représenter nos données. Il faudra donc les expérimenter.

Concernant la méthode de segmentation de texture, nous avons choisi d’utiliser une mé-thode de segmentation par modèle HMT sur des coefficients issus de la transformée en ondelettes qui allie une analyse de texture à une analyse multirésolution, car l’étude des objets du domaine nous a montré que les informations utiles à la segmentation étaient pré-sentes à différentes échelles (densité de répartition, forme des noyaux des cellules, etc.). Cette méthode peut être assimilée à un classifieur multiclasse.

Nous avons enfin vu qu’il existait plusieurs manières d’exploiter un classifieur multi-classe : soit directement, soit en décomposant l’analyse des K multi-classes en un ensemble d’analyses de 2 classes seulement dont il faut ensuite combiner les résultats. Nous teste-rons les différentes stratégies.

P

RÉSENTATION DU SYSTÈME

SEGRIT

Sommaire

3.1 Contexte de travail imposé . . . 79 3.1.1 Caractéristiques des images utilisées . . . 80 3.1.2 Compartiments en présence . . . 80 3.1.3 Premières approches . . . 85 3.1.4 Connaissances a priori et restriction du sujet d’étude . . . 86 3.2 Traitement des lames virtuelles . . . 88 3.2.1 Intégration dans un processus multirésolution . . . 88 3.2.2 Taille des blocs et recouvrement . . . 89 3.3 Architecture du système . . . 89 3.3.1 Stratégie globale du système . . . 89 3.3.2 Segmentations à basse résolution de l’image . . . 90 3.3.3 Calcul des cartes de probabilité d’appartenance aux classes . . . 95 3.3.4 Approche globale contre approche binaire . . . 98 3.4 Méthodologie de comparaison/évaluation des résultats . . . 104 3.4.1 Difficultés liées au tracé de la « référence or » . . . 104 3.4.2 Stéréologie . . . 105 3.4.3 Comparaison des résultats . . . 106

Ce chapitre décrit la solution retenue pour réaliser une segmentation multiclasse des structures rencontrées sur des lames virtuelles. Nous allons commencer par détailler les caractéristiques techniques des images acquises ainsi que les « objets du domaine » ob-tenus dans ces conditions d’acquisition, puis nous présenterons les premières études qui ont conduit à la stratégie proposée. Nous exposerons ensuite l’architecture du système im-plémentant cette stratégie. Pour des raisons de simplicité, nous avons donné un nom au système proposé : SEGRIT pour SEgmentation de GRandes Images basée Texture. Nous poursuivrons en décrivant les méthodes employées pour faire face aux problèmes posés par l’exploitation des lames virtuelles.

Nous terminerons ce chapitre en présentant la méthodologie d’évaluation des résultats de la segmentation.

3.1 Contexte de travail imposé

Nous souhaitons segmenter les différents types de compartiments stromaux présents sur une lame virtuelle de carcinome ovarien. Cette tâche va être dépendante de nombreux

paramètres « physiques » : conditions d’acquisition, protocole de coloration des lames, etc.Nous allons rapidement les passer en revue avant de voir leur influence sur les images produites et sur les structures d’intérêt. Nous présenterons ensuite les premiers essais de segmentation que nous avons menés et les connaissances que nous en avons extraites.

Dans le document Approches multiéchelles pour la segmentation de très grandes images : application à la quantification de biomarqueurs en histopathologie cancérologique. (Page 87-97)