La Forêt Aléatoire en apprentissage semi-supervisé "co-Forest" . 70

L’algorithme co-Forest repose sur le paradigme du co-Training [5], où deux classifieurs sont d’abord formés à partir de L, puis chacun d’eux choisit les exemples les plus confiants en U de son point de vue. Il met par la suite à jour les autres classifieurs avec ces exemples nouvellement étiquetés. Un des aspects les plus importants dans co-Training est d’esti-mer la confiance d’un exemple donné non étiqueté.

Dans co-Training standard, l’estimation de la confiance profite directement à partir de deux sous-ensembles d’attributs suffisants et redondants, où la confiance d’étiquetage d’un classifieur pourrait être considérée comme sa confiance pour un exemple non éti-queté. Lorsque la condition des deux sous-attributs suffisants et redondants n’est pas pré-sente, la validation croisée est appliquée à chaque itération d’apprentissage afin d’estimer la confiance pour les données non étiquetées [14]. L’inefficace estimation de la confiance réduit considérablement l’applicabilité de l’étendue de l’algorithme co-Training dans des applications telles que le diagnostic assisté par ordinateur.

Cependant, si un ensemble de classifieurs N, qui est désigné par H^˜, est utilisé dans le co-Training au lieu de deux classifieurs, la confiance peut être estimée de manière efficace. Lors de la détermination des exemples les plus confiants étiquetés pour un classifieur de l’ensemble de H_i(i = 1; : : : ; N), tous les classifieurs sont utilisés sauf h_i. Ces classifieurs forment un nouvel ensemble, qui est appelé l’ensemble de concomitance de H^˜, noté par H_i. Notons que H_i diffère de H^˜ seulement par l’absence de h_i. La confiance pour un exemple sans étiquette peut être simplement estimée par le degré d’accords sur l’éti-quetage, c’est à dire le nombre de classifieurs qui sont d’accord sur l’étiquette assignée par H_i. En utilisant la méthode Co-forest [18], l’algorithme construit un ensemble de classifieurs sur L, puis affine chaque classifieur avec des exemples nouvellement étiquetés choisis par son ensemble de concomitance.

Le fonctionnement de Co-forest peut se résumer par les étapes suivantes :

Étape 1 Co-forest lance l’apprentissage des H^˜ sur des bootstrap1 de L Figure 25.

1. Un échantillon bootstrap L est, par exemple, obtenu en tirant aléatoirement n observations avec remise dans l’échantillon d’apprentissage Ln, chaque observation ayant une probabilité 1/n d’être tirée.

CHAPITRE 2. LES FORÊTS ALÉATOIRES EN APPRENTISSAGE SEMI-SUPERVISÉ (CO-FOREST ) POUR LA SEGMENTATION DES IMAGES RÉTINIENNES

Figure 25 – Apprentissage des arbres sur les données labellisées L

Étape 2 l’ensemble de concomitance examine chaque exemple de U

Si le nombre de votant sur une étiquette de classe pour xu est d’accord > „ Alors xu est labellisé et copié dans un nouveau ensemble L⁰

Remarque : Nous pourrons être confronté à une situation où L⁰ – U cela affecte les performances de h_i

Solution : introduire un poids par la prédiction de confidence par l’ensemble de conco-mitance (Figure 26).

Figure 26 – Labellisation des données non labellisées U par l’ensemble de concomitance

Étape 3 Chaque arbre aléatoire est raffiné avec des exemples nouvellement marqués L d L⁰ ensuite sélectionnés par son ensemble de concomitance sous la condition suivante :

e_i;t:W_i;t < e_i;t`1:W_i;t`1

Où : W =P wij et w_ij : la confidence prédictive de H_i sur x_i dans L0 Figure 27.

CHAPITRE 2. LES FORÊTS ALÉATOIRES EN APPRENTISSAGE SEMI-SUPERVISÉ (CO-FOREST ) POUR LA SEGMENTATION DES IMAGES RÉTINIENNES

Figure 27 – Ré-apprentisage par les exemples nouvellement marqués L d L’ Pour que le succès de cette méthode d’ensemble soit présent, il faut que deux conditions soient satisfaites :

– Chaque prédicteur individuel doit être relativement bon.

– Les prédicteurs individuels doivent être différents les uns des autres.

En plus simple, il faut que les prédicteurs individuels soient de bons classifieurs. Et là où un prédicteur se trompe, les autres doivent prendre le relais.

Afin de maintenir la diversité dans Co-forest, l’idée est d’appliquer les forêts aléatoires. Elles permettent d’injecter l’aléatoire dans son principe d’apprentissage, pour maintenir cette condition. Les auteurs de Co-forest ont fixé un seuil pour la labéllisation des U où seulement les U dont le total de poids < ^ei;t`1:Wi;t`1

ei;t

seront sélectionnés (voir Figure 28).

Figure 28 – Schéma de principe de l’algorithme Co-forest

CHAPITRE 2. LES FORÊTS ALÉATOIRES EN APPRENTISSAGE SEMI-SUPERVISÉ (CO-FOREST ) POUR LA SEGMENTATION DES IMAGES RÉTINIENNES

4.4 Modèle géométrique déformable

Nous avons mis en œuvre un algorithme de modèle déformable basé sur la technique AGSM (Active Geometric Shape Model) Wang et Boyer [164]. Les modèles déformables sont des méthodes permettant de localiser les frontières d’un objet qui peut être re-présenté par une équation paramétrique. L’idée est de modeler de manière itérative les paramètres de forme de l’objet selon le champ de force, et ce afin de trouver les para-mètres optimaux. Pour ajuster un modèle déformable de type snakes [165], ASM (Active Shape Model) [166], etc . . ., les points du modèle vont être déplacés le long du champ de force dans chaque itération. Un bon champ de force doit respecter les gradients de l’image et être lissé pour assurer une large gamme de capture. Dans le modèle AGSM de Wang et Boyer, ces derniers utilisent le Gradient Vector Flow (GVF) (eq. 2.2) pour minimiser une énergie fonctionnelle (eq. 2.3) (Où f représente l’image lissée).

v(x; y) = [u(x; y); v(x; y)] (2.2)

‰ = Z Z

(—(u²_x + u²_y+ v²_x+ u²_y)+ k rf k²k v ` rf k2)dxdy (2.3)

Où f (x; y) est le négatif de l’énergie externe dérivée de I(x; y) l’image en niveaux de gris, qui est considérée comme une fonction de variables continues de position (X; Y ) (eg.2.4). Ce champ de force peut être résolu en utilisant le calcul des variations, et mesuré par itération numérique [167].

f (x; y) = `E_ext(x; y) = `G_ff(x; y) ˜ I(x; y) (2.4) Le principe de base d’AGSM est d’associer chaque paramètres : de position, de taille, les paramètres de forme et ou les paramètres d’orientation, avec une force, puis régler le paramètre en fonction de cette force ou orientation.

5 Base de données

RIM-ONE Release 3 est la troisième version de la base de données RIM-ONE [168]. C’est une base de données d’image rétinienne du fond d’œil, qui porte exclusivement sur la segmentation du nerf optique (ONH). La base de données est composée de 159 images du fond d’œil de taille 1424 x 1072, ces images sont segmentées de manière manuelle par deux différents experts en ophtalmologie pour générer les images réalité terrain. La segmentation moyenne est également disponible comme segmentation de référence. Ces images du fond d’œil ont été capturées à partir de différentes sources médicales dans trois hôpitaux espagnols (Hospital Universitario de Canarias, Hôpital Clinico San Carlos et l’hôpital Universitario Miguel Servet). La compilation d’images provenant de diffé-rentes sources médicales garantissent l’acquisition d’un ensemble d’images représentant et hétérogène. Les images sont classées en différentes catégories :

– 85 images de patients non-glaucomateux,

– 29 images de patients avec un glaucome modéré, – 6 images de patients atteints de glaucome sévère, – 39 images de patients glaucomateux.

6 Résultats et expérimentations

Dans le document Classification Semi-Supervisée des données Médicales. (Page 90-93)