• Aucun résultat trouvé

Conception d’un système semi-supervisé d’aide au diagnostic pour la classification des images médicales

3. Résultats et discussions

3.2. Performance du classifieur SVM-Transductive

Dans le but d’obtenir un modèle robuste, on procède au choix de différentes proportions de données étiquetées sélectionnées aléatoirement pour faire l’apprentissage le classifieur TSVM, seulement celles qui présentent une meilleure précision de discrimination sont conservées. Ce choix est justifié du fait que l'utilisation d'une petite quantité de données étiquetées peut ne pas fournir l'information nécessaire et suffisante pour l’apprentissage du

classifieur TSVM. En revanche, l'utilisation d'une quantité importante de données étiquetées conduit au problème du coût et de l’effort relatif à l’étiquetage de ces données.

Ensuite, nous procédons à l’analyse du comportement ainsi qu’à la comparaison des trois méthodes d'extraction des caractéristiques (GLCM, moments centraux et moments de Hu) utilisées pour représenter l’image médicale. Au début, chaque méthode a été appliquée de manière indépendante et a été évaluée par le classifieur TSVM. Par la suite, toutes les méthodes sont regroupées en un seul vecteur contenant 32 caractéristiques.

L’espace des caractéristiques obtenu est jugé grand à cause de la diversité des images et du types d’anomalies ainsi avec un tel espace, le temps de calcul augmentera. Cette représentation contient des informations (caractéristiques) non pertinentes et redondantes qui affectent le processus de l’apprentissage d’une part et dégrade la précision du classifieur d’autre part.

Afin d'assurer une bonne convergence du système de classification ainsi qu'une bonne séparation des classes, une étape de sélection de caractéristiques doit intervenir. Pour cela, un algorithme génétique a été utilisé afin de réduire l’espace de caractéristiques.

Une étude expérimentale des deux schémas de sélection de caractéristiques « wrapper- supervisé (GA-SVM) et wrapper semi-supervisé (GA-TSVM) » est réalisée. Elle montre l'influence des deux paramètres : la taille de la population de l'algorithme génétique (qui varie selon la méthode d'extraction des caractéristiques) et le nombre de générations utilisant les deux bases de validations DDSM et RIM-ONE.

La figure 4.8 et la figure 4.9 montrent l’évolution de la précision en fonction d’augmentation du nombre de générations de l’algorithme génétique utilisant les deux schémas de sélection. Les résultats de précision obtenus des deux schémas sont issus d’un classifieur TSVM utilisé pour la discrimination entre les classes.

Figure 4.8. Evolution de la précision des schémas de sélection des caractéristiques en fonction de nombre de générations utilisant la base de données DDSM.

Figure 4.9. Evolution de la précision des schémas de sélection des caractéristiques en fonction de nombre de générations utilisant la base de données RIM-ONE.

La figure 4.8 et la figure 4.9 montrent que la précision du TSVM augmente avec l'augmentation du nombre de générations. L’apprentissage du classifieur TSVM a été assuré en utilisant de petites portions de données étiquetées de chaque base de données. En effet, ces précisions ont été obtenues avec 20% et 16% de données étiquetées de la base de données DDSM et RIM-ONE, respectivement.

Nous remarquons à travers ces deux figures obtenues pour les deux bases de données utilisées, que le schéma semi-supervisé de sélection des caractéristiques donne de bons résultats comparativement au schéma supervisé. En tenant compte du critère de réduction des faux

0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Pr é ci si o n Nombre de génération GA-TSVM GA-SVM 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Pr é ci si o n Nombre de génération GA-TSVM GA-SVM

positifs, une bonne évolution ainsi qu’une bonne précision du système a été assurée, ce qui conduit par la suite d’obtenir un diagnostic plus fiable.

Nous avons procédé à l’étude du comportement du classifieur TSVM vis-à-vis des méthodes d’extraction des caractéristiques utilisées pour représenter le contenu des données médicales comme il a été déjà mentionné. En premier lieu, chaque méthode a été testée indépendamment des autres. En deuxième lieu, un vecteur des caractéristiques dont le contenu est une combinaison des trois méthodes d’extraction des caractéristiques a été l’entrée du classifieur TSVM. En dernier lieu, les deux schémas de sélection de caractéristiques ont été appliqués sur cet espace des caractéristiques afin de ne tirer que les meilleures primitives. Les tableaux 4.3 et 4.4 montrent les résultats obtenus pour chaque base de données.

Tableau 4.3. Etude des performances des méthodes d’extraction des caractéristiques ainsi que les deux schémas de sélection des caractéristiques proposés sur la base de données DDSM.

Précision

Données

étiquetées (%) GLCM/TSVM HU/TSVM CENTR/TSVM

GLCM+HU+CENTR/ TSVM GA-SVM GA-TSVM L=2 0.734 0.735 0.704 0.761 0.784 0.808 L=4 0.755 0.741 0.711 0.774 0.802 0.817 L=6 0.767 0.758 0.725 0.799 0.821 0.837 L=8 0.794 0.772 0.749 0.820 0.833 0.851 L=10 0.820 0.791 0.768 0.835 0.848 0.868 L=12 0.834 0.804 0.780 0.847 0.864 0.887 L=14 0.854 0.821 0.793 0.869 0.881 0.904 L=16 0.862 0.828 0.797 0.878 0.897 0.911 L=18 0.876 0.841 0.811 0.890 0.908 0.924 L=20 0.888 0.852 0.824 0.901 0.921 0.948

Dans le but d’assurer une bonne analyse, nous avons testé différentes portions de données étiquetées elles sont présentées en (%) dans la première colonne des tableaux. Nous avons retenu seulement celles qui génèrent une meilleure précision.

Les tableaux 4.3 et 4.4 établissent que la combinaison des trois méthodes proposées a amélioré la précision, l’utilisation des descripteurs de texture et de forme a permis une bonne représentation de l’image. Nous remarquons aussi que la matrice de co-occurrence à niveau de gris (GLCM) a surpassé les deux autres méthodes (~0.05 pour la base de données DDSM et ~0.03 pour la base de données RIM-ONE), confirmant ainsi l’intérêt d’utiliser un descripteur de texture pour représenter l’image. Cette étude a montré l’utilité de la méthode GLCM. Malgré son ancienneté, elle demeure très efficace dans la représentation de l’information de texture.

Tableau 4.4. Etude des performances des méthodes d’extraction des caractéristiques ainsi que les deux schémas de sélection des caractéristiques proposés sur la base de données RIM-ONE.

Deux schémas de sélection différents ont été analysés ; le schéma basé sur le modèle wrapper semi-supervisé (GA-TSVM) a donné la meilleure performance en le comparant avec celui du wrapper supervisé (GA-SVM). Cela nous a permis, non seulement de gagner en précision mais aussi de réduire le temps et l’effort de l’étiquetage.

En outre, nous pouvons dire que l’intégration d’un module de sélection de caractéristiques, spécialement les algorithmes génétiques, a permis une représentation des images en fonction des caractéristiques pertinentes. Le sous-ensemble des caractéristiques optimales obtenues a permis au classifieur TSVM de tracer la marge de séparation qui maximise la distance entre les classes assurant une bonne performance de classification. Le schéma GA-TSVM a donné une amélioration de précision de ~ 0.03 et ~ 0.02 en moyenne dans les bases de données DDSM et RIM-ONE, respectivement ; par rapport au GA-SVM.

Afin d'évaluer le classifieur TSVM en termes de fiabilité de diagnostic du cancer du sein et de glaucome, les mesures de performance telles que : la sensibilité, la spécificité, la NPV et la PPV ont été utilisées. Les résultats obtenus sont illustrés dans la figure 4.10.

Les résultats montrent la supériorité du modèle GA-TSVM sur les deux bases de données. À seulement 16% de données étiquetées de la base de données RIM-ONE la sensibilité atteint ~0.99 et la spécificité ~0.97. Avec la base de données DDSM à 20% de données étiquetées, nous obtenons les meilleurs taux de sensibilité ~0.94 et de spécificité ~0.96. De plus, avec de tels taux de sensibilité, le système peut facilement détecter si un patient souffre de la maladie ou pas.

Précision

Données étiquetées(%)

GLCM/TSVM HU/TSVM CENTR/TSVM GLCM+HU+CENTR /TSVM GA-SVM GA-TSVM L=2 0.751 0.733 0.687 0.810 0.841 0.867 L=4 0.790 0.759 0.689 0.833 0.854 0.879 L=6 0.796 0.779 0.735 0.856 0.862 0.879 L=8 0.832 0.817 0.731 0.871 0.889 0.909 L=10 0.854 0.846 0.756 0.899 0.901 0.924 L=12 0.860 0.847 0.840 0.896 0.912 0.944 L=14 0.881 0.867 0.877 0.921 0.929 0.960 L=16 0.922 0.892 0.877 0.940 0.952 0.980

(a) (b)

(c) (d)

Figure 4.10. Une étude de sensibilité, spécificité, NPV et PPV du système proposé : (a) et (b) représentent les performances des schémas GA-SVM et GA-TSVM sur DDSM, (c) et (d)

représentent les performances des schémas GA-SVM et GA-TSVM sur RIM-ONE. En outre, nous remarquons que le schéma de sélection de caractéristiques GA-TSVM donne des résultats très prometteurs et même supérieurs à ceux donnés par le schéma GA-SVM. Nous constatons que l’ajout du critère de réduction des faux positifs a nettement amélioré la performance du classifieur tout en gardant une bonne sensibilité du système pour les deux bases de données DDSM et RIM-ONE.