• Aucun résultat trouvé

Evaluation graphique Courbe ROCCourbe ROC

Résultats et discussion

3.2 Evaluation graphique Courbe ROCCourbe ROC

La courbe ROC (Receiver Operating Characteristic) est une méthode de repré-sentation graphique qui permet de mesurer la performance d’un classifieur binaire d’un côté, et de mesurer la pertinence des différents descripteurs d’un autre côté.

chapitre5. Résultats et discussions

Cette méthode d’évaluation a été inventée pendant la deuxième guerre mondiale afin de déterminer un seuil de séparation entre le signal radar et le bruit. Depuis plusieurs années, son utilisation est devenue incontournable comme méthode d’éva-luation, [134,135] des systèmes d’aide à la décision, comme celui du domaine d’aide au diagnostic médical [136]. Pour la représentation de la courbe ROC, plusieurs ma-nières (choix des axes de la courbe) basées sur la matrice de confusion sont possibles :

– Le taux de Vrais Positifs (VP) en ordonnée et le taux de Faux Positifs (FP) en abscisse. [137]

– Le taux de Vrais Négatifs (VN) en ordonnée et le taux de Vrais Positifs (VP) en abscisse. [138]

– Le taux de Faux Positifs (FP) et le Faux Négatifs (FN) en abscisse. [139] Sachant que les :

– VP : représentent le nombre d’individus malades classés malades. – FP : représentent le nombre d’individus non malades classés malades. – FN : représentent le nombre d’individus malades classés non malades. – VN : représentent le nombre d’individus non malades classés non malades.

Mais d’une manière générale, les courbes ROC sont représentées selon la pre-mière approche, c’est à dire (VP en ordonnée et le taux de FP en abscisse). Cette méthode est robuste et permet aussi de s’affranchir de la connaissance des taux de classification ainsi que de la distribution des classes [137].

Afin de déterminer la validité d’un test, le calcul de la surface sous la courbe (Area Under the Curve (AUC)) est nécessaire. La valeur de l’AUC permet d’évaluer le classifieur. Comme le montre la Figure 5.6 une valeur de l’AUC égale à 1, signifie que, face à deux patients (malade et non malade), le test permet de distinguer dans 100% des cas les patients malades de ceux qui ne le sont pas. A l’inverse, lorsque le test n’est pas discriminant, la probabilité de distinguer le patient malade du patient non malade est de 50%. Dans ce cas, l’AUC est égale à 0,5. Entre ces deux extrêmes, tous les cas sont possibles. La surface sous la courbe dépend de l’allure générale de

chapitre5. Résultats et discussions

la courbe, et donc de la sensibilité et de la spécificité du test.

Figure 5.6 – Présentation d’une courbe ROC

Le calcul de l’AUC est basé sur le calcul d’une intégrale, étant difficile à réaliser, une approximation des calculs a été proposée dans [140, 141] et peut se faire selon la formule suivante :

U C = w1n1(n1+1) 2

n1∗ n0

w1 : La somme des rangs des personnes malades (valeur de Wilcoxon). n1 : Nombre de personnes malades.

n0 : Nombre de personnes non-malades.

La partie suivante aborde les courbes ROCs relatives à l’utilisation des quatre sous base de données (SB1, SB2, SB3, et SB4). Nous avons jugé inutile de toutes les présenter, c’est pourquoi nous ne choisirons que celles obtenues avec les meilleurs classifieurs MLP pour SB1, SVM pour SB2, C4.5 pour SB3, et RBF pour SB4.

chapitre5. Résultats et discussions

Figure 5.7 – Courbe ROC de la première sous base de données

Figure 5.8 – Courbe ROC de la deuxième sous base de données

chapitre5. Résultats et discussions

Figure 5.9 – Courbe ROC de la troisième sous base de données

Figure 5.10 – Courbe ROC de la quatrième sous base de données

chapitre5. Résultats et discussions

La première courbe ROC (Figure 5.7) a été obtenue en appliquant le classifieur MLP à la première sous base de données, la 2ème (Figure 5.8) en appliquant la méthode basée sur le classifieur SVM à la sous base SB2, la 3ème (Figure 5.9) en appliquant le classifieur C4.5 à la SB3, et finalement la 4ème (Figure 5.10) en ap-pliquant technique RBF à la sous base SB4.

En analysant la première courbe (Figure 5.7), nous remarquons que les descrip-teurs : glycémie, diabétique, âge, hypertension, et systole possède une très grande pertinence, c’est-à-dire un AUC> 0.8. La diastole, les insuffisances respiratoires et cardiaques, la présence du pacemaker, du HVG, du BAV et de la régularité du rythme sont également pertinents. Par contre les trois fréquences cardiaques (fc1, fc2 et fc3) n’ont pas d’importance. Or, dans la littérature médicale la fréquence cardiaque est un paramètre important. Notre classifieur avait du mal à identifier ces trois paramètres. Ceci s’explique par l’instabilité de la fréquence cardiaque chez les différents sujets. En effet, quand il s’agit d’un enfant ou d’un nouveau-né la fréquence cardiaque normale est trop élevée alors qu’elle est considérée comme une tachycardie chez un patient adulte. Et puisque le nombre d’enfants n’est pas impor-tant dans notre base de données, ce descripteur n’a pas été identifié correctement.

Dans la deuxième courbe (Figure 5.8), le score ASA et TP sont automatiquement reconnus. Ce qui n’était pas le cas pour l’AVC et l’IDM. Ceci s’explique également par le nombre insuffisant de patients qui présentent un IDM et/ou un AVC.

On constate sur la courbe 3, (Figure 5.9), que l’identification de l’âge et l’état du patient, sont pertinents, le type d’intervention reste moins adéquat. En ce qui concerne le BMI, ce descripteur n’a pas été pris en considération.

Enfin, sur la courbe 4, (Figure 5.10), le score de Mallampati, la distance entre le cartilage thyroïde et le menton sont les descripteurs les plus importants. L’ouverture de la bouche reste moins significative.

chapitre5. Résultats et discussions

4 Conclusion

L’ensemble des résultats obtenus par les différents classifieurs (MLP, RBF, SVM, C4.5 et Kppv ) ainsi que celui du vote majoritaire appliqués à notre base de données sont satisfaisants.

La meilleure classification a été obtenue par, les réseaux de neurones multi-couches (MLP) et les arbres de décisions pour la première sous base de données. Les méthodes basées sur les classifieurs MLP et les SVM ont réalisés les meilleures performances pour la sous base SB2. Les meilleures classifications de la troisième sous base de données (SB3) ont été obtenues avec la technique des K-NN et les C4.5. Finalement, pour la dernière sous base de données (SB4), une reconnaissance parfaite (Tc =100%) a été obtenue avec les deux techniques de classification RBF et C4.5.

Ce classement est le même que celui obtenu en effectuant le test individuel de chaque sous base. Cela nous confirme la robustesse du système proposé. Tous les FRAMEWORKS ont donné une bonne classification, mais le système de vote majo-ritaire les a améliorés. Cela confirme la pertinence du choix des différentes techniques de classification et confirme aussi que le système de vote majoritaire est impératif dans le domaine d’anesthésie.

Ces résultats ont été confirmés par les différents critères d’évaluations (taux de classification, variance, matrice de confusion, ainsi que les courbes ROC).

Néanmoins nous pouvons optimiser nos résultats pour une meilleure fiabilité du système et cela en augmentant la taille de notre base de données d’une manière ciblée c’est-à-dire ajouter des patients correspondant aux catégories : nouveaux nés, enfants, patients présentant un IDM et/ou un AVC, pour une bonne reconnaissance.