• Aucun résultat trouvé

D´etermination de la m´ethode de classification optimale

Dans le document en fr (Page 124-128)

Suite aux r´esultats obtenus dans la partie pr´ec´edente, nous nous sommes int´eress´es `a la possibilit´e de d´eterminer la m´ethode de classification susceptible de donner les meilleurs r´esultats pour le JDD et la tˆache de classification consid´er´ee.

5.3.1 Mat´eriel et m´ethode

Pour ´etudier cet aspect, nous avons utilis´e les r´esultats des pr´edictions obtenues dans la partie pr´ec´edente pour chacune des 9 m´ethodes de classification utilis´ees et pour les diff´erents effectifs pour la cohorte 1. Nous n’utilisons pas ici la cohorte 2 car les performances obtenues en utilisant tous les patients disponibles sont ´egales ou presque (`a 0.03 index de Youden/AUC pr`es) pour toutes les m´ethodes de classification. Dans un premier temps, nous ´etudions les performances obtenues avec toute la cohorte pour chacune des 9 m´ethodes de classification pour d´eterminer celles qui sont significativement diff´erentes ou non.

Pour comparer les AUC, nous effectuons pour chaque r´ep´etitions un test de Delong non appari´e entre les r´esultats obtenus avec une m´ethode et ceux obtenus avec une autre. Ainsi, pour chaque comparaison de m´ethodes 2 `a 2, nous obtenons 50 valeurs de p et calculons le pourcentage de performances significativement (p < 0.05) diff´erentes entre 2 m´ethodes. Nous d´eterminons ensuite, les m´ethodes qui sont globalement diff´erentes entre elles comme ´etant celles qui pr´esentent un pourcentage de plus de 50%.

Pour chacun des sous-ensembles de patients et pour chacune des 9 m´ethodes de classification, nous allons ´etudier les pr´edictions obtenues pour l’AUC et ensuite d´eterminer si les m´ethodes de classification associ´ees aux meilleures performances pr´edites sont les mˆemes que celles donnant les meilleures performances lorsque le mod`ele est d´evelopp´e en utilisant toute la cohorte.

Nous pourrons ainsi v´erifier si quelque soit l’effectif utilis´e, la conclusion quant aux techniques optimales est toujours la mˆeme et donc d´eterminer s’il est possible de savoir quelles m´ethodes seront `a privil´egier bien que l’effectif `a disposition soit faible.

5.3.2 R´esultats

Pour la comparaison des AUC, le nombre de r´ep´etitions statistiquement diff´erentes d’une m´ethode `a une autre est donn´e sous forme de pourcentages calcul´es sur les 50 r´ep´etitions dans le tableau 5.11. Les cases oranges montrent les m´ethodes qui ne sont pas diff´erentes entre elles (moins 50% des r´ep´etitions significativement diff´erentes).

Nous remarquons que RFE-LR (C2), RFE-SVM (C6), LR (C1) et SVM (C5)

forment un groupe de m´ethode de classification non diff´erentes. De plus, LR et SVM ne sont pas significativement diff´erentes du LASSO (C9). Nous consid´erons donc ces 5

m´ethodes de classification correspondant aux meilleures AUC. A contrario, ROC (associ´ee `a LR et SVM) et PCA (associ´ee `a LR et SVM) sont les m´ethodes qui conduisent aux moins bonnes AUC (avec une AUC moyenne ≤ 0.90).

Les AUC pr´edites par la m´ethode de d´ecimation pour chacune des m´ethodes de classification et chacun des effectifs sont class´ees dans le tableau 5.12. Les colonnes classent des plus fortes performances pr´edites (1) aux plus faibles (9) et les lignes

correspondent `a l’effectif de patients sur lequel la m´ethode de d´ecimation a ´et´e appliqu´ee. AUC C1 C2 C3 C4 C5 C6 C7 C8 C9 C1 0 0.18 0.34 0 0 0.02 0.36 0.06 0.1 C2 0.18 0 0.68 0.52 0.12 0 0.7 0.54 0.58 C3 0.34 0.68 0 0.02 0.38 0.7 0.04 0.02 0.14 C4 0 0.52 0.02 0 0.02 0.44 0.08 0.02 0.06 C5 0 0.12 0.38 0.02 0 0.04 0.28 0.18 0.18 C6 0.02 0 0.7 0.44 0.04 0 0.66 0.56 0.56 C7 0.36 0.7 0.04 0.08 0.28 0.66 0 0 0.1 C8 0.06 0.54 0.02 0.02 0.18 0.56 0 0 0 C9 0.1 0.58 0.14 0.06 0.18 0.56 0.1 0 0

Tableau 5.11 – Pourcentage de r´ep´etitions pr´esentant des AUC diff´erentes entre 2 m´ethodes de classifications lorsque les 414 patients de la cohorte 1 sont utilis´es. Cases

oranges : pourcentage < 50%.

Pour l’AUC, nous remarquons que quelque soit l’effectif de la cohorte, parmi les 5 m´ethodes associ´ees aux meilleures AUC sur toute la cohorte (LR, SVM, RFE-LR et RFE-SVM et LASSO), il y en a toujours au moins une qui pr´edit une des 3 AUC les plus ´elev´ees comme le montre le tableau 5.12 (les cases color´ees en vert correspondent aux m´ethodes LR, RFE-LR, SVM, RFE-SVM et LASSO). De plus, parmi les 4 m´ethodes conduisant aux performances les plus faibles (ROC-LR, ROC-SVM, PCA-LR et PCA-SVM), il y en a toujours au moins une qui pr´edit une des 3 AUC les plus faibles (cases color´ees en rouge).

Il faut cependant noter que dans certaines situations, les m´ethodes de classification conduisant aux plus faibles performances sur toute la cohorte sont celles pour lesquelles les performances pr´edites sont les plus ´elev´ees.

C’est le cas par exemple pour l’AUC lorsque les effectifs de patients sont ≤ 196 puisque une des 4 m´ethodes donnant des AUC moyennes ≤ 0.90 correspond aux 3 pr´edictions les plus ´elev´ees.

AUC 1 2 3 4 5 6 7 8 9 220 C6 C2 C5 C8 C9 C1 C4 C3 C7 212 C6 C5 C2 C9 C1 C4 C8 C7 C3 204 C5 C2 C6 C9 C1 C4 C8 C7 C3 196 C5 C8 C9 C2 C6 C1 C7 C4 C3 188 C5 C8 C6 C1 C2 C9 C4 C7 C3 180 C6 C9 C5 C1 C2 C8 C4 C7 C3 172 C8 C5 C2 C6 C9 C1 C7 C4 C3 164 C5 C6 C8 C1 C9 C2 C7 C4 C3 156 C8 C5 C6 C2 C9 C7 C1 C4 C3 148 C5 C8 C6 C2 C9 C1 C4 C7 C3 140 C8 C5 C6 C7 C4 C1 C2 C9 C3 132 C9 C6 C5 C8 C1 C7 C2 C4 C3 124 C5 C7 C8 C9 C1 C4 C6 C2 C3 116 C8 C5 C7 C6 C9 C1 C2 C4 C3 108 C8 C5 C6 C9 C7 C2 C4 C1 C3 100 C8 C7 C5 C6 C1 C2 C9 C4 C3 92 C7 C6 C5 C8 C1 C9 C4 C2 C3 84 C8 C7 C5 C6 C2 C9 C1 C3 C4 76 C8 C7 C5 C6 C4 C2 C9 C3 C1 68 C8 C7 C6 C5 C1 C9 C2 C4 C3 60 C8 C7 C6 C5 C9 C2 C4 C1 C3 52 C8 C7 C6 C5 C2 C4 C9 C1 C3 44 C8 C7 C5 C1 C6 C9 C2 C4 C3 36 C8 C7 C6 C5 C2 C9 C4 C3 C1

Tableau 5.12 – Classement des AUC pr´edites de la plus faible `a la plus ´elev´ee pour chacune des 24 situations en fonction de la m´ethode de classification (cohorte 1). Les cases vertes correspondent aux situations o`u les 3 pr´edictions les plus fortes le sont par

une des m´ethodes de classifications permettant d’obtenir les meilleures AUC lorsque tous les patients sont utilis´es pour d´evelopper le mod`ele. Les cases rouges correspondent aux situations o`u les 3 pr´edictions les plus faibles le sont par une des m´ethodes de classification permettant d’obtenir les moins bonnes AUC lorsque tous les

patients sont utilis´es pour d´evelopper le mod`ele. 5.3.3 Discussion

Les r´esultats pr´ec´edents montrent qu’avec la m´ethode de d´ecimation d´ecrite dans le § 5.2, nous pouvons d´eduire quelles m´ethodes sont `a privil´egier ou `a ´eviter, `a partir

d’un certain effectif. En effet, les m´ethodes de classification conduisant aux meilleures performances lorsque toute la cohorte est utilis´ee font toujours parties de celles qui font les pr´edictions les plus ´elev´ees et `a l’inverse, celles qui donnent les moins bonnes performances sont celles qui correspondent aux pr´edictions les plus faibles.

N´eanmoins, pour de faibles effectifs une m´ethode qui ne fait pas partie des meilleures peut ˆetre celle qui pr´edit les performances les plus ´elev´ees. C’est pourquoi en dessous de 124 patients, il vaut mieux appliquer la m´ethode sur diff´erents effectifs afin de voir si les conclusions varient.

Grˆace `a notre m´ethode, nous pouvons donc d´eterminer un sous-ensemble de m´ethodes de classification `a consid´erer par la suite.

Dans le document en fr (Page 124-128)