• Aucun résultat trouvé

4.3 Résultats

4.3.2 Jeux de données publics

Les jeux de données ont été choisis pour couvrir les principales congurations rencontrées dans la pratique. Les gures 4.6 à 4.15 montrent les graphiques "inter-intra" obtenus pour chacun d'eux. Ces graphiques sont interprétés en parallèle avec les résultats du tableau 4.4.

On peut regrouper les jeux de données en trois groupes selon les trois congurations de la structure identiées par les simulations auxquelles ils appartiennent :

PLS+AD ACP+AD BGA DLBCL.1 0.51(0.14) [12] 0.49(0.09) [13] 0.43(0.10) DLBCL.2 0.97(0.03) [3] 0.96(0.03) [10] 0.84(0.08) Prostate 0.97(0.06) [10] 0.96(0.07) [9] 0.70(0.09) Colon 0.87(0.06) [2] 0.83(0.06) [5] 0.88(0.06) Myélome 0.79(0.10) [1] 0.72(0.05) [12] 0.78(0.04) ALL.1 0.99(0.01) [2] 0.99(0.01) [5] 0.99(0.01) ALL.2 0.73(0.05) [10] 0.57(0.08) [1] 0.60(0.06) ALL.3 0.57(0.07) [6] 0.59(0.08) [1] 0.52(0.07) ALL.4 0.82(0.07) [4] 0.59(0.08) [6] 0.73(0.09) Leucémie 0.97(0.03) [1] 0.95(0.04) [5] 0.98(0.03)

Tab. 4.4: Proportion de bien classés pour les jeux publics - Moyenne (écart-type) obtenus avec le nombre optimal de composantes (entre crochets) sur les 50 étapes de validation croisée correspondantes.

Fig. 4.6: Visualisation inter-intra du jeu de données Leucémie - 0 : AML ; 1 : ALL. En ab-cisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

1. Les nuages de points sont distincts

C'est le cas des jeux de données Leucémie (Figure 4.6), ALL.1 (Figure 4.7), Colon (Figure 4.8) et Myélome (Figure 4.9). Les deux premiers jeux de données sont particulièrement ca-ricaturaux et permettent un très bon classement des individus. Sur la gure 4.6, les nuages de points sont séparés essentiellement le long de la direction de variance inter-groupes.

Cela correspond aux cas simulés avec α = π/2, qui donnent les meilleures prédictions.

Sur la gure 4.7, les nuages de points se distinguent en plus le long de la première com-posante de l'ACP intra-groupes. Cela correspond aux cas simulés avec α entre 0 et π/2,

Fig. 4.7: Visualisation inter-intra du jeu de données ALL.1 - 0 : Origine B-Cellulaire ; 1 : Origine T-Cellulaire. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

Fig. 4.8: Visualisation inter-intra du jeu de données Colon - 0 : Échantillon non tumoral ; 1 : Échantillon tumoral. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

et une distance assez importante pour que les nuages de points ne se chevauchent pas.

La même observation est faite sur la gure 4.9, mais dans ce dernier cas, les nuages sont moins nettement séparés, ce qui conduit à une proportion d'individus bien classés moins importante que pour les deux premiers jeux de données. Enn, dans le cas du jeu Colon, les groupes sont distingués dans les deux premières directions principales de la variance intra-groupes, ce qui correspond aux cas simulés avec α = π/4. D'après les résultats de

Fig. 4.9: Visualisation inter-intra du jeu de données Myélome - 0 : Présence ; 1 : Absence d'une région lytique. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

Fig. 4.10: Visualisation inter-intra du jeu de données DLBCL.1 - 0 : Guérison ; 1 : Rechute.

En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

simulations, on s'attend à ce que les méthodes soient moins performantes. Les résultats du tableau 4.4 conrment ces observations.

2. Les nuages de points sont peu distincts

C'est le cas des jeux de données DLBCL.1 (Figure 4.10) et ALL.3 (Figure 4.11), où les nuages de points sont intriqués l'un dans l'autre. De plus, la structure de variance-covariance est diérente dans chacun des groupes. On s'attend donc à ce qu'aucune des

Fig. 4.11: Visualisation inter-intra du jeu de données ALL.3 - 0 : Guérison ; 1 : Rechute. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

Fig. 4.12: Visualisation inter-intra du jeu de données DLBCL.2 - 0 : Folliculaire ; 1 : Germi-nal. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

deux méthodes ne soit performante. C'est bien ce qui est observé dans le tableau 4.4.

Dans le cas de DLBCL.1, le nombre de composantes retenu pour la PLS (12) et l'ACP (13) est élevé, ce qui permet à l'AD un léger bénéce par rapport à la BGA. La structure de variance n'étant pas la même dans chacun des groupes, ce bénéce ne peut être plus important.

Fig. 4.13: Visualisation inter-intra du jeu de données Prostate - 0 : Non porteur ; 1 : Porteur d'une tumeur. En abcisse gurent les coordonnées des individus sur l'axe de l'ana-lyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

Fig. 4.14: Visualisation inter-intra du jeu de données ALL.2 - 0 : Multirésistance aux mé-dicaments ; 1 : Pas de multirésistance aux mémé-dicaments. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) compo-santes de l'analyse intra-groupes.

3. Les nuages de points sont dans une situation intermédiaire

C'est le cas des jeux de données DLBCL.2 (Figure 4.12), Prostate (Figure 4.13), ALL.2 (Figure 4.14), et ALL.4 (Figure 4.15).

Pour le premier jeu de données, les groupes sont distingués dans les directions de la variance inter et intra-groupes. Ceci correspond à une situation simulée où α est entre 0

Fig. 4.15: Visualisation inter-intra du jeu de données ALL.4 - 0 : Absence ; 1 : Présence de la translocation. En abcisse gurent les coordonnées des individus sur l'axe de l'analyse inter-groupes, et en ordonnées les coordonnées des individus sur la première (en haut) et la seconde (en bas) composantes de l'analyse intra-groupes.

etπ/2. Les mêmes remarques sont valables pour le jeu ALL.4. On s'attend donc à ce que l'AD soit plus performante que la BGA. C'est bien ce qui est conrmé dans le tableau 4.4. Notons que pour les deux jeux ALL, les résultats avec l'ACP sont nettement moins bons que ceux obtenus avec les méthodes BGA et PLS+AD. Ce sont les seuls cas (avec le Myélome dans une moindre mesure), où les réductions préalables PLS et ACP conduisent à des résultats qui ne vont pas dans le même sens.