• Aucun résultat trouvé

Partie 3 Annexes

6.2 Choix de visualisation

6.2.3 Evaluation de la méthode de visualisation

Nous avons précisé que nous souhaitons pouvoir visualiser des données multidimensionnelles (cf. 4.2.1 page 120). Une méthode courante pour la réduction à deux dimensions d’un espace vectoriel consiste à générer un graphe complet à partir de la matrice de distances. La longueur des ressorts est alors obtenue { partir de la distance dans l’espace vectoriel d’origine [Saporta 2006]. Cette méthode1 n’étant pas initialement conçue pour la projection de données multidimensionnelles, nous avons réalisé une évaluation rapide de sa qualité. Pour cela, nous l’avons comparée avec une analyse en composantes principales (ACP), sur un échantillon de données d’expression, en nous intéressant en particulier au critère de conservation des distances. Dans le cadre de MDS, nous avons réalisés plusieurs tests dont nous avons extrait la moyenne afin de réduire l’influence des minima locaux.

Critères d’évaluation2

Nous avons utilisé plusieurs mesures afin d’évaluer la qualité de la projection. Dans un premier temps, nous avons mesuré la conservation globale de la distance. Nous avons linéarisé de façon ordonnée toutes les distances correspondant aux couples de nœuds possibles. Ceci a été calculé dans l’espace original et dans le plan projeté. Nous avons alors comparé la position de chaque couple dans le tableau stockant les données de l’espace initial, et dans le tableau de l’espace final. Puis nous avons calculé la somme des écarts observés. Plus la valeur est grande, moins la projection respecte les distances. Nous nommons cette mesure « désordre de distances » (figure 6.7).

Espace Espace original Espace projeté Tableau des couples de nœuds par

ordre de distances croissantes

1 2 3 1 2 3 AC BC AB AB AC BC

Ecart dans l’ordre des distances 2 1 1 Indice de conservation de la

distance dans la projection 4

Figure 6.7 – Exemple de calcul du « désordre de distances » introduit par une projection.

Afin d’évaluer la conservation des angles, nous avons effectué la mesure non plus en considérant les distances, mais les aires des triangles. Enfin, nous avons considéré une autre mesure qui se focalise non plus sur la distance, mais sur le voisinage. Cet indice représente le pourcentage de conservation des n plus proches voisins de l’espace initial dans l’espace projeté. Cette mesure nous intéresse, car dans un espace complexe de données, l’utilisateur ne mesure

1 Par la suite, nous utilisons l’acronyme anglo-saxon pour désigner cette méthode : MDS

(multidimensional scaling).

2 Ce travail a été réalisé dans un cadre d’un co-encadrement avec Reena Shetty d’une mini-mission

mathématique. Je remercie Gérard Dray, Stefan Janaqi et Jacky Montmain pour leurs conseils concernant les aspects mathématiques.

A B

C A

B C

pas la distance entre les objets, mais associe simplement les objets les plus proches [Mackinlay 1986]. Ce sont ces critères qui sont représentés dans la suite.

MDS versus ACP

L’ACP est certainement une des méthodes d’analyse de données multidimensionnelles les plus utilisées et considérée comme satisfaisante. Nous avons donc comparé le MDS avec cette méthode qui nous sert de référence (figure 6.8). Les résultats montrent que le MDS, quelle que soit la mesure de qualité, s’avère plus respectueuse des distances, des aires, et du voisinage. On peut expliquer ce résultat du fait que l’ACP ne traite que les deux premiers vecteurs propres de l’espaces. MDS au contraire prend en compte l’ensemble des vecteurs dans le dessin.

MDS ACP MDS ACP Pourcentage de conservation du voisinage (3, 10, 20 et 60 plus proches voisins). Indice de désordre

de distances

Indice de désordre des aires

Figure 6.8 – Comparaison de la qualité des résultats fournis par MDS et ACP. L’échantillon correspond aux données d’expression [Bozdech, Llinás et al. 2003] : 116 gènes pour 46 dimensions.

MDS : complexité

La principale limite du MDS est sa complexité. La mesure de qualité précédente est réalisée en générant un graphe complet où chaque longueur de ressort correspond à la distance euclidienne dans l’espace vectoriel d’origine. Ceci implique la génération de n² arêtes pour n vecteurs, et la complexité totale de l’algorithme pour i itérations est de O(n² i). Cette complexité est importante, et nous avons recherché :

- dans quelle mesure il est possible de réduire le nombre d’arêtes générées sans réduire fortement la qualité de la projection ?

- quelle stratégie adopter pour supprimer les arêtes ?

Nous comparons trois méthodes (figure 6.9) : on génère les arêtes correspondant aux n plus proches voisins, aux n voisins les plus éloignés, ou de façon aléatoire.

0 0,2 0,4 0,6 0,8 1 3 10 20 60 116 MDS ACP 1367 186 26,7K 47,1K

Conservation des 3 plus proches voisins Conservation des 10 plus proches voisins

Axe vertical : qualité de la projection Axe horizontal : densité

Désordre de distances Légende

Figure 6.9 – Chaque graphe permet d’évaluer la méthode de construction du graphe en MDS pour un critère d’évaluation donné : 3 et 10 plus proches voisins, désordre de distances. L’axe horizontal décrit la densité du graphe. Chaque courbe indique la qualité de la projection suivant une méthode de génération du graphe de distances différente : plus proches voisins (PPV), plus lointains voisins (PLV), et suppression aléatoire des arêtes. Nous avons par ailleurs rappelé la qualité produite par l’ACP pour chaque méthode d’évaluation (ligne horizontale bleue). La légende est commune aux trois graphiques.

La figure précédente montre les résultats de ces évaluations. Nous concluons que la méthode la plus adaptée pour générer le graphe de distances consiste à filtrer aléatoirement les arêtes. Dans l’expérience précédente, on constate que la qualité se dégrade fortement lorsque la densité est inférieure à 25%. Dans quelle mesure ce point varie-t-il en fonction de la taille des données ? L’expérience suivante mesure l’évolution de la qualité (axe vertical) en fonction de la densité du graphe (horizontale), suivant la méthode aléatoire de filtrage d’arêtes (figure 6.10).

Pourcentage de conservation des 10 plus proches voisins Pourcentage de conservation des 20 plus proches voisins

Axe vertical : qualité de la projection - Axe horizontal : densité

Figure 6.10 – Evolution du compromis densité/qualité en fonction du nombre de vecteurs.

A partir de ces expériences, nous établissons un premier constat qui n’est pas traduit dans ces diagrammes : plus le graphe est petit (faible nombre de nœuds), plus les résultats sont variables. Plus le graphe est grand (le nombre de nœuds est important), plus les résultats sont répétés et moins les minimas locaux introduisent de variations. Lorsque le graphe est petit, la visualisation

0 0,2 0,4 0,6 0 0,2 0,4 0,6 0,8 1 Densité % conservation 3 plus proches voisins

0 0,2 0,4 0,6 0,8 0 0,5 1 Densité % conservation 10 plus proches voisins

0 0,2 0,4 0,6 0,8 0 0,2 0,4 0,6 0,8 1 50 117 200 500 0 0,2 0,4 0,6 0 0,2 0,4 0,6 0,8 1 0 500 1000 1500 2000 0 0,2 0,4 0,6 0,8 1 ACP PPV PLV ALEA Densité indice de désordre de distances

est plus facile, et la complexité réduite : nous nous focalisons sur les grands graphes. Nous avons identifié plusieurs caractéristiques récurrentes :

- plus le graphe est grand, plus le rapport densité/qualité optimal semble se réduire,

- nous parvenons à afficher un espace multidimensionnel de 500 éléments avec une

qualité raisonnable, mais avec une visualisation saccadée (de l’ordre de 1 { 2 images par secondes),

- à partir de 100 vecteurs approximativement, on peut supprimer 75% des arêtes avec

une perte de qualité mineure ; en dessous, il n’est pas nécessaire de réaliser de telles optimisations.