• Aucun résultat trouvé

Partie 3 Annexes

3.2 Hétérogénéité et dispersion : un constat actualisé

3.2.2 Hétérogénéité des interfaces

Jusqu’ici, nous avons abordé l’hétérogénéité suivant le point de vue d’un technicien, en la qualifiant de structurelle, verticale, horizontale, etc. De nombreuses contributions ont permis de

pallier ce problème ; ce n’est pourtant pas aujourd’hui le ressenti du biologiste. Lincoln Stein a montré qu’en effet, l’hétérogénéité commence dès la première page pour l’utilisateur, au sein de l’interface [Stein 2003]. Il a proposé une expérience en comparant trois outils similaires, Ensembl, FlyBase et UCSC Genome Browser. Nous avons reproduit cette expérience quatre ans plus tard sur trois portails centrés sur la génomique : Entrez Gene, GeneDB et PlasmoDB (GUS).

P las m o D B GeneD B Entrez Gene

Figure 3.1 – Comparaison de l’information résumée pour le gène PF11_344 dans trois portails poursuivant des objectifs voisins et comportant des données similaires.

Par soucis de concision, nous nous focalisons sur le premier écran de chaque page, mais nous recommandons au lecteur de prolonger cette expérience. Notons que GeneDB est officiellement une source de PlasmoDB. Le gène étudié est le même (PF11_0344). On retrouve, sur le premier écran de chacun, une information globalement homogène : un titre, un résumé, et un navigateur pour consulter le génome. Si on s’intéresse plus en détail aux informations présentes sur les premières pages, on peut cependant constater de nombreuses divergences (figure 3.1) :

- Le titre diffère : GeneDB indique l’identifiant et l’acronyme CDS qui indique qu’il s’agit d’une séquence codante. Entrez Gene et PlasmoDB décrivent une annotation du gène (ce qui induit qu’il est supposé codant).

- Les noms de champs possèdent parfois la même information mais ont un ordre et des intitulés différents.

- La séquence possède (presque) la même longueur, mais dans GeneDB, la localisation

est décalée.

- GeneDB est le seul { stipuler comment l’annotation a été obtenue.

- GeneDB est le seul à préciser le chromosome sur lequel est situé le gène, mais l’utilisateur averti sait que la dénomination « PF11_* » ou « MAL11* » indique qu’il s’agit du chromosome 11 de Plasmodium Falciparum (ou Malaria).

La seconde composante principale du premier écran est le navigateur interactif de génome (« genome browser »). Il faut noter que GeneDB et PlasmoDB utilisent initialement le même outil pour explorer le génome. On constate de nouvelles divergences (figure 3.2) :

- Le code de couleurs n’est pas le même entre PlasmoDB et GeneDB, et aucune documentation n’en indique la signification. Entrez Gene ne propose que deux couleurs pour indiquer s’il s’agit d’une séquence codante ou non.

- L’échelle varie dans les trois vues. L’amplitude pour PlasmoDB est de 14 000 paires de bases, près du double pour GeneDB, alors qu’Entrez Gene se limite à la séquence recherchée (1869 paires de bases). PlasmoDB propose une graduation sur l’échelle plus précise : ce choix peut se justifier par la largeur de portion du chromosome visualisée.

- Entrez Gene indique l’orientation de la séquence (5’-3’) sur l’échelle, PlasmoDB permet de voir l’orientation de la séquence en la symbolisant par une flèche.

- PlasmoDB permet de visualiser une annotation sommaire pour chaque gène

représenté.

- Dans PlasmoDB et Entrez Gene, le chevron vertical présent dans un gène indique qu’il s’agit d’un gène nettoyé (« curated »).

P las m o D B GeneD B Entrez Gene

Figure 3.2 – Composante principale des interfaces « Genome Browser » proposées par les portails PlasmoDB, GeneDB et Entrez Gene.

D’un point de vue interactif, là encore, les interfaces diffèrent (figure 3.3). Entrez Gene n’affiche aucune information pertinente au survol du navigateur. Par contre, si l’on clique sur un élément, un menu contextuel permet de suivre un lien vers d’autres systèmes d’information du portail Entrez (Nucleotide/GenBank, Protein, Blink et CDD). GeneDB propose une information très sommaire : le nom du gène et une annotation. Ces deux informations sont présentes dans l’affichage permanent de fond du navigateur de PlasmoDB. Ce dernier propose un menu contextuel plus esthétique et complet indiquant la lignée cellulaire et l’espèce concernée, le type de gène, et sa localisation. Enfin, il propose un lien pour télécharger la séquence nucléotidique codante et la séquence protéique au format Fasta.

Ces portails sont assez intuitifs dans leurs fonctions élémentaires. Ils poursuivent les mêmes objectifs et contiennent une information similaire. On constate cependant des différences alors même que ces sources sont synchronisées avec les sources de référence. Le biologiste qui souhaite une information fiable et complète doit se référer à plusieurs systèmes et comparer leurs contenus. Les divergences entre les interfaces rendent cette tâche longue et difficile. De

plus, lorsque les données divergent, il peut être impossible de savoir objectivement quelle source est la plus fiable. Dans la pratique, on constate plus des phénomènes de croyances de confiances liées à une réputation de la source. La découverte d’un système d’information et son estimation sont alors assez aléatoires et subjectives, basées sur des expériences personnelles, le ouïe-dire, l’esthétique et la facilité d’utilisation, la rapidité de réponse ou la disponibilité, la réputation de l’entité dirigeante (EBI, NCBI, …), etc.

PlasmoDB GeneDB Entrez Gene

Figure 3.3 – Menus contextuels des interfaces « Genome Browser » proposées par les portails PlasmoDB, GeneDB et Entrez Gene.

Lorsque l’utilisateur souhaite obtenir une information complète sur un gène, il est contraint de comparer les informations de plusieurs applications. Il manipule donc un nombre raisonnable de fenêtres (par exemple 2 à 5). Cette tâche est rendue plus difficile quand l’information ne suit pas le même ordre et la même présentation. Lorsqu’il souhaite analyser les données d’un ensemble plus important de gènes, des dizaines de fenêtres sont ouvertes et l’utilisateur ne peut traiter simultanément une telle quantité d’information. Une pratique courante consiste à utiliser un tableur comme structure de données intermédiaire. Comme nous posons une addition ou une multiplication avec un papier et un crayon, le tableur permet de structurer quelques éléments d’information importants. On parle d’amplification de la cognition externe. Bien sûr cette tâche nécessite du temps et s’avère parfois fastidieuse. Mais le plus troublant est qu’initialement, le biologiste nous décrivait les problèmes qu’il rencontrait pour croiser des informations. Ce que réalise le biologiste au travers de ce tableur est l’une des principales tâches que devrait réaliser le système d’intégration pour lui.