Gestion et exploitation des données - Outils informatiques associés à la technologie des TMAdes

MicroArrays et recherche en oncologie

1.4 Outils informatiques associés à la technologie des TMAdes TMA

1.4.3 Gestion et exploitation des données

1.4.3.1 Gestion des données

Le volume de données générées par la technologie a fait rapidement apparaître un besoin majeur de stockage de données, thématique qui a été parmi les premières à émerger autour de l'informatisation de la technologie. Le contexte actuel de glob-alisation de l'information et de mutuglob-alisation des ressources, en particulier dans le domaine scientique, a fait aussi émerger un besoin d'échange et de partage des données.

Cette informatisation du stockage et du partage des informations liées à la tech-nologie a en particulier bénécié d'un gros eort de normalisation, par la dénition d'un format de chiers d'échange de données TMA, le TMA Data Exchange Format [Berman et al., 2003], une DTD XML dont la structure sert de base à de nombreux outils de gestion de données TMA.

De nombreux systèmes se limitent d'ailleurs au stockage de données. Les plus basiques utilisent des chiers Microsoft Excel [Shaknovich et al., 2003], associés à des outils de classication et de visualisation d'images pour l'outil de l'univer-sité de Stanford [Liu et al., 2002a], ou utilisent un système de gestion de base de données très simple tel que Microsoft Access [Manley et al., 2001]. Mais de telles représentations de l'information ne sont pas susantes dans le contexte TMA où l'espace des données est extrêmement complexe et hétérogène. La plupart des outils de stockage et visualisation de données TMA se basent sur de vrais systèmes de gestion de bases de données : Sybase pour TMAJ de l'université John Hopkins de Baltimore [Faith et al., 2004], MySQL pour TmaDB de l'université de Leeds [Sharma-Oates et al., 2005], etc. S'ils permettent la persistance de l'information, ces outils ne sont pas adaptés à l'exploration des données. Les plus avancés, comme TmaDB, permettent juste un ltrage simple, par le biais de requêtes SQL de type SELECT. Ceci implique tout à la fois une connaissance du langage SQL et du schéma

de base de données, et une exploitation de listes de résultats en mode texte qui sont peu pertinentes dans un contexte où l'image est primordiale. De tels outils sont donc peu adaptés à leur public de biologistes et médecins.

D'autres systèmes se focalisent sur la notion d'échange et d'accès distribué aux ressources, essayant ainsi de pallier les problèmes de volume de données à con-server. Ce sujet est en eet particulièrement critique pour les images utilisées en anatomopathologie, dont la haute résolution est aussi gourmande en espace disque. Une solution couramment proposée est le recours à des architectures distribuées, où chaque site ne conserve localement qu'une partie des données. Par exemple, [Schmidt et al., 2004] présente un système basé sur des technologies pair-à-pair, per-mettant l'acquisition, le stockage, l'analyse collaboratifs de données TMA. Dans le même esprit, [Viti et al., 2007] s'appuie sur une infrastructure de type grille in-formatique ou grid, l'EGEE (Enabling Grid for E-sciencE, projet qui fédère 90 institutions de 32 pays). Mais ce type d'initiative, tout en apportant une solution au problème d'espace de stockage, exacerbe encore le problème de l'exploitation des données, en mettant un volume d'informations encore plus grand à disposition des chercheurs.

Les simples stockages, accès et partage des données, s'ils fournissent un pool de données à exploiter, ne sont donc pas susants, et les systèmes les plus évolués visent à proposer en plus une visualisation plus poussée et des outils de fouille de données.

1.4.3.2 Exploitation des données

1.4.3.2.1 Visualisation des données

Alors que les systèmes simples de gestion de données TMA ne proposent qu'un accès par image de lame TMA ou image individuelle de spot, les plateformes les plus avancées dans l'accompagnement de la technologie proposent quelques concepts intéressants autour de la problématique de visualisation des données.

Ainsi, le système Proler [Kim et al., 2005] ore un support complet à l'expéri-mentation, de la conception des plans de construction des blocs à l'évaluation du marquage. Il permet la mise en relation des informations TMA avec des données clin-iques ou issues de bases de données moléculaires et le ltrage de jeux de spots basé sur des critères de type diagnostic ou immunohistochimiques, orant ainsi une pos-sibilité de navigation dans une partie précise de la collection d'images. TMABoost [Demichelis, 2005] propose un support similaire, incluant en plus un lien avec le système d'acquisition d'images. Enn, Virtual Tissue Matrix [Conway et al., 2006], tout en permettant le stockage et l'évaluation de données issues d'études conduites avec la technologie, introduit la notion de lame TMA virtuelle, achage au sein d'une

grille d'images de spots sélectionnées au sein de la base de données de l'application, permettant leur évaluation et analyse conjointe même si les spots sont issus de lames diérentes. Ce concept de lame virtuelle se retrouve au sein de TMALab d'Aperio sous le nom d'array composite, ainsi que dans la base de données d'Alphelys, qui permet la comparaison de spots lame à lame. Ces deux derniers systèmes com-merciaux semblent être ceux qui proposent les capacités de sélection et ltrage des données les plus avancées.

Toutes ces plateformes, si elles proposent des ébauches dans la direction d'une navigation dirigée au sein de la collection de données restent encore plutôt rudimen-taires sur ce point, qui n'est pas leur objet central.

1.4.3.2.2 Fouille de données

L'extraction d'informations pertinentes à partir des données générées par la tech-nologie repose, pour l'ensemble des systèmes observés, sur une fouille de données. Deux tendances sont à noter en ce qui concerne la relation entre les outils associés à la technologie des TMA et la fouille de données : l'exportation sous un format qui peut servir d'entrée à un logiciel de fouille tierce partie ou l'intégration de tels outils à la plateforme de support à la technologie TMA.

La plupart des systèmes incluant une fonctionnalité de gestion de données se reposent sur la première option. Certains, comme celui de l'université de Stanford [Liu et al., 2002a], conservent leurs données directement sous un format Microsoft Excel qui est facilement importé par de nombreux systèmes de fouille de données ou logiciels de statistiques. D'autres proposent une exportation à divers formats (comme TMALab d'Aperio). Ce mode de fonctionnement permet une grande soup-lesse dans le choix du système de fouille de données et dans le type de traitements que le biologiste peut appliquer sur son jeu de données. Mais il implique une étape d'exportation/importation qui peut être source d'erreurs, peut nécessiter un nettoy-age intermédiaire du chier de données, et se révèle au nal coûteux en temps.

Plusieurs logiciels incluent donc des outils de fouille de données. Certains se lim-itent à de simples analyses descriptives. Ainsi, la plateforme d'Alphelys propose des calculs de moyennes, écarts-types et variances. Le système le plus abouti dans l'anal-yse statistique des données TMA est sans doute TMA Foresight, de Premier Biosoft6. Cet outil permet tout à la fois la préparation des données, avec une assistance à la transformation de données qualitatives en données quantitatives et au remplacement de données manquantes, le calcul de statistiques descriptives (moyenne, écart-type, etc.), des régressions selon les modèles de Cox ou Kaplan-Meier.

D'autres plateformes incluent des outils d'analyse exploratoire des données. TMA-6http ://www.premierbiosoft.com/

Boost [Demichelis, 2005], de même que TMA Foresight, proposent des outils de clas-sication, permettant l'exploration de sous-ensembles de données spéciques. L'outil de l'université de Stanford met lui aussi des outils de classication à disposition, en adaptant des systèmes d'analyse de puces à ADN aux TMA, et permet de dépasser le problème posé par les réplications de spots par l'application de règles de décision [Liu et al., 2005].

Dans le document Vers une synthèse d'information orientée tâche - Application à la conception et l'évaluation de Tissue MicroArrays (Page 51-54)