• Aucun résultat trouvé

Chapitre 3 : Méthodologie robuste de sélection de gènes, MetRob

3.1 Principe global de la méthodologie MetRob

3.1.1 Pré-traitement des données

Les données ont nécessité une étape de pré-traitement avant de pouvoir appliquer les méthodes de sélection de variables. Les 41174 séquences représentées sur une puce à ADN ont tout d’abord été pré-filtrées afin d’éliminer celles qui n’étaient pas influencées par les

traitements. Pour chaque jeu de données, correspondant à une dose et un tissu, les séquences statistiquement significativement régulées (séquences SSR) ont été définies de la manière suivante. Une séquence est dite SSR si son expression pour un des deux traitements est statistiquement différente de l’expression du groupe témoin. Pour la comparaison de la rosiglitazone et du SCOMP, une p-value (définie au 1.5.1) inférieure ou égale à 0.01 pour au moins la moitié des souris d’un groupe traité a été considérée comme significative (Figure 3.1). Ce seuil de p-value est couramment utilisé pour les analyses de données issues de la plate-forme de puces à ADN. Il fournit des listes de séquences validées par d’autres technologies comme la qPCR (quantitative Polymerase Chain Reaction) qui permet une quantification absolue de la quantité des ARNs cibles. Aucun filtre sur les log ratios n’a été appliqué afin de ne pas exclure des séquences certes peu régulées, mais potentiellement discriminantes.

Les valeurs manquantes rapportées par le logiciel Feature Extraction (spots saturés ou spots ayant un signal non uniforme) ont été traitées en utilisant une méthode des K plus proches voisins. L’objectif était de permettre aux algorithmes de fonctionner tout en influençant le moins possible les résultats. Chaque valeur manquante a été remplacée par la moyenne de la variable correspondante dans les K plus proches observations (distance euclidienne). K a été choisi égal à 3, c’est-à-dire à la moitié des souris pour un traitement. Les données ont de plus été classiquement centrées et normées de manière à ce que le log ratio de chaque séquence ait une moyenne nulle et une variance unité.

S1 S2 S3 S4 S5 S6 S1 S2 S3 S4 S5 S6

Rosiglitazone SCOMP

Ensemble de séquences 1 Ensemble de séquences 2

Séquences SSR Union

Séquences régulées (p-value ≤≤≤≤0.01) pour au moins la moitié des animaux

3.1.2 Définition de la robustesse

MetRob a été conçue afin de prendre en compte l’impact de la variabilité technique des puces à ADN sur les résultats des méthodes de sélection de variables. Pour cela, nous avons choisi d’introduire la notion de robustesse d’une liste de séquences. Cette robustesse a été évaluée comme la stabilité de la liste de séquences obtenue avec une méthode sous l’effet de perturbations des données d’entrée. Les trois méthodes ont été comparées en termes de robustesse des listes de séquences qu’elles génèrent lorsque les perturbations considérées sont liées à la variabilité technique des puces à ADN. Comme il n’est économiquement pas possible de réitérer les expériences un grand nombre de fois, la comparaison a requis de générer des jeux de données virtuels reproduisant cette variabilité technique.

La robustesse d’une liste de séquences a été définie de la manière suivante. Une liste de L séquences est obtenue à partir des données initiales non perturbées. K listes de L séquences sont obtenues à partie de K jeux de données perturbées. Chaque liste sur données perturbées est comparée à la liste de séquences initiale en termes de pourcentage de séquences communes. La moyenne de ce pourcentage sur les K listes obtenues à partir de données perturbées est appelée robustesse. Cette robustesse a été utilisée à la fois pour évaluer la qualité des méthodes de sélection de variables et pour choisir un nombre de séquences à conserver optimal.

3.1.3 MetRob

La méthodologie MetRob permet de générer une liste de séquences robuste et reproductible expliquant au mieux les différences entre deux traitements. Elle peut être utilisée avec chacune des trois méthodes de sélection de variables à tester : T-test, Nearest Shrunken Centroids (NSC) et Support Vector Machine – Recursive Feature Elimination (SVM-RFE). Son principe est illustré sur la Figure 3.2.

Les données sont pré-traitées et les valeurs des log ratios sont considérées. La méthode de sélection de variables est utilisée pour classer toutes les séquences à partir du jeu de données initial. Cette méthode est ensuite utilisée pour classer les séquences à partir de 300 jeux de données perturbées. La technique de perturbation des données a été choisie en accord avec une étude de la variabilité technique des puces à ADN, de manière à obtenir des résultats cohérents avec la réalité (voir partie 3.2 pour l’étude de variabilité technique et les tests de perturbations). La robustesse est ensuite calculée, comme défini ci-dessus, pour chaque longueur de liste de séquences avec un pas de 10 séquences : la robustesse est calculée pour les 10 meilleures séquences, puis pour les 20 meilleures séquences, etc. Une longueur de liste de séquences est choisie de manière à maximiser la robustesse tout en gardant un nombre de séquences minimal (méthode détaillée dans la partie 3.3.4). On obtient donc une liste Λ de séquences sur données non perturbées et 300 listes de séquences sur données perturbées. La

liste de séquences finale est définie comme les séquences de Λ présentes dans au moins 80% des listes obtenues à partir des données perturbées (voir partie 3.3.6).

Python 2.4.4 a été utilisé pour implémenter MetRob (pré-traitement des données, perturbation des jeux de données…). Le logiciel R (version 2.4.1) a permis d’effectuer le T-test ainsi que la méthode NSC via le package PAM [62]. La toolbox Spider de Matlab (version R2007a) a été utilisée pour la SVM-RFE [63]. Enfin, la connexion entre les différents programmes a été réalisée via Python et les modules rpy [64] et mlabwrap [65].

Calcul de la robustesse

pour chaque longueur de liste de séquences de 10 en 10

Pré-traitement des données

Méthode de sélection de variables

Séquences classées à partir des données non perturbées Séquences classées à partir des données perturbées

...

Sélection des séquences

présentes dans 80% des listes sur données perturbées

Liste de séquences sur données non perturbées Listes de séquences sur données perturbées Liste de séquences finale Choix des séquences Choix d’une longueur