• Aucun résultat trouvé

Suppression des effets trouvés

Dans le document année e 2Ensai2 (Page 14-18)

Pour supprimer les effets Sexe et Centre, des normalisations par la médianes et par les quantiles vont être utilisées. L’effet du sexe de l’individu étant très léger, un alignement des médianes dans les deux groupes homme et femme est suffisant. On commence par calculer les médianes pour chaque sexe sur tous les gènes puis on la soustrait à l’expression des gènes des individus correspondants. L’alignement des quantiles pour supprimer l’effet Centre ajuste, quant à lui, tous les quantiles des divers groupes. Elle peut être réalisée avec le package preprocessCoreet sa fonctionnormalize.quantiles.in.blocks [3].

3.2. Suppression des effets trouvés 9

Graphique 3.2 – Représentation des individus dans plusieurs plan selon plusieurs caractéristiques

Source : données nettoyées de toutes les biopuces

Après avoir supprimé les individus du centre 3 qui étaient atypiques au niveau des gènes, il a été possible de supprimer les effets Sexe et Centre identifiés.

Cependant, cela ne veut pas dire que tous les effets latents existants ont pu être identifiés. Pour approfondir cette partie, on utilisera, par la suite, la méthode FAMT (Factor Analysis for Multiple Testing) qui permet de supprimer des effets latents non observés pour ensuite rechercher des transcrits différentiellement exprimés entre deux groupes. Mais avant cela, on va réaliser des tests ANOVA (ANalysis Of VAriance) avec correction de tests multiples pour tenter d’identifier directement ces transcrits sur les données corrigées issues du travail décrit dans cette partie.

Des effets latents identifiés et supprimés

Stage 2A 2013-2014

Partie 4 Recherche de gènes différentielle-ment exprimés

On dit qu’un gène estdifférentiellement exprimé entre deux conditions lorsque son niveau d’expression moyen est significativement différent (au sens statistique du terme) entre les deux conditions. Pour rechercher les gènes différentiellement exprimés entre les deux groupes (stabilisation ou diminution du critère HOMA, poids ou tour de taille), on va utiliser plusieurs méthodes : des tests suivis de correction de tests multiples, la méthode FAMT (Factor Analysis for Multiple Testing). Alternativement, les gènes ayant un fort pouvoir prédicteur du groupe seront recherchés avec la méthode des fôrets aléatoires.

Dans ce chapitre, les données utilisées seront celles issues des sous-populations selon le critère d’inclusion dans l’étude (HOMA, poids ou tour de taille) et le temps de la mesure. Pour chaque critère, on va étudier séparément les données à CID1, celles à CID3 et les taux d’évolution entre CID1 et CID3. On va donc travailler sur 9 jeux de données différents en parallèle. Puis, pour chaque jeu de données, on mettra en commun les résultats obtenus par les différentes méthodes.

Dans la suite de ce rapport, seuls les résultats obtenus sur les individus sélectionnés pour leur variation de poids à CID3 seront présentés.

4.1 Des tests pour trouver des gènes différentiellement exprimés entre les groupes

Dans un premier temps, on cherche les transcrits dont l’expression à CID3 est significativement différente selon que l’individu diminue ou stabilise son poids. Plusieurs milliers d’ANOVA et de tests de Mann-Whitney sur tous les transcrits sont réalisés sur les données corrigées précédemment. Lorsque plusieurs tests sont réalisés en parallèle, il est nécessaire de corriger les p-valeurs obtenues pour éviter un nombre trop important de faux positifs (c’est-à-dire de gènes déclarés différentiellement exprimés alors qu’ils ne le sont pas).

4.1.1 ANOVA (ANalysis Of VAriance), tests de Mann-Whitney et correction des tests multiples

Objectif L’analyse de la variance ainsi que le test de Mann-Whitney permettent de mettre en évidence si une variable numérique a des valeurs significativement différentes selon plusieurs catégories.

ANOVA L’ANOVA est une généralisation d’un test paramétrique de Student d’égalité des moyennes lorsqu’il y a plus de deux catégories (annexeC.1) :

H0: les moyennes sont égales contre

H1: au moins l’une des moyennes est différente

L’inconvénient de ce test de Fischer est qu’il repose sur deux hypothèses pour être valide. Il faut, d’une part, que la variable numérique suive une loi normale ce qui peut-être testé à l’aide d’un test de Shapiro-Wilk ou de Kolmogorov-Smirnov (annexes C.5 et C.6). Le test de Shapiro-Wilk peut être considéré comme plus puissant sur des échantillons plus petits [4]. Cependant les p-valeurs des deux tests étant très différentes pour les données étudiées, les deux sont ajoutées aux résultats produits. D’autre part, il faut que les variances des deux groupes soit égales. Le test de Bartlett est utilisé pour tester cette hypothèse (annexe C.4). Lorsque celle-ci n’est pas vérifiée, on peut pratiquer un test de Welch plutôt qu’une ANOVA classique (annexeC.2).

Test de Mann-Whitney Contrairement à l’ANOVA, ce test est non paramétrique et il ne repose sur aucune hypothèse (annexeC.3). Il permet de comparer les distributions de deux échantillons de petites tailles en utilisant l’ordre dans lequel apparaissent les observations des deux échantillons réunis :

4.1. Des tests pour trouver des gènes différentiellement exprimés entre les groupes 11

H0 : les échantillons sont identiquement positionnés (i.e.ils appartiennent à la même population) contre

H1 : les lois sous jacentes aux observations ne sont pas les mêmes

Correction de tests multiples Lorsque plusieurs tests statistiques sont réalisés simultanément, le risque global d’erreur de première espèce s’accroît. La répétition à chaque test du risque d’obtenir un résultat significatif augmente le risque global de conclure à tort à une différence significative entre les groupes. Le risque global de conclure à tort à l’efficacité à l’issu de cet essai n’est plus de 5 % (même si c’est le seuil retenu pour chaque test) mais il est bien supérieur. Pour corriger cela, il est possible d’utiliser plusieurs méthodes comme celle de Bonferroni ou de Benjamini & Hochberg. Dans la suite, la méthode de Benjamini & Hochberg sera utilisée [5].

Cette méthode contrôle le taux de faux positifs, ce qui est plus puissant que le contrôle de l’erreur de première espèce réalisé par la correction de Bonferroni.

Elle est réalisée en ordonnant les p-valeurs de chaque gène de la plus faible à la plus élevée. Puis, pour chaque p-valeur, la p-valeur corrigée est égale à la p-valeur initiale multipliée par le nombre total de gènes et divisée par son rang.

Mise en œuvre sur R La fonctiononeway.testpermet de réaliser une ANOVA et d’en récupérer la p-valeur.

L’avantage de cette fonction par rapport aux autres implémentées sous R est qu’elle permet de gérer le cas où les variances ne sont pas égales en réalisant un test de Welch. Pour tester l’égalité des variances, on peut utiliser la fonctionbartlett.test. Au contraire, la non normalité des données ne peut pas être gérée directement par ce test et donc la p-valeur associée au test ANOVA sera toujours accompagnée de celle associée à un test de normalité (fonctionsshapiro.testet/ouks.test). De plus, un test de Mann-Whitney est réalisé sur tous les transcrits grâce à la fonctionwilcox.test. Enfin, pour corriger les p-valeurs, il suffit de les passer en paramètre de la fonctionp.adjustet de spécifier la méthode de correction utilisée ("BH").

4.1.2 Résultats des deux tests

A CID1, aucun des deux tests ne permet de trouver des gènes significativement différent entre les deux groupes.

Ce n’est pas le cas à CID3.

Plus de 250 gènes différentiellement exprimés selon l’ANOVA

Les tests ANOVA réalisés sur tous les gènes donnent 256 p-valeurs corrigées inférieures au seuil de 5 % (gra-phique4.1). Pour ces transcrits, l’expression des gènes des patients qui diminuent leur poids est donc significa-tivement différente de ceux des patients qui le stabilisent entre CID1 et CID3.

Graphique 4.1 – Effet de la correction de la multiplicité des ANOVA sur les p-valeurs

Source : données corrigées des individus à fortes variations de poids à CID3

La manière la plus courante de représenter les expressions des gènes pour un ou plusieurs groupe est l’utilisation de boîtes à moustache. Elles sont généralement réalisées pour les p-valeurs les plus faibles : cela permet de visualiser la différence entre les niveaux d’expression en relation avec les variations d’expression des gènes extraits de l’ANOVA. Pour le transcrit NM_001025195, qui a l’une des plus faibles p-valeurs corrigées (0,002), ce graphique est fourni dans la figure4.1: on peut voir que pour ce transcrit, les deux distributions des expressions

Stage 2A 2013-2014

12 Partie 4. Recherche de gènes différentiellement exprimés

ne se chevauchent pas pour les deux groupes. Il est l’un des transcrits du gène CES1. L’autre transcrit de ce gène (NM_001266) a une p-valeur de 0,018. Pour ces deux transcrits, les tests de Kolmogorov-Smirnov rejettent la normalité alors que ceux de Shapiro-Wilk l’acceptent avec un p-valeur environ égale à 0,15. Il faut donc être prudent lorsque l’on interprète les résultats de ces ANOVA.

Graphique 4.2 – Boîtes à moustache de l’expression des transcrits du gène CES1 selon le type de variations du poids

Source : données corrigées des individus à fortes variations de poids à CID3

Près de 150 gènes différentiellement exprimés selon le test de Mann-Whitney

Les tests de Mann-Whitney suivis de la correction des tests multiples permettent d’extraire 142 transcrits différentiellement exprimés entre les deux groupes d’individus extrêmes pour leurs variations de poids au seuil 5 %. Certains transcrits sont les mêmes que pour les ANOVA (section4.4) comme les transcrits du gène CES1 qui ont des p-valeurs égales à 0,02 et 0,03.

Dans le document année e 2Ensai2 (Page 14-18)

Documents relatifs