• Aucun résultat trouvé

Comme nous l'avons vu plus haut, les mesures d'expression peuvent se révéler forte-ment instables d'une expérience à l'autre à cause de l'eet batch. En eet, bien que les protocoles expérimentaux rigoureux permettent aujourd'hui de minimiser ces diérences, il est courant que lors de la préparation des échantillons la quantité d'ARN déposée sur les puces, les réglages du scanner, ou d'autres conditions expérimentales génèrent des dié-rences dans la distribution des intensités mesurées. Ces diédié-rences ont pour conséquence d'augmenter la quantité de bruit présente dans les données et peuvent conduire à des associations fallacieuses entre l'expression et les traits considérés. De telles associations peuvent se produire lorsque l'erreur n'est pas aléatoire. Par exemple, lorsque des cas et des témoins d'une expérience sont traités séparément, des diérences dans le traitement des lots (température d'hybridation, temps d'attente après extraction des ARN,. . .) peuvent induire des diérences articielles entre cas et témoins. Ces biais sont présents à plus forte raison lorsque sont réunis dans un même jeu de données des échantillons traités par des personnes diérentes, à des dates diérentes, dans des centres diérents ou provenant d'études diérentes. Il est donc préférable de normaliser les données an de réduire la variabilité inter-puces. Nous présentons ici les outils standard utilisés dans ce but.

2.1 Normalisation par quantiles

An de limiter les diérences entre les distributions des expressions d'un échantillon à l'autre, Bolstad a proposé d'appliquer une méthode de normalisation dite par quantile

2. NORMALISATION INTER-PUCES

[28] : cette normalisation vise à rendre identiques les distributions des expressions des sondes d'un échantillon à l'autre, sans modier l'ordre relatif des transcrits sur chaque puce. Pour cela une procédure en 3 étapes est utilisée :

1. Attribuer un rang aux sondes pour chaque échantillon en fonction de leur niveau d'expression.

2. Calculer pour chaque rang i la moyenne mi des niveaux d'expression des sondes de rang i entre les diérents échantillons.

3. Attribuer à toutes les sondes de rang i le niveau d'expression mi.

Figure 4.4  Eet de la normalisation par quantiles sur les distributions des niveaux d'expression.

La procédure décrite permet de garantir l'égalité des distributions entre les diérentes puces (gure 4.4) tout en conservant l'ordre relatif des expressions sur chaque puce. Bold-stad et al. ont montré que l'application de cette procédure permettait de réduire eca-cement la variabilité inter-puces sans biaiser les résultats des tests d'association [29]. Par ailleurs, Qiu et al. ont montré que l'application de méthodes de normalisation telles que la normalisation par quantile permettait de réduire fortement la dépendance entre les tests lors des procédures de tests multiples (sans toutefois permettre de s'en aranchir totale-ment) [30]. Il convient à ce propos de noter que l'atténuation des corrélations entre les gènes liée à la normalisation par quantile, s'applique également aux corrélations d'origine biologique et peut donc perturber la reconstruction des réseaux biologiques [31].

2.2 Normalisation par splines/lowess

Il a été reproché à plusieurs reprises [32, 33] à la normalisation par quantile d'être trop drastique et susceptible d'eacer certaines diérences biologiquement pertinentes entre puces (en particulier pour les sondes présentant les intensités les plus élevées). An

CHAPITRE 4. ACQUISITION DES MESURES D'EXPRESSION

de limiter ce risque, d'autres types de normalisation ont été développés. Nous allons ici présenter le principe général des méthodes de normalisation par lowess [34] ou par splines [35,36] qui gurent parmi les alternatives à la normalisation par quantile les plus fréquemment utilisées.

Ces méthodes se décomposent en quatre étapes :

1. Estimation d'un prol d'expression consensus A en moyennant chaque sonde sur l'ensemble des échantillons

2. Calcul pour chaque échantillon i de l'écart Mi au prol consensus : Mi = Xi− A 3. Ajustement pour chaque échantillon i d'un modèle Mi = fi(A) +  à l'aide de

méthodes de régression non paramétriques (gure 4.5a)

4. Pour chaque échantillon i, la tendance fi(A) est retranchée (gure 4.5b)

Il est également possible d'appliquer cette correction sans dénir un prol consensus. La correction se fait alors la correction sur l'ensemble des paires de biopuces possibles par un processus itératif. Ces méthodes de normalisation permettent de supprimer les écarts systématiques entre distribution sans imposer une égalité stricte des distributions. Elles sont donc moins susceptibles de supprimer des signaux pertinents en queue de distribution.

(a) avant normalisation (b) après normalisation

Figure 4.5  Normalisation par splines/loess : Visualisation écarts-consensus (MA plots) avant et après la normalisation inter-puces. En abscisse est représentée la moyenne des signaux des sondes des diérents puces (consensus). En ordonnée est représenté l'écart de chaque puce au consensus. La ligne rouge montre la tendance estimée des écarts qui est retranchée pour aboutir aux données normalisées montrées en (b.). La normalisation est ici eectuée sur deux échantillons issus des données de HaemAtlas.

Notons toutefois que ces méthodes font, comme la normalisation par quantiles, l'hypo-thèse d'une distribution commune des niveaux d'expression entre les échantillons supposés venir d'une source homogène. Or, cette hypothèse n'est pas toujours vériée, et peut poser

3. NORMALISATION INTER-PUCES

problème lorsque l'on étudie des échantillons hétérogènes en masquant partiellement cer-taines diérences réelles entre individus (composition d'un mélange cellulaire, diérences biologiques importantes).

2.3 Repérage d'échantillons atypiques

Lorsque les échantillons considérés proviennent d'une population homogènes (issus du même centre, un seul type cellulaire,. . .), il peut être souhaitable de repérer les individus atypiques, pour éliminer les échantillons présentant d'éventuels défauts et éviter de donner trop de poids à des outliers. Pour cela, on utilise un critère fondé sur les corrélations médianes entre échantillons. En calculant les corrélations 2 à 2 entre échantillons, et en prenant pour chaque échantillon la médiane des corrélations avec les autres échantillons, on obtient un indicateur s de la similarité d'un échantillon au reste des échantillons.

On peut alors dénir un seuil de similarité en dessous duquel un échantillon sera considéré comme atypique en appliquant un critère classique de détermination des ob-servations atypiques. Nous considérons donc comme atypiques les obob-servations telles que s < s − apV [s] avec a = 3 ou 4. Sur GHS, l'utilisation de ce critère conduit à retirer les échantillons dont la corrélation mediane est inférieure à 0.98.

Lorsque d'importantes diérences existent entre groupes, il est généralement souhai-table de séparer les échantillons en groupes cohérents avant d'appliquer ces procédures.

2.4 Classication des échantillons

Lorsque le design expérimental permet de dénir plusieurs sous-groupes (ex : cas-témoins, plusieurs types cellulaires,. . .), il arrive que certains échantillons soient mal éti-quetés ce qui peut mener à une réduction de la puissance dans les études d'association. Pour parer à ce genre d'éventualité, il est parfois utile d'eectuer une classication des échantillons en se basant sur les corrélations entre les prols d'expression et de confronter la classication obtenue aux informations a priori dont on dispose sur les échantillons. La présence d'incohérences à ce niveau peut alors révéler des erreurs d'étiquetage ou mettre en évidence des échantillons atypiques comme le montre la gure 4.6. Une vérication a posteriori permet dans la plupart des cas d'identier les causes des diérences observées. De même une classication eectuée exclusivement à partir des niveaux d'expression des gènes du chromosome Y peut permettre de vérier la cohérence des informations concernant le sexe puisque ce chromosome n'est présent que chez les hommes et que les gènes s'y trouvant ne sont donc pas exprimés chez les femmes. Dans GHS ce critère a permis de retirer une dizaine d'échantillons mal étiquetés pour lesquels des incohérences entre le sexe et l'expression du chromosome Y étaient observées.

CHAPITRE 4. ACQUISITION DES MESURES D'EXPRESSION

Figure 4.6  Exemple illustrant l'utilisation de la classication pour le contrôle qualité : partant d'une étude comparant deux types cellulaires (mo = monocyte, nk= natural killer), la classication met en évidence un échantillon de monocytes se comportant de manière atypique en rouge et une inversion de label entre les deux échantillons marqués en bleu. La classication utilisée est une classication ascendante hiérarchique basée sur la méthode de Ward et la distance 1-cor.

3. SOURCES D'ERREUR NON PRISES EN COMPTE PAR LE PRÉTRAITEMENT

3 Sources d'erreur non prises en compte par le