• Aucun résultat trouvé

Comparaison de plus de deux conditions expérimentales

2. Planification expérimentale

2.1. Puissance d’une expérience et nombre de répétitions

2.1.2. Comparaison de plus de deux conditions expérimentales

Δ /σ

dans tous les bons livres de statistiques. En pratique, on prendra le problème à l’envers en calculant la différence minimale détectée pour un nombre fixé de répétitions.

A titre d’exemple, l’expérience YF avait été initialement conçue avec huit lames organisées en « dye swap » (tableau 2). Après l’étape d’analyse qualité, nous avons éliminé la moitié des lames du jeu de données. Avec quatre répétitions au final, on détectera une différence de 3σ avec une puissance de 90 %. La variabilité étant forte dans cette expérience, la puissance de notre expérience est globalement assez faible. Ce résultat est repris dans la partie analyse de la spécificité (§ 2.3).

Milieu Lame Marquage

YF Q1 Cy5 AP3 Q1 Cy3 YF Q3 Cy5 AP3 Q3 Cy3 AP3 Q4 Cy5 YF Q4 Cy3 YF V45 Cy5 AP3 V45 Cy3

Tableau 2 Plan expérimental de l’expérience YF organisé en

« dye swap » et comportant quatre répétitions de chaque condition expérimentale (YF et AP3). Chaque lame est hybridée avec un échantillon biologique différent.

2.1.2. Comparaison de plus de deux conditions expérimentales

Lorsque plus de deux conditions expérimentales sont comparées, l’analyse différentielle passe par l’utilisation d’un modèle d’analyse de la variance (§ 5.2). Seul le cas du modèle fixe sera abordé ici. La différence Δg s’exprime alors comme le rapport entre les variances inter-conditions et intra-condition pour le gène g. La matrice du plan d’expérience X, décrivant l’agencement des hybridations sur les lames en fonction des fluorochromes et des conditions expérimentales, permet le calcul des variances et des covariances des estimateurs (cf. Eq. A.2 en annexe). Ainsi, il est possible d’optimiser le plan d’expérience par un agencement particulier des hybridations, de façon à minimiser la variance des coefficients d’intérêt du modèle pour augmenter la puissance des tests correspondants (Churchill 2002 ; Speed et Yang 2002). Le déterminant de la matrice X’X est une estimation globale de la variance des estimateurs (critère de D-optimalité), il est d’autant plus grand

que les variances sont faibles. Mais l’optimisation d’un plan d’expérience ne peut pas se limiter à la D-optimalité. D’une part, les effets considérés par l’analyse ne sont pas d’égale importance et il sera par exemple plus intéressant d’avoir un estimateur de l’effet traitement le plus précis possible. D’autre part, l’optimalité peut se poser en termes de robustesse vis-à-vis de l’élimination de lames ou de spots par l’analyse qualité par exemple. Yang et Speed (2002) proposent une analyse détaillée de la précision des différents estimateurs dans des plans très variés. Tempelman (2005) offre également une très bonne revue de ces problèmes incluant l’utilisation de modèles mixtes.

Indépendamment du contexte de l’analyse du transcriptome, on montre qu’un équilibrage des répétitions sur les différentes conditions permet d’optimiser la puissance de comparaisons croisées. A l’inverse, pour comparer r conditions à une référence commune, il est préférable d’avoir un nombre de répétitions constant (ni) pour les différentes conditions et de répéter la référence n0 fois (

n

0

= n

i

r −1

) afin d’obtenir une puissance maximale (Dagnelie 1980). Dans le cas des données d’expression, ces deux types de comparaisons correspondent aux deux plans les plus classiquement utilisés.

Les plans en référence

Dans ce type de plan, toutes les hybridations sont réalisées en utilisant la même condition comme référence (figure 9). Il faut donc T lames pour comparer T conditions (C1 à CT) à une même référence C0. Habituellement, la référence est systématiquement hybridée avec la même couleur. De cette façon, un marquage différentiel d’un gène ne sera pas confondu avec une différence entre les différents traitements. Dobbin et al. (2003a ; 2003b) montrent que lorsque le but du plan est de comparer les différentes conditions à la référence (et non pas les conditions entre elles), il est alors possible d’éliminer l’effet de marquage différentiel en rajoutant un nombre minimal de marquages inverses. Ce cas s’applique par exemple à la comparaison de tissus tumoraux à un tissu sain de référence. Ce point de vue est critiquable dans la mesure où il néglige l’aspect normalisant du « dye swap » complet. Néanmoins il est très pragmatique et à nombre de lames fixées, il sera sans doute préférable de perdre un peu de puissance de détection, ou d’inclure quelques biais, au profit d’un échantillonnage biologique plus large (dans ce cas, les diverses tumeurs).

Dans les plans en référence, les comparaisons (∆iO = Ci – C0) sont optimisées, et les comparaisons (∆ij = Ci – Cj) sont sous optimales. En effet, si la variance associée ∆iO vaut σ2, alors la variance associée à ∆ij = ∆i0 – ∆j0 vaut 2σ2.

Figure 9. Plan en référence et en « dye swap » à six

conditions (12 lames). Les six lames sont systématiquement comparées à la même référence. Les doubles flèches indiquent que chaque hybridation est répétée sur une autre lame en inversant les fluorochromes « dye swap ».

Ce plan a l'inconvénient de mesurer systématiquement l'expression d'une référence qui n'a souvent que peu d'intérêt pour le biologiste et les coûts de marquage sont donc très élevés. Néanmoins, en biologie humaine par exemple, l’échantillon biologique est souvent plus coûteux que la puce. Le plan en référence se révèle alors beaucoup plus robuste, car il permet d’introduire ou d’éliminer une lame de l’analyse sans interférer sur les autres comparaisons. Les plans en boucle, présentés dans le paragraphe suivant, ne tolèrent pas ces modifications.

Les plans en boucle

Les plans en boucle se caractérisent par une association équilibrée des différentes conditions sur chaque lame : A est comparé à B sur une lame, puis B à C sur une autre lame, et ainsi de suite jusqu’à la dernière condition qui sera comparée à A sur la dernière lame (figure 10). Toutes les conditions sont présentes deux fois dans le plan (une fois en rouge et une fois en vert). Comme pour les plans en référence, la comparaison de T conditions nécessite T lames. Ce plan peut être construit en « dye swap » en doublant le nombre de lames. Ici également le « dye swap » peut être complet ou incomplet.

Figure 10. Deux types de plans en boucle. A gauche, un plan en

boucle classique avec six conditions et six lames ; à droite, le plan de l’expérience AAS (quatre conditions, huit lames), incluant des croisements supplémentaires entre les quatre conditions qui représentent deux facteurs de l’expérience (acides aminés et sucre) à deux niveaux (N - F et N - H).

Les plans en boucle sont très intéressants pour faire des comparaisons directes entre les conditions. Néanmoins, celles-ci deviennent sous optimales pour des conditions éloignées. Soit T, le nombre de conditions du plan et d, la distance entre les deux conditions, i et j, d’une boucle classique. Martin-Magnette et Robin (2004) montrent, en tenant compte des deux chemins pour aller d’une lame à l’autre dans la boucle, que la variance entre deux conditions vaut σ2d(T-d)/nT. Elle est maximale

pour la comparaison de deux lames opposées et vaut σ2T/4n. Elle est minimale pour

deux conditions adjacentes et vaut (T-1)σ2/nT. Il est donc essentiel de faire figurer côte à côte sur le plan (de les croiser sur la même lame) les conditions pour lesquelles les comparaisons sont les plus importantes. Il est également possible d’introduire des comparaisons croisées dans la boucle, comme c’est le cas du plan de l’expérience AAS (figure 10, à droite).

Le plan AAS est équilibré : toutes les conditions apparaissent quatre fois, deux fois rouges et deux fois vertes. Cependant, les quatre conditions représentent deux facteurs, acides aminés essentiels (aa) et sucre (Sucre) à deux niveaux chacun : normal (N) et faible (F) pour les acides aminés, et normal (N) et hyperosmotique (H) pour le sucre. Le plan n’est pas équilibré pour ce qui concerne les facteurs pris séparément. Comme le plan est répété dans l’expérience, huit lames comparent directement les conditions « sucreN » et « sucreH », et quatre lames comparent les conditions « aaN » et « aaF ». Le plan est donc plus puissant pour détecter les gènes différentiels induits par le stress osmotique, que par la déplétion en acide aminés. Ce résultat est directement visible sur la matrice des variances covariances

X X

( )

−1 du plan de l’expérience fourni en annexe (tableau A.2). Les variances des estimateurs des effets A, S et AS sont les suivantes :

σ

A2

= 0,31σ

2

, σ

S2

= 0,29σ

2

et σ

AS2

On remarque également des covariances non nulles pour tous les estimateurs (sauf pour le fluorochrome). Une étude de l’optimalité du plan AAS n’a pas été réalisée. Nous avons simplement vérifié a posteriori qu’un plan à 12 lames (correspondant au « dye swap » complet) permet d’obtenir des variances équilibrées des trois estimateurs (

σ

A2

S2

AS2

= 0,32σ

2). Le plan a 24 lames (répétition du plan à 12) permet d’obtenir des variances

σ

A2

S2

= 0,28σ

2 et

σ

AS2

= 0,17σ

2. Nous avons préféré réaliser deux séries parallèles à huit lames, plutôt qu’un seul plan à 16 lames pour des raisons de coût. En effet, un dysfonctionnement d’une étape comme le marquage, l’hybridation ou le lavage des lames aurait pu anéantir l’intégralité de notre expérience sans possibilité de la renouveler. Le découpage en deux séries de lames permettait de se retrancher sur un seul plan à huit lames en cas d’échec d’une série. Il est notable que dans notre étude les « dye swap » ont été réalisés sur les mêmes échantillons biologiques, alors que les différentes conditions et les répétitions du plan ont été faites sur des échantillons différents. Ce facteur aléatoire « échantillon » aurait nécessité la mise en place d’un modèle mixte, et n’a pour le moment pas été introduit. De même, l’effet série de lames n’est pas intégré dans notre modèle.

2.2. Plans incomplets, confusions de facteurs et saturation des modèles