• Aucun résultat trouvé

Caractéristiques de notre analyse multivariée

D. Les développements et limites de nos analyses différentielles

2. Caractéristiques de notre analyse multivariée

Les méthodes statistiques décrites dans la section précédente sont utilisées dans le cadre d’analyse univariée et ne sont pas applicables pour l’analyse de design exploitant plusieurs conditions expérimentales. De plus, les designs expérimentaux à une condition et à deux conditions visent à répondre à des questions biologiques d’intérêts différents : le design univarié pose la question : « quels sont les transcripts significativement modulée<s entre les deux groupes expérimentals testés ? ». Tandis que le design multivarié cherche à isoler des groupes de transcripts avec des modulations similaires reflétant une co-régulation, et à identifier une interaction entre les conditions. La classification est la première méthode utilisée par l’analyse de design à plusieurs conditions. Basé sur une mesure de ressemblance, celle-ci regroupe les gènes avec des comportements similaires. Ainsi, en 1998, Khan et al, montra que des tissues d’origine histologiquement différents présentent des regroupements de gènes à modulations similaires (Khan, Simon et al. 1998). De la même façon, le clustering hiérarchique, un algorithme de classification, a

permis la découverte de deux sous types des lymphomes des cellules B, indétectables par les méthodes traditionnelles de classification histologiques (Alizadeh, Eisen et al. 2000).

Bien qu’elles se soient révélées fructueuses, ces méthodes de classification numérique présentent quelques défauts :

(1) Le résultat issu de ces regroupements est grandement conditionné

par les choix qui définissent les paramètres d’analyse: l’algorithme de classification (séquentiel, agglomératif, hiérarchique, probabiliste..), la mesure de ressemblance utilisée (similarité, distance, dépendance..), le seuil de regroupement et le nombre de classes à créer.

(2) Selon l’algorithme utilisé, celui-ci pourrait ne pas convergent vers une

solution unique, c'est-à-dire que la répétition de 100 procédures de classification, basée sur les mêmes paramètres peut produire 100 résultats différents.

(3) Les algorithmes de classification sont très sensibles au bruit de fond

généré par les données elles-mêmes, c’est-à-dire qu’ils distinguent difficilement les profils d’expression propres aux données (bruit de fond) et les profils d’expression induits par les conditions expérimentales (structures d’intérêt).

Parce que les outils de classification permettaient de répondre à des questions d’ordre biologiques, de grands efforts ont été mis pour savoir quels étaient les algorithmes les plus adaptés à l’étude des données transcriptomiques (Eisen, Spellman et al. 1998). Mais étonnement, peu d’intérêt a été porté à la validité statistique des résultats produits (Bittner, Meltzer et al. 2000; Kerr et Churchill 2001).

Il pourrait être tentant d’utiliser le test ANOVA, l’équivalent multivarié du test t, pour juger de la différence de modulation des transcripts entre les groupes. Toutefois, celui-ci nécessite des suppositions qui ne sont pas toujours

satisfaites, ce qui par conséquent, rend son interprétation discutable. Malgré cela, cette approche statistique a été largement utilisée dans l’analyse de puce à ADN (Pavlidis 2003; Churchill 2004), et comme le test t, le test ANOVA a subi quelques améliorations mais, néanmoins sans se défaire de ses principaux défauts (Kerr et Churchill 2001). Toutefois, une analyse ANOVA à deux facteurs réalisée sur nos données d’expression permet de juger de l’impact global des conditions expérimentales.

Une autre approche a été proposée pour l’étude de ces designs complexes : l’ordination en espace réduit. Les méthodes d’ordination présentent l’avantage de réduire la taille des données d’expression, et d’exprimer les données selon les principales tendances de variabilité. Plusieurs techniques ont été développées et utilisées dans l’analyse de données multifactorielles (Fellenberg, Hauser et al. 2001; Yeung et Ruzzo 2001; Culhane, Perriere et al. 2002). La plus connue de ces méthodes est l’analyse en composante principale (ACP) et s’est révélée efficace dans l’examen d’expérience de puce à ADN pour étudier les associations existantes entre les gènes. Ainsi, en comparant plusieurs expériences étudiant des tumeurs, celles-ci ont pu être classées en fonction du comportement de groupes de gènes. De la même façon que les techniques de classification, cette approche a permis la découverte de sous-classes de tumeurs (Crescenzi et Giuliani 2001). L’ACP a également été employée dans l’étude des expériences en « time-course » pour isoler les gènes qui sont co-régulés dans le temps (Raychaudhuri, Stuart et al. 2000) . En pratique, l’ACP ressemble aux méthodes de classification des données présentées mais utilisent comme critère la variance des données d’expression. Ainsi, l’ACP cherche à résumer les données en plusieurs variances orthogonales (l’orthogonalité entre les variances traduit l’absence de corrélation linéaire entre elles). Les variances, sont appelées des composantes principales et définissent les axes dans une représentation graphique plane, permettant de dégager visuellement des structures dans les données.

Dans notre analyse, nous utilisons l’analyse canonique de redondance (ACR), méthode développée par Van den Wollenberg (van den Wollenberg 1977). Cette méthode, similaire à l’analyse en composante principale, tient compte de deux matrices : la matrice réponse (les données d’expression des transcripts dans chaque condition) et la matrice explicative (les conditions expérimentales). Elle cherche à étudier la relation existante entre les deux matrices et tente d’expliquer les données de la matrice réponse en fonction de la matrice explicative. Ainsi la variance des données d’expression de notre expérience peut être expliquée (et décomposée) selon les deux conditions expérimentales, la mutation et le stress oxydatif.

Cette approche nous permet de pallier aux problèmes des méthodes paramétriques, où des présomptions sont nécessaires. De plus, elle permet une réduction des données qui fournit une représentation visuelle des données d’expression explicite permettant une interprétation de l’effet des deux variables sur les données d’expression. Néanmoins, cette approche nécessite une présomption qu’il est nécessaire de préciser. La première étape de l’ACR consiste à faire une régression multiple des variables réponses sur les variables explicatives, modélisant de façon linéaire les relations qui existent entre les deux variables. Ceci suppose, en effet qu’il existe une relation linéaire entre les variables réponses et explicatives, ce qui est rarement observées dans des processus biologiques. Legendre et Makarenkov (Legendre 1999) ont développé une méthode polynomiale qui permet de modéliser des relations non linéaires, et concluent que le résultat de cette méthode est dépendante de la nature du jeu de donnée et ne démontre pas qu’elle soit supérieure au modèle linaire proposé par l’ACR. Pour ces raisons, nous n’exploitons pas cette méthode. Toutefois, il sera intéressant de comparer les résultats produits par cette approche non-linéaire car l’un des ces avantages est qu’elle permet d’expliquer une partie de la variance, qui apparaît inexpliquée dans l’ACR.