• Aucun résultat trouvé

I. Introduction

I.4 Statistiques et l’intégration de données

L’analyse statistique d’intégration de différents types de données peut être une aide puissante pour identifier de nouveaux candidats (gènes, protéines, métabolites, etc.) et ainsi découvrir de nouvelles voies métaboliques qui permettent aux plantes de s’adapter aux contraintes environnementales. Le développement des nouvelles technologies offre la capacité d'étudier la quantité et la diversité des molécules à différentes échelles (du gène à la plante). Le séquençage de génomes d’organismes de référence a permis de prédire avec précision des gènes, des ARN et des protéines facilitant ainsi ces approches. La disponibilité des génomes a permis le développement des technologies d’analyse à haut débit, dites analyses omiques (Fig. 12). Parmi lesquelles se trouvent la génomique (pour l’analyse de l’ensemble des gènes), la transcriptomique (pour l’analyse de l’ensemble des transcrits), la protéomique (pour l’analyse de l’ensemble des protéines), la métabolomique (pour l’analyse de l’ensemble des métabolites),

etc. Cette terminologie a par la suite été élargie pour couvrir d'autres types de données comme

par exemple les données phénomiques (pour l’ensemble des phénotypes).

Figure 12 : Représentation de la complexité multidimensionnelle des données biologiques en

lien avec les avancées dans les technologies à haut débit. L'hétérogénéité des données générées peut être attribuée aux différents niveaux d’études, de la cellule à la plante entière en utilisant une large gamme de techniques à travers différentes espèces végétales (d’après Rajasundaram & Selbig 2016).

N

iv

eau

c

ellu

lair

e

Technologies

Phénomique Métabolomique Protéomique Transcriptomique Epigénomique Génomique A rab id op sis M edi cag o Sola nu m Helia n thu s

22 Les technologies omiques produisent à débit élevé de grandes quantités de données qu’il n’est plus possible d’analyser manuellement. Une nouvelle approche a donc vu le jour, fournissant de nouveaux éléments pour analyser ces données et mieux comprendre la réponse d’un organisme au stress : cette approche est nommée biologie des systèmes.

La biologie des systèmes, en tant qu'approche holistique, consiste à intégrer les données de diverses disciplines dans des modèles bio-statistiques afin de comprendre la réponse physiologique d’un organisme dans sa globalité (Fig. 13). Ainsi, la biologie des systèmes, analyse d'une part les réseaux impliqués dans la réponse aux stress, et expose d'autre part la dynamique de ces réponses. (Chawla et al. 2011).

Figure 13 : Approche cyclique de la biologie des systèmes lors de la réponse d’une plante à

différents stress. L’hypothèse biologique est testée et analysée en utilisant un ou plusieurs types de données omiques. L'intégration des données suivie de la modélisation permet de valider ou de proposer une nouvelle hypothèse (d’après Chawla et al. 2011).

Question biologique?

- Protocole expérimental - Omiques: Phénomique Métabolomique Protéomique Transcriptomique Epigénomique Génomique

Stress

Organismes

Contrôle qualité Normalisation Intégration Visualisation Modélisation et simulation Génération d'hypothèses

23 Ces analyses ont largement été développées via l’utilisation du logiciel R et des packages associés qui ont vu le jour comme FactoMineR (Lê et al. 2008) ou mixOmics (Lê Cao

et al. 2009). De façon schématique, les analyses statistiques intégratives sont structurées

principalement en quatre couches d’analyses, de la plus simple à la plus complexe (Fig. 14) : i) l’analyse uni-variée explore une seule variable à la fois (l’expression d’un gène,

l’abondance d’une protéine, etc.) et se traduit par des statistiques élémentaires comme une moyenne, une médiane, des écarts types, etc. qui peuvent être représentées par des graphiques simples de type diagramme en barres, boîte à moustaches, etc.

ii) l’analyse bi-variée permet d’observer les liens entre deux variables qu’elles soient catégorielles ou quantitatives. C’est l’analyse la plus couramment utilisée en laboratoire car elle permet par exemple d’étudier la corrélation entre le niveau d’expression d’un gène et l’abondance de la protéine associée (coefficients de corrélation de Pearson, de Spearman), ou d’observer l’effet d’un traitement ou d’un génotype sur l’expression de gènes (tests de Student, de Wilcoxon, ANOVA, etc.) ou encore de tester l’indépendance de 2 variables catégorielles (test de chi2, test exact de Fisher, etc.). Ces analyses sont représentées aussi bien par des diagrammes en boîte que par des matrices de corrélation. Ces aspects sont détaillés dans la publication de Saporta (2006) et vulgarisés dans l’article de Van Eeuwijk et al. 2016.

iii) l’analyse multivariée explore un jeu de données dans son ensemble (transcriptomique, protéomique, métabolomique, etc.) de façon supervisée ou non :

a. l’analyse multivariée non supervisée correspond généralement à la mise en œuvre d’une Analyse en Composantes Principales (ACP, ou PCA pour Principal

Component Analysis) qui explique au mieux les informations de l’ensemble des

données (Bro & Smilde 2014) ou encore à des techniques de classification (clustering). Une synthèse des approches exploratoires multidimensionnelles est proposée dans Lebart et al. 2006.

b. l’analyse multivariée supervisée permet, par exemple, de classer les échantillons (écotypes, traitements,…) à partir d’informations quantitatives sur ces échantillons. Ainsi la régression des moindres carrés partiels en version discriminante (PLS-DA pour Partial Least Squares regression Discriminant Analysis) analyse un jeu de données en discriminant les échantillons en fonction d’une variable qualitative attribuée (écotypes, traitements, etc.) (Barker & Rayens 2003; Pérez-Enciso & Tenenhaus 2003). Cette méthode est plus adaptée que la méthode plus classique

24 d’analyse factorielle discriminante dans les cas où le nombre de variables dépasse largement le nombre d’individus comme c’est le cas pour les études omiques. iv) l’analyse dite multi-blocs, permet d’intégrer ensemble plusieurs jeux de données,

appelés aussi blocs (transcriptomique, protéomique, métabolomique, etc.). Cette méthodologie de statistiques intégratives a des origines relativement anciennes (Carroll 1968; Kettenring 1971) mais son usage n’a été généralisé que très récemment en partie grâce à l’essor de la biologie des systèmes mais ne comporte que peu de modèles. Ces analyses multi-bloc peuvent être supervisées ou non :

a. les analyses multi-blocs non supervisées comme la PLS et la CCA (pour Canonical

Correlation Analysis) qui mettent en lien deux blocs quantitatifs entre eux

(transcrits et protéines, transcrits et climatologies, etc.) ont été étendues, d’une part, pour traiter les cas avec de nombreuses variables (González et al.) et d’autre part pour traiter plus de 2 blocs simultanément (Tenenhaus 2011 & 2014).

b. les analyses supervisées de type multi-blocs ont été développées encore plus récemment (Günther et al. 2014; Singh et al. 2016). Elles permettent d’intégrer ces mêmes blocs mais avec un a priori sur une classe de variable qualitative préalablement attribuée.

Enfin, toutes les analyses multivariées et multi-blocs peuvent être effectuées en ajoutant des pénalités de type LASSO (pour Least Absolute Shrinkage and Selection Operator) (Tibshirani 1996). Ce mode d’analyse sélectionne les variables les plus informatives des jeux de données en supprimant les moins informatives, permettant ainsi de faire ressortir les candidats ayant les profils les plus intéressants pour le biologiste. Ce mode d’analyse est implémenté dans le package mixOmics sous le nom de Sparse comme la s-PCA (Sparse PCA) et la s-PLS (Sparse PLS). Ces analyses de statistiques sont détaillées plus spécifiquement dans la partie II.7.

25

Figure 14 : Schéma des méthodes statistiques d’analyses de données. A) Structure et nature

des données utilisées lors d’analyses intégratives. B) Vue d’ensemble des différentes étapes de la méthodologie globale lors d’une analyse intégrative. A chaque étape supplémentaire de l’analyse, les résultats sont confrontés aux analyses précédentes permettant une décomposition des informations observées.

L’interprétation des données devient de moins en moins triviale avec l’augmentation du nombre d’analyses cumulées. La discussion entre le statisticien et le biologiste est donc nécessaire afin de fournir les analyses les plus pertinentes pour répondre à une question biologique donnée.

A

27