Réponse transcriptomique du Peuplier à une sollicitation mécanique : inférence de réseaux de régulations géniques à partir de données d’expression

(1)

Master 2 spécialité

Analyse et Modélisation des Données

RAPPORT DE STAGE PRESENTE PAR :

Lise Pomiès

SUJET :

Réponse transcriptomique du Peuplier à une sollicitation mécanique : inférence de réseaux de régulations géniques à partir de données d’expression.

Responsables du stage :

Mélanie Decourteix

Equipe MECA, UMR PIAF

Les Cézeaux, 24 avenue des Landais 63 177 Aubière - France

Florence D’Alché Buc

Equipe AROBAS, laboratoire IBISC 23, Bd de France

91 034 Evry - France

(2)

(3)

(4)

(5)

Remerciements

Je tiens à remercier Jean-Louis Julien (Directeur de l’Unité Mixte de Recherche Physique et Physiologie Intégratives de l’Arbre Fruitier et Forestier (Piaf), Inra-Université Blaise Pascal) de m’avoir accueillie dans son unité.

Je remercie également mes maîtres de stage, Mélanie Decourteix (maître de conférences) et Nathalie Leblanc-Fournier (maître de conférences) du laboratoire PIAF pour avoir dirigé ce travail, ainsi que Florence D’Alché-Buc (professeur) pour m’avoir accueillie au sein du laboratoire Ibisc de l’université d’Evry. Leurs conseils ont été précieux pour moi. Leur professionnalisme et leurs qualités scientifiques ont été pour moi les clés de ma motivation et de ma curiosité scientifique.

Je remercie également tous les membres du laboratoire Ibisc de Evry pour leur accueil chaleureux et plus particulièrement les stagiaires du bureau « club Scoubidou » pour la bonne ambiance qu’ils y ont fait régner.

(6)

(7)

Résumé

Ce n’est que récemment que la réponse transcriptionnelle des plantes à des sollicitations mécaniques a commencé à être étudiée. Il n’existe pas encore d’étude globale de la réponse des plantes au vent. L’équipe MECA du PIAF a mis en place des expériences visant à évaluer la cinétique de la réponse moléculaire du peuplier suite à une flexion de sa tige mimant l’effet du vent, en utilisant des puces ADN. L’objectif est de construire un réseau de régulation du transcriptome, à partir de ces données. Les données issues des puces ADN sont atypiques pour l’inférence de réseau de gènes (beaucoup de gènes, peu de mesures temporelles). Une stratégie en 3 étapes adaptée à ces jeux de données a donc été mise en place : (1) augmentation du nombre d’observations temporelles par Kernel Ridge Regression, (2) diminution du nombre de gènes par clustering spectral, (3) modélisation des liens entre gènes par une méthode de Last Absolute Shrinkage and Selection Operator avec échantillonnage.

Les premiers résultats obtenus sont encourageants, et la stratégie d’analyse est en cours d’amélioration.

Abstract

The study of plant transcriptional response to mechanical sollicitations is still in its infancy. Moreover, we still lack an encompassing study of plant responses to wind. The MECA team recently performed microarray experiments to evaluate the time-course of poplar molecular responses to a stem bending mimicking wind action. The objective is to build a transcriptomic regulation network. The microarray data were unusual for such a network inference. There were too many differentially expressed genes for too few measurements. A 3-step strategy was then designed: (1) increase of the number of measurements with Kernel Ridge Regression, (2) decrease of the number of genes with spectral clustering, (3) modeling of the links between genes with the Last Absolute Shrinkage and Selection Operator methods.

(8)

(9)

Sommaire

1. Bibliographie ... 1

1.1. Réponses aux sollicitations mécaniques chez les plantes ... 1

1.1.1. Thigmomorphogénèse ... 2

1.1.2. Perception des sollicitations ... 2

1.1.3. Transduction du signal ... 3

1.2. Etude des réseaux de gènes ... 5

1.3. Inférence de réseaux de gènes ... 6

1.3.1. Données biologiques ... 6

1.3.2. Choix d’un modèle ... 8

1.3.3. Apprentissage du réseau ... 9

1.3.4. Evaluation et validation des réseaux ... 10

1.4. Objectifs du stage ... 10

2. Travail expérimental ... 11

2.1. Matériel ... 11

2.1.1. Jeu de données ... 11

2.1.2. Langage et programme R ... 12

2.1. Méthodes ... 12

2.1.1. Stratégie d’analyse ... 12

2.1.2. Kernel Ridge Regression ... 13

2.1.3. Clustering Spectral ... 14

2.1.4. Least Absolute Shrinkage and Selection Operator ... 15

(10)

(11)

2.2.1. Prétraitement des données ... 16

2.2.2. Inférence du réseau ... 20

3. Discussion ... 21

3.1. Difficultés liées aux données biologiques ... 21

3.2. Perspectives d’amélioration mathématique du réseau ... 23

3.3. Validation biologique du réseau ... 24 Références bibliographiques

Table des cigles Glossaire

(12)

(13)

1. BIBLIOGRAPHIE

Les modèles de prédiction climatique prévoient une augmentation de la fréquence et de la violence des tempêtes avec toutefois une intensité des vents courants plus faible. Dans ce contexte de changement climatique, l’équipe Contraintes Mécaniques et Activité des zones en croissance (MECA) de l’unité mixte de recherche Physique et Physiologie Intégratives de l’Arbre Fruitier et Forestier (PIAF – Inra/Université Blaise Pascal) étudie principalement l’acclimatation des plantes à un environnement mécanique particulièrement changeant. Elle s’attache notamment à comprendre comment un arbre peut conserver un port érigé sur le long terme quand il est soumis à des évènements de vents forts, brusques et peu fréquents. Ces études sont réalisées à différentes échelles allant de la cellule à la plante entière. Pour ces recherches, l’équipe MECA utilise principalement le peuplier car c’est une plante modèle.

C’est le premier arbre dont le génome a été complètement séquencé (Tuskan et al., 2006). Il possède de plus un petit génome pour un arbre (485 Mpb). Le génome du pin en comparaison est 50 fois plus grand. Le peuplier compte environ 45 000 gènes, répartis sur 19 paires de chromosomes. C’est un arbre avec une croissance juvénile rapide ce qui lui confère un fort intérêt agronomique. De plus, le peuplier est facilement manipulable en laboratoire. Il est en effet possible de le multiplier de manière clonale et de le transformer génétiquement.

L’existence de puces ADN spécifiques du peuplier Affymetrix 61K poplar (GeneChip®

Poplar Genome Array) est une raison supplémentaire justifiant le choix de l'expérimentation sur le peuplier.

1.1. Réponses aux sollicitations mécaniques chez les plantes

Les arbres sont en permanence soumis à des sollicitations mécaniques auxquelles ils doivent répondre et s’adapter afin de conserver leur port érigé et survivre. Il existe deux types de sollicitations mécaniques : (i) les sollicitations internes dues à la croissance et la

(14)

Figure 1 : Effet du vent sur la croissance longitudinale de plants de luzerne. Les plants de luzerne au centre sont protégés du vent par un grillage. On observe une augmentation de près de 50 % de la croissance. Source : Moulia et Combes, 2004.

Figure 2 : Etude de l'effet de flexions répétées sur la croissance de jeunes merisiers. Le merisier B a subi une flexion toutes les 3h pendant 6 semaines. Le merisier A n’a subi aucune flexion. On observe une augmentation de la croissance en diamètre et racinaire sous l’effet de la flexion ainsi qu’une diminution de la croissance verticale. Source : Coutand et al., 2008.

(15)

différenciation cellulaire, (ii) les sollicitations externes telles que le vent et la gravité. Ce sont ces dernières qui nous intéressent et en particulier l’effet du vent.

1.1.1. Thigmomorphogénèse

La réponse de croissance des arbres aux sollicitations mécaniques externes est appelée thigmomorphogénèse (Jaffe, 1973). Il a été observé que des plantes soumises à des vents même faibles (<30 km/h) présentent une réduction forte de leur croissance en hauteur (Figure 1, Moulia et Combes, 2004). Le vent induit aussi une augmentation du diamètre de la tige ainsi qu’une augmentation de la croissance racinaire permettant aux plantes de mieux résister au vent et d’être mieux ancrées dans le sol (Figure 2, Coutand et al., 2008) (Jaffe et Frobes, 1993).

1.1.2. Perception des sollicitations

Lorsqu’un arbre est soumis à des vents forts, il subit de nombreuses flexions sur différentes parties (feuillage, tige|tronc, apex). Les flexions induisent des déformations, des zones de tension et de compression. Les réponses thigmomorphogénétiques sont proportionnelles à l’intensité de ces déformations. La variable mécanique perçue est donc la déformation et non les forces de compression et de tension exercées sur la tige (Coutand et al., 2009). C’est pourquoi l’équipe MECA reproduit l’effet du vent en laboratoire par une flexion de la tige pour laquelle l’intensité des déformations est contrôlée. Les mécanismes permettant (1) la perception d’un signal mécanique par une cellule et (2) l’émission en retour d’un signal chimique ou électrique intracellulaire, ne sont pour l’instant pas connus. Cependant, certaines hypothèses sont actuellement à l’étude au sein de la communauté scientifique :

Continuum cytosquelette - membrane plasmique - paroi

Chez les animaux il existe des connexions transmembranaires entre la matrice extracellulaire et le cytosquelette par le biais de protéines appelées intégrines. De ce fait, si une sollicitation mécanique externe déforme la cellule, elle est ressentie par le cytosquelette, créant ainsi un stimulus interne à la cellule. Chez les plantes, on suppose l’existence d’un

(16)

(17)

continuum cytosquelette - membrane plasmique - paroi (CPMCW : Cytosqueleton - Plasma Membrane - Cell Wall) ayant le même rôle. Des protéines lieraient la paroi cellulaire (équivalent végétal de la matrice extracellulaire animale) à la membrane plasmique et au cytosquelette. Une étude récente (Knepper et al., 2011) montre l'existence d’une protéine intégrine-like : la NDR1, consolidant cette hypothèse. D’autres protéines telles que les Wall Associated Kinases (WAK) pourraient également permettre de percevoir les sollicitations mécaniques dans le cadre du CPMCW (Baluska et al., 2003).

Canaux mécanosensibles

Il existe des canaux ioniques mécanosensibles à la surface des membranes des cellules végétales. Ces canaux s’ouvrent lors d’une augmentation de la tension membranaire. Une fois ouverts, ces canaux permettent des mouvements d’ions (Cl^-, K⁺, Ca²⁺ ...) dans la cellule, transformant ainsi un signal mécanique en signal électrique|chimique. Deux types de canaux ioniques mécanosensibles ont été mis en évidence chez les plantes : (1) Les Mechanosensitive Channel of Small Conductance (MscS) Like (MSL), détectés chez le riz (6 MSLs) et chez Arabidopsis thaliana (10 MSLs) (Haswell et al., 2011). Ces canaux se trouvent sur la membrane plasmique des cellules mais aussi sur les membranes des organites intracellulaires.

(2) Les canaux calciques mécanosensibles (mid1-complementing activity MCA) mis en évidence dans les racines d’Arabidopsis thaliana (Nakagawa et al., 2007 ; Yamanaka et al., 2010).

1.1.3. Transduction du signal

Une fois que le signal mécanique est perçu par les cellules de la plante, il est transformé en signal chimique. Plusieurs acteurs interviennent alors : (1) Le calcium : la concentration cytoplasmique en ions calcium (Ca²⁺) augmente très rapidement après une sollicitation mécanique (Knight et al., 1992). Chez Arabidopsis, quatre gènes TOUCH (TCH) présentent des modifications de leur expression lors de sollicitations mécaniques. Parmi ces gènes, certains codent des calmodulines (CaM) (TCH1) ou des protéines possédant des domaines

(18)

Figure 3 : Déroulement chronologique de l’implication des différents acteurs moléculaires lors d’une sollicitation mécanique chez les plantes. Source : Telewski, 2006 ; Gourcilleau, 2011.

(19)

CaM (TCH2 et TCH3). Les CaM sont capables de percevoir l’augmentation de la concentration en Ca²⁺ et de transformer ce signal en une réponse physiologique appropriée.

Pour ce faire, ces protéines fixent le calcium modifiant ainsi leur conformation. Ceci leur permet ensuite d’interagir avec d’autres protéines et d’en modifier l’activité (Reddy et al., 2011). (2) Les Reactive Oxygen Species (ROS), telles que le peroxyde d’hydrogène (H2O2), s’accumulent dans le cytoplasme de la cellule peu de temps après une sollicitation mécanique.

Ceci est un exemple de l’implication des ROS dans la réponse des plantes aux stimuli extérieurs (Mori et Schroeder, 2004). (3) L’éthylène est une hormone végétale gazeuse. Elle est impliquée dans la réponse des plantes aux stress biotiques et abiotiques. Une augmentation des taux d’éthylène est observée suite à une sollicitation mécanique (De Jaegher et al., 1987).

(4) L’expression de certains gènes codant des acteurs supposés de la voie de transduction du signal mécanique est modifiée suite aux sollicitations mécaniques. Parmi ces gènes, certains sont inductibles par le Ca²⁺et/ou les ROS. On peut citer notamment les gènes TOUCH, et le gène PtaZFP2 (chez le peuplier Populus tremula x P.alba). Le gène PtaZFP2 code un facteur de transcription de la famille des Cys2/His2 (C2H2) Zinc Finger Protein (ZFP). Les deux doigts de Zinc de cette protéine lui permettraient de lier l’ADN (Martin et al., 2009). Les transcrits PtaZFP2 s’accumulent fortement et de manière transitoire en réponse à une flexion.

Cette accumulation est proportionnelle à l’intensité de la flexion reçue par la plante (Coutand et al., 2009). Les caractéristiques de PtaZFP2 en font un marqueur efficace de la réponse primaire aux stress mécaniques.

Telewski a proposé une synthèse chronologique de l’intervention des différents acteurs de la réponse des plantes aux stress mécaniques (Telewski, 2006) (Figure 3). Cependant aucun lien chronologique n’a été montré entre les différentes étapes. En effet, cette synthèse regroupe des observations provenant de différentes expérimentations, menées sur des espèces différentes, et pour des stress mécaniques différents.

(20)

Figure 4 : Représentation d'un réseau d'interactions sous forme de graphe orienté. Dans la matrice d’adjacence associée au graphe, 0 signifie aucune régulation, 1 une régulation positive du gène en ligne par celui en colonne, -1 une régulation négative du gène en ligne par celui en colonne.

(21)

1.2. Etude des réseaux de gènes

Une manière de comprendre un processus biologique peut consister en l’étude de la régulation de l’expression des gènes impliqués. De nombreuses études se focalisent sur la régulation d’un petit groupe de gènes (gènes candidats) par un petit nombre de régulateurs (Spieth et al., 2006). Ces approches ne sont pas assez résolutives pour comprendre des processus complexes tels que la réponse des plantes face à un stress environnemental. Le séquençage haut débit des organismes ainsi que l’amélioration des techniques d’analyse du transcriptome et des interactions ADN-molécules (protéines, facteur de transcription, miRNA, etc.) a permis d’étudier les interactions entre les gènes et leurs régulateurs à plus grande échelle. Ces améliorations ont donc facilité la reconstitution des grands réseaux de régulation des gènes. Les réseaux de gènes sont représentés par des graphes orientés*. Les nœuds des graphes représentent soit les gènes d’un organisme soit les produits des gènes. Les arcs des graphes représentent les interactions entre les différents gènes, telles qu’une inhibition ou une répression de la transcription (Figure 4). A ce graphe on associe souvent une matrice d’adjacence, contenant des coefficients soit nuls (pas de régulation), soit égaux à 1 (induction), soit égaux à -1 (inhibition).

Actuellement les grands réseaux de gènes reconstitués proviennent majoritairement d’organismes unicellulaires tels que Escherichia coli (Madan Badu et al., 2003). La reconstitution de réseau chez les organismes pluricellulaires est moins avancée. Ce retard s’explique en partie par un nombre de régulateurs de l’expression plus important et la non indépendance des cellules. En effet, chez les organismes pluricellulaires, il existe de nombreux types cellulaires différents, et stades de développement des cellules. Cependant dans le domaine animal, le projet Encyclopedia of DNA Elements (ENCODE) a permis de faciliter l’étude des réseaux biologiques. Ce projet vise à constituer une base de données des éléments fonctionnels du génome de l’homme mais aussi d’autres animaux modèles tels que la souris. De part l’absence d’un tel projet dans le domaine végétal, et d’une moins bonne

(22)

(23)

connaissance des organismes modèles, l’étude des réseaux biologiques est en comparaison peu avancée. Par exemple pour Arabidopsis le nombre d’interactions connues entre les gènes, en comparaison du nombre de gènes connus est très faible, laissant supposer que seulement 1 % des interactions totales présentes chez Arabidopsis ont été mises en évidence (Mejia- Guerra et al., 2012).

1.3. Inférence de réseaux de gènes

L'objectif de l'inférence de réseau de gènes est d’estimer à partir de données expérimentales une matrice d’adjacence correspondant au graphe de régulation des gènes étudiés. Il existe deux grandes familles de méthodes d’inférences de réseaux : (1) les méthodes qui cherchent à fournir une estimation de la matrice d’adjacence par des tests d’indépendance ou de critères mutuels. (2) Les méthodes qui modélisent le comportement du système biologique et en tirent une estimation de la matrice. Nos travaux sont effectués avec cette seconde catégorie de méthodes.

1.3.1. Données biologiques

La construction d’un réseau biologique passe par le choix des modèles et des méthodes utilisées pour sa réalisation. Ces choix sont liés au type de données biologiques disponibles.

Dans le cadre de données d’expression de gènes, deux paramètres définissent le jeu de données (1) le type de perturbations et (2) les observations effectuées. Pour comprendre le fonctionnement d’un système biologique, il est nécessaire de le perturber. Plusieurs types de perturbations sont possibles (i) des modifications de facteurs environnementaux tels que des stress chimiques et physiques, ou l’administration d’agent thérapeutiques, et (ii) des perturbations au niveau génétique tels que les knock out*, ou au niveau transcriptomique comme dans le cadre de l’utilisation de miRNA*. Une fois le système perturbé, les niveaux d’expression de gènes sont mesurés. L’échantillonnage permet d’obtenir (i) des données statiques (suite à un knock out par exemple) qui doivent être recueillies en très grand nombre

(24)

(25)

pour permettre l’inférence de réseau (Auliac et al., 2008), ou (ii) des séries temporelles pour lesquelles il faut déterminer le nombre de mesures et le pas de temps entre chacune d’elles.

D’un point de vue biologique, on cherche à diminuer le nombre de mesures, afin de diminuer la complexité de l’expérimentation et son coût. Du point de vue de l’inférence de réseaux de gènes (modélisation mathématique), un grand nombre de données est préférable afin que le modèle produit soit le plus proche possible de la réalité. En effet les modèles mathématiques utilisés sont des équations complexes. Pour résoudre ces équations le nombre de mesures doit être égal voire supérieur au nombre de gènes étudiés. Il faut donc trouver un compromis entre la qualité du réseau et le coût expérimental.

Lorsqu’un jeu de données est éloigné de l’idéal « nombre de gènes inférieur au nombre de mesures », il peut être modifié en amont de la construction du réseau de gènes afin d’obtenir un meilleur résultat. (1) Dans le cas des séries temporelles, il est possible d’augmenter la dimension temps en interpolant des points de mesure à partir des mesures obtenues pour les points déjà existants (D’haeseleer et al., 1999) (2) La dimension « nombre de gènes » peut être réduite dans un premier temps en sélectionnant uniquement des gènes avec des changements de niveau d’expression significatif. Dans un deuxième temps, les gènes peuvent être regroupés en modules suivant différents critères : (i) En fonction de leur niveau d’expression : deux gènes co-exprimés étant susceptibles d’être co-régulés, des gènes présentant des profils d’expression très proches peuvent être associés au sein d’un même cluster* à l’aide de techniques de clustering*. (ii) En fonction de leurs annotations fonctionnelles : des gènes partageant les mêmes annotations fonctionnelles, interviennent dans les mêmes fonctions et processus biologiques, ils sont susceptibles d’être régulés et de réguler d’autres gènes de la même manière. (iii) En fonction de leur contexte biologique : à l’aide des outils de text mining*, il est possible de regrouper des gènes apparaissant régulièrement ensemble dans la bibliographie. Lorsque la dimension « nombre de gènes » est

(26)

(27)

réduite en constituant des modules, les nœuds du réseau final représentent alors des modules de gènes et non plus des gènes seuls.

1.3.2. Choix d’un modèle

Une fois les données prétraitées, un choix de modèle d’architecture du réseau est nécessaire. Ce choix dépend des données de départ. Parmi les méthodes se basant sur la modélisation du système biologique, on dénote deux grandes catégories : (1) les approches discrètes, tel que les réseaux Booléens utilisant des données binaires (1 : gène activé, 0 : gène non activé), (2) les approches quantitatives, plus robustes face au bruit. Parmi cette seconde catégorie on retrouve les modèles à temps continu basés sur l’utilisation d’équations différentielles (ODE – Odinary Differential Equation). Dans le cas de données de type séries temporelles ces méthodes sont particulièrement adaptées (Hecker et al., 2009).

Equations différentielles

Avec les modèles basés sur les ODE, les changements de niveau d’expression d’un gène sont fonction des niveaux d’expression des autres gènes au cours du temps. Ces modèles permettent de décrire des systèmes complexes. Les ODE utilisées pour décrire l’expression d’un gène sont de la forme où représente l’expression d’un gène, une fonction décrivant l’évolution de l’expression du gène, les paramètres de cette fonction, la perturbation appliquée sur l’organisme, et le temps. La construction de réseaux de gènes (ou inférence de réseaux de gènes) avec ces modèles consiste à déterminer et à partir de , et . Si aucune contrainte n’est appliquée sur , alors il existe une multitude de solutions à l’équation. C’est pourquoi il est nécessaire de spécifier au préalable le type de fonction que représente . Il existe deux grands types de fonctions (1) les équations différentielles linéaires, et (2) les équations différentielles non linéaires.

(1) Dans le cas des équations linéaires, l’expression d’un gène à un temps dépend de l’expression de gènes au temps .

(28)

(29)

∑

: vecteur* d’expression du gène : action de la perturbation sur le gène

: perturbation appliquée au système biologique : impact du gène sur le gène

Il est impossible de résoudre ce genre d’équation dans les cas de grands réseaux. Le résultat est alors approché par la différence d’équation suivante :

[ ] [ ]

∑ [ ]

(2) Certains systèmes de régulations cellulaires tels que les rythmes circadiens sont des systèmes non linéaires très complexes. Les équations différentielles non linéaires permettent de les décrire (Heinrich and Schuster, 1996). Cependant l’utilisation des équations non linéaires est limitée par leur grande complexité mathématique. En effet ces modèles possèdent de nombreux paramètres. Un grand nombre de mesures biologiques sont nécessaires pour déterminer ces paramètres. Ces modèles sont donc extrêmement coûteux en terme de temps de calculs de paramètres et d’expérimentation biologique. Le nombre d’expérimentations devant être largement supérieur au nombre de gènes étudiés, ces modèles sont utilisés pour résoudre des petits réseaux de gènes d’une dizaine de gènes (Spieth et al., 2006).

1.3.3. Apprentissage du réseau

Pour tous les modèles d’architecture de réseaux il existe plusieurs techniques pour résoudre leurs équations, on parle d’apprentissage du réseau. Dans le cadre des équations différentielles linéaires, plusieurs algorithmes sont disponibles pour résoudre les différences d’équations tels que le Last Absolute Shrinkage and Selection Operator (LASSO), le Network Identification by multiple Regression (NIR), le Microarray Network Identification (MNI), et le Time Series Network Identification (TSNI). Actuellement le LASSO semble produire les résultats les plus robustes, avec un faible nombre d’erreurs de prédiction et un nombre de liens entre les éléments du réseau limité (van Someren et al., 2002).

(30)

(31)

Pour évaluer la qualité des paramètres trouvés par ces algorithmes, différents indicateurs sont disponibles. La qualité des paramètres peut être évaluée à partir de deux indices (i) l’erreur quadratique moyenne (Mean Square Error – MSE), et (ii) le maximum de vraissemblance. L’erreur quadratique permet d’évaluer la différence entre les données prédites et les données observées. Plus l’erreur sera faible, meilleur sera le paramètre utilisé.

Une fois le modèle de réseau choisi et ses paramètres calculés, le modèle est appliqué au jeu de données et produit une matrice de scores indiquant pour chaque gène l’impact des autres gènes sur son niveau d’expression. Une des règles de l’inférence de réseau de gènes veut que plus le nombre de liens / arcs du réseau est grand, plus le modèle colle aux données de départ. Cependant il est admis que les gènes sont régulés par un petit nombre de régulateurs. Il faut donc trouver un compromis entre la qualité et la complexité du modèle.

Les matrices de scores sont donc seuillées afin de ne garder que les liens significatifs entre les gènes.

1.3.4. Evaluation et validation des réseaux

La qualité d’un réseau biologique est évaluée à l’aide de données différentes de celles utilisées pour construire ce réseau, on parle de validation externe. Ces données peuvent provenir de la littérature grâce à l’utilisation d’outils de text mining*, ou bien provenir de nouvelles expérimentations réalisées si possible en réponse au réseau de gènes mis en évidence. L’inférence de réseau de gènes ne permet pas d’obtenir des vérités biologiques, mais permet de trouver des hypothèses de régulation, lien entre les gènes qui doivent systématiquement être vérifiées d’un point de vue biologique.

1.4. Objectifs du stage

A l’heure actuelle, il existe peu d’études globales sur la réponse des plantes aux sollicitations mécaniques. Les études menées pour le moment concernent principalement la plante modèle herbacée Arabidopsis, pour des sollicitations mécaniques de type « toucher »

(32)

Figure 5: Plan expérimental utilisé lors de l’approche transcriptomique. Deux plantes sont utilisées pour chaque condition expérimentale. Le plan expérimental est répété 3 fois avec de nouvelles plantes.

Figure 6 : Méthode de flexion des tiges de peuplier. (A) Les peupliers sont fixés au niveau de la tige.

(B) La tige des peupliers est fléchie pendant 10 s à l'aide d'un cylindre d’un diamètre connu afin d’obtenir la même intensité de déformation pour chaque plante. (C) Une fois la tige remise en place, les tissus au niveau de la zone fléchie sont prélevés en vue d’une analyse transcriptomique.

(33)

difficilement quantifiables (Lee et al., 2005). Ces études se sont focalisées majoritairement sur un seul temps de mesure après le traitement. Afin de mettre en évidence les mécanismes de signalisation des plantes face aux stress mécaniques, l’équipe MECA a mis en place une étude transcriptomique globale. Cette étude portait sur une plante ligneuse (le peuplier), pour un stress mécanique quantifié (la flexion). Un ensemble de mesures au cours du temps après le stress mécanique (perturbation du système) a été effectué. Cette étude a produit un large jeu de données, sous forme de série temporelle d’expression des gènes. En comparaison des jeux de données classiquement utilisés pour reconstruire des réseaux biologiques, celui utilisé pour ce stage est composé d’un grand nombre de gènes mais de peu d’expérimentations différentes (4 points de mesure pour la série temporelle). De plus, peu d’études de réseaux de gènes ont été réalisées chez le peuplier et/ou sur les mécanismes de la réponse des plantes aux sollicitations mécaniques. L’objectif de ce stage a donc été la mise en place d’une stratégie d’inférence de réseau de gènes adaptée à ces données.

2. TRAVAIL EXPERIMENTAL 2.1. Matériel

2.1.1. Jeu de données

Le jeu de données expérimentales utilisé au cours de ce stage est issu du projet ANR Senzo “Perception des oscillations mécaniques par les plantes : sensibilité fréquentielle et accommodation” porté actuellement par l’équipe MECA. L’objectif du projet est de comprendre comment les plantes perçoivent les vibrations liées au vent et y répondent. Le jeu de données utilisé au cours du stage permet l’étude de la cinétique d’accumulation des transcrits en réponse à une flexion. Deux groupes de peupliers sont comparés dans cette expérimentation, un groupe témoin ne subissant aucune flexion et un second groupe subissant une flexion de la tige pendant 10 s (Figure 5). L’intensité des déformations appliquées lors de la flexion était la même pour tous les peupliers (Figure 6). Les tissus ont été prélevés dans la

(34)

(35)

zone fléchie et au même niveau pour des plantes témoin ne recevant pas de flexion, et à quatre temps différents, (i) 30 min après la flexion, (ii) 2h après la flexion, (iii) 24 h après la flexion, (iv) 72 h (3 jours) après la flexion. Les ARN totaux de ces tissus ont été extraits pour réaliser une hybridation sur des puces ADN (Affymetrix 61K poplar). Cette hybridation des puces ADN, la révélation et la normalisation des résultats ont été effectuées par la plateforme Inra- URGV (Unité de Recherche en Génomique Végétale). La plateforme a effectué un test de Bonferroni* (BH) pour identifier les gènes sur- ou sous-exprimés. Les données renvoyées par la plateforme se présentent sous la forme d’un tableau avec pour chaque sonde de la puce l’intensité mesurée pour chaque individu, une différence d’intensité entre les individus fléchis et témoin, un test de BH à chaque temps.

2.1.2. Langage et programme R

R est un système dit langage-logiciel, c’est à la fois un langage de programmation et un environnement mathématique. R est un logiciel libre. L’ensemble des méthodes utilisées au cours de ce stage ont dû être implémentées avec le langage R (version R.2.15.2).

2.1. Méthodes

2.1.1. Stratégie d’analyse

Pour le jeu de données utilisé, le rapport entre le nombre de données - ici de gènes étudiés (plus de 3 000) - et le nombre de variables - ici les points de mesures (4 temps) - est éloigné de l’idéal « nombre de données équivalant au nombre de variables ». Lorsque le rapport entre les données et les variables est très défavorable, les modèles les plus simples (modèles linéaires) sont utilisés en imposant que le modèle soit parcimonieux (faible nombre de régulations) (Perrin et al., 2003). Des techniques de réduction de dimension sont également utilisées. Enfin, une nouvelle méthode proposée ici consiste à construire un très grand ensemble de sous réseaux, chacun appliqué à un petit ensemble de gènes choisi aléatoirement et à un sous-échantillon de temps. Cette méthode permet d'attaquer des problèmes de grande

(36)

Figure 7 : Paramètre γ du noyau Gaussien. Le paramètre γ du noyau Gaussien permet de régler l’écartement des courbes Gaussiennes. Plus le γ est grand plus la courbe est étalée.

(37)

dimension tout en fournissant un résultat stable. La stratégie mise en place est constituée de 4 étapes majeures : (1) La modélisation de l’expression des gènes présents sur la puce ADN au cours du temps à l’aide d’une régression de type Kernel Ridge Regression. Cette étape permet d’augmenter le nombre de points sur les séries temporelles. (2) La réduction du nombre de gènes, en regroupant les gènes avec des profils d’expression très similaire. Pour cela un clustering spectral est réalisé. (3) La construction d’un réseau de grande dimension, en utilisant LASSO. (4) La validation du réseau à l’aide de données biologiques existant dans les bases de données (telles que la fonction des gènes, leur annotation en Gene Ontology*).

2.1.2. Kernel Ridge Regression

Pour augmenter la dimension temps, l’expression des gènes est interpolée à l’aide de la méthode de régression noyau ou Kernel Ridge Regression (KRR). Avec cette méthode l’expression d’un gène est une fonction du temps.

̂ ∑

̂ : niveau d’expression prédit d’un gène : temps auxquels l’expression est prédite

: temps auxquels l’expression est mesurée (de à ).

L’expression est représentée par une fonction noyau (ou kernel) appliquée à chaque point de temps mesuré. Elle est pondérée par un ensemble de paramètres (un pour chaque point de mesure).

Il existe plusieurs fonctions noyau. La plus couramment utilisée est le noyau Gaussien :

( )

: temps mesuré : temps à prédire

: définit l’allure des courbes Gaussiennes (Figure 7)

Les paramètres de la KRR sont estimés à partir des données (points de mesure) et vont pondérer les différentes courbes. Ces paramètres traduisent l’erreur entre les données prédites et mesurées. Les paramètres sont choisis de manière à minimiser cette erreur.

(38)

(39)

{∑ ( ∑

) ∑

}

Lorsque est minimum, la dérivée de l’équation précédente est égale à zéro, il est alors possible d’écrire . Les paramètres d’un gène sont alors définis à partir du paramètre et des niveaux d’expression mesurés de ce gène. Pour construire une KRR, il faut donc déterminer les valeurs de deux paramètres et .

2.1.3. Clustering Spectral

Le clustering est une méthode mathématique qui consiste à partitionner un jeu de données en fonction des similarités que partagent les différents éléments de ce jeu de données.

Des gènes peuvent ainsi être regroupés en fonction de leur niveau d’expression au cours du temps. Il existe plusieurs méthodes de clustering, la méthode ici utilisée est la méthode du clustering spectral. Cette méthode utilise comme donnée de départ une matrice carrée* 𝐷 de degré gènes. A partir de cette matrice, une matrice de similarité Gaussienne 𝑆_𝑔 est construite : 𝑆_𝑔 𝜔𝐷 avec 𝜔 _𝜎_̅, et 𝜎̅ la variance empirique de 𝐷. Avec 𝑆_𝑔, une matrice de degré 𝐷_𝑔 est construite. 𝐷_𝑔 est une matrice diagonale* dont les éléments de la diagonale sont les degrés des gènes. Le degré d’un gène est égal à la somme de ces similarités présente dans 𝑆_𝑔 . Une fois ces deux matrices constituées, une troisième matrice est construite : la matrice Laplacienne 𝐿.

𝐿

2𝐷_𝑔𝑆_𝑔 2𝐷_𝑔

: matrice identité* de degré gènes

𝐷_𝑔 : matrice de degré

𝑆_𝑔 : matrice de similarité

Une fois la matrice Laplacienne constituée, les valeurs propres* de la matrice sont calculées. Les vecteurs propres* associés aux plus petites valeurs propres de la matrice sont calculés. représente le nombre de clusters souhaités à la fin du clustering. Un clustering de type k-means* est ensuite effectué sur ces vecteurs propres. La méthode du clustering spectral

(40)

Figure 8 : Matrice de coefficients aj,k issue de LASSO. Dans cet exemple le gène 1 est régulé négativement par les gènes 2 et 4. En revanche les gènes 2, 3 et 4 sont régulés positivement respectivement par les gènes 3, 4 et 2.

(41)

consiste donc en un pré-traitement des données avant de réaliser le clustering à l’aide d’une méthode plus classique (telle que les k-means*). Cette méthode permet d’exploiter complétement l’information relative à l’évolution au cours du temps comprise dans des séries temporelles d’expression de gènes (Zhao et al., 2009).

2.1.4. Least Absolute Shrinkage and Selection Operator

La méthode de Least Absolute Shrinkage and Selection Operator (LASSO) est un algorithme de résolution d’équations différentielles linéaires qui permet de prédire l’expression d’un gène à un temps en fonction de l’expression d’un ensemble d’autres gènes à un temps . C’est une méthode parcimonieuse, c’est à dire qu’elle n’utilise que le minimum de causes pour expliquer un phénomène. L’expression d’un gène est décrite par la fonction suivante :

( ) ∑

: expression du gène à un temps

: gène différent de , appartient à un ensemble de gènes

: coefficient représentant l’influence de l’expression du gène sur l’expression du gène

Chaque gène dont l’expression est prédite possède donc un vecteur ⃗ , composé de l’ensemble des paramètres de ce gène. Les paramètres sont obtenus en résolvant :

{

2∑

‖ ‖ }

Pour utiliser cette méthode il faut donc déterminer le paramètre à partir de données. La méthode LASSO produit une matrice de taille , correspondant au nombre de gènes total du réseau (Figure 8). Chaque case de la matrice contient un coefficient décrivant l’impact du gène sur le gène . Si alors le niveau d’expression du gène n’a aucun impact sur le niveau d’expression du gène .

(42)

Tableau 1 : Liste des espèces de peuplier sélectionnées. Liste des espèces de peuplier de la puce ADN dont les sondes sont conservées pour l’inférence de réseau de gènes. Pour chaque espèce, le nombre de sondes concernées est indiqué.

Tableau 2 : Effectifs des sondes et des gènes utilisés pour de l’inférence de réseau avant et après avoir appliqué le filtre espèce. La selection des sondes dessinées à partir des espèces Populus alba, P.tremula et P.trichocarpa a permis de diminuer le nombre de gènes d’expression différentielle ciblés par plusieurs sondes.

Figure 9 : Différents profils d’expression pour les sondes d’un même gène. Le gène Potri.001G041800 est ciblé par 4 sondes différentes sur la puce Affymetrix 61K poplar. Lorsque l’expression associée aux différentes sondes est modélisée, on constate que la sonde PtpAffx.4403.2.S1_a_at a un profil d’expression différent des autres sondes.

(43)

2.2. Résultats

2.2.1. Prétraitement des données

La puce ADN Affymetrix 61K poplar est composée de 56 055 sondes ciblant des transcrits de gènes. Les résultats du test de BH ont permis d’identifier 3 545 sondes montrant une différence d’expression significative sous l’effet d’une flexion de la tige. La puce ADN Affymetrix 61K poplar est une puce multi-espèces. Les sondes qui la composent ont été dessinées à partir de différentes espèces de peupliers. De ce fait plusieurs sondes de la puce peuvent cibler un même gène. L’espèce utilisée pour l’expérimentation est un hybride Populus tremula P. alba. L’espèce de peuplier actuellement entièrement séquencée est P. trichocarpa. Afin de limiter les gènes ciblés par plusieurs sondes, seules les sondes dessinées à partir d’une de ces trois espèces, ou d’un hybride de ces espèces sont sélectionnées (Tableau 1). Cette sélection permet de passer à 3 128 sondes, correspondant à 2 652 gènes. Il reste cependant 389 gènes ciblés plusieurs fois (Tableau 2). Lorsque les niveaux d’expression associés aux différentes sondes d’un gène sont modélisés, les niveaux d’expression n’évoluent pas toujours dans le même sens (Figure 9). Les sondes couvrant de courtes séquences des gènes, il est possible que les sondes d’un même gène correspondent à différents transcrits de ce gène, expliquant ainsi les différences de niveau d’expression. Dans la suite du projet, ce sont donc des profils d’expression qui sont utilisés, identifiés par le nom du gène collé au nom de la sonde (Exemple : le profil Potri.002G013700|PtpAffx.91812.1.S1_s_at

correspond à la sonde PtpAffx.91812.1.S1_s_at qui cible le gène Potri.002G013700).

Augmentation de la dimension temps

La dimension temps reste très faible par rapport à la dimension profil d’expression (4 points temps, contre 3 128 profils). Dans un premier temps, pour augmenter la dimension temps, deux points sont ajoutés. (i) Le point 0 h qui correspond au moment où la flexion est exercée. La différence d’expression entre les plantes fléchies et les plantes témoins est égale à 0 pour tous les profils d’expression. (ii) Le point 120 h, qui correspond au temps auquel le

(44)

(45)

système revient à l’équilibre. La flexion de la tige n’a plus d’impact sur le niveau de transcription (Martin et al., 2010).

Dans un second temps, il était nécessaire d’interpoler le niveau d’expression des gènes pour ajouter des nouveaux temps. La méthode de KRR permet de prédire l’expression d’un gène à un temps en fonction de son expression à un temps . Les paramètres , , et doivent être déterminés à partir des données pour utiliser cette méthode (voir 2.1.2. Kernel Ridge Regression). Le premier paramètre de la KRR ( ) est en général le même pour tous les profils d’expression et correspond à l’inverse de la variance empirique* des points temps _𝜎_̅ . Pour nos données, un très faible a été obtenu (0,0087), dû aux grands pas de temps entre les différents points.

Le second paramètre est déterminé pour chaque profil d’expression par la technique Leave One Out (LOO) de Cross Validation (CV) : pour chaque profil d’expression, un ensemble de valeurs possibles de est testé (10^-4, 10^-3, 10^-2, 10^-1, 10⁰). Pour chaque valeur de : (1) Les données sont découpées en 6 parties (une partie pour chaque temps de mesure). (2) Les paramètres de la KRR sont calculés à partir du et des niveaux d’expression de 5 des 6 parties. (3) Avec ces valeurs de , l’expression théorique du profil est calculée sur le point temps restant. (4) L’erreur quadratique illustrant l’erreur entre les données prédites et les données mesurées pour la 6^ème partie est ensuite calculée avec la formule :

∑

𝑖 : partition pour laquelle l’erreur est mesurée (6 partitions) : expression mesurée du gène pour la partition 𝑖

: temps correspondant à la partition 𝑖

: modèle de l’expression théorique du gène appris sur les 5 autres partitions

(5) L’opération est répétée de manière à obtenir l’erreur quadratique de ce pour chacune des 6 parties. (6) La moyenne de l’erreur quadratique (Mean Square Error - MSE) de ce pour ce profil d’expression est calculée. La MSE est calculée de la même manière pour

(46)

Figure 10 : Comparaison entre les mesures et la modélisation de PtaZFP2. Les mesures de l’expression de PtaZFP2 par qPCR montrent que les transcrits de ce facteur de transcription s’accumulent fortement et très rapidement après la flexion. Lorsque l’expression est modélisée en utilisant le même gamma pour tous les gènes, le pic d’expression n’apparaît pas. Quand le gamma et le lambda sont choisis par LOO, le pic d’expression est modélisé.

Figure 11 : Profil d’expression du gène Potri.004G106800 après ajout de nouveaux points par interpolation. Génération de nouveaux points du niveau d’expression à partir des résultats de la KRR.

Le pas de temps entre chaque point est de 30 min. Exemple réalisé pour la sonde PtpAffx.1285.5.S1_s_at du gène Potri.004G106800.

(47)

chaque valeur de possible. Le associé au profil d’expression sera celui avec la plus faible MSE.

Une fois les paramètres et déterminés, une représentation graphique de la modélisation de l’expression du profil est produite. Pour le facteur de transcription PtaZFP2, une série temporelle plus précise que celle de la puce ADN a été réalisée au sein de l’équipe MECA par PCR quantitative* en respectant les mêmes conditions expérimentales. La comparaison entre les points mesurés et les points produits avec le modèle montre que les paramètres du modèle ne sont pas adaptés (Figure 10). L’utilisation d’un unique pour tous les profils d’expression n’est pas adaptée aux données. De manière générale, la MSE obtenue est très élevée. Il a donc fallu mettre en place une seconde méthode de détermination consistant à effectuer une CV non plus sur le paramètre seul mais sur le couple | . C’est le couple de paramètres minimisant la MSE qui est sélectionné pour chaque profil.

Le pas de temps le plus court entre deux mesures est de 30 min (entre le point théorique 0 h et le point 30 min). A partir des résultats de KRR, la dimension temps est augmentée en ajoutant une mesure théorique de l’expression des profils toutes les 30 min. La dimension temps passe donc à 241 points de mesures, espacés de 30 min (Figure 11).

Clustering Spectral

Afin de diminuer la dimension profil d’expression, un clustering spectral est réalisé. Le but de ce clustering est de regrouper les profils en petits clusters (2-3 profils par cluster). Pour ce faire, une distance entre les profils d’expression est calculée. Dans un premier temps, la distance entre deux profils est calculée à l’aide de l’intégrale des modèles d’expression des deux profils obtenus par KRR :

𝑖 ∫ ( ) 𝑖 : distance entre le gène 𝑖 et le gène

: expression du gène 𝑖 en fonction du temps

Les intégrales sont des fonctions coûteuses en temps de calcul. Pour le jeu de données, il faudrait calculer 2 2 intégrales. Une estimation du temps de calcul montre qu’il

(48)

Figure 12 : Matrice K. Matrice diagonale de dimension gènes. La diagonale de K est égale à la valeur du γ permettant de modéliser l’expression de chaque gène.

Figure 13 : Exemple de clustering inadapté. La distance intra-cluster de ce cluster est très élevé (=

5,2). En conséquence les gènes regroupés présentent des profils d’expression très différents. En rouge est représenté le gène ayant la distance la plus faible avec les autres gènes. Si le cluster était utilisé dans les étapes suivantes, le profil du gène rouge serait utilisé pour représenter l’expression du cluster.

(49)

faudrait aux alentours de 2,5 mois de calcul sur une machine classique de bureau pour obtenir la distance entre tous les gènes. C’est pourquoi une seconde méthode qui approxime la distance entre les gènes lui est préférée. Cette seconde méthode se base sur une comparaison des paramètres des modèles d’expression KRR de chaque profil d’expression. La distance entre deux gènes 𝑖 et est calculée avec l’équation :

𝑖

: paramètres du modèle KRR du gène 𝑖

: matrice diagonale* de dimension profils, de diagonale issue de la KRR. 𝑖 (Figure 12)

Seule la distance entre des profils d’expression partageant le même peut être calculée.

De ce fait, seuls des profils avec un égal sont comparables. Cependant si deux profils ont un différents, ils possèdent une évolution de l’expression au cours du temps très différente. Ils ne seraient pas regroupés dans le même cluster même en utilisant la première méthode de mesure de distance. Quatre clustering différents sont réalisés, un pour chaque .

Pour utiliser la méthode du clustering spectral un nombre de clusters doit être spécifié.

Comme le but de ce clustering est de regrouper seulement les profils d’expression très proches, le nombre de clusters idéal est sélectionné à l’aide de la distance intra-cluster. Le clustering spectral est réalisé pour différents nombres de cluster. La distance intra-cluster moyenne de chaque clustering est calculée :

𝐷 ∑ 2

𝑛 𝑛 ∑ ∑ 𝑖

𝑐

∈𝑐 𝑐

: nombre de clusters total 𝑐 : un cluster

𝑐 : nombre de profils dans le cluster 𝑖 et : profils d’expression du cluster 𝑖 : distance entre les profils 𝑖 et

En observant les résultats obtenus pour les différents clustering, on constate que jusqu’à une 𝐷 inférieure à 0,20 les clusters regroupent bien des gènes avec des profils d’expression très proches. Au-delà, certaines associations ne reflètent pas une réelle similarité d’expression (Figure 13). A partir du graphique représentant la 𝐷 en fonction du nombre de clusters, le nombre de clusters maximum possible est sélectionné. L’étape de clustering

(50)

(51)

spectral a permis de passer d’une dimension de 3 128 profils d’expression à une dimension de 1 835 clusters d’expression. Pour les étapes suivantes, le niveau d’expression d’un cluster correspond à l’expression du gène possédant la plus faible distance moyenne avec les autres gènes du cluster.

2.2.2. Inférence du réseau

Least Absolute Shrinkage and Selection Operator

Une fois la longueur des deux dimensions modifiées, il est possible de prédire l’expression d’un cluster en fonction de l’expression des autres clusters et ainsi mettre en évidence l’impact d’un cluster sur l’expression d’un autre. Pour cela la méthode LASSO est utilisée, il existe deux indicateurs de qualités (i) la MSE, (ii) le Degree of Freedom (DF). (i) La MSE d’un gène est donnée par la formule :

∑

: expression mesurée du gène au temps : expression de tous les gènes au temps : coefficients du gène j par rapport aux autres gènes

(ii) Le DF correspond au nombre de coefficients non nuls. C’est-à-dire au nombre de liens entre les clusters trouvés par le modèle. Le meilleur paramètre est celui qui minimise à la fois la MSE et le DF.

La méthode LASSO fournit de bons résultats pour des réseaux de petite dimension (une centaine de gènes). Même après une réduction du nombre de profils d’expression en les regroupant par clusters, le nombre de profils reste trop important. Une stratégie de bootstrap a été mise en place afin de pouvoir utiliser la méthode LASSO. Cette stratégie consiste à échantillonner un grand nombre de fois les données et à réaliser un LASSO pour chacun de ces échantillons. L’échantillonnage a lieu sur les deux dimensions : (i) échantillonnage sur les clusters, (ii) échantillonnage sur les temps. Le jeu de données a été échantillonné 1000 fois au total. Chaque échantillon contient 100 clusters, et 80% des points temps (200 points temps).

Les points temps échantillonnés sont continus, trois suites de points temps différents sont

(52)

Figure 14 : Matrices consensus issues de LASSO. Les résultats de LASSO de chaque echantillonnage sont seuillés avec le même . (A) Si passe à 0 sinon passe à 1. La matrice consensus illustre alors le nombre de fois qu’un lien est trouvé au total.(B) Si passe à 0, sinon garde la valeur de . La matrice consensus représente la somme des .