• Aucun résultat trouvé

CHAPITRE I INTRODUCTION

N/A
N/A
Protected

Academic year: 2021

Partager "CHAPITRE I INTRODUCTION"

Copied!
13
0
0

Texte intégral

(1)

CHAPITRE I INTRODUCTION

La recherche scientifique a pour principe de partir de l’observation pour aboutir, selon une méthode rigoureuse, à une création de connaissance. Chaque observation peut ainsi être exploitée pour comprendre le monde qui nous entoure, voire pour le rendre meilleur. Depuis quelques années, les progrès techniques ont permis l’accès à l’observation d’un nouvel univers : les gènes. Une quantité phénoménale d’informations est à présent accessible dans ces livres moléculaires, écrits par l’évolution et sans cesse remaniés, dans une langue qu’il nous a fallu déchiffrer. Il nous appartient aujourd’hui d’exploiter ces informations pour continuer à mieux comprendre le phénomène de la vie, de manière à l’aider et à l’exploiter de la meilleure manière possible.

1. L’EXPRESSION DES GENES 1.1. Matériel génétique

Toutes les cellules de tous les organismes vivants comportent une machinerie moléculaire, plus ou moins complexe, qui assure le maintien des fonctions vitales : le système génétique. Celui-ci se compose d’une grande quantité de molécules de différentes natures et tailles présentant chacune une fonction précise dans cette grande machinerie. Les acides nucléiques sont des macromolécules biologiques dont la structure même fournit toutes les informations nécessaires au développement et au maintien de la vie. L’ADN, ou acide désoxyribonucléique, est présent dans chaque cellule de chaque organisme et constitue le support de l’information génétique de celui-ci. Il se compose de sous-unités appelées

« nucléotides » constituées d’une base azotée de type « purine » (adénine, notée A, ou guanine, notée G) ou de type « pyrimidine » (cytosine, notée C, ou thymine, notée T), d’un sucre (le désoxyribose) et d’un groupe phosphate. Les nucléotides sont reliés par condensation, formant des macromolécules d’ADN « simple brin » qui s’associent par paire en ADN « double brin ». En effet, grâce aux propriétés chimiques des bases puriques et pyrimidiques, les acides nucléiques tels que l’ADN présentent une forte capacité à s’hybrider de manière spécifique en associant les paires de bases A avec T et C avec G. On retrouve l’ADN double brin dans les chromosomes des cellules de tous les organismes vivants et leur séquence de bases encode l’information nécessaire à la synthèse des protéines. L’ARN, ou 1

(2)

acide ribonucléique est similaire à l’ADN mais le désoxyribose est remplacé par le ribose et la thymine T par l’uracile U. Il présente également une grande capacité d’hybridation avec l’ADN simple brin. Ces deux biomolécules sont représentées à la Figure I.1.

a b

Figure I.1 : Structure des acides nucléiques. (http://www.genome.gov/) (a) ADN ; (b) ARN.

On appelle « génome » d’un organisme la séquence complète des bases dans l’ADN, présent dans chaque cellule, et « gènes » les portions de cette séquence contenant l’information nécessaire à la synthèse d’une protéine. Ceux-ci contiennent non seulement la séquence codant pour la protéine elle-même mais également les régions en amont et en aval de cette séquence nécessaires à la synthèse de cette protéine. Chez les « procaryotes », i.e. les organismes unicellulaires, tels que les bactéries, dont la structure cellulaire ne comporte pas de noyau, les gènes sont généralement continus dans l’ADN. Chez les « eucaryotes », i.e. les organismes soit unicellulaires, comme les amibes, soit pluricellulaires, comme les plantes et les animaux, l’ADN est confiné dans un noyau et les séquences de bases codantes (« exons ») d’un gène sont interrompues par des régions non codantes (« introns »). Les parties d’ADN non codantes sont regroupées sous le terme d’« ADN intercalaire ».

Le processus d’expression des gènes se décompose en deux étapes principales : la transcription de l’ADN et la traduction de l’ARN. Lors de la transcription, représentée à la Figure I.2, les gènes sont copiés sous forme d’ « ARN messager » (ARNm) par hybridation entre l’ADN et des nucléotides d'ARN de séquence complémentaire. Ces derniers sont alors assemblés par une protéine appelée « RNA polymérase ». Chez les eucaryotes, les ARNm subissent alors une étape d’ « épissage » consistant à éliminer les introns, de manière à ne conserver, dans le brin final d’ARNm que la séquence codant pour une protéine.

2

(3)

Figure I.2 : Représentation de la transcription de l’ADN (http://www.genome.gov/)

Ensuite, ces brins d’ARN peuvent soit être utilisés lors de l’étape de traduction pour la synthèse de protéines, soit interagir directement avec l’ADN, comme le font les plus petits brins d’ARN ou « microARN », notés miARN. Lors de l’étape de traduction, l’information contenue dans la séquence de ces ARNm permet d’ordonner les acides aminés nécessaires à la synthèse de la protéine pour laquelle le gène code. Cette synthèse est réalisée par des entités appelées « ribosomes », composées d’ARN et de protéines, qui se lient à l’ARN messager pour en lire la séquence de bases. Pour chaque « codon », composée de trois bases, un ARN de transfert (ARNt) comportant un « anticodon » de séquence complémentaire et lié à un acide aminé précis vient se fixer au complexe ribosome-ARNm. L’acide aminé ainsi apporté est alors fixé à la protéine en cours de synthèse. La correspondance entre les codons de la séquence d’ADN (ou d’ARN) et les acides aminés constitue le « code génétique ». La Figure I.3 illustre ce processus.

Figure I.3 : Représentation de la traduction de l’ARNm (http://www.genome.gov/)

3

(4)

1.2. Régulation de l’expression des gènes

On observe que le « transcriptome », constitué de l’ensemble des ARNm transcrits à partir du génome, n’est pas identique ni pour tous les gènes ni dans toutes les cellules mais varie selon l’environnement, la localisation de la cellule dans les tissus, le cycle cellulaire, le stade de développement de l’organisme, l’état sain ou pathologique de la cellule, etc. Pour expliquer ces différences, d’autres acteurs de l’expression des gènes doivent entrer en scène.

En effet, la transcription d’un gène peut être activée ou réprimée par des protéines appelées

« facteurs de transcription » qui se lient à l’ADN dans certains sites généralement en amont d’un gène pour en initier ou en empêcher la transcription. Ces protéines interagissent de manière coopérative et spécifique entre elles ou avec d’autres molécules. La Figure I.4 illustre un exemple du rôle de ces protéines dans la régulation de l’expression des gènes.

Figure I.4 : Exemple de réseau de régulation de l’expression de gènes (Gebert et al. 2006)

On observe sur cette figure que la protéine 1 a une action d’auto-activation sur le gène 1 qui code pour elle et une action de répression sur le gène 2. De plus, elle forme avec la protéine 2 un complexe qui permet d’activer l’expression du gène 3. Enfin, la protéine 3 exerce une action de répression sur le gène 1. On montre ainsi, pour un système simpliste de trois gènes, que l’expression des gènes est régie par ces facteurs de transcription selon un ensemble d’interactions, d’activation ou de répression, avec l’ADN.

D’autres interactions interviennent également dans la régulation de l’expression des gènes, telles que les interactions entre protéines, les interactions entre de petits brins d’ARN, ou « microARNs » et l’ADN, ou encore les interactions dites « génétiques », i.e. dont on ne connaît pas le mécanisme moléculaire ou qui sont la conséquence d’une cascade d’interactions moléculaires (Ingold 2002). Dès lors, la régulation de l’expression des gènes apparaît comme un réseau complexe d’interactions et de boucles de rétroactions dont la structure même est variable et dépend de nombreux facteurs.

4

(5)

2. CONTEXTE

Suite au séquençage de nombreux génomes, et notamment du génome humain, des techniques expérimentales, mathématiques et informatiques ont été développées dans le but d’identifier les gènes, de quantifier leur expression, d’étudier leurs interactions et d’analyser leur fonction. Ainsi, ces dernières années ont vu l’avènement de « l’ère post-génomique » qui a pour but d’arriver à comprendre les phénomènes biologiques à partir de l’analyse informatique des données issues de l’analyse des génomes (Kanehisa et al. 2000). Par ailleurs, ces techniques ont permis à une nouvelle discipline de voir le jour : la « biologie synthétique ». Dans cette discipline émergente, les systèmes biologiques des organismes vivants sont utilisés, voire modifiés de manière contrôlée, afin d’obtenir soit un produit d’intérêt, tel que des médicaments ou des biocarburants, soit une fonction biologique précise, telle que l’attaque spécifique de bactériophages sur des bactéries résistantes aux antibiotiques ou sur des cellules cancéreuses (Fritz et al. 2010). Le principe est ici de reprogrammer les cellules afin de contrôler leur comportement. Ce contrôle peut être réalisé au niveau génétique, pendant la transcription, pendant la traduction et après la traduction (Khalil &

Collins 2010). Une étape supplémentaire a récemment été franchie par la création d’une première cellule synthétique (Gibson et al. 2010). Le développement des différentes techniques de biologies synthétiques est rendu possible par la compréhension, la rationalisation, la modélisation et la prédiction des réseaux de régulation des gènes. En effet, la maîtrise de la modélisation de ces réseaux de régulation et l’identification des

« commandes » possibles et accessibles dans ces systèmes permet en principe d’envisager le contrôle direct de l’expression des gènes.

Dans ce contexte, une technologie attrayante s’est développée pour étudier l’expression des gènes : les puces à ADN. En se basant la capacité d’hybridation des acides nucléiques, elles permettent de quantifier simultanément l’expression de plusieurs milliers de gènes, voire du génome entier, en se basant sur une mesure des concentrations en ARNm. Le fonctionnement d’un type de puces à ADN est décrit à la section suivante. Le développement de cette technologie parmi d’autres et le nombre croissant de données disponibles sur la toile, dans des bases de données publiques, en font un outil puissant en matière d’étude de l’expression des gènes, ouvrant la voie vers de nombreuses perspectives, telles que l’étude des mécanismes de régulation génique, de la cinétique des phénomènes cellulaires, d’identification des fonctions de gènes inconnus, d’amélioration du diagnostic et du pronostic cliniques (Dopazo et al. 2001, Crowther 2002). Signalons toutefois que depuis le début de ce travail, les techniques expérimentales n’ont cessé de s’améliorer et des puces à ADN d’une nouvelle génération ont maintenant vu le jour.

5

(6)

3. LES PUCES À ADN

La technologie des puces à ADN mesure simultanément l’expression de plusieurs milliers de gènes dans un échantillon de cellules. Il existe plusieurs types de puces à ADN selon le support, la nature des fragments fixés à la surface, le mode de fabrication, la densité, le mode de marquage des cibles et les méthodes de fabrication (Le Meur 2005). Dans le cas des puces à ADN à « spots », étudiées dans ce travail, le taux d’expression est toujours exprimé par rapport à un échantillon de référence (Page et al. 2007). Pour l’étude de cellules pathologiques ou soumises à un stress, on choisit généralement des cellules saines ou dans des conditions normales comme référence de façon à mettre en lumière les gènes impliqués dans le changement d’état de la cellule, alors que pour l’étude du développement des organismes, on étudie des échantillons aux différents stades de développement soit en les comparant les uns aux autres (Azumi et al, 2007), soit par rapport à un mélange standardisé des échantillons de tous les stades (Arbeitman et al. 2002).

3.1. Principe de fonctionnement

Les puces à ADN sont des supports sur lesquelles sont liés chimiquement et de manière robotisée des brins d’ADN « sondes » du génome à étudier, chacun correspondant à un gène ou à un fragment de gène. Chaque brin d’ADN est copié plusieurs millions de fois par amplification PCR (Polymerase Chain Reaction ; cette technique permet le clonage d’un brin d’acide nucléique) à partir de sa séquence et les copies produites sont fixées regroupées sur la lame en « spots ». Actuellement, la capacité des puces à ADN est de plusieurs dizaines de milliers de spots, ce qui permet généralement d’attribuer un spot à chaque gène du génome à étudier et, si le nombre de gènes étudiés est inférieur à la capacité de la plaque, on se permet généralement une redondance de certains spots de façon à réduire les erreurs de mesure.

Signalons également qu’il existe d’autre types de puces à ADN, telles que les Gene-Chips, développées par la société Affymetrix®, pour lesquelles les brins d’ADN sondes sont synthétisés in situ, ce qui permet d’obtenir une densité plus importante de spots sur la lame.

Après la préparation de la puce vient celle des échantillons « cibles » à analyser. Pour cela, des échantillons de cellules provenant soit de tissus spécifiques soit d’organismes entiers, élevés de manière standardisée, sont isolés et mis en solution. Il est à noter que la technologie des puces à ADN requiert la comparaison de la mesure sur un échantillon cible à celle sur un échantillon de référence. Cette mesure simultanée des deux solutions se justifie notamment par le fait que lors de l’impression robotisée des spots sur la plaque, la quantité d’ADN déposée est assez variable d’un spot à l’autre. Dès lors, l’utilisation d’un échantillon de référence sur cette même plaque permet d’avoir une information quantitative de la différence réelle de concentration en ADNc dans les deux solutions, comparable d’un spot à l’autre. On extrait alors les molécules d’ARNm (ou parfois de miARN, voir chapitre II) des solutions de l’échantillon cible et de l’échantillon de référence. Ces molécules d’ARNm sont 6

(7)

ensuite soumises à une opération transcription inverse et marqué par des molécules fluorochromes, i.e. qui répondent par fluorescence à une sollicitation par un rayon laser, à des longueurs d’ondes différentes pour l’échantillon cible et celui de référence. Cette opération peut être réalisée soit directement à l’aide de nucléotides marqués par ces molécules fluorochromes, généralement la cyanine 3 (Cy3) et la cyanine 5 (Cy5), soit indirectement par un groupement permettant la fixation ultérieure des fluorochromes. Une fois ces nucléotides assemblés et le marquage effectué, on dispose de brins d’ADN dit « complémentaire », ou ADNc, dont la séquence de bases est précisément la séquence complémentaire de celle des ARNm présents dans l’échantillon cible et l’échantillon de référence. Or, les acides nucléiques s’hybrident aisément en présence de leur séquence complémentaire, ce qui est l’essence même de la transcription et de la réplication de l’ADN. Ainsi, en mettant ces deux solutions en contact avec la puce, les brins d’ADNc s’hybrident avec leurs complémentaires

« sondes » fixés sur la plaque et chaque spot voit une partie de ses brins d’ADN hybridés avec les ADNc marqués des échantillons. Notons enfin que si cette hybridation se fait de manière relativement spécifique, certains brins d’ADNc se fixent malgré tout à des brins d’ADN dont la séquence ne leur est pas parfaitement complémentaire, ce qui constitue une source d’erreur liée à cette technologie. Ce procédé est illustré à la Figure I.5.

Figure I.5 : Procédé de préparation des puces à ADN (Lin 2004)

Par la suite, on expose la plaque à un laser réglé successivement sur les longueurs d’ondes des marqueurs fluorescents Cy3 et Cy5 de façon exciter les ADNc marqués de l’échantillon cible et de celui de référence dans chacun des spots. Un scanneur mesure alors la réponse de la plaque, par fluorescence, à cette excitation et enregistre une image en niveaux de gris. Comme chaque spot contient plusieurs millions de répliques du même brin d’ADN

« sonde », le signal enregistré permet non seulement de déceler la présence des ADNc dans chacun des spots mais également d’obtenir une information quantitative sur leur

7

(8)

concentration, laquelle correspond à celle des ARNm dans les échantillons. Ces images sont alors converties en valeurs numériques par un traitement informatique décrit à la section 3.2.

Finalement, en colorant artificiellement les images des réponses à ces deux excitations en vert pour le marqueur Cy3 et en rouge pour le marqueur Cy5 et en les superposant, on obtient une image représentant les taux d’expression des gènes de l’échantillon étudié par rapport à l’échantillon de référence. Ainsi, un spot vert indique que le gène correspondant est plus exprimé dans l’échantillon marqué par le Cy3 que dans celui marqué par le Cy5, un spot rouge indique le contraire tandis qu’un spot jaune désigne un gène exprimé de la même manière dans les deux échantillons. Cette étape est illustrée à la Figure I.6.

Figure I.6 : Principe d’acquisition de données par la technologie des puces à ADN (Duggan et al. 1999)

3.2. Traitement des données

Pour pouvoir exploiter l’information contenue dans l’image acquise par le scanneur laser dans les deux longueurs d’ondes de travail, un traitement informatique doit être appliqué aux données mesurées de manière, d’une part, à réduire les différents bruits de mesure, les erreurs systématiques liées à la technologie et les faux positifs et, d’autre part, à convertir l’image en valeurs numériques.

La première étape consiste à définir sur l’image acquise une grille dont chaque maille correspond à un spot et à filtrer celle-ci de façon à éliminer les spots défectueux, mal imprimés, de forme trop peu circulaire ou placés à un mauvais endroit, etc. Par la suite, on quantifie les niveaux de gris de l’image en enregistrant pour chaque spot la valeur médiane du signal lumineux et la valeur du bruit de fond local autour du spot, lequel provient principalement du bruit de mesure du scanneur laser et de l’hybridation de brins d’ADNc sur 8

(9)

les spots imprimés hors des emplacements prévus. Une seconde étape de filtrage vient ensuite éliminer les spots pour lesquels le rapport signal/bruit est inférieur à un seuil prédéfini. On enregistre alors la différence entre l’intensité médiane du spot et l’intensité du bruit de fond local dans les deux longueurs d’onde (rouge/vert), i.e. dans l’échantillon cible et dans l’échantillon de référence. En notant g et gref l’intensité médiane des signaux dans l’échantillon cible et celui de référence pour le gène g, et g et grefl’intensité du bruit de fond local dans ces mêmes échantillons, on définit les intensités effectives g et gref des signaux pour le gène g :

ref ref ref

g g g

g g g

  

  

  



 



(I.1)

Enfin, vient la normalisation des intensités effectives g et gref visant à éliminer les erreurs systématiques liés à la technologie des puces à ADN tels que la variabilité de la quantité d’ADN imprimé dans chaque spot ou le déséquilibre entre l’intensité du signal correspondant à un des deux marqueurs fluorescents par rapport à l’autre. En effet, les deux marqueurs fluorescents Cy3 et Cy5 présentent des différences qui induisent un écart systématique entre les signaux dans leur longueur d’onde respective. Celui-ci est dû, entre autres, à la différence de rendement du marquage des ADNc, issue notamment de la différence d’encombrement stérique lié à ces deux molécules et de la différence de leur demi- vie. Le facteur de normalisation est calculé de manière à ce que l’intensité moyenne des spots soit en moyenne la même dans les deux canaux. Ce calcul peut se faire soit, quand cela est possible, à partir des gènes dont on sait qu’ils sont exprimés de la même façon dans les deux canaux, soit à partir de tous les gènes de la puce.

L’information recherchée dans ce type d’expérience est la comparaison des concentrations en ARNm, pour chaque gène g, dans l’échantillon cible et dans celui de référence. En notant [ARNm ]g la concentration en ARNm du gène g, le rapport Yg de ces grandeurs constitue le taux d’expression du gène g :

ref

[ARNm ] [ARNm ]

g g

g

Y  (I.2)

Pour obtenir une estimation de ce rapport, il est nécessaire de formuler mathématiquement la relation qui existe entre la concentration en ARNm présent dans un échantillon et l’intensité du signal mesurée par fluorescence. En effet, les puces à ADN fonctionnent de manière telle que les molécules d’ADN complémentaire provenant des ARNm présents dans l’échantillon viennent s’hybrider sur les brins d’ADN fixés sur les puces par un phénomène qui peut être comparée à de l’adsorption. Ainsi, on peut observer une saturation du signal mesuré lorsque tous les brins d’ADN d’un spot d’une puce sont

9

(10)

« occupés » et la relation entre la concentration en ARNm et l’intensité mesurée n’est plus linéaire. Plusieurs relations mathématiques non linéaires classiques peuvent modéliser ce phénomène de saturation.

Tout d’abord, un choix courant dans la modélisation de phénomènes d’adsorption est l’isotherme de Langmuir.

max L L

[ARNm ]

1 [ARNm

g

g g

g] k

  k

 (I.3)

gmax et kL sont des paramètres dépendant du signal et qu’il faut estimer pour chaque gène g.

Plusieurs travaux ont été réalisés afin de valider cette formulation mathématique dans le cas de l’hybridation sur les puces à ADN (Burden et al. 2004, Held et al. 2003, Hekstra et al.

2007, Zhang et al. 2003). Toutefois, on constate que dans l’équation (I.3), l’intensité s’annule avec la concentration. Or, on sait qu’une partie des molécules d’ADN de l’échantillon étudié s’hybrident de manière non spécifique, c’est-à-dire qu’ils se fixent sur les brins d’ADN sur la puce qui correspondent à d’autres gènes de séquence proche, et ce, indépendamment du bruit de fond corrigé en I.1. Dès lors, si l’on tient compte de ce phénomène, ce modèle peut être complété, comme le suggèrent Abdueva et al. (2007), par un terme ηg représentant le bruit de fond de chaque signal lié à l’hybridation non spécifique. L’équation (I.4) devient alors :

max L L

[ARNm ] 1 [ARNm ]

g

g g

g

k

k g

 

  (I.4)

où ηg est un paramètre de bruit du signal, correspondant à l’hybridation non spécifique.

Enfin, on peut également envisager de modéliser la saturation observée dans l’hybridation des molécules d’ADN sur les puces à ADN par une relation du type Beer- Lambert, qui modélise également un signal obtenu par fluorescence :

L[ARNm ]

max 1 k g

g g e

   (I.5)

où gmaxet kL sont des paramètres qui diffèrent selon le signal, i.e. selon le gène g.

Toutefois, si les valeurs de concentrations sont suffisamment faibles et si l’on néglige le terme ηg représentant le bruit de fond de chaque signal, on peut alors supposer que la relation entre la concentration en ARNm et l’intensité du signal mesurée par fluorescence est dans sa plage de linéarité. On considère ainsi une version approchée des modèles (I.3) à (I.5).

max

L[ARNm ] si [ARNm ]L 1

g g k g k g

   (I.6)

10

(11)

Notons que dans le cas des puces à ADN, l’intensité du signal mesurée par fluorescence est proportionnelle au nombre de réplicas de gènes présents dans chaque spots. Ainsi, deux gènes co-exprimés pourront présenter une intensité de signal différente si le nombre de leurs réplicas dans leurs spots respectifs sont différents. C’est pourquoi les mesures sont ici toujours rapportées à celles obtenues avec un échantillon de référence sur la même plaque.

Etant donné que les concentrations en ARNm dans les échantillons étudiés avec des puces à ADN sont assez faibles, cette approximation est généralement valable (Hekstra et al.

2007). Notons toutefois que les modèles (I.3) à (I.6) ne sont en réalité valables qu’en situation d’équilibre thermodynamique. Or, en pratique, les puces ne sont en contact avec les échantillons d’ADNc que pendant un temps limité et l’équilibre n’est généralement pas atteint (Halperin et al. 2004). Par ailleurs, il a été montré que la densité des brins d’ADN « sondes » sur les puces à ADN influence fortement l’hybridation des brins d’ADNc et fausse par conséquent les modèles purement thermodynamiques développés autour de l’hybridation dans les puces à ADN (Peterson et al. 2001). Enfin, Skvortsov et al. 2007 ont également mis en évidence que la désorption des brins d’ADNc lors du rinçage de la puce à ADN influence de manière significative les différences observées pour les niveaux de saturation en ADNc sur les puces.

On choisit, dans ce travail, d’accepter l’hypothèse de linéarité de la relation entre l’intensité mesurée par puces à ADN et la concentration relative en ARNm, représentée par l’équation (I.6), comme cela est couramment fait dans ce domaine (de la Fuente et al. 2002).

De cette hypothèse découle le fait que les rapports Yg de concentrations relatives (échantillon/référence) en ARNm peuvent être approchés par les rapports d’intensités relatives des signaux fluorescents.

max L

ref ref

ref max ref

L

[ARNm ] [ARNm ]

Si alors,

[ARNm ] [ARNm ]

g g g g g

g

g g

g g g

k Y

k

  

  

 

  

 

 (I.7)

Pour des raisons pratiques, on utilise souvent le logarithme (en base 2) du taux d’expression relatif Yg. On parle alors du niveau d’expression yg en échelle logarithmique défini comme :

 

log2

g g

yY (I.8)

Cette formulation simplifie la comparaison de l’expression des gènes dans les échantillons étudiés. En effet, on considère généralement qu’un gène est significativement plus exprimé dans l’échantillon cible que dans celui de référence si la Yg > 2 (ce qui correspond à un facteur 2 entre les concentrations en ARNm dans l’échantillon cible et dans celui de référence), c’est-à-dire si yg > 1. Inversement, on considère qu’un gène est significativement moins exprimé dans l’échantillon que dans la référence si yg < –1, c’est-à-dire si la

11

(12)

concentration en ARNm dans l’échantillon cible est inférieure à la moitié de celle dans l’échantillon de référence. En outre, le passage en échelle logarithmique permet de rendre additives des erreurs qui étaient multiplicatives, ce permet une exploitation plus aisée des données (Durbin & Rocke 2003).

Signalons enfin que des efforts ont été réalisés afin de corriger les niveaux d’expression pour tenir compte de l’effet de saturation dans les puces à ADN (Dodd et al.

2004) ainsi que pour extraire des mesures l’expression absolue des gènes étudiés plutôt que de mesurer des taux d’expression relatifs à un échantillon de référence (Herska et al. 2003, Zhao et al. 2007, Gene-Chips d’Affymetrix®(1)).

Les données obtenus par puces à ADN sont généralement stockées dans des bases de données librement accessibles, principalement NCBI Gene Expression Omnibus ou GEO (2) et Stanford Microarray Database ou SMD (3), accompagnés de nombreuses informations sur l’organisme étudié (éventuellement sous forme de liens vers d’autres bases de données spécifiques à l’organisme étudié), les conditions expérimentales, le matériel utilisé et les différentes étapes de traitement des données.

3.3. Séries temporelles

A l’origine, la technologie des puces à ADN était statique et ne permettait que de mesurer les taux d’expression relatifs des gènes dans deux conditions stables. Aujourd’hui, la diminution du coût et le développement technique de cette technologie permettent la prise de mesures à intervalles rapprochés sur un même échantillon, ouvrant ainsi la voie à la mesure de séries temporelles retraçant l’évolution dans le temps de l’expression des gènes d’un système.

On étudie par exemple l’évolution de l’expression des gènes au cours du développement de divers organismes, dans des cellules pathologiques, dans des systèmes cellulaires où l’on force la répression d’un gène particulier ou encore dans des cellules soumises à un médicament, à un stress thermique, etc. (Bar-Joseph 2004a). Au 31 juillet 2007, soit au début de ce travail, la base de données (GEO) recensait 6157 séries temporelles issues de puces à ADN. Au 20 avril 2011, on y trouve 22 402 séries temporelles de données issues de cellules d’organismes allant de la bactérie à l’homme. Grâce de ce type de données, le comportement dynamique de la régulation de l’expression des gènes peut maintenant être plus facilement étudié (Dewey 2002).

(1) http://www.affymetrix.com

(2) http://www.ncbi.nlm.nih.gov/geo

(3) http://smd.stanford.edu

12

(13)

13 4. OBJECTIFS DU TRAVAIL ET STRUCTURE DE LA THÈSE

La démarche suivie au cours de ce travail consiste à concevoir et utiliser des méthodes et modèles mathématiques qui exploitent et reproduisent les séries temporelles issues de puces à ADN de manière à rationaliser et modéliser les réseaux de régulation de l’expression des gènes. L’objectif poursuivi est ici une meilleure compréhension des processus biologiques contrôlant l’expression des gènes lors du développement de l’organisme ou lorsque l’organisme est soumis à une perturbation extérieure. Dans ce travail, nous nous focalisons essentiellement sur des séries représentant le développement d’eucaryotes supérieurs mais également sur celles décrivant la réponse de bactéries à une perturbation externe et de levures au cours du cycle cellulaire. Cette thèse se compose de cinq parties.

Au chapitre II, une recherche des données disponibles dans les bases de données publiques a été réalisée afin de guider notre choix des systèmes biologiques à étudier. Le système principal choisi est le développement de la drosophile du stade embryonnaire au stade adulte (Arbeitman et al. 2002). D’autres données, telles que la réponse d’organismes soumis à une perturbation extérieure, sont également décrits.

Au chapitre III, nous avons investigué si les changements de stades de développement ou la présence d’une perturbation extérieure étaient détectables sur la base des profils d’expression des gènes uniquement. Deux méthodes de détection de ces évènements ont été proposées et utilisées sur plusieurs cas d’études décrits au chapitre II. Ces résultats font l’objet d’un article soumis (Rooman et al. 2011).

Ensuite, en raison des dimensions du problème que constitue l’analyse de ces données d’expression de milliers de gènes et de l’impossibilité de distinguer le rôle dans la régulation des gènes qui présentent les profils d’expression similaires, il s’est avéré nécessaire de classer les gènes sur la base de la similarité de leurs profils d’expression. Plusieurs méthodes de classification sont décrites et appliquées au chapitre IV.

La modélisation du réseau de régulation génique de la drosophile constitue le chapitre V et le cœur de cette thèse de doctorat. Plusieurs structures de modèles, linéaires puis non linéaires, et méthodes d’estimation et de réduction paramétriques y sont décrites et utilisées sur les données d’expression de la drosophile. Ces méthodes de modélisation ont ensuite été appliquées à un sous-ensemble de 20 gènes impliqués dans le développement musculaire de la drosophile et pour lesquels 36 interactions ont été validées expérimentalement, ainsi que sur des profils synthétiques, générés à partir de paramètres aléatoires et bruités par la suite. Les résultats sur les modèles linéaires ont été publiés dans un article (Haye et. al 2009) et deux comptes rendus de conférences internationales (Haye et. al 2008 et 2010) et les résultats sur les modèles non linéaires font l’objet de deux nouveaux articles en préparation.

Enfin, la discussion des résultats et des perspectives des méthodes développées conclut ce travail transdisciplinaire au chapitre VI.

Références

Documents relatifs

ment la région de chromosome humain que l'on souhaite étudier (en plus de chromosomes de hamster, bien sûr) on construit une très bonne banque de cosmides..

 Génomique comparative (comparaison de la seq d’ADN du gène à celle d’autres gènes du même organisme ou d’organismes différents); prédire la fonction du gène à partir

Une des applications principales de l’utilisation des données de génomique dans le domaine des productions ani- males, est la Sélection Assistée par Marqueurs (SAM), ou Marker

Trace écrite : Les élèves réalisent le schéma des deux circuits et notent ce qu’il faut retenir de la notion de circuits dérivé et série. Trace écrite : Les élèves réalisent

Au niveau des alvéoles pulmonaires, le dioxygène de l’air inspiré passe dans le sang, le dioxyde de carbone et l’eau (déchets) passent du sang vers l’air expiré.. 

Répétez 3 fois la phrase de préparation en tapotant votre point de karaté ou en massant votre point sensible, tout en restant concentré sur votre problème.. Même si j'ai «

To better estimate the parameters of the multiple putative QTLs detected with the non parametric method, we then selected from the whole dataset markers, 2138

Nous montrons (i) que les différentes régions régulatrices apportent des informations diffé- rentes et complémentaires et (ii) que la seule information de leur composition