• Aucun résultat trouvé

2.2 Catalogue et caractérisation des ARNm, des microARN et de leurs inter-

2.2.2 Les microARN

Dénitions

Nous distinguerons un gène de microARN, un précurseur de microARN et un mi-croARN mature comme suit :

 Gène de microARN : c'est la position de début et de n sur le génome de la séquence codant pour un précurseur de microARN ;

 Précurseur de microARN : c'est la séquence d'ARN qui est transcrite à partir du gène du microARN et qui se replie en une structure en tige-boucle ;

 MicroARN matures 5p et 3p : ce sont les microARN qui vont se xer sur le 3'UTR de l'ARNm et potentiellement réprimer sa traduction ou induire son clivage. Ils sont tous deux issus de la tige du précurseur du microARN. Les microARN ma-tures 5p et 3p sont respectivement situés en amont et en aval de la boucle du précurseur.

Deux gènes diérents (à des positions diérentes sur le génome) peuvent présenter la même séquence et donc produire le même précurseur.

Les noms des microARN sont constitués de plusieurs parties, toutes séparées par un  - , comme par exemple api-mir-1-5p :

 La première partie représente l'espèce, ici  api  pour Acyrthosiphon pisum ;  La deuxième partie est soit  mir  pour un précurseur soit  miR  pour un

microARN mature ;

 La troisième partie représente le numéro du précurseur de microARN associé. Si la séquence du précurseur a déjà été identiée dans une autre espèce (donc est présente dans la base de données miRBase), alors le numéro sera identique à celui de l'autre espèce. Sinon ce numéro est incrémental à partir d'un numéro qui n'est pas présent dans la base miRBase ;

 La quatrième partie est spécique aux microARN matures. Les noms seront suivis par  -5p  et  -3p  respectivement pour les microARN matures 5p et 3p. À noter que ici, les gènes de microARN qui sont nouvellement identiés par les nouveaux jeux de séquençage chez A. pisum porteront comme identiant  novelX  avec X allant de 1 au nombre maximum de nouveaux gènes identiés. Par exemple, api-mir-novel2 est le deuxième nouveau gène de microARN identié chez A. pisum avec les nouveaux jeux de données. Il a été décidé de prendre cette notation car cela permet de ne décider de la numérotation nale uniquement au moment de son intégration eective de miRBase. À noter que les gènes précédemment identiés et qui sont spéciques à A. pisum portent un identiant supérieur à 3000 donné par miRBase.

Il existe des cas particuliers où des précurseurs de microARN diérents produisent des microARN matures avec des séquences identiques ou proches. MiRBase [23] fournit un ensemble de règles pour discriminer ces diérents cas :

 Si des précurseurs sont identiques et que les gènes associés sont à des positions diérentes ou que les précurseurs sont diérents mais que les microARN matures ont des séquences strictement identiques, alors les précurseurs auront le même numéro mais seront diérenciés par l'ajout en n de nom d'un  -  suivi par un numéro ;

 Si des précurseurs diérents ont des microARN matures avec des séquences proches, alors les précurseurs porteront le même numéro mais seront diérenciés par une lettre en n de nom.

Par exemple, les précurseurs api-mir-3051-1 et api-mir-3051-2 ont des séquences dif-férentes mais les microARN matures api-mir-3051-1-5p et api-mir-3051-2-5p ont des séquences identiques, de même pour api-mir-3051-1-3p et api-mir-3051-2-3p. Les pré-curseurs api-mir-263a et api-mir-263b ont des séquences diérentes et les séquences de mir-263a-5p et mir-263b-5p sont proches, de même pour mir-263a-3p et api-mir-263b-3p. Les précurseurs de microARN avec le même numéro sont dénis comme étant de la même famille. Ici api-mir-3051-1 et api-mir-3051-2 font partie de la même famille.

Pour dénir si deux séquences de microARN matures sont proches, aucune règle stricte n'étant fournie par miRBase, nous avons déni les règles suivantes. Deux mi-croARN matures diérents ont des séquences dites proches si :

 Leurs nucléotides aux positions allant de 2 à 7 sont identiques, positions qui correspond classiquement à la dénition de la graine du microARN ;

 Sur le reste des microARN matures, seulement deux délétions, insertions et/ou mésappariements existent au maximum après alignement des microARN matures. Ces règles ont été dénies pour avoir une notion  fonctionnelle  dans les familles, c'est à dire que deux microARN matures issus d'une même famille cibleront potentiellement les mêmes ARNm. À noter que, contrairement à la convention de miRBase, il a été décidé de se référer aux microARN matures par la notation  mir  et non pas  miR . La notation avec et sans majuscule est utilisée pour ne pas confondre le pré-microARN et le microARN mature, mais ici nous nous référerons au microARN mature en ajoutant toujours  -5p  ou  -3p  ce qui empêche la confusion entre précurseur et mature.

Catalogue et caractérisation des ARNm, des microARN et de leurs interactions 47 Identication des gènes, précurseurs et molécules matures de microARN et de leurs familles

Pour identier les gènes de microARN, le logiciel miRDeep2 [103] a été utilisé par Fabrice Legeai. Pour ce travail, l'annotation des gènes de microARN d'Acyrthosiphon pisum s'est basée sur les séquences des petits ARN des 63 banques obtenues au labora-toire (voir 2.1.2).

À partir de ce jeu de données, miRDeep2 prédit un ensemble de 445 gènes codant pour des microARN. Seulement 401 des précurseurs associés à ces gènes possèdent une structure secondaire conforme avec la structure secondaire en tige-boucle des pré-microARN, c'est-à-dire avec une probabilité obtenue par randfold inférieure à 0,05. Il a donc été décidé de ne garder que ces 401 gènes de microARN pour la suite de l'analyse. Ces 401 gènes correspondent à 329 séquences de précurseurs et produisent 288 séquences uniques de microARN matures 5p et 285 séquences uniques de microARN matures 3p (573 séquences de microARN matures au total). Sur l'ensemble de ces 401 gènes, 39 (∼10 %) sont des gènes déjà connus pour d'autres espèces et 362 sont des gènes de mi-croARN identiés spéciquement chez A. pisum. Sur ces 362 gènes, 40 (∼11 %) étaient déjà identiés dans Legeai et al. [81] et 322 ont été identiés à l'aide de ces nouveaux jeux de séquençage. Le pourcentage peu élevé de gènes de microARN identiés chez d'autres espèces peut s'expliquer par les critères plus stricts utilisés ici pour dénir la similarité entre deux gènes/précurseurs de microARN que ceux potentiellement utilisés par miRBase. À noter que les microARN api-mir-let-7 et api-mir-bantam sont retrouvés, même avec nos critères plus stricts.

Parmi les espèces du phylum Hexapoda présentes dans la base de données miRBase (ver. 20) [23] et en se basant sur le dernier catalogue, A. pisum se place parmi les espèces possédant un nombre important de microARN matures uniques. Le Tableau 2.3 montre le nombre de séquences uniques de précurseurs de microARN et de microARN matures 5p et 3p pour Acyrthosiphon pisum et certaines espèces du phylum du puceron du pois (Hexapoda) issue de miRBase.

espèces nombre de précurseur nombre de microARN ma-tures

Acyrthosiphon pisum 401 573 Bombyx mori 489 567 Tribolium castaneum 220 430 Drosophila melanogaster 238 426 Drosophila pseudoobscura 210 273 Aedes aegypti 101 124 Anopheles gambiae 67 65

Tableau 2.3  Nombre de séquences uniques de précurseurs et de microARN matures 5p et 3p pour plusieurs espèces du phylum Hexapoda. Données issues de miRBase [23]. Au sein du phylum Hexapoda, les nombres de séquences uniques pour les précur-seurs de microARN et pour les microARN matures sont variables, ce qui peut reéter soit des niveaux d'annotation des microARN de qualités diérentes dans les espèces citées, soit des diérences biologiques encore non expliquées. Cependant, on peut faire

l'hypothèse que le génome de D. melanogaster est bien annoté alors qu'il présente un nombre inférieur de microARN comparé au puceron du pois. Cette diérence pourrait s'expliquer par un niveau de duplication des gènes chez A. pisum plus élevé (voir plus loin partie 2.2.2).

Familles des gènes de microARN Sur les gènes de microARN d'A. pisum, 200 gènes sur les 401 (50 %) se répartissent sur 66 familles avec au moins deux gènes. La Figure 2.4 présente la répartition des 200 gènes dans les 66 familles. Sur ces 66 familles, 63 (95 %) sont constituées de microARN identiés uniquement chez A. pisum. Les trois familles avec des gènes connus sont les familles api-mir-2, api-mir-92 et api-mir-263 toutes trois constituées de deux gènes de microARN. Ces trois familles existent aussi chez d'autres espèces, comme D. melanogaster. Le Tableau présente aussi la répartition en familles pour les gènes de microARN chez D. melanogaster, basée sur les microARN annotés dans miRBase. On peut voir que la proportion de gènes au sein d'une famille chez D. melanogaster est largement inférieure à celle chez A. pisum (30 gènes sur 238 (∼13 %) contre 50 %), et que les nombres de familles dièrent (12 contre 66). De plus la diversité dans les tailles des familles chez A. pisum est supérieure à celle de D. melanogaster. Les diérences en nombre de familles, en nombre de gènes impliqués dans des familles et sur la taille des diérentes familles pourrait être expliquées par un duplication importante des gènes de microARN après la spéciation entre les deux branches évolutives correspondant à A. pisum et D. melanogaster. Deux faits supportent cette hypothèse. D'une part 95 % des familles sont constituées de gènes identiés pour l'instant uniquement chez le puceron du pois, et d'autre part il a été montré qu'un grand nombre de gènes codant pour des protéines ont été dupliqués chez le puceron [15]. On peut donc faire l'hypothèse que cette duplication a aussi eu lieu pour les gènes de microARN.

espèce Acyrthosiphon pisum Drosophila melanogaster

taille nombre de familles nombre de gènes nombre de familles nombre de gènes

2 30 60 8 16 3 20 60 3 9 4 7 28 0 0 5 4 20 1 5 6 4 24 0 0 8 1 8 0 0 total 66 200 12 30

Tableau 2.4  Répartition des gènes de microARN appartenant à des familles d'au moins deux gènes chez Acyrthosiphon pisum et D. melanogaster.

Localisation génomique des gènes de microARN

Classication des positions de gènes de microARN On rappelle ici que les positions génomiques des gènes de microARN peuvent être séparées en deux classes principales :

Catalogue et caractérisation des ARNm, des microARN et de leurs interactions 49  Intergénique : le gène du microARN est situé entre deux gènes d'ARNm ;

 Intragénique : le gène du microARN est situé au sein d'un gène d'ARNm. Par la suite on appellera  ARNm hôte  ou  gène hôte  des ARNm ou gènes contenant un ou plusieurs gènes de microARN.

Un gène de microARN intragénique sera sous le même contrôle transcriptionnel que son gène hôte. Un gène de microARN intergénique sera sous le contrôle transcriptionnel de sa propre séquence promotrice. Pour les gènes de microARN intragéniques, on peut s'attendre à ce que ces gènes de microARN et leur gène d'ARNm hôte soient co-exprimés car ils seront transcrits ensemble.

On distingue deux sous-classes de gènes de microARN intragéniques :  Intronique : le gène du microARN est situé dans un intron du gène hôte ;  Exonique : le gène est situé dans un exon du gène hôte.

Le Tableau 2.5 résume la classication intergénique, intronique et exonique des 401 gènes de microARN pour Acyrthosiphon pisum.

position du gène du microARN nombre de gènes de microARN

intergénique 253

intronique 102

exonique 46

total 401

Tableau 2.5  Classication des 401 gènes de microARN intergéniques, introniques ou exoniques, chez A. pisum.

Sur les 401 gènes de microARN, 63 % des gènes sont intergéniques, 25 % des gènes sont introniques et 12 % des gènes sont exoniques. Comme attendu, la majorité des gènes est localisée au niveau intergénique ou intronique (88 %). La répartition des localisations observée est en accord avec la répartition de l'ancienne annotation des microARN obtenue sur le puceron du pois avant le début de ce travail [81]. Néanmoins, la proportion de gènes de microARN exoniques est supérieure à celle observée chez d'autres espèces [36, 111, 112, 113].

Clusters de microARN Les gènes de microARN sont parfois regroupés en clusters dans un même environnement génomique. On appelle cluster génomique de microARN un ensemble de gènes de microARN qui se suivent sur le génome à des positions géno-miques proches. Les gènes de microARN appartenant au même cluster sont des gènes qui sont potentiellement sous le contrôle du même promoteur et qui peuvent être trans-crits au sein du même pri-microARN polycistronique [114, 115]. Les microARN matures provenant de ces diérents gènes clusterisés sont donc potentiellement co-exprimés.

Pour annoter ces clusters de gènes de microARN du puceron du pois, l'outil cluster de la suite d'outils bedtools [107] a été utilisé (partie 2.1.3 pour plus de détails). Une distance seuil maximale entre deux gènes consécutifs de microARN de 2kb a été utilisée et les gènes de microARN ont de plus été regroupés uniquement s'ils étaient sur le même brin génomique. Le Tableau 2.6 présente le nombre de clusters de microARN en fonction du nombre de gènes de microARN présents dans les clusters obtenus avec l'outil cluster. Sur l'ensemble des 401 gènes, 207 gènes de microARN (51,6 %) sont répartis dans 52 clusters. Ces clusters ont une taille génomique moyenne de 2,2 kb et sont constitués

taille des clusters en nombre de gènes nombre de clusters 2 gènes 21 3 gènes 10 4 gènes 5 5 gènes 6 6 gènes 6 7 gènes 1 12 gènes 1 14 gènes 1 16 gènes 1 total 52

Tableau 2.6  Nombre de clusters de microARN en fonction du nombre de gènes de microARN présents dans les clusters pour Acyrthosiphon pisum. Il faut noter que certains clusters peuvent ne pas avoir été identiés ou être incomplets si un gène ou un cluster est à l'une des extrémités d'un scaold.

en moyenne de 4 gènes. La majorité des clusters regroupent entre 2 et 6 gènes avec plus de la moitié des clusters qui incluent 2 ou 3 gènes. Le nombre de gènes de microARN en cluster est supérieur à celui trouvé chez d'autres espèces animales où le pourcentage de gènes de microARN en cluster est au maximum de 40 % [116].

An de comparer les clusters obtenus sur Acyrthosiphon pisum avec ceux d'une autre espèce, le même protocole a été appliqué à Drosophila melanogaster. La Figure 2.5 présente l'histogramme comparatif entre le nombre de clusters en fonction du nombre de gènes de microARN au sein du cluster pour A. pisum et Drosophila melanogaster en appliquant le même protocole (avec les données de miRBase [23]).

Sur l'ensemble des 238 gènes de microARN de Drosophila melanogaster, la répartion des gènes en clusters est diérente avec 70,6 % qui sont en singleton (pas dans un cluster) et 29,4 % repartis dans un total de 22 clusters. De la même façon que pour le puceron du pois, plus de la moitié des clusters regroupent 2 ou 3 gènes de microARN. Néanmoins, les clusters de taille plus importante sont en plus petit nombre avec seulement 1 cluster pour chacune des tailles de 4 gènes, 5 gènes et 6 gènes pour Drosophila melanogaster contre 6 clusters en moyenne pour les mêmes tailles de gènes chez Acyrthosiphon pisum. De plus, il n'y a pas de cluster de  grande taille  (clusters de taille 12, 14, et 16 Tableau 2.6 et Figure 2.5). An d'observer les spécicités de ces 3 clusters de  grande taille  du puceron du pois, les alignements multiples des séquences des gènes de microARN contenus dans ces clusters sont présentés Figure 2.6, 2.7 et 2.8 respectivement pour les clusters de taille 12, 14 et 16. Les alignements ont été obtenus en utilisant ClustalW [117, 118].

Pour les gènes de microARN du cluster de taille 12, on peut voir la présence de deux familles complètes, api-mir-novel14 (quatre gènes) et api-mir-novel10 (deux gènes) et que de plus les séquences entre ces familles sont très proches. mir-novel188 et mir-novel117 ont eux des séquences très proches de la famille mir-novel14 et api-mir-novel202 a lui une séquence qui s'approche de celle de la famille api-mir-novel10. Les trois autres gènes n'ont pas de grande similarité avec les autres séquences. À noter que le gène api-mir-3032b fait partie d'une famille où il y a un autre gène, api-mir-3032a

Catalogue et caractérisation des ARNm, des microARN et de leurs interactions 51 0 10 20 30 40 50

Nombre de gènes de microARN présents dans le cluster

P

ourcentage du nombre de clusters (%)

2 3 4 5 6 7 8 9 10 12 14 16

A. pisum D. melanogaster

Fig. 2.5  Histogramme du pourcentage du nombre de clusters en fonction du nombre de gènes de microARN au sein des clusters. En bleu le nombre de clusters pour A. pisum et en rouge le nombre de clusters pour D. melanogaster.

mais que ce gène est sur un autre scaold.

Sur le cluster de taille 14, trois familles sont complètes : api-mir-novel38 (trois gènes), api-mir-novel16 (trois gènes) et api-mir-novel33 (quatre gènes) avec une très grande similarité de séquence entre ces trois familles. Le précurseur api-mir-novel58 n'a que deux substitutions, présentes dans le mature 3p, avec ceux de la famille api-mir-novel33. Le précurseur api-mir-novel29a-2, lui aussi avec une séquence proche des précurseurs précédents, est le seul représentant de sa famille, qui est constituée de quatre gènes. Le seul autre gène de cette famille aussi présent sur ce cluster est api-mir-novel29b-2, mais ce gène se situe à une distance de 3.199 nucléotides de la n du cluster de taille 14, distance supérieure au seuil utilisé pour obtenir ces clusters (pour rappel 2.000 nucléotides). Les deux derniers microARN, api-mir-novel21a-1 et api-mir-novel21a-4 font partie de la même famille qui est constituée de six gènes. Les quatre autres gènes de la famille sont présents sur le même scaold mais à une distance de 6.784 nucléotides du cluster.

Le dernier cluster de grande taille, celui de 16 gènes, n'est constitué que de familles complètes : api-mir-3055 (cinq gènes), api-mir-novel41 (quatre gènes), api-mir-novel43 (six gènes). Il n'y a que api-mir-novel195, qui n'appartient à aucune famille. Les

sé-mature-5p boucle

10. 20. 30.

api-mir-novel14b-2 .TGGTGGAAAATTTAGA..CTTTAGTCTTTTTATGGTTAT 37 api-mir-novel14b-3 .TGGTGGAAAATTTAGA..CTTTAGTCTTTTTATGGTTAT 37 api-mir-novel14b-1 .TGGTGGAAAATTTAGA..CTTTAGTCTTTTTATGGATAT 37 api-mir-novel14a .TGGTGGAAAATTTAGA..CTTTAGTCTTTTTATGATTAT 37 api-mir-novel188 .TGGTGGGAAATCTTGA..CTTTAGTCTTTTTATGGTTAT 37 api-mir-novel117 .TAGTGGAAAATTTAGA..CTTTAGTCTTTTTATGGTTAT 37 api-mir-novel10-2 ..AAGGTAACGTCCAAGT.CTCTAGTATTTTTATGGTAAT 37 api-mir-novel10-1 ..AAGGTAACGTCCAAGT.CTCTAGTATTTTTATGGTAAT 37 api-mir-novel202 .TAAGGTAACGTTCAAGT.CTCTAGTATTTTTATGGTAAT 38 api-mir-novel205 .AAGCGGCACTTCTCTTT.GGCTATTTATTTCTTAATAAT 38 api-mir-3032b TTAGTATAACTCTTAGTGACATTGGAATTTAAAATATTGT 42 api-mir-novel70 ...TCTTTGGTTTTAAA...GTAGCCGTTTGAAATTGTAC 34

boucle mature-3p

40. 50. 60.

api-mir-novel14b-2 ..CTACAGTCTTTATTTTCTACGATT 61 api-mir-novel14b-3 ..CTACAGTCTTTATTTTCTACGATT 61 api-mir-novel14b-1 ..CTACAGTCTTTATTTTCTACGATT 61 api-mir-novel14a ..CTACAGTCTTTATTTTCTACGACG 61 api-mir-novel188 ..CTACAGTCTTTATTTTCTACGATG 61 api-mir-novel117 ..CTATAGTCTTTATTTTCTACAATT 61 api-mir-novel10-2 ..CTAGTGCCTTTTTTGTTACCTATA 61 api-mir-novel10-1 ..CTAGTGCCTTTTTTGTTACCTATA 61 api-mir-novel202 ..CTAGTGACTTTTTTGTTACCTATA 62 api-mir-novel205 ..CTATGGATATAGCCAAATTTTAGT 62 api-mir-3032b GACTAGAGTTTATACTACCGGT.... 64 api-mir-novel70 GAATAGCGGCTACCTTAGATCCAAGA 60

Fig. 2.6  Alignement multiple des précurseurs du cluster de taille 12. Les nucléotides présents sur plus de 50 % des séquences sont représentés sur fond bleu, les autres sur fond blanc ; les positions des microARN matures 5p et 3p et de la boucle, dénies sur api-mir-novel14b-2, sont schématisées en traits gras. Les alignements ont été obtenus avec ClustalW. Figure obtenue à l'aide du paquet LATEX TeXshade [119].

quences sont très proches avec aucune insertion ou délétion et très peu de substitutions dans l'alignement.

Malgré la  grande taille  de ces trois clusters en comparaison des clusters obtenus chez D. melanogaster, la très forte similarité de l'ensemble des gènes de microARN contenus au sein de chacun de ces clusters laisse supposer que leur apparition est due à