• Aucun résultat trouvé

Base de donn´ees : choix et construction

2.6 Param´etrage par une nouvelle m´ethode

2.6.2 Base de donn´ees : choix et construction

Comme discut´e plus haut, le choix de la base de donn´ees est critique. Celle-ci doit ˆetre la plus fiable possible et comporter un grand nombre de param`etres du mod`ele afin de pouvoir les estimer de la mani`ere la plus robuste. Le type d’ARN le plus ´etudi´e, dont la structure a ´et´e le mieux ´etablie, est sans conteste l’ARNt.

La remarquable conservation de la structure tertiaire de l’ARNt parmi le vivant offre une garantie suppl´ementaire de la fiabilit´e des analyses. La “Sprinzl database” (http ://www. staff.uni-bayreuth.de/ btc914/search/index.html) r´epertorie 3768 s´equences connues, parmi lesquelles 561 dont le repliement a ´et´e v´erifi´e exp´erimentalement.

La structure consensus de l’ARNt a d´ej`a ´et´e illustr´ee plus haut : elle est constitu´ee de quatre h´elices le plus souvent parfaites (c’est-`a-dire sans renflements ni courtes boucles internes), d’une boucle multi-h´elices et de trois tˆetes d’´epingle. 25 structures contiennent en plus une boucle interne ou un renflement.

J’ai examin´e une par une les annotations de ces 561 s´equences afin de v´erifier que toutes les h´elices r´epertori´ees sont bien maximales. Ainsi, on peut constater par exemple que la troisi`eme h´elice de la s´equence RD5280 ne l’est pas :

U AACCUXXXXXAGGU U A

La paire signal´ee en rouge n’est pas annot´ee dans la Sprinzl database. Dans ces cas-l`a, la structure d´eclar´ee comme correcte est celle o`u cette h´elice est compl´et´ee par la paire manquante. Le fait que cette paire n’ait pas ´et´e annot´ee ne signifie pas n´ecessairement un oubli lors de la saisie de la structure ni une erreur exp´erimentale. Il est possible que ces deux bases ne soient r´eellement pas appari´ees mais les raisons d’un tel ´etat de fait sont inexplicables par le mod`ele d’´energie : les termes de dipaires y sont toujours favorables. Ce mod`ele ne peut pas d´eclarer comme optimale une structure non satur´ee. Toutes les h´elices non maximales ont ´et´e ainsi prolong´ees pour que l’algorithme d’optimisation ne soit pas soumis `a des contraintes qu’il ne puisse g´erer.

Les premi`eres tentatives de repliement m’ont amen´e `a retirer d’autres s´equences de la base de donn´ees, pour des raisons illustr´ees par la figure suivante :

RX0500

(a)

(b)

(a) La structure secondaire r´eelle de la s´equence RX0500 (b) Une structure secondaire concurrente

Les structures secondaires donn´ees en (a) et (b) diff`erent seulement par une h´elice encadr´ee en rouge. Dans la structure secondaire r´eelle, cette h´elice est compos´ee de trois paires alors qu’elle en comporte six dans la structure concurrente. Le mod`ele d’´energie centr´e sur les h´elices est donc inapte `a d´eclarer le repliement (a) comme meilleur que celui de (b) et cette s´equence a ´et´e supprim´ee de la base de donn´ees. La structure (b) est sans doute moins favorable que la (a) car elle requiert la formation d’une boucle 4-h´elices fortement asym´etrique et tr`es contrainte mais le mod`ele simplifi´e n’est pas assez fin pour rendre compte de tels effets.

Les autres s´equences que j’ai jug´ees inaccessibles au mod`ele, `a tort ou `a raison, sont : RC0500, RD0500, RE0500, RE0501, RE4800, RH0500, RK0501, RK6230, RL0260, RL0501, RL0502, RL0503, RL0504, RL2120, RL2840, RL9280, RM4400, RP0180, RP0500, RP0501, RQ0500, RR0380, RR0501, RR6230, RS0500, RS7661, RV0381, RV0382, RV0500, RV0501, RX0500, RY1140, RY2120.

Les structures d’ARNt ´etant fiables, les s´equences pr´esentant une homologie sup´erieure `a 90% ont ´et´e supprim´ees, en ne gardant `a chaque fois que l’une d’entre elles.

Au final, la base de donn´ees d’ARNt utilis´ee contient 413 s´equences.

Les bases modifi´ees

Travailler avec des s´equences d’ARNt comporte une difficult´e sp´ecifique qu’il ne faut pas occulter : la pr´esence de nucl´eotides chimiquement modifi´es. En effet, les ARNt subissent diff´erentes alt´erations post-transcriptionnelles dont certaines sont remarqua- blement conserv´ees, comme T54 et Ψ55 sur la boucle T et les dihydrouridines D16, D17, D20a et D20b sur la boucle D. A ce jour, une centaine de ces modifications ont ´et´e r´epertori´ees. Elles jouent des rˆoles multiples et il en reste sˆurement d’autres `a d´ecouvrir. Les bases modifi´ees permettent ainsi de d´eterminer subtilement la g´eom´etrie de la boucle anti-codon de l’ARNt ([45], [46]) et par l`a l’efficacit´e de la traduction et notamment de la r´epression des glissements de cadres de lecture. Elles am´eliorent l’efficacit´e de l’interaction avec le ribosome [47]. Une autre aspect fonction des bases modifi´ees est de stabiliser la structure des ARNt. Elles expliquent, par exemple, le fait que les temp´eratures de d´enaturation d’ARNt de certaines archaebact´eries soient particuli`erement ´elev´ees [46]. La structure tertiaire de l’ARNt est ´egalement stabilis´ee par les bases modifi´ees T54 et Ψ55 qui forment des liaisons avec G18 et G19 de la boucle D. L’importance des bases modifi´ees dans le repliement de l’ARNt a ´et´e cependant montr´e de la mani`ere la plus spectaculaire par la s´erie de travaux relat´es dans “The presence of modified nucleotides is required for cloverleaf folding of a mitochondrial

tRNA” [43] et “A Watson-Crick base-pair-disrupting Methyl Group (m1A9) is suffi-

cient for cloverfolding folding of human mitochondrial tRNALys” [48] : les auteurs y

d´emontrent sur un exemple que le remplacement d’une ad´enine m´ethyl´ee en position 9, naturellement pr´esente, par une ad´enine non-modifi´ee entraˆıne le repliement de l’ARNt en une structure secondaire non native, en forme de longue tige et non fonctionnelle.

m1A

(a)

(b)

A N N N N NH H H

A

NH N N NH

A

m

1 NCH3

(a) La structure secondaire r´eelle de l’ARNt ´etudi´e dans [48] (b) Structure secondaire de la mˆeme s´equence o`u m1A a ´et´e remplac´ee par une ad´enine

La m´ethylation de l’ad´enine en position 1 empˆeche celle-ci de former une liaison hydrog`ene avec l’uracile : elle ne peut donc pas former de liaison Watson-Crick. En la rempla¸cant par une ad´enine, on permet la formation d’une liaison Watson-Crick et il existe une meilleure structure o`u cette base est effectivement appari´ee.

Comment tenir compte de ces bases modifi´ees dans le mod`ele ? Il est ´evidemment hors de question de chercher les param`etres thermodynamiques qui leur sont propres, ce qui rajouterait au mod`ele des milliers de param`etres faiblement contraints. J’ai d´ecid´e de plutˆot les traiter comme il a ´et´e fait dans [28] : les bases modifi´ees sont assi- mil´ees aux bases canoniques dont elles d´erivent (par exemple Ψ est trait´ee comme U) `a l’exception de certaines d’entre elles, comme m1A, pour lesquelles la formation d’une

paire Watson-Crick ou Wobble est interdite . La liste des bases ne pouvant former de paires Waston-Crick ou Wobble a ´et´e d´etermin´ee en fonction de leur composition chi- mique et de la litt´erature :

• guanines modifi´ees : m2

2Gm, galQ, m1G, Gm, manQ, yW, o2yW

• cytosines modifi´ees : k2C, m5Cm, m3C

• uraciles modifi´ees : D, I, m1I, acp3U

• ad´enines modifi´ees : io6A, m2A, m1A, Ar(p), ms2t6A

Ainsi donc, dans le mod`ele, la contrainte ∆Fd X –X

Y – Y 

= +∞ est rajout´ee lorsqu’au

moins une des 4 bases impliqu´ees est une base modifi´ee pr´esente dans la liste ci-dessus. Il a ´et´e montr´e de plus que la dihydrouridine D ne se superposait pas `a ses voisines

[49] : cela se traduit par l’ajout de la contrainte ∆Ft W Z

X –X 

= +∞ si W ou Z est

une dihydrouridine. Dans tous les autres cas, les bases modifi´ees se comportent comme les bases non-modifi´ees dont elles d´erivent.