• Aucun résultat trouvé

Descriptions de quelques approches basées sur le modèle de Turner

X

i=1

[(∆gN N(i, i + 1)− 2γ) θiθi+1+ (2γ− h) θi] (6.60) où h = (∂H/∂no)(¯no) est le champ moyen. Pour une certaine valeur de ¯no, on peut donc estimer, avec la méthode des matrices de transfert (voir section 2.1.2), hnoi la valeur moyenne thermodynamique de no correspondant à l’Hamiltonien défini par l’équation 6.60. Pour être auto-consistant, la meilleure approximation de champ moyen sera obtenue en résolvant

hnoi(¯no) = ¯no (6.61)

Résoudre cette dernière équation revient à recherche la racine de la fonction f (h) = h−  ∂H ∂no  (hnoi(h)) (6.62)

car (∂H/∂no)(no) est une fonction monotone de no.

Pour des valeurs fixées de la température et de la différence d’enroulement, la racine de f(h) est estimée efficacement en couplant la méthode de la bissection à celle de Newton-Raphson [93]. Sachant que l’évaluation de la fonction f requière un appel à la méthode des matrices de transfert (O(N)), l’algorithme de recherche de racine que nous avons implémenté requiert typiquement 10-20 évaluations de f pour obtenir une précision relative de 10−4 sur la racine, pour N ∈ 103 − 106 bp. Une fois la meilleure valeur de h déterminée, on calcule les propriétés que l’on désire étudier pour le séquence considérée.

6.6 Descriptions de quelques approches basées sur le modèle de

Tur-ner

Nous décrivons ici les approches auxquelles nous avons comparé le modèle sur réseau dans le chapitre 5 et qui sont basées également sur le modèle de Turner.

RNAfold

RNAfold fait partie du package ViennaRNA développé par Hofacker, Studler, Schuster et colla-borateurs [231, 86]. Il fournit la structure la plus stable sans pseudo-noeud prédite par le modèle de Turner classique [85] (voir section 3.1.1) et mesure la carte des contacts, soit la probabilité pour chaque paire de nucléotides d’être appariée, ainsi que l’énergie libre totale. Par défaut, il utilise la version 3.0 des paramètres de Turner. On présente par la suite le principe des algorithmes utilisés par RNAfold (j’ai délibérément choisi une version simple où l’énergie des boucles multiples ne dépend pas de la taille de la boucle, ni du nombre de parties double-brins connectées).

Le calcul de la structure la plus stable est réalisé à l’aide d’un algorithme récursif développé par Zuker et Stiegler [232]. L’algorithme consiste pour chaque sous-séquence Si,j (formée par les nucléotides

Figure 6.2 – (A) Description des 3 situations possibles pour les sous-structures de Si,j avec i et j appariés. (B) Pareil que A mais pour une sous-structure quelconque. Les figures sont extraites de [232].

compris entre i et j, 1 ≤ i < j ≤ N) à calculer W (i, j) l’énergie minimale parmi toutes les structures possibles de Si,j et V (i, j) l’énergie minimale parmi les structures possibles de Si,j pour lesquelles i et j sont appariés. Si i et j ne sont pas complémentaires, V (i, j) = +∞. D’après les 3 situations possibles pour V (i, j) (voir figure 6.2 A), on a

V (i, j) = min  ∆Ghp(i, j), min i<i′<j′<j  ∆Gint(i, j; i, j) + V (i, j) , min i+1<i′<j−2  W (i + 1, i) + W (i+ 1, j− 1) + ∆gml (6.63) avec ∆Ghp(i, j) l’énergie libre de la boucle en épingle fermée en i et j, ∆Gint(i, j; i, j) l’énergie libre du segment de paires, de la boucle interne ou de la boucle latérale compris entre les paires i − j et i− j et ∆gml l’énergie libre de nucléation d’une boucle multiple. De même pour W (i, j) (voir figure 6.2 B)

W (i, j) = min 

W (i + 1, j), W (i, j− 1), V (i, j), min

i<i′<j−1



W (i, i) + W (i+ 1, j)

(6.64) L’énergie minimale pour la séquence entière est alors donnée par W (1, N). Pour retrouver la structure la plus stable, il suffit à chaque étape du calcul de W et V de garder en mémoire quels termes étaient le plus petit et de reconstruire ainsi les paires appariés. La complexité de l’algorithme est O(N4) mais en limitant la taille maximale des boucles, on peut la réduire à O(N3).

Le calcul de la carte des contacts et de l’énergie libre est également fourni par un algorithme récursif développé par McCaskill [233]. Il consiste à évaluer récursivement la fonction de partition Q(i, j) calculée sur toutes les structures de Si,j et Qb(i, j) la fonction de partition évaluée uniquement sur les structures où i et j sont appariés. Si i et j ne sont pas complémentaires, Qb(i, j) = 0. En faisant le même raisonnement que pour la détermination de la structure la plus stable, on obtient

Qb(i, j) = exp [−β∆Ghp(i, j)] + X

i<i′<j′<j

Qb(i, j) exp

−β∆Gint(i, j; i, j)

+ X

i+1<i′<j−2

Q(i + 1, i)Q(i+ 1, j− 1) exp [−β∆gml] (6.65) Q(i, j) = Q(i + 1, j) + Q(i, j− 1) + Qb(i, j) + X

i<i′<j−1

A B C

Figure6.3 – (A) Pseudo-noeud simple formé de deux hélices a −a et b −b et de 3 parties intercalées u, v et w qui peuvent avoir une structure interne. (B) Appariement entre deux boucles en épingle. (C) Interaction entre 3 hélices. Les figures sont issues de [200].

On peut alors en déduire la probabilité P (i, j) pour que i et j soient appariés par la relation de récurrence P (i, j) = Q(1, i− 1)Qb(i, j)Q(j + 1, N ) Q(1, N ) + X i′<i<j<j′ P (i, j) Q b(i, j) Qb(i, j)  exp −β∆Gint(i, j; i, j) + exp [−β∆gml] Q(i+ 1, i− 1) + Q(j + 1, j− 1) + Q(i+ 1, i− 1)Q(j + 1, j− 1) (6.67) La compléxité de cet algorithme est aussi en O(N4).

RNAfold ainsi que certains autres programmes du package ViennaRNA sont accessibles sur le web à l’adresse http ://rna.tbi.univie.ac.at/.

Nupack et pknotsRG

Ces deux algorithmes permettent d’étudier le repliement de l’ARN au niveau structure secondaire avec la possibilité d’avoir des noeuds. Dans les deux cas, seules certaines classes de pseudo-noeuds sont considérées. Par exemple pour pknotsRG, on se limite aux pseudo-pseudo-noeuds avec uniquement deux parties double-brins enchevêtrées (voir figure 6.3 A) où les parties u, v et w peuvent avoir une structure interne mais ne peuvent pas interagir avec d’autres parties de la structure secondaire totale (des pseudo-noeuds comme l’appariement entre deux boucles en épingles ou l’interaction à trois hélices ne sont donc pas pris en compte, voir figure 6.3 B et C). Nupack, développé par Dirks et Pierce [201], et pknotsRG, développé par Reeder et Giegerich [200], utilisent, comme RNAfold, des algorithmes récursifs pour traiter le problème du repliement. Ils introduisent, de plus, des relations de Jacobson-Stockmayer généralisées pour décrire l’énergie libre de formation d’un pseudo-noeud. Les paramètres de ces relations sont évalués de telle sorte que les algorithmes prédisent la structure native de pseudo-noeuds connus [210] comme les signaux viraux de décalage du cadre ouvert de lecture. Le reste de l’énergie d’une structure est décrit par les paramètres de la version 3.0 du modèle de Turner.

Nupack permet en O(N5) de calculer la structure la plus stable et la carte des contacts, alors que pknotsRG n’évalue que la structure la plus stable en O(N4).

Nupack et pknotsRG sont accessibles sur le web respectivement à http ://www.nupack.org/ et http ://bibiserv.techfak.uni-bielefeld.de/pknotsrg/.

A B C

Figure6.4 – (A) Vecteurs virtuels représentant le squelette d’un nucléotide. (B,C) Confor-mations possibles sur le réseau du diamant d’une boucle en épingle (B) ou d’une boucle latérale (C). Les figures sont issues de [132].

Vfold

Vfold est un modèle développé par Cao et Chen [132, 151, 152] qui permet de calculer la structure la plus stable, la carte des contacts et l’énergie libre totale en se limitant, dans sa version la plus ré-cente, aux structures standard (sans pseudo-noeud) ou avec H-pseudo-noeuds simples (voir figure 5.11). L’algorithme consiste, comme les modèles précédents, en une récurrence sur des fonctions partielles en O(N5).

L’originalité de ce modèle vient de la description de l’énergie d’une structure. Alors que les énergies locales (comme l’association de segments de paires de bases, les fourches, les dangles, l’empilement coaxial, le capping) sont fournies pas l’ancienne version 2.3 des paramètres du modèle de Turner [167], les énergies de conformation des boucles (il n’y a pas de terme pour décrire la nucléation) sont calculées à l’aide d’une modélisation gros-grain de la structure tertiaire. Pour un type de boucle donné, Cao et Chen énumèrent le nombre de conformations Ω représentant cette boucle. L’énergie de formation de la boucle est alors donnée par ∆gloop=−kBT log(Ω/Ω0) avec Ω0 le nombre de conformation d’un simple brin dénaturé de même taille que la boucle.

La modélisation gros-grain consiste à décrire un nucléotide non apparié par deux vecteurs virtuels (voir figure 6.4 A). Une boucle est alors représentée par un chemin auto-évitant des vecteurs virtuels sur le réseau du diamant. Le choix de ce réseau est motivé par ses angles de torsion qui sont les mêmes que les états rotationnels isomériques gauche+, trans et gauche des polymères. La jonction entre les parties double-brins et les boucles est modélisée en représentant la double-hélice sur le réseau du diamant en prenant les sites du réseau les plus proches des coordonnées atomiques réelles (voir figure 6.4 B et C). Ainsi Ω est calculé en comptant le nombre de chemin auto-évitant sur ce réseau.

Vfold n’est pas accessible en libre service sur le web. Kinefold

Kinefold est un modèle au niveau structure secondaire développé par Isambert et Siggia [138, 140]. Il ne se restreint pas à certains types de structures comme les modèles précédents et peut a priori décrire n’importe quelle structure (comme le modèle sur réseau). Comme dans Vfold, les énergies locales sont données par la version 2.3 des paramètres du modèle de Turner. Pour calculer l’énergie de conformation

A B C

Figure 6.5 – (A) Modélisation par des tiges rigides (lignes noires) et des chaînes gaus-siennes (lignes colorées) d’une structure secondaire. (B) Haut : les 8 sous-structures pos-sibles dont on peut calculer exactement l’entropie de conformation. Bas : représentation sous forme d’un polymère réticulé où chaque sous-structure est modélisée par un "net" ; les contraintes entre sous-structures sont représentés par des ressorts gaussiens. (C) Schéma de la transition entre les structures i et j. Les figures sont issues de [138, 139]

d’une structure (pas de nucléation comme dans Vfold), chaque partie double-brin est modélisée par une tige rigide de longueur appropriée (2.5 Å par segment de paires) et les régions non-appariés par une chaîne gaussienne de longueur de Kuhn de 1.5 nm (2.5 bases) (voir figure 6.5 A). L’entropie de conformation est alors évalué en deux étapes (voir figure 6.5 B) : des sous-structures sont définies pour lesquelles on peut calculer exactement l’entropie, puis les contraintes entre ces sous-structures sont traitées globalement comme dans un gel réticulé par une série de n − 1 intégrations algébriques avec n le nombre de sous-structures.

L’algorithme consiste à faire évoluer cinétiquement une structure à l’aide de mouvements élémen-taires (ouverture ou fermeture d’une ou plusieurs paires de bases). Chaque mouvement est caractérisé par son taux de transition k± = koexp[−β∆G±] (+ pour une formation de paires et − pour une ouverture) avec ko ≈ 108 s−1 et où ∆G± est la différence d’énergie entre le configuration courante et l’état de transition et se calcule à l’aide des paramètres locaux et de l’énergie de conformation décrits ci-dessus (voir figure 6.5C). A chaque étape de l’algorithme, on calcule, pour tous les mouvements élémentaires possibles, leurs taux de transition et on en choisit un aléatoirement proportionnellement à son taux de transition. Cette procédure est répétée jusqu’à atteindre l’équilibre thermodynamique.

Kinefold permet ainsi d’estimer la structure la plus stable, le chemin de repliement cinétique de la molécule et des propriétés thermodynamiques comme la carte des contacts. Il est accessible sur le web à l’adresse http ://kinefold.curie.fr/.

6.7 Preuve par récurrence d’une propriété topologique des structures