• Aucun résultat trouvé

3.5 Vers une reconstruction automatique : Aria

3.5.3 La m´ ethode d’attribution d’Aria

3.5.3.1 Sch´ema g´en´eral

Aria utilise le sch´ema suivant pour attribuer les nOe observ´es `a partir de l’attribution des r´esonances (non ambigu¨es) des protons de la prot´eine :

1. Pour chaque pic, les Nδ attributions possibles (bas´ees sur les d´eplacements chimiques avec une tol´erance δppm) sont prises en compte.

2. Les 7 structures de plus basses ´energies de l’it´eration i-1 sont s´electionn´ees.

3. Les distances caract´eristiques ˆda moyennes de chaque paires de protons sont calcul´ees sur ces 7 structures.

4. Les volumes nOe sont convertis en contraintes de distance en utilisant une calibration automatique des spectres.

5. Un crit`ere de s´election est appliqu´e sur les diff´erentes contributions. Les contributions les plus faibles sont ´elimin´ees.

6. Un ensemble de 20 structures est calcul´e `a partir des nouvelles contraintes.

Le premier jeu de structures (it´eration 0) est ´evalu´e `a partir du seul crit`ere de compatibilit´e des d´eplacements chimiques ou `a partir d’un mod`ele (issu d’un run pr´ec´edent par exemple). Le sch´ema pr´ec´edent est appliqu´e jusqu’`a l’it´eration 8. Un nombre sup´erieur d’it´erations ne semble pas apporter d’am´elioration ni de l’attribution, ni de la convergence des calculs.

Génération de 20 structures (CNS)

Calibration des spectres Calibration des spectres Calibration des spectres

Création des fichiers de contraintes

Filtration des attributions Lecture des données Calcul d’une structure étendue

Création des fichiers de contraintes

Filtration des attributions Création des fichiers de contraintes

Analyse finale des structures (Procheck) Affinement dans une boite d’eau

Itération 0 Itération 1 (itération n) 6 fois Génération de 20 structures (CNS) Itération 8 Génération de 20 structures (CNS)

Fig. 3.10: Algorithme de reconstruction d’une macromol´ecule par Aria

3.5.3.2 Filtre d’attribution

A chaque it´eration, un pic peut correspondre `a la somme des contributions de plusieurs paires de protons. Le volume total du pic sera la somme des contributions individuelles. Aria estime cette contribution Cn par l’expression suivante ( ˆdn repr´esente la distance moyenne de la paire n dans les 7 structures de plus basses ´energies de l’it´eration pr´ec´edente) :

Cn= ˆ dn−6 P

a=1dˆa−6 (3.10) Les paires sont ensuite r´eordonn´ees par contribution d´ecroissante. Les attributions de plus faible probabilit´e sont ´elimin´ees de telle mani`ere que :

Np

X

a=1

Ca> p (3.11) Le param`etre p d´etermine les Np paires contribuant majoritairement au pic qui seront conserv´ees par la suite. Ce param`etre vaut presque 1 dans la premi`ere it´eration et d´ecroˆıt jusqu’`a 0,8 lors de la derni`ere it´eration. Plus la valeur finale de p est grande, plus l’attribution finale du pic restera ambigu¨e. La valeur de p d´ecroˆıt au fur et `a mesure des it´erations pour ne garder que la contributions qui ont physiquement un sens.

3.5. Vers une reconstruction automatique : Aria 83 A chaque it´eration, deux fichiers de contraintes de distances sont g´en´er´es. Lors de la pre-mi`ere it´eration, le fichier ambig.tbl contient toutes les contraintes ADR d´efinies sur la seule base des d´eplacements chimiques. Dans le fichier unambig.tbl, on trouve alors les contraintes entre hydrog`enes dont les d´eplacements chimiques sont suffisamment caract´eristiques pour qu’aucune ambigu¨ıt´e sur l’attribution ne subsiste. Durant la premi`ere it´eration, la plupart des contraintes sont donc dans le fichier ambig.tbl. Au fur et `a mesure des it´erations, l’attribu-tion des contraintes se pr´ecise par l’ajout d’informations sur les structures calcul´ees et par le param`etre p. Les contraintes passent alors progressivement dans le fichier unambig.tbl. 3.5.3.3 Calibration des spectres

Dans l’approche classique, la simulation des spectres `a partir d’un jeu de S structures utilise la relation N OE = C1d−6obs o`u dobs peut ˆetre d´efinie comme la moyenne arithm´etique dobs = S1 PS

s=1dij,s ou la moyenne dobs =PS

s=1d−6ij,s

−1 6

.

En supposant que la dynamique est relativement homog`ene sur l’ensemble de la structure, un facteur de calibration globale C est obtenu par la relation :

C = X

N OEs

d−6obs

N OE (3.12)

Dans Aria, les spectres sont calibr´es `a partir d’un jeu de structures en simulant une carte nOe A. Pour ´eviter les biais introduits par la diffusion de spin, cette simulation ne repose pas sur les distances ˆda comme pr´ec´edemment, mais prend en compte la matrice de relaxation R (τm est le temps de m´elange nOe) avec un temps de corr´elation de la prot´eine de τc :

Rij = ni 1 ˆ dij !6 π 5γ 4 ~2  6 1 + 4ω2τ2 c − 1  (3.13) A = e−Rτm (3.14) L’approche par la matrice de relaxation ne donne pas les limites sup´erieures (comme dans l’approche classique) mais fournit directement une estimation de la distance. Les limites su-p´erieures et inf´erieures sont donn´ees en estimant l’incertitude sur la distance `a 12, 5%.

  

limite inf´erieure = dobs− ∆

limite sup´erieure = dobs− ∆+

+= ∆= 0.125d3obs

(3.15) Entre chaque it´eration, les spectres sont recalibr´es apr`es ´elimination des attributions les moins probables.

3.5.3.4 Traitement du bruit

Il est souvent difficile de distinguer dans les spectres les pics d’intensit´e faible et le bruit. La liste de pics d’une exp´erience contient donc en g´en´eral des pics d’intensit´e tr`es faible correspondant soit `a un transfert entre protons ´eloign´es, soit au bruit de l’exp´erience.

Par l’approche des contraintes ambigu¨es, un pic de bruit est interpr´et´e comme un signal physique et s’il existe une attribution possible `a ce pic, les structures g´en´er´ees peuvent pr´esenter des d´eformations tr`es importantes. En effet, du fait de la forme harmonique de la fonction cible, l’introduction dans le calcul de contraintes fausses va mettre une p´enalit´e trop importante sur ces violations et va mener `a des violations de vraies contraintes. Il est donc primordial d’´eliminer le bruit des spectres. Souvent, les contraintes issues du bruit sont viol´ees dans les structures car celles-ci ne sont pas n´ecessairement compatibles entre elles.

Le crit`ere utilis´e par Aria pour ´eliminer le bruit de la liste de pics repose sur le nombre de violations de contraintes sur un jeu de structures. Si telle contrainte est viol´ee dans plus de 50% des 7 meilleures structures d’une it´eration, cette contrainte peut ˆetre soit simplement not´ee, soit ´elimin´ee, soit ses limites sont ´elargies.

L’inconv´enient de cette approche est que l’´elimination d’une contrainte est sans effet sur l’ensemble du calcul. Aucun coˆut n’est impos´e si bien que si une zone de la structure ne fait apparaˆıtre que peu de nOe, une seule tache n’est pas suffisante pour positionner correctement cette r´egion. En revanche, lorsque l’attribution de la prot´eine n’est que partielle, l’´elimination des taches provenant de la r´egion non attribu´ee va ´eviter de trop contraindre la r´egion d´ej`a attribu´ee.

3.5.3.5 Choix des param`etres

L’utilisateur d’Aria peut r´egler `a volont´e tous les param`etres du calcul. Cependant, seuls deux param`etres semblent ˆetre r´eellement d´ependants de la prot´eine : le seuil p et la tol´erance ∆ppm. Les autres param`etres d´ependant de l’it´eration ont ´et´e ajust´es empiriquement sur diff´ e-rentes prot´eines : dsRBD (domaine de liaison `a l’ARN de Escherichia Coli ), deux domaines de l’isom´erase de ponts disulfure PDI et le domaine homologue `a la pleckstrine de la β-spectrine. Ils n’ont pas `a ˆetre modifi´es lors d’une utilisation normale.

Le choix de la tol´erance est un crit`ere important pour la convergence et la qualit´e des structures. Ce param`etre est `a ajuster au fur et `a mesure des calculs. Le choix de ∆ppm est guid´e par plusieurs crit`eres :

➪ r´esolution des spectres,

➪ estimation de l’incertitude sur l’attribution de la prot´eine, ➪ la forme des pics

Fig. 3.11: Illustration d’une tol´erance trop faible (voir le texte pour la l´egende)

3.5. Vers une reconstruction automatique : Aria 85 Si ∆ppm est trop petit, on prend le risque de rejeter la contribution faible d’une paire d’un pic large. Cette situation est illustr´ee par la figure 3.11. Les cercles rouges marquent l’emplacement du sommet des pics de corr´elation des paires a et b. Les protons de la paire a sont plus proches que dans la paire b. L’application de peak-picking ne reconnaˆıtra qu’un seul maximum `a (δ1, δ2) repr´esent´e par la croix verte. Avec les tol´erances ∆1

ppmet ∆2

ppm d´efinies comme sur la figure, la contrainte ambigu¨e correspondante ne contiendra pas la contribution de la paire b et la contribution de la paire a sera surestim´ee.

Si ∆ppm est trop grand, la contrainte ambigu¨e pourra retenir des paires dont les d´eplace-ments chimiques ne sont pas compatibles avec les coordonn´ees du pic observ´e. De plus, les premi`eres ´etapes du calcul seront beaucoup plus longues car le nombre de paires de protons `a tester au d´epart sera plus grand.

La tol´erance choisie doit donc ˆetre un compromis entre ces diff´erents effets.