Présentation du logiciel Shake-and-Bake

(1)

HAL Id: hal-01220336

https://hal.archives-ouvertes.fr/hal-01220336

Submitted on 16 Nov 2015

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Présentation du logiciel Shake-and-Bake

Alain Soyer

To cite this version:

Alain Soyer. Présentation du logiciel Shake-and-Bake. Ecole thématique: Analyse structurale par diffraction des rayons X, Association Française de Cristallographie, Sep 1999, Toulouse, France. �hal-01220336�

(2)

Août 1999

Présentation de SnB

de

C.Chang, G.DeTitta, S.Gallo, H.Hauptman, R.Jones, H.Khalak, D.Langs, R.Miller, S.Potter, P.Thuman, C.Weeks

University of New-York & Medical Foundation of Buffalo - USA

par

Alain Soyer (soyer@lmcp.jussieu.fr) Laboratoire de Minéralogie-Cristallographie

associé au C.N.R.S - UMR 7590 Université P. et M. Curie - Case 115 4, place Jussieu - 75252 Paris Cedex 05

1 - Introduction : Qu’est-ce que SnB ? Domaine d’utilisation. Comment se le procurer ? 2 - Principe et fonctionnement de SnB : La fonction minimum. Le « principe minimum ». Algorithme de SnB. 3 - Utilisation pratique de SnB :

Préparation des données et calculs initiaux. Options à utiliser.

Histogramme résultat.

4 - Exemples d’applications :

Structures ne comportant pas d’atome « lourd ». Structures comportant des atomes « lourds ».

5 - Conclusions :

Limites de SnB. Perspectives.

(3)

1 - Introduction :

Qu’est-ce que SnB ?

SnB [7] est un programme de détermination de structures cristallines qui met en oeuvre l’algorithme de phasage par méthode directe dit « Shake-and-Bake ». Celui-ci, basé sur le « principe minimum » énoncé par H.Hauptman [2], consiste à alternativement affiner les phases des facteurs de structure dans l’espace réciproque (« Shake ») et modifier la densité électronique dans l’espace directe (« Bake »), en vue d’atteindre le minimum global de la fonction minimum R().

Domaine d’utilisation

SnB a prouvé qu’il était efficace pour résoudre les « grosses moyennes » structures : de 100 à 1000 atomes (non H) dans l’unité asymétrique. Il comble ainsi le manque qui existait entre les programmes par méthode directe traditionnels, permettant la détermination en routine de structures comprenant jusqu’à 150 atomes environ, et les méthodes utilisées pour la résolution des grosses structures (macromolécules).

Comment se le procurer ?

SnB version 1.5 est disponible gratuitement sur Internet à partir de la page http://www.hwi.buffalo.edu/SnB sous la forme de modules exécutables pour les machines suivantes : Silicon-Graphics sous Irix 4.0 à 6.2, Sun sous SunOS 5.5, Dec sous OSF1 et PC-Pentium sous Linux 2.0.27.

A la date où sont rédigées ces lignes, une version 2.0 [18] est aussi disponible en test (Beta release) mais seulement pour SGI R10000. Dans son principe elle ne diffère pas de la version 1.5 que nous avons utilisée et qui est décrite dans ce document. Les principales améliorations sont : une interface utilisateur graphique écrite en langage Java pour remplacer l’interface ligne à ligne d’entrée des données, des performances accrues et un problème corrigé (atomes en positions particulières).

2 - Principe et fonctionnement de SnB :

La fonction minimum [5]

On considère une structure comportant N atomes en positions inconnues r_j dans la maille, pour laquelle la mesure des intensités de diffraction X d’un ensemble de réflexions {H} a fournit après normalisation les modules des facteurs de structure E_H.

Si on suppose que les atomes ont tous à peu près le même poids, les facteurs de structure normalisés s’écrivent sous la forme simplifiée :

E_H E_H exp i

 

_H  1

N exp 2



iH.rj



j1

N

(4)

On note T_HK les triplets de phases invariants dans un changement d’origine, et Q_LMN les quadruplets de phases invariants :

T_HK _H _K _HK

QLMN LMN LMN

D’un point de vue statistique, si on considère les vecteurs position r_j comme des variables aléatoires indépendantes et uniformément distribuées, les invariants seront aussi des variables aléatoires. Pour un couple de réflexions H, K donné, on peut alors montrer que le cosinus du triplet de phase correspondant T_HK peut être estimé par :

cos T

 

_HK I1

 

AHK

I₀

 

A_HK où AHK

2

N EHEKEHK et I0, I1 sont les fonctions de Bessel modifiées

d’ordre 0 et 1 respectivement ; cette estimation sera d’autant plus valide que A_HK sera grand. De manière identique, pour des réflexions L, M et N données, le cosinus du quadruplet Q_LMN peut être estimé par :

cos Q



_LMN



 I1



BLMN



I₀



B_LMN



avec BLMN 2 NELEMENELMN ELM 2  E_MN 2  E_NL22





.

D’où le choix de la fonction minimum utilisée par SnB :

R

 

  AHK cos T

 

HK  I1

 

AHK I₀

 

A_HK       H,K



2 BLMN cos Q



LMN



 I1



BLMN



I₀



B_LMN



      2 L,M ,N



A_HK H,K



 B_LMN L,M ,N



La double somme porte sur les vecteurs du réseau réciproque H, K associés aux triplets T_HK correspondants aux plus grandes valeurs de E et la triple somme sur les vecteurs L, M, N associés aux quadruplets Q_LMN négatifs. Dans ces sommes, A_HK représente le poids du triplet

T_HK et B_LMN le poids du quadruplet Q_LMN .

Le « principe minimum » [2,5]

D’après son expression, on constate que R() est une mesure de la différence quadratique moyenne entre les cosinus des invariants calculés et leurs valeurs attendues. Le « principe minimum » énoncé par H.Hauptman stipule que :

- pour un nombre suffisant de phases, contraintes à prendre des valeurs consistantes avec une structure atomique, R() présente un minimum global lorsque toutes ces phases sont égales à leur vraie valeur.

- lorsque les phases sont égales à leur vraie valeur, R() = RT < 1/2, indépendemment du choix de l’origine et de l’énantiomorphe.

- au contraire pour des phases aléatoires on a R() = RR > 1/2.

Algorithme de SnB [6,13]

Le fonctionnement de SnB découle directement du principe minimum : il consiste à faire varier les phases dans l’espace réciproque en vue de minimiser la valeur de la fonction minimum, puis à

(5)

revenir dans l’espace direct pour contraindre les phases à prendre des valeurs consistantes avec une structure atomique. Un nombre (proportionnel à la taille de la structure) de tels cycles est effectué pour tenter de converger vers la solution.

L’algorithme correspondant, schématisé sur la figure 1, comporte donc les étapes suivantes : - Un modèle initial composé d’un nombre d’atomes inférieur ou égal au nombre recherché est généré ; ces atomes sont placés aléatoirement dans l’unité asymétrique avec la contrainte qu’ils doivent être distants d’au moins 1.2 Å, et ne pas être liés à plus de quatre voisins.

- Un calcul des facteurs de structure normalisés est effectué pour le modèle courant, et les phases ainsi obtenues seront affectées aux E observés.

- L’affinement des phases peut être réalisé par diverses méthodes, dont la traditionelle formule de la tangente [11], mais il est recommandé d’utiliser celle par défaut, dite « parameter shift ». Les phases sont considérées par ordre décroissant des valeurs de E associées ; lors de la modification de la ième phase, la fonction minimum est évaluée pour sa valeur actuelle i, pour i +  et pour i - , où  est un incrément fixé (Figure 2). Si R() est minimum pour la valeur actuelle de i celle-ci est conservée et on passe à la phase suivante i+1 . Sinon on choisit le sens de variation donnant R() minimum (+ sur la figure 2) ; la valeur retenue de la phase subit de nouveaux déplacements dans le même sens tant que R() diminue et qu’un nombre maximum de déplacements n’a pas été dépassé (3 dans l’exemple).

Modèle initial (trial)

{xj, yj, zj, fj}

Extraction des plus grands pics Densité électronique (E map) Espace direct {h, k, l, |Eobs|} {h, k, l, |Ecalc|,



calc} {h, k, l, |Eobs|,



aff}

Affinement des phases (parameter shift) pour minimiser la fonction minimum R() Espace Réciproque Figure 1 FFT FFT-1

(6)

Par exemple sur la figure 2, la nouvelle valeur de i sera i + 2. On notera que cette nouvelle valeur remplace immédiatement l’ancienne en mémoire, et est donc utilisée lors de l’affinement des phases suivantes. Lorsque le programme a parcouru toutes les phases, il recommence ce processus d’affinement un certain nombre de fois (3 par défaut).

- A l’aide des E observés et des phases affinées, SnB calcule une densité électronique par transformée de Fourier inverse, retournant ainsi dans l’espace direct (figure 1).

- Le programme extrait ensuite les plus grands pics de la densité électronique, et ces pics sont considérés comme des atomes. Ils remplacent le modèle initial, et seront utilisés pour le calcul des facteurs de stucture lors du cycle suivant. Dans le cas où la structure possède des atomes « lourds » (par exemples des S) un nombre correspondant des plus grands pics extraits sera affecté du facteur de diffusion atomique f adéquat.

3 - Utilisation pratique de SnB :

Préparation des données et calculs initiaux

Désignons par xxx le nom de la structure à résoudre. L’utilisateur doit fournir un fichier xxx.hkl contenant l’ensemble des {h, k, l, F_H, (FH)} observés. Pour la normalisation il est conseillé d’utiliser les programmes de R.Blessing (levy, eval et snbref) [1]_{dont les sources sont disponibles} par ftp anonyme à ftp://www.hwi.buffalo.edu/pub/Blessing/Drear (la distribution de SnB v2.0 inclut ces programmes). Les facteurs de structure normalisés sont rangés dans le fichier xxx.ref (figure 3). i R=0.48 i+ R=0.46 i+2 i- R=0.49 Figure 2 R=0.45 R=0.47 i+3 i-2 i-3

(7)

Le logiciel est en fait composé de deux programmes.

Le programme intéractif SnB écrit en langage C (+ Java pour SnB v2.0) sert à entrer les données critallographiques et à choisir les options désirées. Il range ces informations dans le fichier xxx.info. Puis SnB effectue un certain nombre d’initialisations, comme le calcul des invariants stoqués dans le fichier xxx.inv, et la génération des modèles de structures aléatoires initiaux dans xxx.trials.

Options à utiliser

Les options recommandées par les auteurs de SnB suivant les types de structures sont indiquées ci-dessous. Ce sont les options par défaut de SnB v2.0, mais si on utilise la version 1.5 on devra vérifier les options proposées et les modifier éventuellement (passer en mode « expert » si nécessaire).

Options générales

(n est le nombre d’atomes non hydrogène de l’unité asymétrique, solvant exclut)

levy eval snbref levy.dat xxx.hkl xxx.ref xxx.info xxx.inv xxx.trials date.Rmins date.best

SnB_main

exécution en "background" intéractif

SnB

Figure 3 Histogramme

(8)

Affinement des phases : méthode « Parameter Shift » Groupes d’espace non centro-symétriques :

Incrément de phase : 90°

Nombre maximum de modifications par phase : 2 Nombre de passes : 3 (ou 1 pour P1)

Groupes d’espace centro-symétriques : Incrément de phase : 180°

Nombre maximum de modifications par phase : 1 Nombre de passes : 1

Germe pour le générateur de nombres aléatoires : nombre premier à 5 chiffres Nombre de modèles à générer : 1000

Nombre d’atomes par modèle : Minimum (n, 100)

Pas de la grille pour la FFT : (Résolution des données) / 3 Nombre de cycles SnB : n/2

Nombre de cycles E-Fourier : de l’ordre de 0.05n

Cas où la résolution est 1.0 Å ou mieux

Nombre de phases : 10n Nombre de triplets : 100n Nombre de quadruplets : 0 Nombre de cycles SnB :

n/2 si n < 400 et des atomes plus lourds que O sont présents sinon n

Nombre de pics a extraire :

0.4n si des atomes plus lourds que O sont présents sinon 0.8n

Cas où la résolution est de 1.1 à 1.4 Å

Augmenter le nombre d’invariants : 200n à 500n Faire plus de cycles SnB : entre n et 1.5n

La présence d’atomes « lourds » (Cl ou S) augmente la probabilité de succès

Histogramme résultat

La résolution proprement dite est effectuée par un deuxième programme SnB_main écrit en Fortran, et qui est lancé par SnB (spawn) lorsque l’utilisateur décide de commencer le calcul (figure 3). SnB_main s’exécute en « background » et communique avec SnB via des fichiers. En particulier à la fin du traitement de chaque modèle il écrit dans le fichier date.Rmins la valeur finale de la fonction minimum. De plus il maintient à jour le ficher date.best qui contient la meilleure structure obtenue, c’est-à-dire celle correspondant à la plus petite valeur de R().

(9)

A tout moment pendant que le calcul se déroule, ce qui peut durer plusieurs jours ou même plusieures semaines, l’utilisateur a la possibilité de visualiser à l’aide de SnB l’histogramme des valeurs de la fonction minimum pour les modèles déjà traités :

- si cet histogramme est de type Gaussien, c’est-à-dire avec toutes les valeurs de R() regroupées en une seule bosse, c’est qu’aucune solution n’a été trouvée.

- au contraire si une ou quelques valeurs de R() se détachent assez nettement des autres, du côté des valeurs inférieures, c’est qu’elles correspondent à des solutions. Un exemple ayant donné trois solutions est présenté figure 4.

Le fichier date.best contient alors la meilleure solution. Celle-ci est généralement assez grossière ou incomplète ; elle peut être améliorée avec SnB en effectuant des cycles supplémentaires avec différentes options, mais notre expérience nous a montré qu’il était plus rapide de rentrer la solution sous forme de fragment dans un programme traditionnel, pour la terminer puis l’affiner.

4 - Exemples d’applications :

Une liste complète des structures résolues par SnB est mise à jour régulièrement sur le serveur de Buffalo : http://www.hwi.buffalo.edu/SnB/Structures_snb.htm, dont nous avons extrait les exemples présentés ici.

Number of atoms in structure: 152 Number of Shake-and-Bake cycles: 80

Number of trials processed: 1000 Number of phases used: 1520

Lowest Rmin value: 0.350 Number of triples used: 15200

Highest Rmin value: 0.504 Number of quartets used: 0

Trials

Minimal Function Range in range

0.350 to 0.357 3 *

0.358 to 0.365 0

0.366 to 0.373 0

0.374 to 0.381 0

0.382 to 0.389 0

0.390 to 0.397 0

0.398 to 0.405 0

0.406 to 0.413 0

0.414 to 0.421 3 *

0.422 to 0.429 17 ***

0.430 to 0.437 56 **********

0.438 to 0.445 89 ***************

0.446 to 0.453 206 ***********************************

0.454 to 0.461 205 ***********************************

0.462 to 0.469 175 ******************************

0.470 to 0.477 123 *********************

0.478 to 0.485 71 ************

0.486 to 0.493 42 *******

0.494 to 0.501 7 **

0.502 to 0.509 3 *

Figure 4

(10)

Structures ne comportant pas d’atome « lourd »

C’est un des domaines où SnB se montre très utile : plusieures structures n’ayant pu être trouvées par les méthodes directes traditionnelles l’on été par SnB.

Structure Atomes non H / u.a. Groupe d’espace Résolution (Å)

Ternatine + dioxane [4] 110 P212121 0.94

Theonellapeptolide Id 111 P212121 0.9

Scripps 144 P1 0.89

Cyclic dodeca peptide 156 P1 1.0

Gramicidin A [3] ₃₁₇ _P212121 _0.86

DMSO d6 peptide 326 P1 1.2

Avec B.Bachet nous nous sommes d’abord familiarisés avec SnB à l’aide d’un peptide de structure déjà connue (2ème colonne du tableau ci-dessous) ; puis deux structures difficiles, qui avaient résisté à de nombreuses tentatives avec divers programmes, ont été résolues.

peptide complexe macrolide

Groupe d’espace C2221 P212121 P21

Unité Asymétrique C91N23O24H149 C99O25N12 8(C28N3O6H39)

Nbr. d’atomes non H / u.a. 138 136 296

Nbr. max. de réflexions 13200 9100 9900

Résolution en Å 0.8 0.9 1.1

Nbr. de phases et de triplets 1380 - 13800 1360 - 13600 2960 - 29600

Nbr. de cycles SnB 70 110 150

Nbr. de solutions 4 2 1

Temps de calcul (1000 trials) 24 heures 36 heures ~4 jours

Les temps de calcul approximatifs sont indiqués pour un Silicon-Graphics Octane (processeur R10000).

Structures comportant des atomes « lourds » (Cl, S, Fe ...)

C’est évidemment le domaine d’application le plus spectaculaire de SnB : des structures de petites protéines [10]_{dépassant parfois les 1000 atomes ont pu être « craquées » directement, ce} qui semblait impossible auparavant.

Structure Atomes non H / u.a. Groupe d’espace Résolution (Å)

Alpha Contoxin G1 117 P21 1.2 Vancomycin 255 P43212 0.9 Er-1 Pheromone 328 C2 1.0 Crambin [8] 400 P21 0.83 Vancomycin 440 P1 1.0 Alpha-1 peptide 471 P1 0.92 Rubredoxin 497 P21 1.0 Tox II [12] ₆₂₄ _P212121 _0.96 Lysozyme ~1200 P1 0.9

(11)

Une autre utilisation de SnB consistant à déterminer, à partir de données MAD, la sous-structure formée des atomes lourds introduits dans une protéine sort du cadre de cette présentation; le lecteur intéressé se réferrera à l’exemple cité [14]_{d’une protéine de 35 kDa contenant 8 Se} mesurée à 2 Å de résolution.

5 - Conclusions :

SnB est un excellent programme de résolution de « grosses moyennes » structures par méthode directe, qui comble le vide qui existait entre les logiciels dédiés aux petites structures et ceux des macromolécules. Même un utilisateur novice exécutant SnB avec les valeurs par défaut est capable d’obtenir de bons résultats sans une connaissance approfondie des options du programme.

Limites de SnB

En ce qui concerne les structures ne contenant pas d’atome « lourd », une petite étude [15] confirmée par d’autres résultats montre que des données jusqu’à une résolution de 1.15 Å environ doivent être disponibles pour avoir des chances de mener à une solution. Par contre la présence d’atomes « lourds » augmente les chances de succès, et il a été montré sur des structures comportant jusqu’à 290 atomes que des solutions sortent encore à des résolution de 1.4 Å [17]_. Le nombre de phases à affiner, le nombre de cycles SnB à effectuer et le nombre de modèles à essayer augmentent avec la taille de la structure à résoudre. Ceci implique une rapide croissance non linéaire du temps de calcul pour obtenir une solution (par exemple on peut estimer à environ une semaine le temps CPU nécessaire pour résoudre la structure Tox II sur la machine citée précédemment). Ce facteur peut devenir une limitation pour les grosses structures.

Perspectives

Dans un article intitulé « Looking Ahead » [9] H.Hauptman, après avoir introduit une nouvelle fonction minimum généralisée R(,|E|) dépendant à la fois des phases et des facteurs de structure normalisés, a énoncé un nouveau principe minimum fondamental. Le corollaire 4 à ce nouveau principe affirme que si un ensemble de modules {|EL|} à basse et moyenne résolution est connu (et suffisant pour déterminer une structure cristalline), la nouvelle fonction R(,|EH|) des phases et des modules à haute résolution |EH| présente un minimum lorsque les phases sont égales à leur vraie valeur, et les modules des facteurs de structure à haute résolution sont égaux à leur vraie valeur.

On peut donc penser qu’il est en principe possible de résoudre directement de grosses structures avec un programme similaire à SnB mais mettant en oeuvre le corollaire 4, sans disposer de données à la résolution atomique.

De plus, d’autres programmes sont en cours de développement ou en passe d’être disponibles : citons SIR99 de l’école Italienne [19]_{, et Shelxd de G.Sheldrick qui a déjà permis la résolution} d’une protéine de 2024 atomes à 1.2 Å [16]_.

(12)

6 - Bibliographie :

[1] R.Blessing, J.Appl.Cryst. 22 (1989) 396-397

[2] H.Hauptman, in Crystallographic Computing 5, From Chemistry to Biology, edited by D.Moras, A.Podjarny & J.Thierry, IUCr Oxford University Press (1991) 324-332

[3_]_{C.Weeks, G.deTitta, R.Miller & H.Hauptman, Acta Cryst. D49 (1993) 179-181}

[4] R.Miller, G.deTitta, R.Jones, D.Langs, C.Weeks & H.Hauptman, Science 259 (1993) 1430-1433

[5] G.deTitta, C.Weeks, P.Thuman, R.Miller & H.Hauptman, Acta Cryst. A50 (1994) 203-210

[6] C.Weeks, G.deTitta, H.Hauptman, P.Thuman & R.Miller, Acta Cryst. A50 (1994) 210-220

[7] R.Miller, S.Gallo, H.Khalak & C.Weeks, J.Appl.Cryst. 27 (1994) 613-621

[8] C.Weeks, H.Hauptman, G.Smith, R.Blessing, M.Teeter & R.Miller, Acta Cryst. D51 (1995) 33-38

[9] H.Hauptman, Acta Cryst. B51 (1995) 416-422

[10_]_{C.Weeks & R.Miller, in Crystallographic Computing 7, edited by P.Bourne & K.Watenpaugh,}

Bellingham Washington (1996) 138-147

[11] C.Chang, C.Weeks, R.Miller & H.Hauptman, Acta Cryst. A53 (1997) 436-444

[12] G.Smith, R.Blessing, S.Ealick, J.Fontecilla-Camps, H.Hauptman, D.Housset, D.Lang & R.Miller, Acta Cryst. D53 (1997) 551-557

[13_]_{H.Hauptman, Methods in Enzymology, Vol. 277 (1997) 3-13}

[14] G.Smith, B.Nagar, J.Rini, H.Hauptman & R.Blessing, Acta Cryst. D54 (1998) 799-804

[15] B.Bachet et A.Soyer, Colloque de l’Association Française de Cristallographie (1998) Orléans

[16] G.Sheldrick, Proceedings of the American Crystallographic Association meeting, W0192 (1998) Arlington

[17] C.Weeks & R.Miller, Acta Cryst. D55 (1999) 492-500

[18] C.Weeks & R.Miller, J.Appl.Cryst. 32 (1999) 120-124

[19] M.Burla, G.Polidori, B.Carrozzini, C.Giacovazzo, M.Camalli & R.Spagna, XVIIIth IUCr Congress, Abstract P12.02.008 (1999) Glasgow