Algorithmes d’optimisation - Prédiction de structures de macromolécules par apprentissage autom

C-Cα 1.525 0.018

Cα-N 1.466 0.02

C-N 1.323 0.02

Table 4 – Exemples de valeurs moyennes des différents types de liaisons présents dans la chaˆıne principale des protéines [52].

On sait que les longueurs des liaisons entre atomes de la chaˆıne principale sont très stables d’une protéine à l’autre, c’est pourquoi une telle formule peut être utilisée. Ces longueurs standards ont ainsi pu être déterminées par une analyse des protéines de la PDB [52]. La table 4 reprend ces valeurs pour les différentes liaisons possibles. La valeur de σ permet d’accepter une certaine tolérance dans la variation de la longueur, nous avons choisi 0.1 qui semblait être un bon compromis entre pénalisation des mauvaises structures et tolérance au niveau de la longueur des liaisons.

On le voit, la valeur de σ utilisée est supérieure à la valeur de l’écart-type donnée par [52]. Ceci est dû au fait que les longueurs présentées dans la table 4 ne sont pas uniques et peuvent varier en fonction du type d’acide aminé dans des proportions très faibles. C’est pourquoi une plus grande valeur de σ permet de tenir compte de cette différence naturelle. La valeur de dstandard tient également compte des différences de longueur de liaisons entre

acides aminées puisque celle-ci est la moyenne des différentes valeurs possibles sur l’ensemble des acides aminés (cf. [52]). La formule (38) peut donc être calculée pour chaque liaison de la chaˆıne principale. Sa valeur sera proche de 1 si la longueur de la liaison courante est acceptable et sera plus grande si ce n’est pas le cas. Ainsi, pour des protéines dont la structure est valide, un offset a été introduit par cette formule. Pour le corriger, on soustrait 3n − 1 à la valeur calculée de sorte que, pour des protéines dont les longueurs de liaisons se trouvent dans l’intervalle admissible, le score d’énergie donné par notre formule soit sensiblement égal à l’énergie donnée par Rosetta. Au final, l’énergie est calculée par

E(s) = E(s) + X i∈MC exp ( di− dstandard σ 2) −3n + 1 (39)

o`u MC d´esigne l’ensemble des liaisons de la chaˆıne principale. 6.3 Algorithmes d’optimisation

Nous avons implémenté trois types d’algorithmes simples d’optimisation : algorithme glouton, algorithme de Monte-Carlo [65] et l’algorithme de recuit simulé [47]. Tous ces algorithmes fonctionnent sur le même principe, à savoir choisir aléatoirement un opérateur, l’appliquer sur la structure courante, évaluer son énergie et puis décider si la nouvelle structure est conservée. La seule différence réside dans le critère d’acceptation de la structure.

La politique gloutonne (ou greedy en anglais) conserve une structure que si celle-ci est meilleure que la précédente en termes d’énergie. Ce type de politique de décisions peut entra- ver l’optimisation dans un minimum local. La politique Monte-Carlo consiste à appliquer le critère de Metropolis (cf. équation (13)) avec une température constante. Ici, la politique de

décision permet, dans certains cas, de conserver une structure qui est moins bonne (en termes d’énergie) dans le but de trouver, par la suite, une structure qui est globalement meilleure que précédemment. L’influence des minima locaux est ainsi réduite. Le recuit simulé, finalement, utilise une politique de décision qui est expliquée dans la section 5.2.

En vue d’une utilisation dans notre problème, l’algorithme glouton est tout de suite exclu à cause de sa propension à trouver des minima locaux. Nous avons donc dû choisir entre l’algorithme de Monte-Carlo et le recuit simulé. Nous avons choisi ce dernier car il permet plus de flexibilité, au travers de ses paramètres (température initiale, température finale et décroissance de la température), que l’algorithme de Monte-Carlo. Nous avons brièvement testé ces trois algorithmes sur une protéine jouet composée de 12 alanines. La figure 18 illustre la structure initiale telle que créée par Rosetta. Les figures 19, 20 et 21 représentent respec- tivement les résultats de l’optimisation sur un nombre de 105 _{itérations de cette structure}

au moyen de l’algorithme glouton, de l’algorithme de Monte-Carlo et du recuit simulé. Une structure est également illustrée pour une optimisation de 106 _{itérations par l’algorithme glou-}

ton. On remarque directement que l’optimisation gloutonne donne de piètres conformations malgré un nombre élevé d’itérations. Par contre, les résultats de l’algorithme de Monte-Carlo et du recuit simulé sont bien meilleurs et fort similaires dans le cas de cette protéine très simple. On peut logiquement supposer que les différences apparaissent au fur et à mesure que la complexité de la structure augmente.

Figure 18 – Conformation initiale lors de la création de la protéine composée de 12 alanines.

Les test précédents ont été obtenus sur une protéine jouet qui nous a permis d’observer rapidement le comportement des différents algorithmes. Les protéines sur lesquelles nous travaillons sont évidemment plus grosses et de structure plus complexe. Les paramètres que nous avons utilisés pour optimiser ces protéines sont :

– Temp´erature initiale : kT = 4, – Temp´erature finale : kT = 0.01,

– D´ecroissance de la temp´erature : par paliers, avec 50 paliers.

Ces valeurs ont été choisies sur base de celles utilisées dans certains exemples présentés dans un tutoriel officiel de Rosetta. Il est évident qu’une analyse plus poussée de l’influence de ces paramètres est nécessaire afin de les sélectionner au mieux. Cependant, cette analyse dépasse

Dans le document Prédiction de structures de macromolécules par apprentissage automatique (Page 63-65)