• Aucun résultat trouvé

2.3 Le problème du protein design

2.3.5 Optimisation de potentiels dans un contexte de protein

On a vu précédemment que l'approche du protein design et celle du protein folding étaient diérentes. Les potentiels obtenus dans le contexte du protein folding donnent de bons résultats pour retrouver les repliements des protéines. Par exemple, la méthode présentée dans [Chiu and Goldstein, 2000] présentait un taux de succès de 83 % dans un modèle de treillis. A l'inverse, les potentiels utilisés dans le cadre du protein design semblent beaucoup moins performants. Et donc, ce domaine propose des challenges inté- ressants. En outre, les protéines semblent évoluer sous une contrainte de protein design, et non de protein folding, puisque les structures évoluent lentement, et qu'elles exercent une contrainte forte sur les séquences. Ainsi, se tourner vers l'optimisation de potentiels statistiques dans un contexte de protein design semble particulièrement attirant.

Les méthodes permettant d'optimiser des potentiels statistiques explicitement pour le problème du protein design ont été beaucoup moins développées que celles pour le protein folding. On utilise encore l'approximation quasi-chimique pour obtenir des potentiels sta- tistiques [Dehouck et al., 2006] an de répondre aux problèmes du protein folding et du protein design. Comme nous recherchions un potentiel statistique explicitement optimisé dans le cadre du protein design, an de l'intégrer dans un modèle d'évolution soumis à des contraintes structurales, nous avons décidé de créer notre propre méthode d'optimisation, qui sera décrite dans la partie suivante. De plus, nous cherchions également à dénir un cadre statistique complet nous permettant de tester diérentes méthodes d'optimisation. Les méthodes déjà existantes consistent à optimiser une fonction de forme variable, en essayant de prendre en compte le mieux possible le facteur de normalisation, le problème résidant dans la manière d'explorer les deux espaces de recherche.

Parmi les méthodes utilisant l'approximation du random energy model, on peut citer l'optimisation proposée par Seno et al, qui consiste à optimiser une fonction ∆ telle

2.3. Le problème du protein design que [Seno et al., 1998] :

∆ = ¯ " X k  E(sk, ck) − F (sk) Lk 2 + E(sk, ck) − F (sk) Lk 4 Θ (F (sk) − E(sk, ck)) # , (2.47) où Lk est la longueur de la k-ième séquence, ck la conformation native de la protéine k,

et

Θ(F (sk) − E(sk, ck)) =

(

0 si F (sk) < E(sk, ck)

1 sinon . (2.48) Cette fonction permet notamment de pénaliser les potentiels qui placerait l'énergie de la protéine à des valeurs physiquement impossibles. Cette fonction est minimisée à l'aide d'une procédure de recuit simulé, en forçant les potentiels à respecter un ordonnancement des forces d'attraction, déduites de la base de données (c'est à dire an que les interactions les plus présentes dans la base de données soient les plus favorables).

Une autre méthode d'optimisation fut décrite par Deutsch et Kurosky. À l'aide d'une fonction à minimiser ∆F telle que [Deutsch and Kurowski, 1996,Deutsch and Kurowski, 1997] :

∆F = X

1≤k≤N

E(c∗k, sk, P ) − F (sk, P ), (2.49)

où E représente le potentiel statistique, P le jeu de paramètres du potentiel, et F (sk, P )

correspond à l'énergie libre la séquence sk. A partir d'un premier ensemble de valeurs du

potentiel, pour chaque séquence, des structures peuvent être échantillonnées à l'aide d'une procédure de recuit simulé an de calculer l'énergie libre de la séquence. Cette méthode fut appliquée dans un modèle de treillis, où les structures sont très faciles à générer, et dans un modèle réel de protéine, pour un ensemble de 12 structures avec une taille de 8 acides aminés [Deutsch and Kurowski, 1997]. Cette technique est très attrayante, mais elle demande malheureusement de générer un ensemble de structures en fonction d'un potentiel, ce qui est dicile actuellement pour des bases de données réelles.

De leur côté, Chiu et Golstein utilisèrent la même forme de probabilité qu'ils avaient utilisée pour trouver des potentiels pour le problème du protein folding (cf. 2.2.6.3), mais en dénissant non plus le score d'une séquence par rapport aux nouveaux potentiels, mais le score d'une structure [Chiu and Goldstein, 1998a] :

P (S(c)) =  0, 5 + 0, 5 erf Z√c 2 N . (2.50)

L'ensemble des structures étaient entièrement décrit à l'aide d'un modèle de treillis de taille 33 pour des séquences constituées de 27 acides aminés. Chiu et Goldstein montrèrent

également que, à l'aide d'une telle approche (et en se basant sur le test présenté dans

[Thomas and Dill, 1996b]), le potentiel optimisé générait des séquences plus proches des

séquences natives (pour un jeu de données indépendant du jeu d'apprentissage) que le véritable potentiel lui-même.

Dans ce chapitre, j'ai résumé plusieurs manières d'essayer de prendre en compte la dépendance entre la séquence et la structure d'une protéine au travers d'une fonction. Bien que la manière la plus attrayante de construire une telle fonction, dans le cadre qui nous intéresse, serait d'utiliser des champs de force semi-empiriques exprimant les rela- tions entre les atomes des protéines, nous nous sommes plutôt tournés vers l'optimisation de potentiels statistiques. En eet, ceux-ci présentent, dans notre contexte, de nombreux avantages par rapport aux champs de force semi-empiriques, et notamment, pour la forme de potentiel simplié choisie, de pouvoir être calculés très rapidement. Au sein des po- tentiels statistiques, on peut distinguer deux types d'approches, l'une visant à retrouver la structure d'une séquence donnée (protein folding) et l'autre cherchant un ensemble de séquences correspondant à une structure xée (protein design). A chaque approche sont associées plusieurs méthodes d'optimisation, mais les méthodes d'optimisation de potentiels de protein design sont en général moins développées que celles pour le protein folding. Comme le modèle d'évolution moléculaire soumis à des contraintes structurales semble s'insérer dans un cadre de protein design, nous avons donc décidé de créer notre propre cadre de travail, et d'ainsi d'obtenir des potentiels qui seraient consistants avec le modèle d'évolution moléculaire. Ceci est donc le sujet de cette thèse, et le travail eectué dans ce but sera décrit dans la partie II. Cependant, avant d'entrer dans le vif du sujet, je décrirais les méthodes numériques et statistiques utilisées dans cette thèse.

Chapitre 3

Méthodes numériques et statistiques

3.1 Introduction et notations

Cette thèse fait appel à plusieurs méthodes numériques et statistiques, qui sont déve- loppées dans les articles présentés dans le cadre de ce mémoire ou dans d'autres articles connexes. Cependant, il est intéressant de regrouper ces diérentes méthodes au sein d'un chapitre introductif, an de poser le cadre statistique ayant servi de base au travail eectué. Ces méthodes seront expliquées à l'aide des variables utilisées dans le modèle d'évolution et dans l'optimisation des paramètres du potentiel statistique.

L'on notera s une séquence protéique de taille n, et c sa structure native associée. Θ correspond au jeu de paramètres associés au modèle d'évolution M (et Ξ représente l'espace des paramètres, Θ ∈ Ξ), et θ fait référence au jeu de paramètres du potentiel statistique E (énergies de contact, d'accessibilité au solvant). D correspond aux don- nées, représentant soit un alignement de séquences nucléotidiques dans le contexte du modèle d'évolution, soit des protéines (couples séquence-structure) issues de la PDB dans le contexte de l'optimisation des paramètres.

La première des méthodes numériques présentées ici est utilisée intensivement dans le cadre du modèle d'évolution. Il s'agit d'échantillonner Θ à l'aide de l'algorithme de Metropolis-Hasting (MH). La deuxième méthode consiste à échantillonner des séquences s suivant une distribution de probabilité, p(s|c, θ), à l'aide de l'algorithme d'échantillon- nage de Gibbs (GS), une méthode qui sera notamment utilisée dans le chapitre 4. La troisième méthode correspond à la descente de gradient an de trouver un jeu de pa- ramètres θ optimal, sous certaines conditions. Ces deux méthodes (échantillonnage de Gibbs et descente de gradient) sont également décrites dans les articles suivants, mais on souhaite ici faire une récapitulation technique des méthodes utilisées dans cette thèse an

de les relier entre elles. La dernière méthode utilisée ici est le calcul du facteur de Bayes pour comparer deux modèles d'évolution, décrit plus particulièrement dans les articles de Rodrigue et al (cf. [Rodrigue et al., 2006] pour une description détaillée de la méthode).