Stratégies de Design Computationnel de Protéines

basées sur des choix locaux aléatoires au cours de cycles d'optimisation. Ainsi, deux cycles heu-ristiques indépendants peuvent donner des résultats différents, correspondants à des minima lo-caux distincts. Par conséquent, bien que ces approches ne garantissent pas l'identification du GMEC en un seul cycle heuristique, leur consommation raisonnable en CPU permet de réaliser des centaines de milliers de cycles heuristiques afin de converger vers le GMEC. Elles sont donc appropriées pour traiter des problèmes complexes de CPD. Cependant, le nombre de cycles, no-tamment pour le problème d’énumération d’ensembles sous-optimaux, semble être un point cri-tique pour les approches heuriscri-tiques [17]. Par conséquent, une analyse systémacri-tique de la con-vergence de ces méthodes doit être effectuée pour produire des résultats significatifs. Ainsi, mal-gré leurs avantages en termes de temps de calcul, ces méthodes ne garantissent pas l'identification de l'optimum de la fonction objective. Ainsi, lorsque les résultats expérimentaux et les expé-riences in silico diffèrent, il est difficile de savoir si l’écart est lié à un échantillonnage insuffisant par ces méthodes heuristiques ou à des imprécisions dans la modélisation du problème. De plus, ces approches étant incapables de reconnaître le GMEC même si celui-ci a été énuméré, de nom-breux cycles supplémentaires peuvent être effectués inutilement, ce qui tend à dégrader la vitesse de ces méthodes heuristiques pour des problèmes de grandes dimensions [20].

Pour pallier à ces limitations et faciliter les cycles itératifs entre optimisation in silico et essais expérimentaux, les méthodes déterministes présentent un intérêt majeur. L'algorithme de ce type le plus couramment utilisé repose sur le théorème de «Dead-End Elimination » (DEE) [21] en combinaison avec le afin d'extraire la (les) solution(s) de l’espace restant après élagage par le DEE [17], [22]. Des approches de programmation linéaire en nombres entiers (ILP) et de pro-grammation dynamique [23] ont été également appliquées au CPD [24] avec des performances encourageantes. Des simulations de CPD ont été également réalisées à l'aide de méthodes basées sur la théorie du champ moyen [25]–[28]. Cependant, bien que déterministes puisque deux simu-lations conduisent aux mêmes résultats, ces méthodes basées sur le champ moyen ne sont néan-moins pas complètes dans la mesure où l’identification du GMEC n’est pas garantie.

L'approche de DEE élimine un rotamère dans une position tout en s'assurant qu'il ne peut exister au sein de la solution optimale. Des critères similaires existent également pour éliminer des paires de rotamères ou des combinaisons de rotamères d'ordres supérieurs. Ces critères d'élimination sont appliqués jusqu'à convergence ou jusqu’à un nombre prédéfini d'étapes. Toutefois, étant donné que le DEE ne converge pas toujours vers une solution unique lorsqu'il est confronté à des problèmes de CPD complexes, un algorithme d'énumération tel que est ensuite appliqué pour extraire le GMEC de l'espace restant. Deux exécutions de ce type de combinaison d’algorithmes donnent le même résultat, et fournissent la meilleure solution mathématique, le GMEC, lors-qu'elles convergent. De plus, des solutions sous-optimales peuvent être énumérées dans une fe-nêtre d'énergie spécifiée par l'utilisateur. Cependant, la convergence n'est pas assurée et ces mé-thodes peuvent être extrêmement consommatrices de CPU. Ainsi, elles peuvent échouer pour traiter des problèmes de CPD complexes.

Dès lors, de nouvelles approches déterministes exactes et complètes sont nécessaires afin de sur-passer les limitations des méthodes actuelles et faire face à des designs de haute complexité com-binatoire.

5.2.3.2 Une nouvelle approche pour le CPD : les réseaux de fonction de cout

Un réseau de contraintes est un modèle mathématique où un ensemble de contraintes est défini sur un ensemble de variables discrètes. Chaque contrainte limite les valeurs autorisées pour une ou un sous-ensemble de variables. Le Problème de Satisfaction de Contraintes (CSP) est de trou-ver simultanément une valeur pour chacune des variables de manière à satisfaire à toutes les con-traintes (également appelée une solution). Le CSP est NP-complet [29]. Un réseau de fonction de coût (CFN pour «Cost Function Network») élargit le cadre des réseaux de contraintes en rempla-çant les contraintes avec des fonctions de coût [30], [31]. Dans un CFN, nous avons un ensemble de variables avec chacun un domaine fini associé et un ensemble de fonctions de coût locales (c’est-à-dire impliquant uniquement un sous-ensemble de toutes les variables). Le problème de satisfaction de contrainte pondéré (WCSP pour « Weighted CSP ») est de trouver une valeur pour toutes les variables qui minimise la somme de toutes les fonctions de coût. Les CFNs ont été uti-lisés comme un outil de modélisation pour représenter et résoudre des problèmes d'optimisation combinatoire dans de nombreux domaines, incluant la bioinformatique et l’affectation des res-sources [32]–[34].

Formellement, un CFN est un triplet avec un ensemble de variables. Chaque variable possède un domaine discret . Dans le triplet, est un ensemble de fonctions de coût locales. Chaque fonction de coût est définie sur un sous-ensemble de variables (appelé sa portée), a comme domaine ∏ et prend ses valeurs dans . Les valeurs, paires et affectations jointes d’ordre supérieures sont représentées par des coûts infinis appelés contraintes dures et toutes les fonctions de coût doivent être non négatives. Souvent, dans la pratique, nous connaissons une « bonne » solution de coût , rendant toutes les solutions de coût supérieure à inintéressantes. Toutes ces solutions de coût au-delà de peuvent ainsi être considérées comme infini. Le coût d’une affectation est la somme des coûts de toutes les fonctions de coût locales. Il est généralement supposé que contienne une fonction de coût constante, avec une portée vide, notée . Un CFN définit une distribution des coûts joints sur toutes les variables définies par le coût des affectations. Étant donné que toutes les fonctions de coût dans un CFN sont non négatives, la fonction de coût constante définit un minorant sur cette distribution.

La Fig 5-1 est ce qu'on appelle une représentation en microstruc-ture de CFN sous forme de graphe sur un exemple très simple. Les deux variables impliqués sont représentées par des cercles en pointillés. Les valeurs de domaine sont représentées par de petits cercles (sommets, ). Les étiquettes des sommets sont les coûts unaires correspondants. Les arêtes représentent des termes binaires, l'étiquette correspondante est son coût. Pour plus de clarté, les arêtes qui ont un coût nul ne sont pas représentées et l'étiquette n'est pas écrite quand le coût = 1. Le majorant initial du problème est 4.

Fig 5-1 Un exemple de CFN

Le problème de CPD se modélise assez naturellement sous la forme d’un réseau de fonctions de coût. En effet, chaque résidu variable du CPD est représenté par une variable du CFN, son en-semble de rotamères permis étant modélisé par . Le terme constant dans peut être captu-ré par , les termes sont modélisés par les fonctions locales d’arité unaire et les termes sont capturés par les fonctions locales d’arité binaire. On peut ainsi modéliser le pro-blème d’optimisation du CPD comme un WCSP binaire. Pour faire cette correspondance entre WCSP et CPD, il est nécessaire d’appliquer une transformation des énergies (des nombres réels), en nombres naturels. Pour ce faire, le minimum de la matrice d’énergie est retranché à tous les termes de la matrice pour avoir des réels positifs, suivi de leur multiplication par une puissance de 10 pour avoir un nombre voulu de chiffres après la virgule. L’optimum du WCSP ainsi formu-lé est le GMEC du problème de CPD.

Le problème de WCSP est généralement résolu par des algorithmes de recherche en profondeur d’abord avec séparation-évaluation (« Depth-First Branch and Bound »). Ils intègrent à chaque nœud, des méthodes incrémentales de cohérence d’arc qui maintiennent en temps polynomial un minorant fort sur le problème d’optimisation [35], [36]. La maintenance de ces propriétés de co-hérence d’arc, en plus d’incrémenter le minorant, permet d’élaguer l’arbre de recherche en sup-primant des rotamères incompatibles avec au moins une contrainte. Ce majorant est initialement infini et est mis à jour à chaque fois qu’une conformation complète est identifiée. La recherche est terminée quand le minorant devient supérieur ou égal au majorant

De nouvelles approches basées sur les réseaux de fonctions de coût (CFN) 5.3

Les travaux de ma thèse furent principalement consacrés à l’évaluation de nouvelles méthodes d’optimisation exactes déterministes pour traiter des tailles de combinatoire aussi larges que celles explorées par les méthodes heuristiques. En collaboration avec l’équipe MIAT-INRA, spé-cialisée dans l’optimisation combinatoire, nous avons adapté pour la première fois des approches basées sur les réseaux de fonctions de coût (CFN) au problème de CPD et évalué leurs perfor-mances sur plusieurs cas de design de protéines.

Dans un premier temps, ces approches basées sur le CFN ont été évaluées sur un jeu de 12 cas distincts de design de protéines. Elles se sont avérées bien plus efficaces en terme de temps de calcul pour identifier le GMEC que les approches habituellement utilisées en CPD et basées sur le . De par l’accélération du calcul (par plusieurs ordres de grandeur), elles ont permis de trouver la solution optimale pour de nombreux cas non résolus par les autres méthodes. Ces tra-vaux sont décrits dans un article publié dans les proceedings du « 18th International Conference on Principles and Practice of Constraint Programming » (Québec, Canada, October, 8-12 2012) [11].

Sur la base de ces résultats encourageants, nous avons alors évalué les performances d’autres méthodes d’optimisation combinatoire (0/1 Linear Programming 0/1 Quadratic Programming, 0/1 Quadratic optimization, Weighted Partial Max SAT and Graphical Model Optimization) sur un jeu plus large de cas de CPD (40 au lieu de 12). Ces travaux ont montré que les méthodes CFN

sont bien plus efficaces que toutes les autres approches testées (Fig 5-2). Ces résultats sont pré-sentés dans un article publié dans Artificial Intelligence [13].

Fig 5-2 Evalution de différentes méthodes d’optimisation combinatoire (solveurs toulbar2 (CFN), osprey

(DEE/A*, cplex (0/1 Linear Programming), MaxHS (Weighted Partial Mas SAT), mplp et daoopt (Graphical Model

Optimization)) pour résoudre différents problèmes de design de protéines. Axe X : Nombre de problèmes résolus ; Axe Y : Temps CPU alloué pour résoudre chaque problème [13].

Au vu des performances de ces approches basées sur le CFN pour résoudre le problème d’identification du GMEC, nous avons alors appliqué ces méthodes pour traiter un autre pro-blème du CPD qui est l’énumération d’un ensemble de solutions sous-optimales dans un inter-valle défini au-delà de l’optimum. Un intervalle de a été utilisé dans notre études. Nous avons imposé une limite de temps de 100h et une limite de mémoire de 128G. Sur 35 cas de designs (Tableau 5-1), les méthodes basées sur le CFN ont réussi à énumérer les solutions sous-optimales pour 30 cas (en 7 heures de calcul pour le plus long) alors que le n’a pu les énumérer que pour un seul cas. L’approche a ainsi échoué pour 34 cas soit à cause des limites de temps (30 cas) ou de mémoire (4 cas). Bien que la seule instance qu’elle ait résolue ((1SHF) corresponde à l'un des plus petits espaces combinatoires étudiées ( ), ~ 37 heures de calcul ont quand même été nécessaires pour trouver l'ensemble des modèles de basse énergie. La même instance a été résolue par le CFN en moins d’une seconde. Plus encore, le temps de calcul le plus long pour le CFN fut observé pour 1L63 qui a requis ~7h (pour un espace combina-toire de ) pour énumérer un grand nombre de solutions sous-optimales ( ).

Au cours de cette étude, nous avons également introduit de nouveaux critères de choix de l’espace de mutations, basés sur la mesure de l’enfouissement des résidus. Alors que de nom-breux travaux de CPD mesurent l’aire de la surface exposée au solvant pour évaluer la localisa-tion des résidus mutables dans la structure 3D et ainsi définir les acides aminés autorisés à ces positions [37]–[39], notre approche repose quant à elle sur une mesure de l’enfouissement des résidus plus précise : le rayon de solvatation des résidus [40]. Dans le cadre de ces travaux, nous avons alors proposé un nouveau Framework permettant de réaliser un calcul de CPD complet, allant de la modélisation du problème jusqu’à l’optimisation combinatoire basée sur le CFN, en combinant l’utilisation de deux outils : un logiciel dédié au CPD, osprey (développé à l’université de Duke, USA, équipe de B. Donald) et le solveur CFN, toulbar2 (développé au MIAT-INRA,

Dans le document Computational approaches toward protein design (Page 184-188)