• Aucun résultat trouvé

II - AMARRAGE AVEC AUTODOCK

3. EXPLORATION DE L’ENVIRONNEMENT SPATIAL ET CONFORMATIONNEL

a.Les Algorithmes Génétiques (AG).

Les algorithmes génétiques reprennent des mécanismes et la terminologie de la génétique naturelle et de l’évolution biologique. L’organisation d’un ligand en complexe avec un récepteur peut être définie par un jeu de paramètres décrivant la position, l’orientation et la conformation du ligand par rapport au récepteur. Ces paramètres sont les « variables d’état » et dans un AG, chaque variable d’état correspond à un gène. La valeur de ces variables correspond au génotype et les coordonnées atomiques associées correspondent au phénotype. Chaque état défini du ligand correspond à un individu. Pour faire évoluer le ligand dans le champ d’interaction du récepteur, on emploie un certain nombre d’opérateurs qui vont agir sur le génotype. Le phénotype qui en découle sera amélioré par une méthode de sélection. Des paires aléatoires d’individus sont combinées selon le principe du croisement (crossover) pour donner des individus fils qui héritent de gènes provenant de leurs deux parents. D’autre part, certains enfants peuvent être le résultat de mutations où un gène est modifié de façon aléatoire. La sélection des individus fils constituant la nouvelle génération est basée sur la qualité de leur interaction avec le récepteur : les solutions qui s’ajustent mieux au récepteur que leurs parents persistent alors que les autres disparaissent. Le critère d’évaluation de la qualité d’une solution d’amarrage est l’énergie d’interaction totale du système ligand – récepteur.

Pour l’implémentation de l’AG dans AUTODOCK, le chromosome est composé de gènes de valeur réelle :

• trois coordonnées cartésiennes pour la position du ligand,

• trois coordonnées cartésiennes pour définir un point sur l’axe principal de la molécule ;

• une valeur pour l’angle de rotation du ligand autour de l’axe principal ;

• une valeur d’angle pour chaque pivot en libre rotation dans le ligand.

Les trois coordonnées définissant l’axe principal et l’angle de rotation autour de cet axe constituent le « quatérion » d’orientation. L’ordre des gènes qui encodent les angles de torsion est défini par un arbre de torsion crée par AUTOTORS, un programme de paramétrage inclus dans AUTODOCK. AUTOTORS permet de sélectionner les rotors flexibles du ligand. L’ensemble de ces variables ou gènes constitue le chromosome du ligand. L’implantation de valeurs dans ces gènes donne un état du ligand appelé individu.

L’algorithme génétique commence par créer une population aléatoire d’individus, dont la taille c'est à dire le nombre d’individus, est définie par l’utilisateur. Les différents gènes de chaque individu reçoivent des valeurs aléatoires comprises dans les limites de l’espace à explorer : les coordonnées de position sont localisées à l’intérieur de ce volume, les coordonnées du quatérion permettent toute orientation du ligand dans ce volume et les pivots peuvent prendre n’importe quelle valeur d’angle entre -180° et +180°. Tout individu dont le génotype se traduit par la présence d’atomes hors du volume à explorer est éliminé. La définition de ce volume survient au moment du calcul des grilles de potentiel décrit dans le paragraphe 2 p. 26.

Après la création aléatoire de la première population, le cycle de génération est répété jusqu’à ce que soit atteint le nombre maximum de générations ou le nombre maximum d’évaluations de l’énergie. Le cycle de génération se décompose en cinq étapes : transcription du génotype en phénotype (mapping) avec évaluation de l’énergie d’interaction ligand – récepteur, sélection, croisement, mutation et sélection élitiste. Chaque étape s’applique à l’ensemble des individus de la population. Pour les algorithmes génétiques lamarckiens (AGL), ce cycle est suivi d’une optimisation locale dont les détails sont l’objet du paragraphe b p.30.

La transcription est la phase de lecture du génotype, de sa traduction en coordonnées atomiques (le phénotype) et d’enregistrement. Elle s’applique à tous les individus de la population et permet l’évaluation de l’« adaptation » des individus au récepteur. Cette évaluation se fait sur la base de l’énergie interne du ligand et de son énergie d’interaction avec le récepteur. Plus l’énergie est basse, plus l’interaction est forte et stable. La nature physicochimique de la fonction d’évaluation de l’énergie est décrite au paragraphe 1. Chaque fois que l’énergie d’un individu est calculée, que ce soit au cours de la recherche globale ou de l’optimisation locale (voir AG Lamarckiens, §

l’un des paramètres d’arrêt conditionnel de l’exploration.

La phase de sélection permet de déterminer le nombre d’enfants qu’aura chaque individu dans la génération suivante. Ainsi les individus qui auront une meilleure interaction que la moyenne avec le récepteur, auront proportionnellement plus d’enfants. Le nombre d’enfants est donné par l’Équation 4 :

Équation 4: n0= Ep−Ei

Ep−Em Ep≠Em

où n0 est le nombre entier d’enfants qu’aura l’individu i, Ei est l’énergie d’interaction de l’individu i considéré, Ep est l’énergie d’interaction de l’individu le plus mal ajusté au récepteur parmi les N dernières générations et Em est l’énergie d’interaction moyenne de la génération en cours. N est défini par l’utilisateur et vaut 10 par défaut. L’énergie de l’individu le plus mal ajusté étant toujours supérieure à l’énergie moyenne et à l’énergie de l’individu en cours de sélection, les individus ayant un meilleur ajustement que la moyenne auront au moins un enfant. AUTODOCK attend l’égalité Ep = Em pour considérer que la population a convergé vers la meilleure solution ; c’est l’une des conditions d’arrêt de l’algorithme.

Les croisements et mutations s’opèrent sur un nombre aléatoire d’individus de la population selon un taux de croisement et de mutation défini par l’utilisateur. Les croisements ont lieu en premier. Ils sont effectués par deux points de coupure sur des positions identiques des chromosomes parents suivit de l’échange de fragments. Ainsi le chromosome de chaque parent est découpé en trois fragments contenant un ou plusieurs gènes, par exemple : ABC pour l’un des parents et abc pour l’autre. Les chromosomes des enfants après un croisement en deux points seront : AbC et aBc. Ces enfants remplacent alors leurs parents dans la population pour garder une taille de population constante.

Les mutations sont obtenues par l’ajout, à la valeur d’un gène, d’une grandeur réelle dont la probabilité suit la loi de distribution de Cauchy ou loi de Lorentz :

Équation 5: ) ) ( ( ) , , ( 2 2

α

β

π β

β

α

+ = x x C

où α et β sont des paramètres affectant la moyenne et la variance de la distribution. Cette loi de distribution favorise les petites déviations, centrées sur la moyenne mais permet des variations de grande amplitude avec plus de probabilité que n’en donne une loi Normale. La distribution de Cauchy ressemble à une distribution gaussienne très « aplatie ».

La sélection élitiste est un paramètre défini par l’utilisateur qui indique combien des meilleurs individus survivent automatiquement à la génération suivante. Par défaut, cette valeur est 1 : le meilleur uniquement.

b.L’Algorithme Génétique Lamarckien (AGL).

La plupart des algorithmes génétiques reproduisent le comportement de l’évolution darwinienne en appliquant le principe de la génétique de Mendel c'est-à-dire le transfert à sens unique des informations du génotype vers le phénotype. Ce comportement est illustré par la partie droite de la Figure 2. Par contre, dans le cas où il existe un mécanisme de transcription inverse, un génotype peut être induit par un phénotype. Il est alors possible, pour un individu, d’acquérir de nouveaux caractères génétiques en fonction de son environnement. Les enfants pourront hériter, à leur tour, de ces caractères acquis durant la vie de leur parent. Dans le cadre de l’interaction ligand-recepteur, on peut ainsi effectuer une optimisation locale du ligand par rapport au récepteur et remonter les informations du phénotype optimisé vers le génotype de l’individu. Ce comportement est illustré par la partie gauche de la Figure 2. C’est ce qu’on appelle un algorithme génétique lamarckien par analogie avec la théorie, aujourd’hui discréditée, de Jean Baptiste de Lamarck selon laquelle les caractéristiques acquises par un individu durant sa vie pouvaient devenir héréditaires [30].

.

.

.

.

.

.

Mutation Transcription Transcription inverse Parent Enfant Enfant Optimisation locale Phénotype Génotype

Figure 2. Comportement des algorithmes génétiques, principes de Darwin (à droite) et de Lamarck (à gauche).

AUTODOCK dispose d’un AGL dont la phase d’optimisation locale est particulière. Elle utilise une variante de la méthode de Solis et Wets [31] où l’opérateur travaille sur l’espace génotypique du ligand pour minimiser son énergie alors que la plupart des algorithmes classiques travaillent sur l’espace phénotypique. L’intégration d’une fonction de traduction inverse n’est donc pas nécessaire mais cette combinaison de recherche globale et de recherche locale reste de type lamarckien. En effet, toutes les adaptations environementales du ligand acquises pendant l’optimisation locale seront transmises à ses enfants, s’il en a. La méthode de Solis – Wets procède avec un opérateur semblable à l’opérateur de mutation de l’AG mais le gène affecté subit une modification qui n’est pas aléatoire. Au contraire, l’opérateur modifie les gènes affectés, un par un, par pas réguliers et identiques pour chaque gène. De plus la méthode est adaptative. Elle ajuste la taille du pas en fonction de l’historique énergétique des optimisations : après un nombre déterminé de hausses consécutives de l’énergie, la taille du pas est doublée. A l’inverse, après un nombre déterminé de baisses consécutives de l’énergie, la taille du pas est divisée par deux. La méthode d’optimisation locale implémentée dans AUTODOCK est une variante de Solis – Wets dans laquelle la taille du pas est différente pour chaque type de gène : une variation de 1 Å dans un gène de position aura beaucoup plus d’impact qu’une variation de 1° dans un gène d’orientation ou de torsion. Aussi la taille du pas pour un gène de position est paramétrée par défaut à 1,0 Å alors que la taille du pas pour un gène d’orientation ou de torsion est par défaut de 50°.

A chaque génération, il est possible de faire une optimisation locale sur une fraction de la population. L’efficacité de l’amarrage est sensiblement améliorée avec une fréquence d’optimisation locale de seulement 6 % alors que le gain supplémentaire pour une fréquence de 100 % est très faible.

AUTODOCK permet d’explorer l’espace conformationnel avec, au choix, un algorithme génétique darwinien, un algorithme génétique lamarckien ou par recuit simulé par la méthode de Monté Carlo (RSMC). Des trois méthodes, RSMC est la première implémentée et était la seule disponible dans les premières versions d’AUTODOCK. Les algorithmes génétiques sont apparus dans la version 3 d’AUTODOCK et c’est l’algorithme génétique lamarckien qui donne les résultats les plus fiables et les temps de calcul les plus courts [25].