• Aucun résultat trouvé

Etude comparative de l’efficacité de deux programmes de docking et application à l’inhibition de la neuraminidase

N/A
N/A
Protected

Academic year: 2021

Partager "Etude comparative de l’efficacité de deux programmes de docking et application à l’inhibition de la neuraminidase"

Copied!
119
0
0

Texte intégral

(1)

R

EPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

M

INISTERE DE L

ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

Université Mentouri de Constantine

Faculté des Sciences de la Nature et de la Vie

Département de Biochimie −Microbiologie

N° d’ordre : 020/Mag/2012

N° de série : 006/SN/2012

MEMOIRE

Présenté par

Hioual Khadidja Soulef

Pour obtenir le diplôme de MAGISTERE EN BIOCHIMIE

Option

«Technologies des explorations biochimiques»

THEME

Etude comparative de l’efficacité de deux programmes de

docking

et application à l’inhibition de la neuraminidase

Soutenu le : 27/02/2012 Devant le jury :

Président : Mr BENSEGUENI A. Maître de conférences Université Mentouri Constantine Rapporteur : Mr CHIKHI A. Maître de conférences Université Mentouri Constantine Examinateurs :

Mr KHELIFI D. Professeur Université Mentouri Constantine Mr BOUDAH A. Maître de conférences Université Mentouri Constantine

(2)

R

R

R

R

emerciements

emerciements

emerciements

emerciements

Le grand merci revient encore et toujours à notre DIEU le tout puissant qui m’a donné

le courage et la patience et qui a éclairé mon chemin pour achever ce travail.

La réalisation de ce mémoire est indissociable de son contexte familial, scientifique et

matériel. Nombreux sont ceux qui m’ont soutenu, aidé ou supporté. Je suis reconnaissante à

tous d’avoir été là quand il le fallait, de s’être investi, d’avoir partagé, d’avoir contribué

autant que possible, pour que ce mémoire se fasse.

Je tiens tout d’abord à remercier :

- Monsieur. CHIKHI Abdelouahab, Maître de Conférences à l’université Mentouri de

Constantine, qui a tout d’abord accepté de m’encadrer, puis a soutenu, orienté, enrichi,

critiqué, bref, dirigé… ma recherche. Je lui dois évidemment aussi beaucoup pour le soutien

moral et quotidien qu’il ma apporté, ainsi que la patience qu’il a su montrer.

-Les membres de mon Jury :

Monsieur BENSEGUENI Abderrahmane, Maître de Conférences à l’université

Mentouri de Constantine, qui a bien voulu présider ce jury.

Monsieur KHELIFI Douadi , Professeur à l’université Mentouri de Constantine,

et Monsieur BOUDAH Abdennacer, Maître de Conférences à l’université

Mentouri de Constantine, auxquels je suis très reconnaissante d’avoir accepté d’être

examinateurs de ce travail.

(3)

Dédicace

Dédicace

Dédicace

Dédicacessss

Merci mon DIEU de m’avoir permis d’arriver jusqu’ici et de m’avoir donné

l’aptitude d’achever ce modeste travail que je dédie particulièrement à mes très chers et

adorables parents qui m’ont inculqué toutes les bases de mon savoir, que DIEU me les

garde.

Je dédie aussi ce travail à mes frères et sœurs : Mohamed Saleh, Noureddine,

Ghania, Souad, Ouassila et Ouided

A Hemmam Sofiane , Amouche Ilhem. & Nezzar Sorya

A Mes adorables Kamel Ouassim, Louai Eddine & Imen

A mes très chères ami(e) s : Karim, Imen, Houda, Hanene, Sabrina, Sihem,

Aicha, Ouahiba, Naziha, Nouzha, Amina, Sabah, Khadidja, Lyes, Abdelmadjid,.

A mes collegues :Amina, Hanene, Meriem, Camélia, Rym , Soumiya , Afaf,

Mohsen, Bilel.

Je n’oublierai pas de dédier cet ouvrage à tous ceux ou celles qui ont ne serai-ce

qu’un moment partagé ma vie.

(4)

T

ABLE DES MATIERES

LISTE des figures……… ..

LISTE des tableaux………

LISTE des abréviations………..

INTRODUCTION ………. 1

CHAPITRE 1. Les interactions en Biologie : défis et complications……….. 3

1. Enjeux socio-économiques ………..……... 4

1.1.La recherche biologique comme composante d'un espace d'innovation ……….………... 4

1.2. L’importance de la biochimie, une science récente ………..…………. 4

1.3. La réponse de la science aux questions de la biochimie………..………. . 5

1.3.1. Approche expérimentale ………..……… 5

1.3.2. Approche théorique………...…… 6

1.4. Effets sur la société………...……. 7

2. INTERACTIONS……… 8

2.1. Les liaisons fortes………..……. 8

2.1.1 La liaison covalente……….…... 8

2.1.2 La liaison ionique………..……. 9

2.2 Les liaisons faibles………...…... 10

2.2.1 Les forces de van der Waals……….……….. 10

2.2.2 La liaison hydrogène………...………... 11

2.2.3 L’effet hydrophobe………...……. 13

CHAPITRE2.L’informatique : une nouvelle méthode de recherche scientifique ………... 15

1. La modélisation moléculaire et ses applications ………...…… 16

2. Le docking ………... 17

2.1. Principe ………... 17

2.2. Représentation de la surface des protéines ……… 18

3. L’évaluation de l’affinité d’un ligand pour une protéine donnée ………...…... 19

3.1. Les fonctions de score basées sur un champ de force ……….. 19

3.2. Les fonctions de score empiriques………. 20

3.3. Les fonctions de score basées sur des connaissances statistiques ………... 20

(5)

3.5. Autres types de fonctions de score ………...….. 21

CHAPITRE 3. Méthodes de recherche conformationnelle et algorithmes de docking……..…. 22

1. Le docking corps rigide multi-conformationnelle………..….. 23

2. Le ligand flexible ………..……... 23

2.1. Le ligand flexible : La recherche systématique………... 23

2.2. Le ligand flexible : La recherche stochastique ………... 27

2.2.1. Les méthodes Monte Carlo ………... 28

2.2.2 Les algorithmes génétiques ……….. 28

2.2.3. La recherche Tabou ………..….. 29

2.3. Le ligand flexible : La recherche déterministe ………..….. 30

3. Le récepteur flexible ………..……... 30

CHAPITRE 4.Matériel et Méthode ………..……… 32

1. Matériel ………..…………... 33 1.1. Ordinateur ………..………….. 33 1.2. Programmes utilisés ………..……….. 33 1.2.1.GOLD 5.0.1………..…….. 33 1.2.2. FlexX 1.3.0………..…………... 35 1.2.3. Open Babel 2.0.2………..……….. 36

1.3. Protein Data Bank ou PDB………..…………. 37

2. Méthode………..………… 37

2.1. Les ensembles de test ………..………... 37

2.2.La procédure GOLD ……….. 38

2.2.1. Initialisation des protéines et des ligands ………..………. . 38

2.2.2. Détermination du site de liaison du ligand ………... 39

2.2.3. La flexibilité du ligand ………...…….. 39

2.2.4. La flexibilité de la protéine ……….... 39

2.2.5. Arrangement des contraintes ………... 39

2.2.6. Docking avec GOLD ………... 39

2.3. La procédure FlexX ………..…….. 40

2.3.1. Le ligand………... 40

2.3.2. Le récepteur ………... 41

2.3.3. Définir le site de liaison du ligand ……….…….. 41

(6)

2.4. Les paramètres de comparaison étudiées ………..…. 42

2.4.1. RMSD ou Root Mean Square Deviation ………..…… 42

2.4.2. Les liaisons rotables ………..……... 42

2.4.3. La vitesse ………...……... 42

2.4.4. Les faux positifs ………... 43

CHAPITRE5.Résultats et Discussion………..…… 44

1. La précision du processus du docking ………..………... 45

2. La précision dans le classement des solutions………..………. 49

3. Les liaisons rotables et la performance du processus du docking………..………… 50

4. Le temps d’exécution et la performance du processus du docking ………...……… 52

5. Les faux positifs dans les programmes de docking ………..……… 53

6. Rôle des molécules d'eau dans la performance du processus du docking ………..…... 56

CHAPITRE 6.EXEMPLE D’APPLICATION : Etude des inhibiteurs de la neuraminidase……… 60

1. Mises aux points bibliographiques………..….. 61

1.1.La neuraminidase : origine, structure et fonction ………..…… 61

1.2. Inhibiteurs de la neuraminidase ………... 64

1.3. Changements antigéniques et résistance………... 66

2. Matériel et méthode ………... 68

2.1.Choix de la cible ………... 68

2.2. FlexX 1.3.0 ………..…….. 69

2.3. PubChem ………..….. 70

2.4. La règle de Christopher A. Lipinski (1997) ………..…… 70

3. Résultat et discussion ………..…... 71

3.1. Vérification de la règle de Lipinski ………..….. 71

3.2. Le docking par FlexX 1.3.0 ……… 73

Conclusion ……….. 77 Bibliographie……….. ANNEXE 1. Résultats-FlexX………... ANNEXE 2. Résultats-GOLD………. ANNEXE 3. Résultats-FlexX-GOLD……….. Résumés………

(7)

1.1 Exemple d’éléments identifiables par l’expérience sur une molécule biologique et

de la technique associée. Source Angew. Chem. Int. Ed. [18]………. 7 1.2 Processus de formation d’une liaison ionique illustré avec l’exemple de NaCl. … 10

1.3 La liaison hydrogène est une interaction entre deux dipôles, l’un formé par le donneur et l’atome d’hydrogène, l’autre par l’accepteur et le carbone auquel il est

lié……….. 11

1.4 Structures secondaires des protéines [31]………. 12 1.5 Exemple d’interactions intervenant dans le repliement d’une chaîne

polypeptidique………... 13

2.1 Principales étapes des méthodes de docking. ……….. 18 2.2 Surface du site actif d’une protéine dont la représentation est basée sur les

harmoniques sphériques……… 19

3.1 A) Définition du site de liaison dans DOCK. B) Variation de l’angle de torsion

dans DOCK……….. 24

3.2 Technique utilisée pour placer le fragment. Les trois centres d’interaction du

ligand (en gris). Les trois points d’interactions du site actif (en noir)……….. 26 3.3 Représentation schématique du cycle évolutionnaire typique d'un GA……… 29 3.4 Méthodes automatisées de docking les plus connues et exemples d’algorithmes

(en gris) fréquemment cités dans la littérature [74]……… 31 4.1 Illustration de la construction de solution basée sur le point de fixation.…………. 33

(8)

5.1 Le complexe 3CKZ………... 47

5.2 Le complexe 1BSZ……… 47

5.3 Le complexe 2ZR1……… 48

5.4 Le complexe 3NRB………... 51

5.5 Le complexe 1JSN……… 52

5.6 Le résultat du docking du complexe 1EUS par GOLD... 55

5.7 Le résultat du docking du complexe 2VW0 par GOLD………... 56

5.8 Le ligand n° 19 :2DVD………. 57

6.1 Structure du Virus de la grippe ………... 62

6.2 Structure tridimensionnelle de la zone globulaire de la neuraminidase [103]…….. 63

6.3 Structure chimique de l’acide sialique : acide N-acétyl neuraminique (Neu5Ac) ou (NANA)……… 64

6.4 Structures chimiques dans l’ordre du : DANA, Zanamivir, Oseltamivir, Peramivir………... 64

6.5 La surface moléculaire de la neuraminidase N1 liée avec le zanamivir (le complexe 3CKZ)……….. 69

6.6 Neuraminidase N1-zanamivir (Le complexe 3CKZ)……… 74

6.7 Neuraminidase N1-le similaire n°26………. 75

(9)

1.1 Les trois catégories de liaison hydrogène [30]. ……… 12 4.1 Paramètres pris en compte dans le docking par GOLD……… 40

5.1 Temps d’exécution du processus d’arrimage pour les deux programmes GOLD et

FlexX ……… 52

6.1 Les similaires de zanamivir répondant aux critères de la règle de Lipinski ……… 72 6.2 Résultats du docking du zanamivir et ses similaires à 90% dans la neuraminidase

N1 ………. 73

(10)

ADME/Tox Absorption, Distribution, Métabolisme, Excrétion, Toxicité AMM Autorisation de Mise sur le Marché

CADD Computer-Aided Drug Design

CCDC Cambridge Crystallographic Data Centre CPU Central Processing Unit

DANA Acide 2-Deoxy-2,3-Dihydro-Nacetylneuraminique GA Genetic Algorithm

GOLD Genetic Optimisation For Ligand Docking HA Hémagglutinine

INAs Inhibiteurs de la Neuraminidase MC Monte Carlo

MD Molecular Dynamic NA Neuraminidase

NANA Acide N-acétyl neuraminique

NCBI National Center for Biotechnology Information NCI National Institutes of Health

PDB Protein Data Bank PDF Peptide Deformylase PSI Protein Structure Initiative RMN Résonance Magnétique Nucléaire RMSD Root Mean Square Deviation

RSGI Riken Structural Genomics/Proteomics Initiative SPINE Structural Proteomics in Europe

(11)

ujourd’hui, la protéomique et les multiples techniques expérimentales ou calculatoires qui l’accompagnent, prennent le relais pour extraire la fonction des protéines codées, via la connaissance de leur structure et de la manière dont elles interagissent avec d’autres molécules. Puisque le Projet du Génome Humain (The Human Genome Project [1]) a permis de décrypter la séquence de presque 30 000 gènes mais n’a pas donné d’information directe sur leur fonction.

Les interactions intra et intermoléculaires sont décisives lors de la formation des complexes biomoléculaires et pour assurer la viabilité des cellules. En considérant par exemple qu’une protéine peut établir en moyenne 5 interactions différentes, on peut donc estimer à 150 000 au moins le nombre d’interactions dans les cellules humaines [2]. Comprendre et prédire les mécanismes d’interactions macromoléculaires ainsi que leurs possibles modifications avec le temps, le milieu, ou encore les maladies, représente donc un enjeu inestimable dans le domaine de la santé et de la recherche pharmaceutique.

En se maintenant au niveau moléculaire, la biologie s’appuie dans un premier temps sur les méthodes expérimentales pour identifier des protéines, leur structure et leur affinité [3]. Une telle approche ne peut cependant pas convenir à l’étude d’un grand nombre d’interactions, toutes les interactions moléculaires ne pouvant être identifiées par des études expérimentales, longues et coûteuses. La voie informatique présente une bonne alternative aux limites expérimentales : la recherche in silico est actuellement extrêmement active, son essor laisse présager son importance et son caractère incontournable dans les années à venir.

Les méthodes informatiques utilisées à l’heure actuelle ont deux objectifs : d’une part étudier la structure tridimensionnelle et les changements conformationnels d’une molécule, et d’autre part simuler les mécanismes d’amarrage moléculaire, ou docking.

A

Introduction

(12)

Introduction 2

Le processus du docking est itératif et chaque passe de calcul s’articule en deux étapes. Tout d’abord, une portion limitée de l’espace des conformations du complexe protéine-ligand est explorée afin d’améliorer la pose (orientation et/ou conformation) du ligand dans le site actif de la protéine. L’étape suivante fait intervenir une fonction de score qui évalue la qualité de la pose générée [4]. Cette estimation in silico de l’affinité du ligand pour la cible est basée sur un examen simplifié des interactions entre les deux partenaires. La répétition du cycle de recherche associé à l’estimation du score guidant l’exploration de l’espace doit assurer la convergence de l’algorithme vers un état représentatif du minimum global de l’énergie libre d’association.

Etant donnée la grande diversité des programmes de docking, ce mémoire a pour but, dans un premier temps, de faire une comparaison entre deux logiciels de docking GOLD et FlexX à travers différents paramètres : l’écart quadratique moyen rmsd ou root mean square deviation, le nombre de liaisons rotables (pouvant tourner), le temps d’exécution et le taux de faux positifs afin de savoir lequel des deux logiciels est le plus performant et le plus fiable et, dans un deuxième temps, appliquer les résultats de cette comparaison pour trouver de nouveaux inhibiteurs de la neuraminidase à travers les similaires tirés de la PubChem. Cette enzyme constitue un des composants de l'enveloppe du virus de la grippe, épidémie pouvant se transformer en une pandémie.

Nous présentons nos travaux dans ce mémoire au cours de deux parties :

Une partie théorique avec trois chapitres : Le premier chapitre introduit l’approche de la biologie à l’heure actuelle, à travers l’étude des événements atomiques et moléculaires. Dans un second chapitre, nous nous intéressons à une nouvelle méthode de recherche scientifique qui est le docking, son principe ainsi que la notion de score. Le troisième chapitre est consacré aux méthodes de recherche conformationnelle et aux algorithmes de docking.

Une partie pratique, elle-même divisée en trois : une partie consacrée au matériel utilisé dans notre travail et la méthode suivie, une deuxième qui traite les résultats obtenus et les discussions apportées et la dernière est une application des résultats précédents pour proposer de nouveaux inhibiteurs de la neuraminidase en utilisant les similaires d’un de ces inhibiteurs tirés de la PubChem.

(13)

haque être vivant est constitué d’unités structurales élémentaires : les cellules [5]. Chaque cellule est elle-même une entité vivante et fonctionnelle, autonome mais coordonnée avec son environnement. Elle a la capacité de grandir, de se reproduire, de recevoir et d’émettre des signaux, de traiter des informations... Toute son activité est régie par de multiples réactions chimiques et de fines interactions inter et intramoléculaires.

C’est à ce niveau qu’interviennent la biologie moléculaire, la biologie structurale et la biochimie : dans la compréhension du vivant, par l’étude d’événements moléculaires, depuis la formation, la structure et la fonction des molécules biologiques jusqu’à leur implication dans les processus chimiques et les assemblages macromoléculaires.

C

CHAPITRE 1

Les interactions en Biologie : défis et

complications

(14)

Chapitre 1. Les interactions en Biologie : défis et complications 4 1. Enjeux socio-économiques

1.1 La recherche biologique comme composante d'un espace d’innovation

Les innovations scientifiques et les techniques de pointe élaborées par les biologistes et les biochimistes dans les laboratoires pour les avancées de leur discipline initient des processus industriels nouveaux, notamment dans l'industrie pharmaceutique ou agrochimique. Ceci tend à produire d'autres interrelations entre science (biologie moléculaire, génétique, biochimie) et technologies, et de nouvelles configurations de réseaux d'innovation associant aux laboratoires de recherche fondamentale et de recherche-développement, des groupes pharmaceutiques et des services cliniques [6].

Le document "Biologie 1990 - Enjeux et problématiques" (1987) fixait à la recherche biologique quatre enjeux majeurs pour la société : la santé, l'agro-alimentaire, l'utilisation des micro-organismes, et l'environnement.

1.2. L’importance de la biochimie, une science récente

On peut situer le début de la biochimie en 1828, lorsque Wöhler synthétise pour la première fois de l’urée, une substance organique sécrétée par les êtres vivants à partir de cyanate d’argent. La théorie du vitalisme [7], jusque là admise, entâme son déclin. Distinguant les êtres vivants de la matière inerte en leur associant une force vitale différente de l’âme, et en donnant ainsi à la biologie une indépendance par rapport aux autres sciences, le vitalisme laisse place à une conception plus matérialiste de la vie qui lève l’indétermination : on admet désormais que les règles physico-chimiques des êtres vivants sont les mêmes que celles régissant la matière inanimée.

Cette nouvelle vision modifie totalement le rapport de l’homme aux sciences de la vie, et par conséquent, leur place dans notre société et nos préoccupations [8]. Le XIXème siècle assiste ainsi à la rationalisation des savoirs et des observations. Les progrès de la physique et de la chimie permettent le triomphe des méthodes expérimentales. En 1864, Claude Bernard publie L’introduction à la médecine expérimentale et confirme la déroute du vitalisme. Il propose l’existence de lois naturelles rigoureuses gouvernant la physiologie tout comme la physique et la chimie, et étant la cause de l’existence de tout phénomène vivant.

(15)

Chapitre 1. Les interactions en Biologie : défis et complications 5 Aujourd’hui, avec l’avancée des technologies modernes d’exploration et de conception, ainsi que des moyens de calculs, de nombreuses questions trouvent peu à peu leur réponse : Quelles sont les structures chimiques et tridimensionnelles des molécules biologiques ? Dans quelle mesure leur fonction change-t-elle avec cette structure ? Quels sont les mécanismes de reconnaissance, d’assemblage ? Quels mécanismes inter ou intramoléculaires leur permettent de fonctionner ? Par exemple, comment une enzyme réalise-t-elle la catalyse ? De quelle façon son activité est-elle régulée ? Comment une protéine peut-elle recevoir ou émettre un signal ? Comment peut-on exprimer et transmettre l’information génétique ?

.

1.3. La réponse de la science aux questions de la biochimie

1.3.1. Approche expérimentale

Depuis le milieu du XXème siècle, avec la découverte de la structure de l’ADN puis le séquençage du génome, la quantité de molécules répertoriées ne cesse de croître. On estime qu’il existe environ 100 000 protéines chez l’homme, dont un millier possède une structure tridimensionnelle connue [9], et dont seulement une centaine est employée comme cible pour les médicaments. Les techniques expérimentales permettent d’identifier à haut débit les structures tridimensionnelles des molécules biologiques. Elles contribuent ainsi à l’effort mené sur l’étude de la fonction de ces molécules, de leurs mécanismes d’interactions et de leur implication dans l’activité normale ou pathologique des cellules.

Deux méthodes sont généralement utilisées pour déterminer les structures tridimensionnelles à haute résolution des macromolécules biologiques: la cristallographie par diffraction des rayons X [10] et la spectroscopie par résonance magnétique nucléaire (RMN) [11]. De très nombreuses structures sont mises à la disposition de l’utilisateur : la Protein Data Bank (PDB) [9] par exemple, recensa en 2009 près de 55000 structures de molécules, dont 45000 ont été résolues par rayons X et 7500 par RMN [12]. Plus de 80% des structures sont résolues par diffraction des rayons X. Cette méthode, contrairement à la spectroscopie RMN, n’est pas limitée par la taille des molécules. Elle nécessite néanmoins une cristallisation préalable qui peut présenter des difficultés. La RMN quant à elle peut fournir des réponses sur la dynamique. Notons que la résolution de complexes de macromolécules demeure limitée : en 2006, elle ne représentait que 1.5% des structures disponibles [13].

(16)

Chapitre 1. Les interactions en Biologie : défis et complications 6 De multiples obstacles doivent être franchis par l’expérimentateur, notamment dans le choix de la méthode qui doit convenir à la propriété recherchée, ainsi qu’à l’échelle de temps du phénomène (qui peut aller de la femtoseconde (10-15

s) à l’heure [14]). Il existe donc de nombreuses autres méthodes expérimentales selon la propriété structurale ou physico-chimique que l’on cherche à identifier [15] ; la Figure 1.1 présente un exemple d’éléments recherchés sur une protéine ainsi que la technique associée.

1.3.2. Approche théorique

Dans le but de renforcer les connaissances de la communauté scientifique et d’aider à la compréhension de la relation séquence-structure-fonction, des consortiums de génomique structurale tentent d’organiser les efforts au niveau international pour déterminer la structure 3D d’un maximum de protéines différentes (PSI (Protein Structure Initiative), RSGI (Riken Structural Genomics/Proteomics Initiative) et SPINE (Structural Proteomics in Europe) [16]). Cependant, en raison de difficultés techniques et du coût humain élevé nécessaire à la résolution expérimentale des structures, le fossé entre le nombre de séquences protéiques connues et le nombre de structures continu de se creuser.

Dans ce contexte, les méthodes de bioinformatique structurale ont un rôle particulièrement important à jouer et doivent fournir des méthodes alternatives permettant de réduire cet écart. Selon les travaux d’Afinsen, “toute l’information nécessaire pour obtenir la conformation native d’une protéine dans un environnement donné est contenue dans l’enchaînement des acides aminés [17]. Cette hypothèse est tout à fait fondamentale et fondatrice pour les méthodes de bioinformatique structurale visant à prédire la structure tertiaire d’une protéine à partir de sa séquence. Par ailleurs, selon Levinthal, la formation simultanée de petits noyaux structurés dans plusieurs régions d’une même chaîne polypeptidique initierait et accélèrerait le repliement. Ainsi, cette seconde hypothèse, aujourd’hui considérée comme complémentaire de celle d’Afinsen, met en avant l’importance des interactions à courte distance et la formation de petites structures locales au cours du processus de repliement.

(17)

Chapitre 1. Les interactions en Biologie : défis et complications 7

Figure 1. 1 Exemple d’éléments identifiables par l’expérience sur une molécule biologique et de la technique associée. Source Angew. Chem. Int. Ed. [18].

1.4. Effets sur la société

Ces développements débouchent sur des progrès quotidiens de la biologie dont l’impact sur la société est de ce fait considérable. La compréhension des mécanismes moléculaires de maladies permet la conception et l’optimisation de produits pharmaceutiques, la compréhension de maladies conformationnelles (Alzheimer, Parkinson, maladies à prions, amyloses...), le dépistage d’anomalies génétiques, mais aussi la modification d’êtres vivants avec des applications dans le domaine agro-alimentaire, le clonage [19].

Ces avancées deviennent également la source de nouvelles technologies en plein essor : les nanobiosciences [20]. Elles se situent à l’interface de la physique, la chimie, la biologie et l’ingénierie et présentent de nombreuses perspectives dans des domaines tels que la médecine (diagnostic avec les biopuces, thérapie, organes artificiels), la visualisation et la manipulation de molécules uniques (nanoparticulesmagnétiques), l’imagerie biologique (nanoparticules fluorescentes).

Aujourd’hui, les outils bioinformatiques font parler les structures recueillies par les expérimentateurs afin d’en inférer des fonctions biologiques présentant un intérêt

(18)

Chapitre 1. Les interactions en Biologie : défis et complications 8 (économique, industriel, santé publique, agroalimentaire). Les biomolécules entrent alors en jeu pour la fonctionnalisation de surface (biopuces, biocapteurs...), la détection de cibles impliquées dans les fonctions biologiques (diagnostic précoce). Tous ces dispositifs nécessitent l’élaboration de molécules, parfois même leur conception de novo par la biologie de synthèse [21] pour arriver à des systèmes présentant de nouvelles propriétés physico-chimiques adaptées à une fonction dans la nanoingénierie.

2. Interactions

Le développement de la biologie moléculaire, ainsi que de la biologie structurale, depuis le milieu du siècle dernier a permis de comprendre, par la voie de l’expérience et de l’analyse, les processus biologiques à une échelle de plus en plus petite [22]. Les outils de simulation permettent depuis le début des années 1980 d’étudier ces processus sous la forme d’interactions entre biomolécules jusqu’à l’échelle atomique. Grâce à ces avancées scientifiques et techniques, de nombreuses perspectives industrielles ont vu le jour, notamment dans le domaine de la médecine.

Dans cette partie, ces forces intermoléculaires seront décrites, mais également les forces intramoléculaires qui maintiennent la molécule dans un état stable. Parmi ces forces d’interaction, deux classes se distinguent : les liaisons chimiques, qui assurent la stabilité de la molécule, et les liaisons physiques, qui vont régir l’évolution de la molécule dans son milieu [23].

2.1. Les liaisons fortes

Dans l’organisme, les molécules intervenant dans les processus biologiques peuvent être définies comme des groupements d’atomes ayant une stabilité suffisante pour conserver leur identité lorsqu’elles sont en interaction avec l’environnement [24]. Cette stabilité est assurée par les interactions intramoléculaires qui sont les liaisons chimiques : liaisons covalentes et liaisons ioniques.

2.1.1. La liaison covalente

La liaison covalente est le résultat de l’interaction entre deux atomes qui se partagent de manière équiprobable leur paire d’électrons de valence [25]. Ce sont des interactions qui ont lieu à courte distance (typiquement entre 0.5 et 2 angströms) et elles possèdent une énergie relativement élevée comparée aux valeurs des autres interactions ou de l’agitation thermique.

(19)

Chapitre 1. Les interactions en Biologie : défis et complications 9 A titre d’exemple, les valeurs de l’énergie de ces liaisons varient de 24 fois à 350 fois kT (avec 1kJ/mol ~ 0.4kT par liaison à 300K) [23].

La liaison covalente est le type commun de liaison où la différence d'électronégativité entre les atomes liés est petite ou nulle. Dans ce dernier cas, on parle parfois de liaison purement covalente. Lorsque les atomes se rapprochent, leurs nuages électroniques se recouvrent et les atomes partagent alors leurs électrons de valence. Un équilibre s’établit entre forces attractive et répulsive entre les atomes. Suivant le nombre de paires d’électrons partagé entre les atomes, la liaison sera plus ou moins forte. Les atomes peuvent partager 1, 2, 3 paires d’électrons et peuvent ainsi former des liaisons simple, double ou triple. Par exemple, dans le cas de la liaison O-O, la liaison simple possède une énergie de 145 kJ/mol, alors que celle de la liaison double est de 498 kJ/mol [26].

2.1.2. La liaison ionique

La liaison ionique est une liaison chimique similaire à la liaison covalente, impliquant deux atomes dont la différence d’électronégativité est supérieure à 1,7. L’atome le moins électronégatif cède un ou plusieurs électrons à l’atome le plus électronégatif, formant ainsi des ions positifs et négatifs respectivement, tous deux possédant alors une configuration électronique stable [25]. Sous l’effet de l’attraction électrostatique, les deux ions se rapprochent jusqu’à une distance d’équilibre et forment alors une liaison ionique. La liaison ionique résulte de l’attraction entre deux ions de charges opposées, alors que dans le cas de la liaison covalente, les atomes sont liés par le partage d’électrons. Mais en réalité, il n’existe pas de liaison ionique « pure », car théoriquement il faudrait une différence d’électronégativité infinie entre les atomes. Les liaisons ioniques se distinguent par leur pourcentage de covalence.

(20)

Chapitre 1. Les interactions en Biologie : défis et complications 10

Figure 1.2 Processus de formation d’une liaison ionique illustré avec l’exemple de NaCl. A) suite à un apport externe d’énergie, l’atome de sodium perd son électron célibataire. B) l’électron libre est alors récupéré par le chlore. C) les deux ions de signes opposés résultant de ce transfert de charge ont alors leur couche de valence remplie et s’attirent. D) on observe alors la formation d’une liaison ionique, exothermique.

2.2. Les liaisons faibles

Les liaisons physiques sont des interactions qui ont lieu pour des distances plus élevées que les liaisons chimiques. Pour la plupart d’entre elles, elles ont une intensité moindre que les liaisons chimiques, mais leur portée est bien plus grande [23]. Cela permet aux molécules de réagir avec d’autres éléments éloignés du milieu. Ce sont ces interactions qui régissent l’évolution des biomolécules, et notamment les changements conformationnels. A l’intérieur des cellules par exemple, le repliement des protéines est régi par ces interactions avec le milieu [27]. On va donc décrire dans la section qui suit un certain nombre de liaisons physiques qui jouent un rôle important en biologie.

2.2.1. Les forces de van der Waals

Les interactions électrostatiques sont à la base des phénomènes physiques entre les atomes chargés. Le principe de Pauli prévoit qu’à mesure que deux molécules s’approchent l’une de l’autre, et que leurs orbitales électroniques se chevauchent, il y a répulsion si les électrons ne peuvent partager leur sphère électronique [28]. Deux molécules stables devront donc respecter un certain volume impénétrable, nommé le rayon van der Waals. L’énergie générée par le

(21)

Chapitre 1. Les interactions en Biologie : défis et complications 11 rapprochement entre deux molécules est prédite par la loi de Coulomb, qui résulte du produit des deux charges divisé par la distance entre elles. Si les charges sont de signes opposés, l’énergie (E) diminue à mesure que les molécules s’approchent et donc, l’interaction est favorable. Si les charges sont de même signe, l’énergie augmente considérablement et devient défavorable.

Les interactions électrostatiques de type Van der Waals sont des liens d’assez faible énergie, entre 1-7 kcal mol

-1

[28], et la force de l’interaction est alors proportionnelle à l’électronégativité des molécules.

2.2.2. La liaison hydrogène

La liaison hydrogène est une force attractive qui s’opère entre deux groupes d’atomes impliquant un atome d’hydrogène. C’est une liaison physique qui se situe entre la liaison covalente et l’interaction électrostatique. Le caractère covalent de la liaison hydrogène a été démontré à la fin des années 1990, mais la force d’interaction prédominante reste électrostatique [29]. Cette liaison ne s’effectue pas avec n’importe quel atome. Il faut un donneur et un accepteur (sous entendu de proton) :

• Le donneur est l’atome d’hydrogène lié de manière covalente à un atome électronégatif ; typiquement azote, oxygène, fluor.

• L’accepteur est un autre atome électronégatif ; uniquement azote, oxygène ou fluor.La liaison hydrogène est donc le résultat d’une interaction dipôle-dipôle (cf. Figure 1.3)

Figure 1 .3 La liaison hydrogène est une interaction entre deux dipôles, l’un formé par le donneur et l’atome d’hydrogène, l’autre par l’accepteur et le carbone auquel il est lié.

Les liaisons hydrogène sont souvent décrites par deux paramètres : la longueur de la liaison et l’angle formé par les trois atomes. Les valeurs des angles et des distances varient respectivement de 90 à 180 degrés et de 1.2 à 4.0 Å.

Ces paramètres caractéristiques qui dépendent essentiellement du milieu vont déterminer la force des liaisons hydrogènes. On distingue trois catégories répertoriées dans le Tableau 1.1

(22)

Chapitre 1. Les interactions en Biologie : défis et complications 12 Tableau 1. 1 Les trois catégories de liaison hydrogène [30]. La longueur est la distance entre l’atome d’hydrogène et l’accepteur ; l’angle est formé par les trois atomes formant la liaison hydrogène : l’accepteur, l’hydrogène et le donneur.

Ces interactions qui s’établissent entre deux groupes d’atomes, peuvent s’effectuer entre deux molécules différentes (extramoléculaires), mais également au sein d’une même molécule (intramoléculaires). Dans ce dernier cas, elles vont tenir un rôle prépondérant dans la structure de la molécule. Dans le cas des protéines par exemple, les structures secondaires possèdent un réseau bien particulier de liaisons hydrogène qui contribuent à maintenir la molécule dans cette conformation (cf. Figure 1.4).

Figure 1.4 Structures secondaires des protéines. De gauche à droite : feuillet β antiparallèle ; feuillet β parallèle ; hélice α.Les liaisons hydrogènes sont représentées en pointillé. Les flèches indiquent le sens N-terminal vers C-terminal [31].

Ces structures déterminées par Pauling et ses collaborateurs en 1951 [32] se trouvent être des conformations très répandues. En effet, parmi toutes les structures de protéines connues à l’heure actuelle, plus de la moitié des acides aminés sont dans une de ces conformations [9].

(23)

Chapitre 1. Les interactions en Biologie : défis et complications 13 2.2.3. L’effet hydrophobe

Les molécules ou groupes d’atomes non polaires ne sont pas capables de former des liaisons hydrogènes et ne peuvent donc pas s’hydrater : pour cette raison, on les nomme substances hydrophobes. L’effet hydrophobe est la tendance qu’ont ces groupes à se rassembler par coalescence de façon à minimiser les contacts avec l’eau. Les liaisons hydrophobes possèdent une énergie de l’ordre de 7 kcal/mol [30].

Une molécule hydrophobe rompt localement le réseau de liaisons hydrogènes du solvant et crée un état énergétiquement défavorable (perte d’entropie). Les molécules d’eau se réorganisent alors autour des substances hydrophobes de manière à minimiser l’énergie. D’un point de vue thermodynamique, la diminution du nombre de molécules d’eau autour des groupes non-polaires et l’agrégation de ces derniers sous l’effet des forces de dispersion, c’est-à-dire la séparation de deux phases distinctes, organique et aqueuse, s’accompagne d’un gain d’entropie de l’ensemble du solvant et de la molécule non polaires. Pour cette raison, les régions non polaires sont souvent enfouies à l’intérieur des molécules. Cet effet a d’importantes répercussions sur la conformation et la stabilité des molécules. Elle est à l’origine du processus de repliement des protéines par exemple, ou encore de l’autoassemblage de biomolécules [33].

Figure 1.5 Exemple d’interactions intervenant dans le repliement d’une chaîne polypeptidique.

(24)

Chapitre 1. Les interactions en Biologie : défis et complications 14 Dans ce chapitre, nous avons décrit rapidement les intérêts actuels de la biologie structurale : identifier et comprendre la fonction biologique (et donc pharmacologique) d’une biomolécule via la connaisance de sa structure, de ses mécanismes et de son réseau d’interactions.

Aujourd’hui, si les outils expérimentaux et calculatoires permettent d’ouvrir la voie à l’étude des interactions inter et intra moléculaires, ce projet n’en demeure pas moins ambitieux. L’expérimentation ne permet pas à ce jour d’apporter toutes les réponses et reste lente et coûteuse, malgré ses indiscutables progrès.

Une nouvelle voie s’ouvre alors à nous : celle du calcul, qui, en se basant sur les lois usuelles de la chimie et de la physique, est tout à fait à même de s’appliquer aux problèmes de la biologie. Le calcul se doit néanmoins d’être rapide et rentable, d’une part pour traiter des données abondantes, et d’autre part pour modéliser les systèmes extrêmement complexes de la biologie.

(25)

a conception de molécules d’intérêt thérapeutique a bénéficié ces dernières décennies des progrès issus de diverses disciplines scientifiques telles que la biologie, la pharmacochimie et l’informatique. Ainsi la recherche, qui consistait autrefois à synthétiser et tester les composés sélectionnés sur la base de l’intuition et de l’expérience du chimiste médicinal, a radicalement évolué. L’essor de l’outil informatique a particulièrement changé la donne, en conduisant à l’émergence d’une nouvelle discipline pouvant participer aux étapes initiales de la recherche pharmaceutique en complément des méthodes expérimentales déjà reconnues. On parle alors de conception de médicaments in silico – c’est-à-dire assistée par ordinateur – qui correspond à un ensemble de techniques informatiques spécifiques souvent désigné par l’acronyme CADD [34] (pour "Computer-Aided Drug Design"). Bien que ces outils aient un large champ d’application dans le processus de recherche de nouveaux médicaments, nous nous limiterons à la description des méthodes utilisées pour ce travail, à savoir l’arrimage moléculaire, ou "docking" [35][36].

L

CHAPITRE 2

L’informatique : une nouvelle méthode

de recherche scientifique

(26)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 16 1. La modélisation moléculaire et ses applications

La modélisation moléculaire est un domaine scientifique multidisciplinaire : elle exploite des lois de la chimie, de la physique et de la biologie dans des programmes informatiques spécifiques afin de calculer structures et propriétés d’entités chimiques et biochimiques (protéines, acides nucléiques, complexes moléculaires, solides, cristaux etc.).Le but est la compréhension ou la prédiction des phénomènes auxquels s’intéressent ces disciplines [37].

Depuis les années 80, la modélisation moléculaire connaît un essor continu, non seulement comme outil scientifique précieux pour des domaines fondamentaux (tels que la chimie et la biologie) ou appliqués (tels que la pharmacie et les ingénieries), mais aussi comme une branche scientifique à part entière, consacrée à l’amélioration de la robustesse des logiciels et de l’efficacité des processeurs. Ce développement peut être attribué à deux facteurs principaux : le premier est l’évolution de l’informatique au cours des dernières décennies .Ceci a permis l’intégration de concepts de chimie théorique dans les algorithmes et le développement de machines de plus en plus puissantes, capables d’exécuter les lourds calculs numériques requis et de stocker les données générées. Le deuxième facteur est l’élucidation des structures tridimensionnelles de nombreuses protéines, grâce aux progrès de la génomique, et des techniques de cristallisation et résolution structurale par diffraction au rayon X. En effet, les structures tridimensionnelles de ces biomolécules sont le point de départ pour des simulations visant à comprendre leurs interactions, entre elles ou avec des petites molécules, ce qui est à la base d’un grand nombre de phénomènes chimiques, biologiques et biochimiques [38]. Ainsi, la modélisation moléculaire trouve de nos jours d’importantes applications, parmi lesquelles trois exemples classiques sont :

• L’étude des propriétés des matériaux : à partir des simulations moléculaires, un lien peut être établi entre les résultats de calculs menés à l’échelle microscopique (sur un échantillon représentatif d’atomes en interaction) et des propriétés mesurables à l’échelle macroscopique (sur les systèmes matériels réels que l’on souhaite maîtriser). Ainsi, peuvent être étudiées les propriétés mécaniques des polymères, les propriétés électroniques de solides cristallins ou encore les propriétés thermodynamiques et spectroscopiques d’une large gamme de composés d’intérêt scientifique et technologique [39].

(27)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 17

• Le développement de nouveaux médicaments : le mécanisme d’action de nombreux médicaments consiste à agir comme inhibiteur (ligand) d’une enzyme (récepteur) impliquée dans le développement de la maladie, que ce soit une protéine d’un microorganisme pathogène ou du propre organisme humain. L’élucidation de la structure tridimensionnelle de protéines impliquées dans plusieurs pathologies a permis, via des simulations informatiques, la découverte d’inhibiteurs puissants pour ces protéines, en réduisant considérablement le nombre d’essais de screening nécessaires pour aboutir à un nouveau médicament (rational drug design) [40, 41].

• La rationalisation de l’ingénierie enzymatique : le fondement est le même que celui du développement de médicaments : en permettant d’étudier les interactions entre les substrats (ligand) et les enzymes (récepteurs), la modélisation moléculaire apporte une meilleure compréhension de la sélectivité enzymatique, au niveau moléculaire. Ceci peut rendre possible, par la suite, le développement d’approches prédictives pour la sélectivité des enzymes natives vis-à-vis d’un substrat ou d’une classe de substrats donnée (rational process design), ou encore, d’identifier des acides aminés dont la mutation ponctuelle permettrait de modifier la sélectivité ou la spécificité enzymatiques (site-directed mutagenesis) [42].

2. Le docking

Ce mémoire se limitera ici à une description assez générale des techniques de docking afin de situer le contexte de notre travail.

2.1. Principe

Le docking est utilisé pour prédire la structure du complexe intermoléculaire résultant de l’association entre au moins deux molécules. Quand il s’agit de deux protéines, on parle de docking protéine- protéine [43], par opposition au docking protéine-ligand que nous avons utilisé pour ce travail.

Tout d’abord, une portion limitée de l’espace des conformations du complexe protéine-ligand est explorée afin d’améliorer la pose (orientation et/ou conformation) du ligand dans le site actif de la protéine. L’étape suivante fait intervenir une fonction de score qui évalue la qualité de la pose générée [4]. Cette estimation in silico de l’affinité du ligand pour la cible est basée sur un examen simplifié des interactions entre les deux partenaires (cf. Figure 2.1).

(28)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 18

Figure 2.1 Principales étapes des méthodes de docking 2.2. Représentation de la surface des protéines

Un des problèmes des programmes de docking réside dans la représentation de la surface des protéines. En effet, peu de méthodes de docking utilisent une représentation explicite des chaînes latérales lors des premières étapes de recherche, en raison du coût important que cela engendre en terme de temps de calcul. Généralement, le choix de représentation des chaînes latérales est également lié à l'algorithme de recherche conformationnelle, comme c'est le cas pour les programmes de recherche sur grilles [44], ces derniers représentant la structure des protéines en les projetant sur une grille tridimentionnelle. Certains programmes modélisent la surface des protéines par des harmoniques sphériques ou encore par une représentation simplifiée basée sur les surfaces de Conolly (cf. Figure 2.2). Ces représentations de la surface des protéines peuvent être " adoucies " pour permettre une certaine prise en compte de la flexibilité des chaînes latérales de façon implicite, en autorisant par exemple un certain degré de recouvrement des surfaces. Enfin, d’autres approches utilisent des approximations, telle qu'une représentation simplifiée des chaînes latérales par des centroïdes [45].

(29)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 19

Figure 2.2 Surface du site actif d’une protéine dont la représentation est basée sur les harmoniques sphériques.

3. L’évaluation de l’affinité d’un ligand pour une protéine donnée

Des techniques basées sur le calcul d’énergie libre ont été développées et constituent un moyen quantitatif rigoureux pour estimer l’affinité de liaison d’un ligand pour une protéine [46]. Bien qu’elles soient très précises, leur coût (en temps, en contraintes et en expertise) ne les rend pas appropriées pour une application de docking dans le cadre d’un criblage virtuel. Pour représenter le meilleur compromis entre vitesse et précision, les fonctions de score implémentées dans les programmes de docking sont donc basées sur la simplification des phénomènes impliqués dans la reconnaissance moléculaire, en particulier de ceux qui sont délicats à évaluer en dehors des calculs d’énergie libre (p. ex. l’entropie).

Les différentes fonctions de score implémentées dans les programmes de docking ont fait l’objet de nombreuses publications [4] [47] [48]. Elles sont généralement classées suivant trois catégories : les fonctions de score basées sur un champ de force, les fonctions de score empiriques et celles basées sur des connaissances statistiques. Enfin, plusieurs fonctions de score de nature différente peuvent être combinées pour former des fonctions de score dites de consensus.

3.1 Les fonctions de score basées sur un champ de force

Les champs de force dans leur forme standard évaluent la somme de deux énergies : l’énergie entre atomes liés au sein d’une molécule donnée (énergie interne) et l’énergie entre atomes non-liés. Ce deuxième terme correspond au terme principal de l’énergie d’interaction protéine-ligand dans le cas d’une application à un problème de docking. La plupart du temps,

(30)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 20 les fonctions de score basées sur un champ de force ne considèrent qu’une conformation donnée de la protéine. Ainsi, si l’on compare l’activité de deux ligands par rapport à cette même conformation, cela permet de faire abstraction du terme d’énergie interne de la protéine qui s’annule dans l’expression de la différence d’énergie libre d’interaction entre les deux ligands.

De telles fonctions de score présentent certaines limitations qui s’ajoutent à celles induites par la représentation du système (p. ex. la non représentation explicite du solvant). En particulier, les effets d’entropie, qui peuvent varier d’un ligand à l’autre pour un site actif donné, aussi bien que pour un ligand donné d’un site actif à l’autre, ne sont pas pris en compte. Seule la contribution enthalpique de l’énergie libre d’interaction est ainsi prise en compte.

Les fonctions G-Score [49] (basée sur le champ de force de Tripos [49]) et celle implémentée dans AutoDock [50] (basée sur le champ de force AMBER) sont des exemples de ce type de fonction de score.

3.2. Les fonctions de score empiriques

Ce type de fonction de score approxime l’énergie libre de liaison en sommant de façon pondérée différents termes d’interaction dérivés de paramètres structuraux. Les différents poids de la fonction de score sont ajustés pour reproduire en priorité des données expérimentales, telles que les constantes de liaison tirées d’un jeu d’entraînement de complexes protéine-ligand.

La plupart des programmes de docking implémentent ce type de fonction de score témoignant de leur efficacité (en terme de rapport précision/rapidité). Cependant, le principal inconvénient de ces fonctions empiriques est leur forte dépendance aux données utilisées pour les calibrer qui, en cas de mauvaise paramétrisation, peut limiter leur transférabilité sur des systèmes différents. Parmi les principales fonctions de score empiriques, on peut citer : LigScore [51].

3.3. Les fonctions de score basées sur des connaissances statistiques

Ces fonctions de score sont construites à partir de règles fondées sur une analyse statistique des complexes protéine-ligand résolus expérimentalement. Elles partent du principe que les distances interatomiques les plus représentées statistiquement dans les complexes constituent des contacts énergétiques favorables et, qu’à l’inverse, les plus rares représentent des

(31)

Chapitre 2. L’informatique : une nouvelle méthode de recherche scientifique 21 interactions moins stables. Ainsi, leur paramétrisation dépend de la quantité d’informations expérimentales disponibles et on doit leur apparition à la profusion de données structurales accessibles dans des bases de données telles que la PDB. Comme exemple populaire de ces fonctions de scores : DrugScore [52].

3.4. Les fonctions consensus

Ces fonctions hybrides combinent les résultats issus de diverses fonctions de score. On estime qu’il est possible de compenser partiellement les faiblesses intrinsèques de chacune des fonctions de score employées, évitant leurs erreurs individuelles et ainsi d'augmenter la probabilité d’identifier des composés actifs [53]. Cependant, si les termes des différentes fonctions de score sont fortement corrélés, l’intérêt du consensus devient limité car il peut entraîner une amplification des erreurs, au lieu de les atténuer. Ces fonctions consensus ont récemment fait l’objet d’une revue [54].

3.5. Autres types de fonctions de score

Les méthodes de docking reposant sur des surfaces utilisent des fonctions de score qui sont adaptées et principalement centrées sur la complémentarité géométrique surface-surface et auxquelles il peut être adjoint une estimation d’interactions sur le modèle des fonctions de score plus conventionnelles. Par exemple, LigandFit [55] génère, par Monte Carlo, les conformations du ligand dont les formes sont ensuite comparées à celle du site actif. D’autres programmes, tels que FRED [56], compare la forme de chacun des conformères, générés au préalable, à la forme du site actif de la protéine.

L’utilisation des programmes de docking a conduit à de nombreux succès dans le domaine de la découverte de nouvelles molécules bioactives [57] ; néanmoins, leurs algorithmes sont toujours en maturation. Les axes principaux de leur amélioration méthodologique visent essentiellement à considérer la totale flexibilité de la protéine pendant le processus de docking et à prendre en compte les effets d’entropie et de solvant dans l’évaluation de l’affinité du complexe protéine-ligand par la fonction de score.

De façon plus générale, le choix d’un programme donné pour un criblage virtuel par docking doit répondre à la question suivante : « Que veut-on obtenir, en combien de temps, et avec quelle précision ?

(32)

iverses méthodes de docking-scoring ont été rapportées dans la littérature. La complexité du docking moléculaire implique plusieurs approximations, du docking corps rigide, au docking (pseudo)-flexible (où le récepteur est maintenu de manière rigide et le ligand est partiellement flexible) au docking flexible (où la flexibilité des deux récepteur et ligand est considérée).Les algorithmes traitants la flexibilité peuvent être divisés en trois types, à savoir systématique, recherches stochastiques et déterministes (par exemple, la minimisation de l'énergie et la dynamique moléculaire) [36].

D

CHAPITRE 3

Méthodes de recherche

conformationnelle et algorithmes de

docking

22

(33)

Chapitre 3. Méthodes de recherche conformationnelle et algorithmes de docking 23

1. Le docking corps rigide multi-conformationnelle

Parmi les différents programmes de docking ; de nombreux programmes du docking corps rigide ont été rapporté pour arrimer des conformations préalablement générées par correspondance des points d'interaction du site du récepteur avec les atomes du ligand. Dans les méthodes du docking corps rigide, une recherche orientationnelle du ligand dans la poche de liaison de la protéine est réalisée alors que le récepteur et le ligand restent rigides.

Un des premiers des programmes du docking moléculaire pour l'interaction protéine-petite molécule impliquant le docking corps rigide était DOCK qui a été développé par Kuntz et ses collaborateurs [58]. Le programme DOCK génère une image négative des sphères du récepteur qui remplissent la poche de liaison et représentent les sites d'interaction potentielle. L'algorithme DOCK tente de superposer les atomes du ligand sur les centres des sphères.

Un autre programme du docking corps rigide FRED (http://www.eyesopen.com) [56] applique une fonction Gaussienne d’ajustement de forme pour optimiser la surface de contact entre le ligand et la protéine qui permet une procédure du docking rigide extrémement rapide. FRED filtre l’ensemble des poses en rejetant celles qui s’affrontent avec la protéine en utilisant une image négative du site actif .Les poses raffinées peuvent ensuite être classées par diverses fonctions de score.

Malgré les limites évidentes, les méthodes du docking corps rigide sont intéressantes car ils sont beaucoup plus rapides que les algorithmes de docking flexible. Des logiciels tels que FRED peuvent arrimer jusqu'à 10 composés par seconde dans un mono-processeur standard sous Linux [56]. La vitesse et la précision relative aux méthodes du docking corps rigides les rendent attractives [59].

2. Le ligand flexible

2.1. Le ligand flexible : La recherche systématique

Les algorithmes de la recherche systématique essayent d'explorer tous les degrés de liberté. Afin de réduire le nombre des évaluations à effectuer, le critère de terminaison est défini pour empêcher l'algorithme de faire face à l'explosion combinatoire. Les algorithmes de fragmentation / reconstruction (méthodes de construction incrémentale) divisent généralement le ligand en petits noyaux rigides et des jonctions flexibles (cf. Figure 3.1). Les fragments du

(34)

Chapitre 3. Méthodes de recherche conformationnelle et algorithmes de docking 24

noyau rigides sont amarrés d'abord dans le site de liaison et les parties flexibles sont ajoutées progressivement pour reconstruire le ligand complet.

Figure 3.1 A) Définition du site de liaison dans DOCK. B) Variation de l’angle de torsion dans DOCK.

L'approche générale dans le programme DOCK (http://dock.compbio.ucsf.edu/) pour le traitement de la flexibilité du ligand [60] (la méthode ancrer-et-croître) est divisée en trois étapes principales. Premièrement, la détermination d'un ensemble de sphères qui se chevauchent en contact avec la surface du site du récepteur. Ces sphères remplissent la surface moléculaire du site de liaison et représentent une image négative du site de la cible. Deuxièmement, le centre de ces sphères est lié avec les atomes du ligand via l'utilisation d'un algorithme d'appariement de graphes. Troisièmement, une fonction de score est utilisée pour évaluer la pertinence des poses de docking par approximation de l’énergie de liaison protéine / ligand.

Le programme Surflex (www.biopharmics.com) [61] est basé sur un programme développé auparavant nommé Hammerhead [62]. Il utilise le même concept de détecteur de poche et la définition des investigations du site de liaison (protomols) mais il est caractérisé par une construction incrémentale innovante du ligand et récemment une fonction de score raffinée. Le programme cré d'abord un site de liaison idéalisé ; le protomol qui sert de cible à laquelle les ligands ou les fragments du ligand sont alignés sur la base de la similitude moléculaire.

(35)

Chapitre 3. Méthodes de recherche conformationnelle et algorithmes de docking 25

Chaque ligand est fragmenté, résultant en 1 à 10 fragments moléculaires, dont chacun peut avoir certaines liaisons rotables. Chaque fragment est ensuite cherché conformationnellement et chaque conformation de chaque fragment est alignée sur le protomol pour céder les poses qui maximisent la similitude moléculaire au protomol. Les termes de fonction de score impliquent par ordre de signification, la complémentarité hydrophobe, la complémentarité polaire, des termes entropiques et des termes de solvatation.

Le logiciel FlexX (http://www.biosolveit.de/) [63] arrime des ligands flexibles aux récepteurs rigides en utilisant une approche incrémentale et certains concepts présents dans le programme LUDI [64]. L'approche peut être divisée en trois zones: la flexibilité conformationnelle, les interactions protéine-ligand et la fonction de score. La flexibilité conformationnelle du ligand est modélisée par un ensemble discret et préféré d'angles de torsion au niveau des liaisons simples acycliques et plusieurs conformations pour les systèmes d'anneau. En tenant compte du schéma d'interaction, FlexX repose sur la détection des interactions géométriquement restrictives telles que les liaisons hydrogènes, les interactions hydrophobiques spécifiques tels que les doublets phényl-méthyl, ou les surfaces sphériques qui sont issus des distances favorisées de l’intéraction. L'algorithme de docking est divisé en trois phases: la sélection du fragment de base, le placement du fragment de base, et la construction du complexe, où le ligand est construit progressivement à partir du fragment de base. Le classement des ligands est réalisé par la fonction de score empirique modifiée de Böhm. Cette fonction comprend plusieurs termes (pondérés): un terme fixé, un terme tenant compte de la perte d'entropie lors de la fixation du ligand en raison de l'empêchement de rotation de liaisons dans le ligand, la liaison hydrogène, l’interaction ionique, l'interaction aromatique et l'interaction lipophilique.

Sélection du fragment de base : [63] [65]

La première étape du docking par FlexX est de choisir une partie du ligand qui va interagir en premier avec la protéine, cette partie est appelée « le fragment de base ». La technique de la sélection du fragment de base est la suivante :

- la première étape est la division du ligand en plusieurs composants par l’ouverture des liaisons simples acycliques non términales. Par définition un fragment est dit valide lorsqu’il constitue la partie qui va se connecter à la protéine, et n’ayant pas plus de 30 conformations [63] [9].

(36)

Chapitre 3. Méthodes de recherche conformationnelle et algorithmes de docking 26

Placement de base :

Les algorithmes de placement sont basés sur la technique de « geometric hashing » [65] [66] [67]. Ces algorithmes sont le ‘’triangle algorithme’’ (triplet) et le ‘’line algorithme’’ (paire). Le premier algorithme est utilisé lorsqu’il y a trois interactions compatibles entre le ligand et le récepteur, il s’agit d’un triplet (sous forme de triangle) (cf. Figure 3.2) ; le second est utilisé lorsqu’il y a deux interactions compatibles, dans ce cas il s’agit d’une paire.

Pour des raisons géométriques les surfaces d’interactions du site actif sont présentées par des points (cette idée est similaire à celle développée par Böhm en 1992) [64].

La première étape de cette technique est de générer tous ces points d’interaction dans des cercles où la distance point-point est fixe. Sachant que la distance de la liaison hydrogène et les sels pontés est égale à 1.2 Å et que celle des interactions hydrophobiques est égale à 1.6 Å.

La technique « geometric hashing » traite toutes les paires de points qui ont une distance dans l’intervalle de 0.5 à 10 Å comme suit : le type d’interaction du 1

er

point, le type d’interaction du 2ème point et la distance. Elle génère tous les triplets (ou paires) des centres d’interaction du fragment et définit tous les triplets compatibles. On dit que les deux triangles définis précédemment sont compatibles seulement s’ils ont les mêmes longueurs d’arêtes et que leurs sommets ont des types d’interaction compatibles [63] (cf. Figure 3.2).

Figure 3.2 Technique utilisée pour placer le fragment. Les trois centres d’interaction du ligand (en gris). Les trois points d’interactions du site actif (en noir).

(37)

Chapitre 3. Méthodes de recherche conformationnelle et algorithmes de docking 27

La deuxième étape est l’ajustement du placement en considérant :

- Les contraintes angulaires ou géométriques (le centre d’interaction du ligand coïncide avec la surface d’interaction du récepteur et vice-versa).

- Le ligand et la protéine (récepteur) ne doivent pas se chevaucher. La liste des placements (positions) obtenus par cette étape contient plusieurs interactions similaires pour deux raisons :

● Changer un point par un autre proche dans la même surface d’interaction change légèrement l’interaction.

● Le fragment peut faire plus de trois interactions simultanément.

La troisième étape sert à regrouper tous les placements qui ont un rms de déviation minimale, (rms : root mean square=0.7Å). Ces placements vont converger vers une seule solution, celle qui correspondra à l’orientation finale du ligand [63] [68, 69].

La dernière étape est un test de chevauchement (l’algorithme ne prend en compte que les placements qui ne se chevauchent pas).

Construction du complexe :

Le processus de la construction incrémentielle commence juste après avoir placé le fragment de base [63].

Cette technique est représentée par un arbre « technique arborescente » où chaque point représente une position ou un placement d’une partie du ligand [63]. Dans le premier niveau de cet arbre, on trouve les différentes positions du fragment de base, chaque niveau suivant contient des positions alternatives pour les autres fragments du ligand.

2.2. Le ligand flexible : La recherche stochastique

Les algorithmes de recherche stochastique (ou aléatoire) impliquent des changements aléatoires pour modifier la position du ligand (translation et rotation) ainsi que les angles de torsion afin de générer différentes conformations. Les principales méthodes de recherche stochastique sont Monte Carlo (MC), Algorithmes Génétiques (GA) et la recherche Tabou.

Références

Documents relatifs

Vous allez découvrir dans un instant des techniques inédites et simples pour bien apprendre à vous connecter à votre intuition en adoptant les bonnes postures.. J’ai

Par la présente, nous vous informons que, à la suite de la fraude mise en place par l’impartition du processus de stérilisation Steril Milano S.r.l., qui a effectué des

La confiance, qui nous est ainsi accordée, n’est pas prête de s’éteindre car nous allons pouvoir désormais disposer de véritables moyens pour agir et influer sur la vie

• Ils sont en retard.. • Ils sont

1. Ouvrez le couvercle de l’humidificateur, puis retirez le filtre. Lavez le filtre avec de l’eau. Un détergent neutre peut être utilisé pour nettoyer le filtre au besoin. Séchez

- pour aider l’élève, l’inviter à sortir la leçon, à repérer les propriétés à utiliser (lui faire ensuite étudier le cas échéant), regarder s’il n’y a pas des exemples

Au début de l’expérience les deux compartiments sont placés à la lumière, les limaces se trouvent indifféremment dans un compartiment ou dans l’autre.. Ensuite, le compartiment

L’objectif de ce projet, est de proposer un modèle pour l’organisation des réseaux locaux des stations constituants le LAN étendu de la RTC Bejaia (Région Transport Centre),