Nouveaux logiciels pour la biologie structurale computationnelle et la chémoinformatique

(1)

HAL Id: tel-01416562

https://tel.archives-ouvertes.fr/tel-01416562

Submitted on 14 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

François Bérenger

To cite this version:

François Bérenger. Nouveaux logiciels pour la biologie structurale computationnelle et la chémoinfor- matique. Chemo-informatique. Conservatoire national des arts et metiers - CNAM, 2016. Français.

�NNT : 2016CNAM1047�. �tel-01416562�

(2)

CONSERVATOIRE NATIONAL DES

ARTS ET M´ ETIERS

Ecole Doctorale Sciences des M´ ´ etiers de l’Ing´ enieur Laboratoire G´ enomique Bioinformatique et Applications

Th` ese de doctorat

pr´ esent´ ee par : Fran¸ cois B´ erenger

soutenue le : 5 juillet 2016

pour obtenir le grade de : Docteur du Conservatoire National des Arts et M´ etiers Discipline / Sp´ ecialit´ e : Bioinformatique

Nouveaux logiciels pour la biologie structurale computationnelle et la ch´ emoinformatique

Directeur

M.

Zagury

Jean-Fran¸ cois Professeur, CNAM, Paris Rapporteurs

M.

Horvath

Dragos Directeur de recherche, CNRS, Strasbourg M.

Tuff´ery

Pierre Directeur de recherche, INSERM, Paris Examinateur ´

M.

Molina

Christophe Pr´ esident directeur g´ en´ eral, soci´ et´ e PIKA¨ IROS, Tou- louse

Pr´ esident du Jury

M.

Port

Marc Professeur, CNAM, Paris

(3)

(4)

Table des mati` eres

1 Remerciements 7

2 Introduction et ´etat de l’art 9

2.1 La bioinformatique . . . . 10

2.2 La pr´ ediction de structures de prot´ eines . . . . 12

2.2.1 La conception de prot´ eines . . . . 14

2.3 La ch´ emoinformatique . . . . 16

2.3.1 Encodage de mol´ ecules et recherche par similarit´ e . . . . 17

2.4 Les descripteurs mol´ eculaires . . . . 19

2.4.1 Le mod` ele de Wildman et Crippen . . . . 19

2.4.2 La fonction d’autocorr´ elation . . . . 21

2.5 Le champ ´ electrostatique . . . . 23

2.5.1 Les charges partielles et le mod` ele de Gasteiger-Marsili . . . . 25

2.6 Quelques mesures de similarit´ e . . . . 26

2.6.1 Les distances d’Euclide et de Manhattan . . . . 26

2.6.2 L’indice de Jaccard/Tanimoto . . . . 26

2.6.3 L’indice de Tversky . . . . 27

2.7 Le regroupement . . . . 28

2.7.1 Les K-moyennes . . . . 29

2.7.2 Les K-m´ edo¨ıdes . . . . 30

2.7.3 Le clustering agglom´ eratif hi´ erarchique . . . . 31

2.7.4 Les cartes de Kohonen . . . . 31

2.7.5 Le regroupement exact . . . . 32

2.8 Le criblage virtuel in-silico . . . . 33

2.8.1 L’aire sous la courbe ROC . . . . 34

2.8.2 Le facteur d’enrichissement . . . . 35

2.8.3 Quelques jeux de donn´ ees pour le LBVS . . . . 36

2.9 Le calcul parall` ele et distribu´ e . . . . 36

2.10 Objectifs . . . . 39

3 R´esultats publi´es 41

3.1 Ex´ ecution parall` ele et distribu´ ee de commandes ind´ ependantes . . . . 42

3.2 Regroupement rapide . . . . 45

3.3 Comparaison ´ electrostatique d’une prot´ eine avec une petite mol´ ecule . . . . 54

3.4 Descripteur mol´ eculaire pour le criblage virtuel ` a haute vitesse . . . . 64

3

(5)

4.2.1 Nouveau jeu de donn´ ees . . . . 84

4.2.2 R´ eglage du param` etre pour chaque espace chimique . . . . 84

4.2.3 Performances de la nouvelle version . . . . 85

4.2.4 Requˆ etes consensus . . . . 85

4.2.5 Annotation de la mol´ ecule requˆ ete . . . . 88

4.2.6 Ex´ ecution parall` ele . . . . 88

5 Discussion 91

5.1 Le calcul parall` ele et distribu´ e . . . . 91

5.2 La comparaison ´ electrostatique . . . . 93

5.2.1 Parall´ elisation quasi optimale . . . . 93

5.2.2 Applicabilit´ e et limitations . . . . 94

5.3 L’algorithme de regroupement exact . . . . 96

5.3.1 Nouvelle m´ ethode de calcul du RMSD . . . . 96

5.3.2 Choix de la distance seuil . . . . 97

5.3.3 Choix des r´ ef´ erences . . . . 97

5.4 Autocorr´ elation des charges partielles . . . . 98

5.4.1 Am´ elioration de la diversit´ e chimique . . . . 98

5.4.2 Autres utilisations possibles du descripteur . . . . 98

5.5 S´ election de fragments de prot´ eines . . . 100

5.5.1 Aller plus vite . . . 100

6 Conclusion 101

6.1 Recommandations ` a un jeune doctorant . . . 102

7 Bibliographie 107

A Glossaire 129

B Logiciel libre 133

4

(6)

Table des figures

2.1 Structure de la myoglobine de baleine . . . . 12

2.2 Combinatoire de la pr´ ediction de structure de prot´ eine . . . . 13

2.3 RMSD ` a la prot´ eine native en fonction de la densit´ e du cluster . . . . 14

2.4 Retroaldolase : une enzyme artificielle . . . . 15

2.5 La prot´ eine artificielle top7 . . . . 16

2.6 Autocorr´ elogramme des charges partielles . . . . 22

2.7 Champ ´ electrostatique autour d’une prot´ eine . . . . 25

2.8 Exemple de dendrogramme . . . . 30

2.9 Exemple de regroupement exact . . . . 32

2.10 Le criblage virtuel in-silico . . . . 34

2.11 Exemple de courbe ROC . . . . 35

2.12 La loi d’Amdahl . . . . 37

4.1 Fragger : m´ ethode et exemples d’utilisations . . . . 81

4.2 ACPC : proc´ edure d’encodage et de scoring . . . . 83

4.3 ACPC : optimisation du param` etre pour chaque espace chimique . . . . 85

4.4 ACPC : performance de la nouvelle version . . . . 86

4.5 ACPC : performance des requˆ etes consensus . . . . 86

4.6 ACPC : annotation de la mol´ ecule requˆ ete . . . . 87

4.7 ACPC : comparaison de vitesse avec Open-Babel . . . . 89

5.1 EleKit : parall´ elisation du code source . . . . 93

5.2 EleKit : vitesse en fonction du nombre de cœurs . . . . 94

5.3 Durandal : comparaison de vitesse avec les logiciels Calibur et SCUD . . . . 96

5

(7)

(8)

Chapitre 1

Remerciements

Je remercie ma m` ere, ` a qui je dois beaucoup. Pour ajouter ` a ma dette, je dois aussi ` a l’ancienne maˆıtresse d’´ ecole la correction orthographique et grammaticale des parties en langue fran¸ caise de ce document.

Je remercie aussi mes anciens coll` egues du RIKEN : les bonnes id´ ees pr´ esent´ ees ici sont souvent celles qui ont r´ esist´ e ` a une discussion acharn´ ee avec eux ou qui ont ´ et´ e am´ elior´ ees apr` es plusieurs ´ echanges. Les mauvaises id´ ees, ou celles avec peu de chance de succ` es, ne durent pas longtemps lors d’une discussion avec d’autres scientifiques. Je pense tout particuli` erement aux docteurs Yong Zhou, David Simoncini et Arnout Voet.

Je remercie aussi Kam Zhang, pour m’avoir recrut´ e au RIKEN et avoir autoris´ e l’effort en logiciels libres dans notre ´ equipe de recherche. Je remercie aussi Xavier Rival de l’INRIA pour l’effort en logiciels libres dans l’´ equipe Antique ainsi que le temps que j’ai pu passer sur ma th` ese ou ` a des conf´ erences.

Je remercie le professeur Jean-Fran¸ cois Zagury pour la direction de cette th` ese. Je remercie les rapporteurs Dragos Horvath et Pierre Tuff´ ery ainsi que l’examinateur Chris- tophe Molina pour leur travail.

Je remercie Maxime Viarouge pour les logos des logiciels PAR et Durandal.

Enfin, je remercie ma femme Yukari ainsi que mes deux enfants Mamolou et Gauvin pour me faire rire et me rappeler chaque jour ce qui est important dans la vie.

7

(9)

(10)

Chapitre 2

Introduction et ´ etat de l’art

De aoˆ ut 2009 ` a juin 2014, j’ai travaill´ e au Japon dans le campus du RIKEN de Wa- koushi, dans une ´ equipe de bioinformatique structurale et de d´ ecouverte de m´ edicament par ordinateur. L’´ equipe existe toujours et est dirig´ ee par Kam Y. J. Zhang. J’ai ´ et´ e em- bauch´ e en tant que

«

research associate

»

. Un intitul´ e de poste qui n’existe pas en France et qu’on pourrait traduire par chercheur associ´ e. J’y ai observ´ e pour la premi` ere fois les structures 3D de prot´ eines et de petites mol´ ecules sur des ´ ecrans d’ordinateur. Certains des sujets de l’´ equipe m’ont vivement int´ eress´ e. Au cours de mon travail, j’ai eu acc` es au supercalculateur du RIKEN nomm´ e RICC, qui comporte pas moins de 8000 processeurs pour le calcul scientifique.

Mes travaux scientifiques publi´ es ont port´ e sur quatre sujets distincts. En bioinforma- tique structurale, j’ai acc´ el´ er´ e un algorithme de regroupement largement utilis´ e en pr´ edic- tion de structures de prot´ eines et en analyse de trajectoires de dynamique mol´ eculaire.

J’ai aussi cr´ e´ e une m´ ethode pour comparer dans l’espace ´ electrostatique une petite mol´ e- cule avec la prot´ eine qu’elle est cens´ ee remplacer au sein d’une interface prot´ eine-prot´ eine.

En ch´ emoinformatique, j’ai montr´ e comment utiliser efficacement la fonction d’autocorr´ e- lation afin d’encoder de fa¸ con rotation-translation invariante une petite mol´ ecule en 3D dans les trois espaces chimiques majeures (st´ erique, hydrophobe et ´ electrostatique). Cette encodage tr` es fin de la mol´ ecule est non seulement rapide mais il a aussi montr´ e de tr` es bonnes performances dans des tˆ aches de criblage d’une chimioth` eque virtuelle. Enfin, dans le domaine du calcul haute performance, j’ai cr´ e´ e des outils transversaux qui permettent

9

(11)

d’acc´ el´ erer la pr´ eparation et l’ex´ ecution d’exp´ eriences computationnelles.

Cette th` ese est ´ ecrite dans l’optique de pouvoir ˆ etre lue par tout lecteur ayant suivi un cursus scientifique universitaire. Sa lecture ne devrait pas exiger d’ˆ etre sp´ ecialiste en informatique, en biologie structurale ou en chimie. De plus, ´ etant partisan du principe de parcimonie, nous nous sommes int´ eress´ es ` a des id´ ees simples. Dans les annexes de ce document se trouve un glossaire o` u tous les sigles rencontr´ es sont expliqu´ es.

Dans une optique de reproductibilit´ e des r´ esultats, nos logiciels ont tous ´ et´ e publi´ es sous des licences pour le logiciel libre. Quand nous avons dˆ u cr´ eer un jeu de donn´ ees pour valider scientifiquement un logiciel, ce jeu de donn´ ees ` a lui aussi ´ et´ e mis ` a disposition du public de fa¸ con libre et gratuite. Toute recherche scientifique se doit d’ˆ etre reproductible.

Nous pensons que la libre disponibilit´ e des articles de recherche, des logiciels ainsi que des jeux de donn´ ees permet d’acc´ el´ erer la recherche, la diss´ emination des connaissances ainsi que leur adoption par le plus grand nombre.

Cette th` ese se d´ ecoupe en trois grandes parties. Dans la premi` ere partie nous introdui- sons les concepts utiles ` a la compr´ ehension des r´ esultats publi´ es. Nous listons et r´ esumons ensuite ces r´ esultats dans la deuxi` eme partie. Dans la troisi` eme partie, nous discutons ces r´ esultats. Nous y d´ evoilons aussi des r´ esultats non publi´ es ainsi que quelques pistes pour aller plus loin avec certaines des id´ ees que nous avons explor´ ees.

Dans la section qui suit, nous introduisons bri` evement la bioinformatique ainsi que ses sous domaines, pour situer le cadre dans lequel s’inscrivent nos travaux.

2.1 La bioinformatique

La bioinformatique est une science multidisciplinaire. Elle se situe au carrefour entre

(au moins) la biologie, l’informatique ainsi que les math´ ematiques

^[102]

. Au sens large, la

bioinformatique vise ` a stocker, indexer, analyser, mod´ eliser et pr´ edire ` a partir d’informa-

tions provenant de donn´ ees biologiques exp´ erimentales. Son but ultime est de permettre

la compr´ ehension de ph´ enom` enes biologiques. Dˆ u au r´ ecent d´ eluge de donn´ ees g´ en´ etiques,

telles que celles produites par le projet de s´ equen¸ cage du g´ enome humain

^[90]

), les biolo-

gistes sont d´ ependants des ordinateurs et des bases de donn´ ees pour de nombreuses tˆ aches.

(12)

2.1. LA BIOINFORMATIQUE

11 On peut d´ ecouper les buts de la bioinformatique en trois axes : 1. le stockage, l’indexation et la restitution de donn´ ees

2. le d´ eveloppement d’outils qui permettent d’analyser ces donn´ ees

3. l’utilisation de ces outils et l’interpr´ etation de leurs r´ esultats afin d’apporter de nou- velles connaissances en biologie.

En fonction des donn´ ees consid´ er´ ees, on peut d´ ecouper la bioinformatique en sous domaines. Pour chaque domaine, on donne un ordre de grandeur de la taille des donn´ ees manipul´ ees.

1. L’analyse de s´ equences d’ADN. On travaille ici sur des s´ equences de nucl´ eotides (Ad´ e- nine, Cytosine, Guanine ou Thymine). Un chromosome humain contient en moyenne 129M de paires de bases et encode 800 prot´ eines

^[43]

.

2. L’analyse de s´ equences de prot´ eines. On travaille ici sur des s´ equences d’acides amin´ es (abr´ eg´ e AA ; il existe 20 acides amin´ es). Une prot´ eine humaine fait en moyenne 338 AA de long

^[26]

.

3. L’analyse de structures macromol´ eculaires. On travaille alors sur une repr´ esentation

`

a l’´ echelle atomique et en 3D d’une prot´ eine, d’une mol´ ecule d’ADN ou d’ARN.

Si l’on fait l’approximation de 19 atomes par AA

^[93]

, une seule prot´ eine humaine contient alors 6400 atomes en moyenne.

4. L’analyse de g´ enomes. On travaille alors sur des g´ enomes entiers. Le g´ enome humain fait une longueur de trois milliards de paires de bases

^[43]

. Comparer des g´ enomes permet d’´ etablir des arbres phylog´ en´ etiques, qui illustrent la proximit´ e g´ en´ etique entre esp` eces.

5. L’expression des g` enes. On cherche ` a d´ ecoder quelle prot´ eine ou quel ARN est encod´ e par quel g` ene. Un g` ene humain a une longueur moyenne de 28000 paires de bases

^[166]

. La majorit´ e de nos travaux sont des outils qui travaillent ` a partir d’information struc- turale. C’est ` a dire que le mod` ele de prot´ eine avec lequel nous travaillons est en 3D et

`

a l’´ echelle atomique. On parle alors de biologie structurale computationnelle ou de bio-

informatique structurale. D` es lors qu’une structure est disponible, on peut faire de la

(13)

mod´ elisation mol´ eculaire, essayer de positionner une mol´ ecule au sein d’une prot´ eine (do- cking) et analyser des complexes prot´ eine-ligand ou prot´ eine-prot´ eine par exemple (ligand signifie petite mol´ ecule). Il peut aussi s’agir d’une autre prot´ eine ou d’un peptide (une prot´ eine tr` es courte).

D’ailleurs, un des d´ efis majeurs de la bioinformatique structurale est de pr´ edire la forme d’une prot´ eine en fonction de sa s´ equence d’acides amin´ es.

2.2 La pr´ ediction de structures de prot´ eines

Figure

2.1 – Myoglobine de baleine (un transporteur d’oxyg` ene) : premi` ere prot´ eine dont la structure ` a ´ et´ e r´ esolue par cristallographie. Illustration de David Goodsell pour l’article de la prot´ eine du mois d’octobre 2011 sur le site

www.pdb.org

(image sous licence creative commons).

Le pliage de prot´ eine vise ` a pr´ edire la structure tridimensionnelle d’une prot´ eine (figure 2.1) en connaissant seulement sa s´ equence d’acides amin´ es (AA).

Le principe de base est le postulat d’Anfinsen (prix Nobel 1972) : la forme d’une prot´ eine est d´ etermin´ ee seulement par sa s´ equence d’acides amin´ es

^[5]

. Pour une prot´ eine relativement petite et de forme globulaire, la conformation stable de la prot´ eine est proche du minimum global de sa fonction d’´ energie : ses acides amin´ es hydrophobes se trouvent au centre de la conformation alors que ceux hydrophiles sont expos´ es au solvant (l’eau) ` a la surface.

Le pliage de prot´ eines est une tˆ ache difficile car la fonction d’´ energie utilis´ ee est em-

pirique, entach´ ee d’erreurs et le probl` eme poss` ede une grande combinatoire

^[96]

. Concr` ete-

(14)

2.2. LA PR ´EDICTION DE STRUCTURES DE PROT ´EINES

13

1 1e+20 1e+40 1e+60 1e+80 1e+100

5 10 15 20 25 30 35 40

Nombre maximal de configurations

Nombre d’acides aminés de la protéine nb. configurations: f(x)=36**(2x)

nombre d’atomes dans l’univers problème de cryptographie à 128bits

Figure

2.2 – Combinatoire du probl` eme de pr´ ediction de la structure tridimensionnelle d’une prot´ eine. On consid` ere un pas de dix degr´ es pour chaque axe de rotation et on omet le fait que certaines configurations sont inatteignables ` a cause des collisions entre atomes.

Pour donner des ordres de grandeur, on montre aussi deux grands nombres via deux lignes horizontales : le nombre d’atomes de l’univers et le nombre de cl´ es de longueur 128 bits possibles. Les cl´ es 128 bits sont consid´ er´ ees incassables par les cryptanalystes lors d’une attaque par ´ enum´ eration exhaustive.

ment, chaque acide amin´ e a deux degr´ es de libert´ e au niveau du squelette peptidique. Si l’on consid` ere seulement des rotations par pas de 10 degr´ es pour chaque degr´ e de libert´ e, on obtient un nombre de configurations possibles qui grossit extrˆ emement vite en fonction du nombre d’acides amin´ es (figure 2.2). C’est le paradoxe de Levinthal

^[95]

: explorer s´ equen- tiellement toutes les conformations possibles dans l’espoir de trouver celle de plus basse

´ energie est calculatoirement impossible alors que les prot´ eines adoptent leur conformation native en quelques secondes tout au plus

^[99,133]

. Ce qui sugg` ere que les prot´ eines ne se plient pas de fa¸con al´ eatoire mais suivent une

«

trajectoire

»

menant vers la conformation de plus basse ´ energie.

Il existe plusieurs approches qui ont fait leurs preuves en pr´ ediction de structure, tels

les logiciels TASSER

^[184,186]

et ROSETTA

^[119]

. Pour une am´ elioration de l’algorithme de

recherche de ROSETTA afin de biaiser la recherche vers l’utilisation de fragments de

bonne qualit´ e, on peut se rapporter au logiciel EdaFold

^[141]

. PEP-FOLD est lui un logiciel

sp´ ecialis´ e dans la pr´ ediction de structures de peptides ou de mini prot´ eines

^[137]

. L’´ etat de

l’art est ´ evalu´ e tous les deux ans lors de l’exp´ erience CASP

^[110]

.

(15)

Le pliage de prot´ eine in-silico est une simulation. Mais pour avoir la structure r´ eelle d’une prot´ eine on a recours ` a des techniques exp´ erimentales telles que la cristallographie

^[83]

ou la r´ esonance magn´ etique nucl´ eaire

^[177]

pour arriver ` a

«

photographier

»

une prot´ eine avec une pr´ ecision ` a l’´ echelle atomique.

Figure

2.3 – RMSD (au centre du plus gros cluster) ` a la prot´ eine native dont on ` a essay´ e de reproduire la forme, en fonction de la densit´ e du plus gros cluster. Figure reproduite avec l’autorisation de l’´ editeur.

L’utilit´ e du regroupement dans l’analyse des r´ esultats de simulations de pliage de pro- t´ eines ` a ´ et´ e montr´ ee par Yang Zhang et Jeffrey Skolnick dans leur publication sur le logiciel SPICKER

^[185]

. La figure cl´ e de leur article (reproduite ici en figure 2.3) montre que les mod` eles de meilleure qualit´ e se trouvent en g´ en´ eral dans les clusters de plus haute densit´ e.

Les clusters du logiciel SPICKER sont obtenus par l’algorithme “exact clustering” (d´ ecrit plus loin). Tous les clusters ont le mˆ eme diam` etre (un param` etre de l’algorithme) et le nombre de conformations dans un cluster est donc une mesure de sa densit´ e.

2.2.1 La conception de prot´ eines

La conception de prot´ eines (

«

protein design

»

en anglais) est le probl` eme inverse de la pr´ ediction de structure de prot´ eines

[2,28,55,142,159]

. Le probl` eme consiste ` a calculer une s´ equence d’acides amin´ es qui se pliera en la forme voulue. La complexit´ e du probl` eme est de 20

^N

,

N

´ etant la longueur de la s´ equence d’acides amin´ es consid´ er´ ee. ` A partir de seulement 30 acides amin´ es, le probl` eme est plus dur que le probl` eme cryptographique qui consiste ` a casser par force brute une cl´ e de taille 128 bits.

Malgr´ e la difficult´ e du probl` eme, on trouve de nombreux succ` es r´ ecents. Ceci s’explique

(16)

2.2. LA PR ´EDICTION DE STRUCTURES DE PROT ´EINES

15

Figure

2.4 – La prot´ eine PDB:3B5L est une enzyme artificielle (r´ etroaldolase) issue de travaux en conception de prot´ eine.

sˆ urement par le fait que s’il y a un int´ erˆ et th´ eorique ` a comprendre comment une s´ equence d’acides amin´ es se plie ; il y a un int´ erˆ et pratique ` a r´ esoudre le probl` eme inverse : on peut alors concevoir des prot´ eines qui ont une fonctionnalit´ e ou une forme voulue. Par exemple, cr´ eer de nouvelles enzymes (figure 2.4) qui n’existent pas dans la nature et qui permettent de catalyser certaines r´ eactions chimiques

^[77,101]

. La prot´ eine top7

^[86]

, cr´ e´ ee en 2003, pr´ esente une forme non pr´ esente dans la nature et est le fruit d’une conception assist´ ee par ordinateur (figure 2.5).

Parmi quelques logiciels connus en protein design, on peut citer Rosetta design ainsi que OSPREY

^[47]

. Les utilisateurs qui souhaitent aider et fournir de la puissance de cal- cul aux travaux de David Baker ainsi que ses coll` egues peuvent installer le logiciel Ro- setta@home

^[31]

. Le logiciel Foldit est lui aussi d’int´ erˆ et puisqu’il permet de fa¸ con ludique d’essayer de plier une s´ equence d’acide amin´ es donn´ ee en une forme globulaire sous la forme d’un petit jeu vid´ eo 3D utilisant la souris pour naviguer autour de la prot´ eine mais permettant aussi de saisir et de bouger certaines parties.

Certains de nos travaux de recherche ont donn´ e lieu ` a des outils qui travaillent sur

des petites mol´ ecules (on parle aussi de ligands). Dans la partie qui suit nous introduisons

donc le domaine de la ch´ emoinformatique.

(17)

Figure

2.5 – La prot´ eine

«

top7

»

(PDB:1QYS) est une prot´ eine de 93 acides amin´ es cr´ e´ ee par l’homme et de forme inconnue dans la nature.

2.3 La ch´ emoinformatique

Pour une bonne introduction ` a la ch´ emoinformatique, on peut se rapporter ` a deux articles

^[20,39]

et ` a au moins un livre

^[48]

.

La ch´ emoinformatique est la science qui vise ` a stocker, manipuler et analyser de l’infor- mation chimique. On confond parfois la ch´ emoinformatique avec la chimie computation- nelle, mais cette derni` ere est plutˆ ot une branche th´ eorique de la chimie. La ch´ emoinforma- tique est un peu ` a la chimie ce que la bioinformatique est ` a la biologie. La ch´ emoinforma- tique vise ` a cr´ eer des outils informatiques utiles au chimiste. D’apr` es Johann Gasteiger, l’un des p` eres fondateurs du domaine :

«

la ch´ emoinformatique consiste ` a appliquer des m´ ethodes informatiques pour r´ esoudre des probl` emes de chimie

»

.

Listons ici quelques tˆ aches du domaine de la ch´ emoinformatique.

1. Repr´ esenter, stocker et visualiser des mol´ ecules. De la repr´ esentation la plus simple ` a la plus compl` ete, on peut repr´ esenter une mol´ ecule par son nom, sa formule chimique, son graphe de connectivit´ e en 2D ou sa structure en 3D avec visualisation de la surface.

2. Repr´ esenter des r´ eactions chimiques et les stocker dans des bases de donn´ ees de

r´ eactions telles que le

«

Chemical Abstracts Service

^[36]»

.

(18)

2.3. LA CH ´EMOINFORMATIQUE

17 3. G´ en´ erer des conformations 3D de mol´ ecules

^[51,65]

.

4. Cr´ eer des m´ ethodes de recherche de mol´ ecules (recherche compl` ete, recherche de sous-structure, recherche Markush ou recherche par similarit´ e).

Ayant d´ evelopp´ e une m´ ethode de recherche mol´ eculaire par calcul de similarit´ e, nous d´ etaillons un peu plus ce concept dans ce qui suit.

2.3.1 Encodage de mol´ ecules et recherche par similarit´ e

La similarit´ e mol´ eculaire est un sujet bien explor´ e de la chemoinformatique

[9,12,13,173]

et de la chimie th´ erapeutique

^[85]

. La similarit´ e mol´ eculaire est utilis´ ee entre autres en LBVS

[38,70,123,176]

et pour pr´ edire les effets secondaires d’une mol´ ecule.

Un encodage classique de mol´ ecule est l’empreinte qui consiste en la conversion de la mol´ ecule en un vecteur de bool´ eens. Par exemple, la tr` es populaire empreinte MACCS consiste en un tel encodage. Il existe cependant une infinit´ e d’autres encodages possibles, avec des degr´ es de pr´ ecision diff´ erents. Certains encodages pr´ eservent mieux l’information contenue dans la mol´ ecule de d´ epart que l’empreinte MACCS qui consid` ere juste la mol´ e- cule de d´ epart comme un objet 2D. On parle ici d’encodage avec perte

^[130]

, comme dans le cas des images JPEG, de la musique au format MP3 ou plus g´ en´ eralement en math´ e- matiques de ce qu’on appelle les fonctions de hachage. La perte d’information implique qu’il est difficile de revenir en arri` ere ´ etant donn´ e la seule empreinte. Si l’on revient en arri` ere, il risque alors d’y avoir une ambigu¨ıt´ e en ce qui concerne la mol´ ecule de d´ epart (il existe plusieurs mol´ ecules possibles aboutissant ` a cette empreinte). En particulier, certains encodages peuvent encoder une conformation 3D de la mol´ ecule consid´ er´ ee. En pratique, une empreinte de mol´ ecule se compose d’une repr´ esentation (par exemple un vecteur de nombre r´ eels), optionnellement combin´ ee ` a des poids. Mais pour faire un calcul de simila- rit´ e il faut aussi disposer d’une fonction de score (tel que le score de Jaccard/Tanimoto) ou d’une distance d´ efinie sur l’espace des empreintes.

Cette possibilit´ e de comparer des empreintes de mol´ ecules ouvre la porte ` a l’analyse

par regroupement et au criblage virtuel bas´ e sur des ligands (LBVS). Le choix de la

repr´ esentation, des ´ eventuels poids associ´ es ainsi que de la fonction de score est empirique

et d´ epend de l’application envisag´ ee. Ils doivent ˆ etre choisis afin d’ˆ etre maximalement utiles

(19)

au chimiste. Il est aussi avantageux que la combinaison choisie soit rapide, ´ etant donn´ e que de nos jours une chimioth` eque virtuelle peut contenir un nombre colossal de mol´ ecules.

Pour donner un ordre de grandeur, il y a 1700 millions de mol´ ecules non redondantes (avec leur route de synth` ese) dans la chimioth` eque virtuelle du

«

RIKEN Quantitative Biology Center

»^[63]

. La recherche par similarit´ e est si utile en ch´ emoinformatique et chimie m´ edicinale ` a cause du principe de similarit´ e. En effet, des mol´ ecules similaires exhibent souvent la mˆ eme activit´ e biologique et les mˆ eme propri´ et´ es physico-chimiques. La recherche par similarit´ e est utilis´ ee fr´ equemment lors des premi` eres phases d’un projet de d´ ecouverte de mol´ ecule active. Car, ` a ce moment du projet, seul peu d’information structure-activit´ e est disponible. En d´ epit d’ˆ etre un concept simple, la recherche de mol´ ecules par calcul de similarit´ e est tr` es puissante.

La ch´ emoinformatique est un domaine d’application de l’informatique passionnant.

On ne fait plus de l’informatique pour les informaticiens, mais de l’informatique pour les chimistes. Les logiciels du domaine manipulent des mol´ ecules, que l’on peut visualiser et certaines de ces mol´ ecules peuvent ˆ etre synth´ etis´ ees ou sont pr´ esentes naturellement dans le monde r´ eel. L’utilisateur d’un logiciel du domaine est un chimiste et c’est pour lui au final que l’outil doit ˆ etre utile (et si possible rapide). De mani` ere amusante, on peut relier bioinformatique, ch´ emoinformatique et chimie quantique. La bioinformatique est la science qui traite les plus grosses mol´ ecules alors que la ch´ emoinformatique traite des mol´ ecules plus petites et que la chimie quantique va entrer ` a l’´ echelle subatomique dans le d´ etail de ces petite mol´ ecules. Il est parfois difficile de d´ eterminer dans laquelle de ces sciences on travaille exactement. Par exemple, faire du docking revient ` a travailler ` a l’interface entre bioinformatique structurale et ch´ emoinformatique car on ´ etudie les interactions entre une petite mol´ ecule au sein d’un prot´ eine (qui est elle une macromol´ ecule).

Les ligands et les prot´ eines peuvent ˆ etre encod´ es sous la forme de vecteurs dans un

espace ` a N dimensions. On parle alors de descripteur mol´ eculaire.

(20)

2.4. LES DESCRIPTEURS MOL ´ECULAIRES

19 2.4 Les descripteurs mol´ eculaires

Les descripteurs mol´ eculaires sont une notion tr` es importante en ch´ emoinformatique.

D’apr` es Roberto Todeschini et Viviana Consonni, un descripteur mol´ eculaire est le r´ esultat final d’une op´ eration math´ ematique et logique qui transforme de l’information chimique en un nombre utile ou le r´ esultat d’une exp´ erience standard.

Il existe trois classes de descripteurs. Les descripteur 1D que l’on peut calculer ` a partir de la composition de la mol´ ecule. Par exemple la masse mol´ eculaire, le nombre d’atomes lourds, etc. Les descripteurs 2D que l’on peut calculer ` a partir du graphe mol´ eculaire, comme les signatures MACCS et FP4. Enfin, les descripteurs 3D qui sont calcul´ es ` a partir d’une ou plusieurs conformations mol´ eculaires, comme la surface polaire ou la surface accessible au solvant.

Pour une r´ ef´ erence encyclop´ edique sur les descripteurs mol´ eculaires, on pourra se rap- porter au livre en deux volumes

«

Molecular descriptors for chemoinformatics

»^[157]

. Une tr` es grande quantit´ e de descripteurs est impl´ ement´ ee dans le logiciel DRAGON

^[105]

. Pour les chercheurs qui peuvent se permettre de d´ evoiler leurs mol´ ecules sur Internet, il existe un service gratuit en ligne appel´ e E-Dragon

^{[153] 1}

. Sinon, il existe une licence DRAGON permanente a prix raisonnable pour les chercheurs du monde acad´ emique. L’excellente librairie libre Open Babel

^[116]

permet elle aussi de calculer quelques descripteurs mol´ ecu- laires courants.

Les descripteurs mol´ eculaires sont tr` es utilis´ es pour quantifier la similarit´ e mol´ ecu- laire

^[152]

et cr´ eer des mod` eles reliant l’activit´ e d’une mol´ ecule ` a sa structure (QSAR).

Pour le calcul rapide du sous graphe commun maximal entre deux mol´ ecules, il existe de nombreuses m´ ethodes

[58,81,122]

approximatives.

2.4.1 Le mod` ele de Wildman et Crippen

Nous pr´ esentons ici un descripteur mol´ eculaire qui permet de travailler avec une mo- l´ ecule dans l’espace lipophile (´ equivalent d’hydrophobe). Ce descripteur est utilis´ e par le logiciel ACPC, d´ ecrit ` a la section 3.4.

1. http://www.vcclab.org

(21)

D´efinition :

LogP

= log(

Co

C_e

) (2.1)

avec

Co

la concentration du compos´ e dissous dans l’octanol et

Ce

la concentration du compos´ e dissous dans l’eau.

Le LogP est une valeur mesur´ ee en laboratoire qui permet de d´ eterminer si un compos´ e chimique est hydrophobe ou hydrophile, l’octanol et l’eau ´ etant des solvants non miscibles.

Si le compos´ e chimique est plus pr´ esent dans l’octanol ` a la fin de l’exp´ erience, LogP est positif et le compos´ e est jug´ e hydrophobe. Dans le cas contraire, LogP est n´ egatif et le compos´ e est jug´ e hydrophile.

En 1999, Scott Wildman et Gordon Crippen publient un mod` ele qui assigne ` a chaque atome d’une mol´ ecule une contribution ` a la valeur LogP pr´ edite pour cette mol´ ecule

^[175]

. Ils classifient chaque atome d’une mol´ ecule en fonction de ses atomes li´ es et de ses atomes voisins. Ils utilisent ensuite la formule

LogP

(m) =

∑

i

n_ia_i

(2.2)

pour pr´ edire LogP.

n_i

est le nombre d’atomes de type

i

dans la mol´ ecule

m

et

a_i

la contribution ` a LogP pour un atome de type

i.

Leur classification finale aboutit ` a 68 groupes d’atomes et est con¸cue de telle sorte que chaque atome d’une mol´ ecule soit assign´ e ` a une seule classe. Pour garantir la porta- bilit´ e et la reproductibilit´ e de leur m´ ethode, les auteurs ont donn´ e les codes SMARTS

^[174]

correspondants ` a leur classification.

L’int´ erˆ et de leur m´ ethode est que non seulement il s’agit d’un descripteur mol´ eculaire

qui pr´ edit le LogP d’une mol´ ecule, mais ce faisant il assigne une contribution au LogP total

pour chaque atome. Ceci permet d’obtenir une valeur atome centr´ ee relative ` a l’espace

hydrophobe pour chaque atome d’une mol´ ecule. Cette particularit´ e est utile au logiciel

ACPC.

(22)

2.4. LES DESCRIPTEURS MOL ´ECULAIRES

21 M´ ethode Discr´ etisation AUC moy./m´ ed.

Moro 2005 histogramme normalis´ e

´ electrostatique

^[108]

d

∈

[1,13]˚ A,

dx

= 1˚ A 0.49 / 0.50 Broto 1984 st´ erique

^[18]

histogramme,

dx

= 0.2˚ A 0.58 / 0.57 Broto 1984 hydrophobe

^[18]

histogramme,

dx

= 0.2˚ A 0.64 / 0.63 ACPC-1.0 ´ electrostatique

^[15]

linear-binning,

dx=0.005˚

A 0.69 / 0.67

Table

2.1 – Comparaison des aires sous la courbe ROC (moyenne et m´ ediane) de diff´ e- rentes m´ ethodes de discr´ etisation du vecteur d’autocorr´ elation.

dx

est le pas de discr´ etisa- tion. Exp´ erience : 51 cibles choisies au hasard dans la DUD-E

^[113]

. Trois ligands requˆ etes choisis au hasard pour chaque cible et score de Tversky

_ref

.

2.4.2 La fonction d’autocorr´ elation

Cette fonction est au cœur du logiciel ACPC. Si l’on s’en tient strictement ` a la d´ efinition de Todeschini et Consonni, appliquer la fonction d’autocorr´ elation ` a une mol´ ecule donne lieu ` a plusieurs descripteurs mol´ eculaires (un pour chaque distance inter-atomique pr´ esente dans la mol´ ecule).

La fonction d’autocorr´ elation a ´ et´ e utilis´ ee dans de nombreuses m´ ethodes de ch´ emoin- formatique pour encoder une mol´ ecule repr´ esent´ ee 2D ou 3D de fa¸ con rotation et trans- lation invariante. Cette transformation permet d’´ eviter la phase complexe et coˆ uteuse en temps de calcul de superposition des mol´ ecules n´ ecessaire avant leur comparaison.

En 1980, Gilles Moreau et Pierre Broto ont propos´ e pour la premi` ere fois

^[107]

d’utiliser la fonction d’autocorr´ elation sur le graphe d’une mol´ ecule afin d’encoder n’importe quelle valeur centr´ ee sur les atomes. Ils ont ensuite utilis´ e leur descripteur dans des ´ etudes de relation entre la structure et l’activit´ e d’une mol´ ecule

^[18,19]

.

Parmi les nombreuses m´ ethodes bas´ ees sur la fonction d’autocorr´ elation, on peut

citer Atom-Type AutoCorrelation (ATAC) de Todeschini et co-auteurs

^[157]

. Les paires

d’atomes

^[22]

et la m´ ethode Chemically Advanced Template Search (CATS)

^[132]

. CATS est

disponible en 2D

^[132]

et en 3D

^[40]

. CATS travaille avec des types d’atomes g´ en´ eralis´ es,

ce qui est assez proche de points pharmacophoriques : donneur ou accepteur d’hydrog` ene,

charg´ e positivement ou n´ egativement, hydrophobe. L’autocorr´ elation des charges partielles

d’une mol´ ecule tridimensionnelle ` a ´ et´ e ´ etudi´ ee par le pass´ e mais malheureusement via un

(23)

Figure

2.6 – Autocorr´ elogramme des charges partielles de la conformation 3D de plus basse ´ energie d’une mol´ ecule. La mol´ ecule est montr´ ee en haut ` a droite en 2D.

encodage par histogramme

^[10]

. On peut voir (tableau 2.1) l’effet d’un encodage par histo- gramme de la fonction d’autocorr´ elation. L’autocorr´ elation de propri´ et´ es ` a la surface d’une mol´ ecule ` a ´ et´ e ´ etudi´ ee dans des ´ etudes utilisant de la r´ egression num´ erique

^[108]

, de l’analyse des composantes principales

^[169]

, des cartes de Kohonen

^[169]

et des r´ eseaux de neurones

^[6]

afin de g´ en´ erer des mod` eles de QSAR et faire de la pr´ ediction d’activit´ e biologique.

Nous donnons ici la formule de la fonction d’autocorr´ elation, telle qu’utilis´ ee en ch´ e- moinformatique.

Soit

M

une mol´ ecule avec

N

atomes.

Soit

i

= (x

i, yi, zi, qi

) l’atome ` a la position

i

(1

<=i <=N

) dans

M

avec les coordon- n´ ees (x

_i, y_i, z_i

) et la charge partielle

q_i

.

Soit

dij

la distance euclidienne entre les atomes

i

et

j

dans

M

.

Soit

k

une distance inter-atomique et

δ_kd_ij

le delta de Kronecker ´ egale ` a un quand

k

=

d_ij

et z´ ero partout ailleurs.

L’autocorr´ elation de la mol´ ecule

M

` a la distance

k

peut s’´ ecrire :

AC(M, k) =

N

∑

i=1 N

∑

j=1

qiqjδ_kd_ij

(2.3)

Dans la pratique, nous ignorons les valeurs de la fonction d’autocorr´ elation pour

k

= 0,

(24)

2.5. LE CHAMP ´ELECTROSTATIQUE

23 car nous les trouvons peu discriminantes. En effet, toutes les mol´ ecules ont un pic en

k

= 0 dans leur autocorr´ elogramme et il est proportionnel aux nombres d’atomes partiellement charg´ es de la mol´ ecule. Un autocorr´ elogramme est la repr´ esentation graphique de la fonc- tion d’autocorr´ elation (figure 2.6).

Aussi, nous ne consid´ erons qu’une seule fois une paire d’atomes (i, j), parce que consi- d´ erer aussi la paire (j, i) ne fait que dupliquer de l’information d´ ej` a pr´ esente et ajoute un calcul inutile.

Le logiciel ACPC utilise donc la formule

ACP C(M, k) =

N−1

∑

i=1 N

∑

j=i+1

qiqjδkdij

(2.4)

Comme nous souhaitons encoder la mol´ ecule M de la fa¸ con la plus fid` ele possible, nous ne consid´ erons pas un sous ensemble arbitraire des valeurs de k mais toutes les valeurs possibles de k pour la mol´ ecule M. Si M a N atomes, nous obtenons donc un ensemble de N(N-1)/2 contributions pour encoder

M

. Il est important de remarquer que cet encodage est non r´ eversible. ´ Etant donn´ e un autocorr´ elogramme, il peut exister plusieurs mol´ ecules ayant le mˆ eme. Par exemple, deux mol´ ecules qui sont l’image l’une de l’autre dans un miroir (des st´ er´ eoisom` eres) auront le mˆ eme autocorr´ elogramme. Mais il s’agit ` a notre avis du seul prix ` a payer avec la fonction d’autocorr´ elation, afin de gagner l’avantage d’ˆ etre rotation et translation invariant.

Les charges partielles sont un descripteur mol´ eculaire particuli` erement int´ eressant dans l’espace ´ electrostatique. En effet, elles permettent le calcul du champ ´ electrostatique que nous introduisons tout de suite.

2.5 Le champ ´ electrostatique

Nous introduisons ici comment calculer le champ ´ electrostatique autour d’une mol´ ecule

(dans le vide, par soucis de simplicit´ e). Ceci afin de donner une intuition de la complexit´ e

et du coˆ ut du calcul et ainsi justifier pourquoi nous avons parfois ´ evit´ e d’avoir ` a faire

explicitement ce calcul dans nos travaux.

(25)

Si l’on a

N

charges ´ electriques ponctuelles fixes

qi

dispos´ ees dans l’espace (3D) en des points

r_i

, le champ ´ electrostatique observ´ e au point d’observation

r

est donn´ e par la formule :

E⃗

(r) = 1 4πϵ

0

N

∑

i=1

qi



R⃗i



3R⃗i

(2.5)

o` u

ϵ0

est la permittivit´ e di´ electrique du vide et

R⃗i

=

r−ri

. La constante

_4πϵ¹

0

est aussi appel´ ee constante de Coulomb et se note

k_e

.

On voit donc que le champ ´ electrostatique autour d’une mol´ ecule est fonction des charges partielles de cette mol´ ecule, de leur distribution dans l’espace ainsi que de la per- mittivit´ e di´ electrique du milieu qui entoure cette mol´ ecule. De plus, si l’on veut comparer le champ ´ electrostatique autour de mol´ ecules (ce qui est fait par le logiciel EleKit qui sera pr´ esent´ e plus tard), il faut au pr´ ealable superposer ces mol´ ecules. Il existe des m´ ethodes

´

eprouv´ ees

^[56]

et des impl´ ementations libres

[114,126,149]

mais la tˆ ache reste non triviale et a un coˆ ut. Pour des raisons de performance, il n’est pas n´ ecessaire de comparer les champs

´

electrostatiques de deux mol´ ecules en tous points de l’espace. On peut se contenter de comparer la distribution spatiale des charges qui g´ en` erent ces champs. C’est ce que fait le logiciel ACPC qui sera pr´ esent´ e par la suite.

Le calcul explicite du champ ´ electrostatique autour d’une mol´ ecule en pr´ esence d’un solvant est une tˆ ache complexe et lourde en temps de calcul. En plus de la position des atomes et de leurs charges partielles, il n´ ecessite de connaˆıtre la permittivit´ e di´ electrique du solvant et du corps dissous, les rayons des atomes

^[37,162]

ainsi que la concentration ionique du solvant. Il existe des logiciels sp´ ecialis´ es tels qu’APBS

^[8]

et DelPhi

^[115]

, d´ evelopp´ es par des biophysiciens, qui sont capables d’effectuer ce calcul de mani` ere relativement efficace.

Ces logiciels sont parall` eles et peuvent traiter des macromol´ ecules telles que le ribosome.

Ils r´ esolvent num´ eriquement l’´ equation de Poisson-Boltzman

^[32,67]

. Des d´ eveloppements r´ ecents

^[181]

r´ esolvent cette ´ equation de mani` ere semi analytique, ce qui permet d’aller plus vite et d’ˆ etre plus pr´ ecis num´ eriquement.

Nous venons de voir que pour calculer un champ ´ electrostatique, il faut connaˆıtre la

valeur des charges partielles. Introduisons donc maintenant une m´ ethode qui permet de

(26)

2.5. LE CHAMP ´ELECTROSTATIQUE

25

Figure

2.7 – Lignes du champ ´ electrostatique autour de la prot´ eine ligante int´ egrine (PDB:2VDO). La surface de la prot´ eine et les lignes de champ sont color´ ees en fonction de la valeur du champ ´ electrostatique. Le rouge est pour les valeurs n´ egatives et le bleu pour les valeurs positives.

calculer ces charges.

2.5.1 Les charges partielles et le mod` ele de Gasteiger-Marsili

Nous mentionnons ici un mod` ele populaire et efficace pour le calcul des charges par- tielles assign´ ees ` a chaque atome d’une mol´ ecule organique. Ce mod` ele donne de bons r´ esultats avec le logiciel ACPC et est l’un des nombreux mod` eles (EEM

^[109]

, PEOE

^[49]

, MMFF94

^[61]

, QEq

^[120]

, QTPIE

^[23]

) disponibles dans Open Babel

^[116]

.

L’apparition d’une charge partielle est due ` a la dissym´ etrie dans la distribution des

´ electrons autour d’un atome, provoqu´ ee par les liaisons chimiques de cet atome lorsqu’il est au sein d’une mol´ ecule.

La distribution des ´ electrons d’une mol´ ecule peut ˆ etre calcul´ ee avec de la m´ ecanique quantique

^[112]

. Mais le coˆ ut de tels calculs ont pouss´ e Johann Gasteiger et Mario Marsili

`

a d´ evelopper leur propre m´ ethode empirique de calcul

^[49]

. Leur m´ ethode, qu’ils nomment

«

iterative Partial Equalization of Orbital Electronegativity

»

(abr´ eg´ ee en PEOE), uti-

lise seulement le type des atomes ainsi que leur connectivit´ e pour calculer les charges

partielles d’une mol´ ecule. Typiquement, apr` es seulement six it´ erations, leur m´ ethode de

calcul converge vers un r´ esultat suffisamment pr´ ecis.

(27)

Pour quantifier la similarit´ e, un descripteur mol´ eculaire (un vecteur) doit ˆ etre combin´ e

`

a une fonction de score ou une distance. Nous introduisons ci-apr` es quelques scores et distances typiques.

2.6 Quelques mesures de similarit´ e

Dans une section pr´ ec´ edente, nous avons vu que la fonction d’autocorr´ elation est une fa¸ con d’encoder une mol´ ecule. Si l’on choisit ensuite un pas de discr´ etisation, il devient alors possible de stocker cet encodage dans un vecteur. Deux vecteurs peuvent ˆ etre compar´ es via une fonction de score ou une distance. Nous listons ici quelques fonctions de score largement utilis´ ees en chemoinformatique

^[40,149]

. Pour des scores de corr´ elation (du moins robuste et plus simple ` a calculer au plus robuste mais plus compliqu´ e) ainsi que leurs conditions d’utilisation, tels que Pearson, Spearman et le Tau de Kendall on se rapportera au livre

«

numerical recipes

»^[117]

.

Dans les formules suivantes

A

et

B

sont deux mol´ ecules encod´ ees sous forme de vecteurs.

Ces vecteurs ont

n

´ el´ ements et

A[i] d´

enote l’´ el´ ement d’indice

i

(1

<= i <= n) dans le

vecteur qui encode

A.

2.6.1 Les distances d’Euclide et de Manhattan

Certains auteurs

^[40]

utilisent la distance Euclidienne ainsi que la distance de Manhattan dont voici les formules :

dEuc

(A, B) =





√

i=n

∑

i=1

(A[i]

−B

[i]) (2.6)

d_Man

(A, B) =

i=n

∑

i=1

|A[i]−B[i]|

(2.7)

2.6.2 L’indice de Jaccard/Tanimoto

Dans la litt´ erature chimique, on trouve tr` es souvent mention du score de Tanimoto

^[151]

.

Le score est souvent utilis´ e avec une valeur seuil, dont le choix semble arbitraire. Ceci dit,

plus g´ en´ eral et ant´ erieur au score de Tanimoto est l’indice de Jaccard

^[73]

qui date de 1901

et qui peut s’´ enoncer pour deux ensembles alors que le score de Tanimoto n’est formul´ e

(28)

2.6. QUELQUES MESURES DE SIMILARIT ´E

27 que pour des pairs de vecteurs de bool´ eens. Nous pr´ esentons le score de Jaccard en premier car l’indice de Tversky pr´ esent´ e ensuite n’en est qu’une version param´ etr´ ee.

i_Jac

(A, B) =

|A∩B|

|A∪B|

=

|A∩B|

|A|

+

|B| − |A∩B|

(2.8) Sous forme vectorielle, il s’´ enonce

^[40]

:

i_Jac

(A, B) =

∑i=n

i=1A[i]B[i]

∑i=n

i=1

(A[i] +

B

[i]

−A[i]B

[i]) (2.9) Il est int´ eressant de noter que l’indice de Jaccard peut ˆ etre transform´ e en une distance via l’application de la formule :

dJac

(A, B) = 1

−iJac

(A, B) (2.10) 2.6.3 L’indice de Tversky

L’indice de Tversky est parfois appel´ e score d’inclusion. Il est dissym´ etrique, au contraire de l’indice de Jaccard/Tanimoto et de la distance euclidienne. Via l’insertion des para- m` etres

α

et

β

dans la formule de l’indice de Jaccard, on aboutit ` a l’indice de Tversky

^[164]

. Ces param` etres permettent d’affecter un poids ` a une mol´ ecule et un poids moindre ` a l’autre mol´ ecule, en respectant les contraintes (α >= 0

∧β >= 0∧α

+

β

= 1.0). De mani` ere g´ en´ erale, l’indice de Tversky s’´ enonce :

i_Tve

(A, B) =

|A∩B|

α|A|

+

β|B| − |A∩B|

(2.11) . Ce qui donne sous forme vectorielle :

iTve

(A, B) =

∑i=n

i=1 A[i]B[i]

∑i=n

i=1

(αA[i] +

βB[i]−A[i]B[i])

(2.12) Deux formes sp´ eciales de l’indice de Tversky sont particuli` erement int´ eressantes. Si

A

est notre mol´ ecule requˆ ete et

B

une mol´ ecule candidate (issue d’une chimioth` eque) on parle de Tversky

_ref

si

α

= 1 et de Tversky

_db

si

β

= 1.

i_Tve_ref

(A, B) =

∑i=n

i=1A[i]B[i]

∑i=n

i=1

(A[i]

−A[i]B[i])

(2.13)

Tversky

_ref

permet de trouver des mol´ ecules qui sont un sur-ensemble de la mol´ ecule requˆ ete

A. Nous avons remarqu´

e, ainsi que d’autres auteurs

^[69]

, que l’indice Tversky

_ref

(ou un

(29)

Tversky avec

α

proche de un) est extrˆ emement puissant et donc recommand´ e pour les tˆ aches de LBVS.

i_Tve_db

(A, B) =

∑i=n

i=1A[i]B[i]

∑i=n

i=1

(B[i]

−A[i]B[i])

(2.14)

Tversky

db

permet quant-` a-lui de trouver des mol´ ecules qui sont un sous-ensemble de la mol´ ecule requˆ ete

A.

Muni d’un vecteur d´ ecrivant une petite mol´ ecule (ou la g´ eom´ etrie d’une prot´ eine) ainsi que d’une distance, on peut calculer des groupes d’´ el´ ements.

2.7 Le regroupement

Nous introduisons ici quelques notions sur le regroupement afin que le lecteur ait une id´ ee de l’abondance et de la vari´ et´ e des techniques qui existent dans ce domaine. Le sujet

´

etant vaste et pour ne pas nous ´ eparpiller, nous mentionnons principalement les algorithmes combinatoires. Ces algorithmes travaillent directement sur les donn´ ees observ´ ees et ne n´ ecessitent pas la connaissance pr´ ealable d’une ´ eventuelle loi de distribution qui serait suivie par les donn´ ees.

Si l’on est en pr´ esence de

C

classes et de

N

´ el´ ements que l’on veut classifier, partition- ner les ´ el´ ements consiste ` a assigner chaque ´ el´ ement ` a une et une seule classe. Le logiciel Durandal, qui sera pr´ esent´ e par la suite, impl´ emente de fa¸ con tr` es efficace un algorithme de regroupement. Le goulet d’´ etranglement de nombreuses m´ ethodes de regroupement est le calcul de la matrice de dissimilarit´ e entre les mod` eles. En effet, pour

N

´ el´ ements on doit calculer

^N^(N−1)₂

distances. Pour des conformations de prot´ eines, on utilise classiquement la distance RMSD, qui donne la distance entre deux conformations de prot´ eines apr` es leur superposition optimale.

Soit

p

et

q

deux conformations de la mˆ eme prot´ eine superpos´ ees de fa¸ con optimale et comportant

n

atomes chacune. Soit

pi

(resp.

qi

les coordonn´ ees du i` eme atome de

p

(resp.

q). La formule du RMSD s’´

enonce :

RMSD(p, q) =

√

(

∑n

i=1

(p

_i−q_i

)

²

n

) (2.15)

De nombreuses m´ ethodes existent pour calculer le RMSD

[35,68,79,82,154]

, avec ou sans d´ e-

(30)

2.7. LE REGROUPEMENT

29 termination de la transformation rigide qui permet de superposer les structures de mani` ere optimale. La plus performante ` a ce jour semble ˆ etre la m´ ethode de Douglas Theobald

^[154]

d´ enomm´ ee QCP pour

«

Quaternion-based Characteristic Polynomial

»

. L’article de Theo- bald va jusqu’` a compter le nombre maximum d’op´ erations en virgule flottante (FLOPS) n´ ecessaires par diff´ erentes m´ ethodes avant de conclure que QCP est la m´ ethode la plus efficace. La m´ ethode QCP est aussi num´ eriquement stable, ce qui n’est pas le cas de toutes les m´ ethodes.

En anglais, on dit

«

clustering

»

pour parler de regroupement mais le terme anglais est tr` es souvent utilis´ e mˆ eme par les francophones. Le clustering est un ensemble de techniques utilis´ ees en analyse de donn´ ees et en apprentissage automatique. Le but du clustering est de discerner des groupes dans des observations (on parle alors d’apprentissage non super- vis´ e) ou d’assigner des observations ` a des groupes connus (on parle alors d’apprentissage supervis´ e). Il existe aussi de nouvelles techniques qui sont dites semi supervis´ ees

^[27]

mais nous n’entrerons pas dans ces d´ eveloppements r´ ecents.

Il faut remarquer que certains algorithmes forcent la formation de groupes, mˆ eme si les donn´ ees ne sont pas structur´ ees en groupes. Certains algorithmes forcent aussi la cr´ eation d’une hi´ erarchie, mˆ eme si les donn´ ees ne pr´ esentent pas une telle structure. Le choix de la distance, ainsi que de l’algorithme ` a utiliser est donc important et ` a choisir en fonction de la connaissance des donn´ ees, du domaine ainsi que du probl` eme ` a traiter. Pour une bonne r´ ef´ erence anglaise gratuite en statistiques et en apprentissage artificiel, dont du clustering, on pourra se r´ ef´ erer au livre

«

The Elements of Statistical Learning

»^[64]

. Une bonne r´ ef´ erence en fran¸ cais sur l’apprentissage automatique est le livre

«

Apprentissage artificiel

»^[27]

.

2.7.1 Les K-moyennes

En anglais l’algorithme s’appelle k-means

^[104]

. On doit lui fournir en entr´ ee le nombre

K

de clusters dans lesquels r´ epartir les donn´ ees.

(31)

Algorithm 1

Algorithme des K-moyennes.

0) assigner al´ eatoirement chaque observation ` a l’un des K clusters 1) calculer le repr´ esentant moyen de chaque cluster

2) assigner chaque ´ el´ ement au cluster dont il est le plus proche du repr´ esentant moyen 3) r´ ep´ eter les ´ etapes 1) et 2) jusqu’` a ce qu’il n’y ait plus d’´ el´ ement qui change de cluster lors de l’´ etape deux.

Figure

2.8 – Dendrogramme r´ esultant de la classification de levures

^[168]

. Image sous licence creative commons.

2.7.2 Les K-m´ edo¨ıdes

En anglais l’algorithme s’appelle k-medoids

^[80]

. On doit lui fournir en entr´ ee le nombre

K

de clusters dans lesquels r´ epartir les donn´ ees.

M´edo¨ıde :

point le plus proche de la moyenne d’un ensemble de points.

L’algorithme des K-m´ edo¨ıdes est un algorithme plus robuste aux donn´ ees aberrantes que l’algorithme pr´ ec´ edant des K-moyennes. Malheureusement, cette robustesse se paie au prix d’un calcul plus lourd.

Algorithm 2

Algorithme des K m´ edo¨ıdes.

0) choisir al´ eatoirement K points distincts comme m´ edo¨ıdes (repr´ esentants de chacun des clusters)

1) assigner chaque ´ el´ ement au cluster du m´ edo¨ıde dont il est le plus proche 2) recalculer les m´ edo¨ıdes

3) r´ ep´ eter les ´ etapes 1 et 2 jusqu’` a ce qu’il n’y ait plus d’´ el´ ement qui change de cluster

lors de l’´ etape 1).

(32)

2.7. LE REGROUPEMENT

31 2.7.3 Le clustering agglom´ eratif hi´ erarchique

L’algorithme commence avec chaque ´ el´ ement dans un cluster distinct (singleton). ` A chaque ´ etape, les deux clusters les plus similaires sont unis en un seul. Ce jusqu’` a obtenir un cluster unique regroupant tous les ´ el´ ements.

Cet algorithme n´ ecessite donc une mesure de dissimilarit´ e entre deux clusters. En fonction de la mesure choisie, l’algorithme change de nom. Si la distance inter clusters est la distance moyenne entre les clusters, l’algorithme est nomm´ e

«

group average (GA) agglomerative clustering

»

. Le

«

single linkage (SL) agglomerative clustering

»

utilise la plus petite distance entre deux membres de deux clusters distincts comme distance entre ces deux clusters

^[145]

. SL a tendance ` a cr´ eer des clusters de large diam` etre. Le

«

complete linkage (CL) agglomerative clustering

»

utilise quant-` a-lui la plus grande distance entre deux membres de deux clusters distincts comme distance entre ces deux clusters

^[78]

. CL a tendance ` a cr´ eer des clusters de petit diam` etre. Le comportement de GA est un compromis entre celui de SL et de CL. Les clusters obtenus avec GA sont relativement compacts et ´ eloign´ es les uns des autres. SL et CL sont bien moins coˆ uteux ` a calculer compar´ e ` a GA. Le r´ esultat de tels algorithmes peut ˆ etre visualis´ e au moyen d’un diagramme appel´ e dendrogramme, qui montre quels sont les clusters ` a chaque niveau de la hi´ erarchie de regroupement (figure 2.8). L’algorithme de Ward

^[172]

est une autre m´ ethode populaire de regroupement agglom´ eratif qui vise a minimiser la variance intra cluster.

Le pendant du clustering agglom´ eratif est le clustering divisif. Au lieu de partir de

N

singletons pour arriver ` a un seul groupe, ces m´ ethodes partent de un seul groupe pour finir avec

N

singletons.

2.7.4 Les cartes de Kohonen

Teuvo Kohonen ` a cr´ e´ e un r´ eseau de neurones

^[84]

qui permet de projeter un espace

d’entr´ ee de dimension

N

dans une carte de dimension deux (habituellement) qui pr´ eserve la

topologie de l’espace d’entr´ ee. Deux vecteurs proches dans l’espace d’entr´ ee seront proches

sur la carte de Kohonen. Une carte de Kohonen doit ˆ etre entraˆın´ ee (phase d’apprentissage)

avant de pouvoir ˆ etre utilis´ ee pour faire de la classification (phase d’exploitation). On

(33)

Figure

2.9 – Exemple de regroupement exact sur un ensemble de points. Les croix rouges sont les ´ el´ ements ` a partitionner. La plus grosse partition trouv´ ee est dans le cercle vert.

peut remarquer que Johann Gasteiger ainsi que ses coll` egues ont ´ et´ e des pionniers dans l’application de techniques d’intelligence artificielle, dont les cartes de Kohonen, ` a des probl` emes de chimie

[50,52,163,188]

.

2.7.5 Le regroupement exact

Pr´ esentons maintenant l’algorithme impl´ ement´ e par le logiciel Durandal, qui sera pr´ e- sent´ e en section 3.2.

Algorithm 3

Algorithme de regroupement exact avec la distance seuil ’d’.

e← {elements}

m←matrice dissim(e) while e̸=∅ do

pgc←plus grand cluster(e, m, d) sauvegarder(pgc)

e←e\pgc end while

En plus de la grande diversit´ e des algorithmes de regroupement, on trouve aussi de

nombreuses variantes approximatives d’algorithmes connus. Souvent, les versions approxi-

matives sont cr´ e´ ees afin d’acc´ el´ erer le calcul. Le logiciel Durandal impl´ emente une version

acc´ el´ er´ ee mais non approxim´ ee de l’algorithme dit de regroupement exact. Cet algorithme

(34)

2.8. LE CRIBLAGE VIRTUEL

IN-SILICO 33

(algorithme 3) ainsi qu’un exemple sur des donn´ ees g´ en´ er´ ees artificiellement est montr´ e dans la figure 2.9. Cet algorithme ne n´ ecessite pas un nombre de groupes ` a obtenir en entr´ ee, mais n´ ecessite une distance seuil qui sert ` a d´ eterminer si deux ´ el´ ements sont suffi- samment proches pour ˆ etre assign´ es au mˆ eme groupe.

Mˆ eme des algorithmes dits

«

non supervis´ es

»

peuvent avoir besoin d’une consigne en entr´ ee, par exemple un nombre de clusters ` a obtenir ou une distance seuil. Le scientifique qui voudrait du tout automatique pourrait rester sur sa faim. Heureusement, il existe des m´ ethodes bas´ ees sur des mod` eles (tel Mclust

^[45]

disponible dans R

^[46,118]

) qui permettent de d´ eterminer automatiquement le nombre de clusters ainsi que leur composition. Mais on sort alors du domaine des algorithmes combinatoires et ces m´ ethodes passent mal ` a l’´ echelle.

2.8 Le criblage virtuel in-silico

Combin´ es ` a une distance, les descripteur mol´ eculaires peuvent ˆ etre utiles pour chercher des mol´ ecules similaires. Ils peuvent donc s’av´ erer utiles lors du criblage par ordinateur d’une chimioth` eque virtuelle.

Le criblage virtuel in-silico est une tˆ ache de classification (figure 2.10). Les ´ el´ ements ` a classifier sont des mol´ ecules et l’on est en pr´ esence de deux classes : les mol´ ecules actives sur la prot´ eine cibl´ ee et les mol´ ecules inactives. En situation r´ eelle, la classe de chaque mol´ ecule est inconnue ` a l’avance. Aussi, en fonction du jeu de donn´ ees utilis´ e lors de la validation scientifique d’une m´ ethode, il se peut que seules certaines mol´ ecules aient ´ et´ e test´ ees exp´ erimentalement et d´ etect´ ees comme actives. Les mol´ ecules inactives sont souvent des leurres qui ont ´ et´ e g´ en´ er´ es automatiquement ` a partir des mol´ ecules actives

^[71,113]

. Ceci peut introduire des erreurs ; certains leurres se r´ ev´ eleraient probablement actifs s’ils ´ etaient test´ es exp´ erimentalement.

Lors de la recherche de nouvelles mol´ ecules th´ erapeutiques, le criblage virtuel peut ˆ etre

utilis´ e en d´ ebut du processus afin de s´ electionner un petit ensemble de mol´ ecules qui vont

ˆ etre test´ ees exp´ erimentalement. Typiquement (hors contexte industriel), sur les millions

de mol´ ecules d’une chimioth` eque, entre 50 et 200 mol´ ecules seulement seront s´ electionn´ ees

(35)

algorithme

beaucoup de molecules candidates

proteine cible therapeutique

short list de molecules candidates criblage virtuel in−silico

tests in−vitro en laboratoire

nouvelle molecule active

Figure

2.10 – Le criblage virtuel dans le contexte de la d´ ecouverte de nouvelles mol´ e- cules actives. Des m´ ethodes informatiques permettent de prioriser certaines mol´ ecules afin qu’elles soient test´ ees in-vitro en laboratoire.

apr` es criblage virtuel, en fonction du budget allou´ e aux premiers tests en laboratoire.

2.8.1 L’aire sous la courbe ROC

La courbe ROC (

«

Receiver Operating Characteristic curve

»

, figure 2.11) trace l’´ evo- lution du taux de vrais positifs (la pr´ ediction dit vrai et c’est correct) en fonction du taux de faux positifs (la pr´ ediction dit vrai mais c’est incorrect).

L’aire sous la courbe ROC (ASC) est une mesure comprise entre z´ ero et un de la

qualit´ e d’un classificateur. C’est une mesure importante lorsque l’on ´ evalue une m´ ethode de

criblage virtuel. Citons ici quelques valeurs rep` eres de l’ASC : un classificateur parfait aura

une ASC de 1.0 et un classificateur al´ eatoire une ASC de 0.5. L’inverse du classificateur

parfait aura une AUC de 0 (il n’assigne jamais un ´ el´ ement dans la classe ad´ equate). 1.0 et

0.5 sont deux rep` eres importants : lors du d´ eveloppement d’un classificateur on doit essayer

d’atteindre une ASC de 1.0 et si l’on d´ eveloppe une m´ ethode dont l’ASC ne d´ epasse pas

(36)

2.8. LE CRIBLAGE VIRTUEL

IN-SILICO 35

0 0.2 0.4 0.6 0.8 1

True Positive Rate

False Positive Rate

Figure

2.11 – Courbe ROC obtenue avec le logiciel ACPC-1.2 sur la prot´ eine cible PDB:xiap. L’aire sous cette courbe ROC est de 0.92.

0.5, cela signifie que la m´ ethode est aussi peu performante qu’un choix al´ eatoire.

2.8.2 Le facteur d’enrichissement

Une autre mesure int´ eressante en LBVS est le facteur d’enrichissement (EF

_x%

). Il me- sure l’am´ elioration du taux de mol´ ecules actives trouv´ ees dans les premiers

x% de mol´

ecules les mieux class´ ees de la chimioth` eque, par rapport au taux d’actives global (E

_tot

) de la chimioth` eque. Par exemple, si un jeu de donn´ ees contient globalement 10% de mol´ ecules actives mais qu’une m´ ethode est capable de trouver 50% de mol´ ecules actives dans le top 5% des mol´ ecules ordonn´ ees par le criblage ; la m´ ethode consid´ er´ ee ` a un EF

_5%

de cinq.

L’EF

_x%

est une mesure particuli` erement int´ eressante en criblage virtuel puisque seule une petite fraction des mol´ ecules cribl´ ees les mieux class´ ees seront test´ ees exp´ erimentalement.

E

_tot

donne la probabilit´ e de trouver une mol´ ecule active si l’on en choisit une au hasard.

E_tot

=

∥actives∥

+

∥inactives∥

(2.16)

EF_x%

=

E_x%

Etot