Chimiothèque : vers une approche rationnelle pour la sélection de sous-chimiothèques

(1)

HAL Id: tel-00687032

https://tel.archives-ouvertes.fr/tel-00687032

Submitted on 12 Apr 2012

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Julie Dubois-Chevalier

To cite this version:

Julie Dubois-Chevalier. Chimiothèque : vers une approche rationnelle pour la sélection de sous-

chimiothèques. Autre. Université d’Orléans, 2011. Français. �NNT : 2011ORLE2051�. �tel-00687032�

(2)

ECOLE DOCTORALE SCIENCES ET TECHNOLOGIES ´ LABORATOIRES : ICOA, UMR CNRS 6005 et LIFO, EA 4022

TH` ESE pr´ esent´ ee par :

Julie DUBOIS-CHEVALIER

soutenue le : 7 d´ ecembre 2011

pour obtenir le grade de : Docteur de l’universit´ e d’Orl´ eans Discipline : Chimie

Chimioth` eques ; vers une approche rationnelle pour la s´ election de sous-chimioth` eques

TH` ESE dirig´ ee par :

Luc MORIN-ALLORY Professeur, Universit´ e d’Orl´ eans Christel VRAIN Professeur, Universit´ e d’Orl´ eans

RAPPORTEURS :

Ronan BUREAU Professeur, Universit´ e de Caen Antoine CORNUEJOLS Professeur, AgroParisTech

JURY :

Ronan BUREAU Professeur, Universit´ e de Caen, Pr´ esident du jury Antoine CORNUEJOLS Professeur, AgroParisTech

Luc MORIN-ALLORY Professeur, Universit´ e d’Orl´ eans

Christel VRAIN Professeur, Universit´ e d’Orl´ eans

(3)

(4)

3

(5)

(6)

Je tiens tout d’abord ` a exprimer ma profonde reconnaissance au Professeur Luc Morin- Allory et au Professeur Christel Vrain qui ont dirig´ e cette th` ese. Merci pour leur impli- cation, leur confiance, leur grande disponibilit´ e et leurs conseils scientifiques qui m’ont permis de mener ce projet ` a terme.

J’adresse ma gratitude au Professeur Ronan Bureau et au Professeur Antoine Cornu´ e- jols pour avoir accept´ e de juger ce travail de th` ese et pour le temps qu’ils y ont consacr´ e.

Je remercie ´ egalement l’´ equipe de ch´ emoinformatique et l’´ equipe d’apprentissage pour leur accueil, leurs conseils et leur bonne humeur : St´ ephane Bourg, Laurent Robin, Vincent Le Guilloux, Lionel Colliandre, V´ eronique Hamon, Christophe Marot, Matthieu Exbrayat, Lionel Martin, Guillaume Cleuziou, Fr´ ed´ eric Moal, Matthieu Lopez, Jacques-Henri Suble- montier et Sylvie Billot. Je tiens ` a adresser un merci particulier ` a St´ ephane Bourg pour l’aide qu’il m’a apport´ e notamment pour la r´ edaction de mon premier article et pour le temps qu’il y a consacr´ e ; ainsi qu’` a Lionel Martin pour sa collaboration sur ce projet, pour les tr` es longues discussions et surtout les questionnements qui ont fait avancer notre d´ efinition de la diversit´ e et pour le d´ eveloppement de l’algorithme.

Enfin, merci aux membres de l’ICOA et du LIFO pour leur accueil chaleureux et leur sympathie.

5

(7)

(8)

Introduction 9

1 D´ efinitions et Etat de l’art 11

1.1 Les mol´ ecules . . . . 11

1.1.1 D´ efinition et identification . . . . 11

1.1.2 Classement . . . . 12

1.1.2.1 Caract´ erisation de la disponibilit´ e : Ensembles chimiques . 12 1.1.2.2 Collections . . . . 13

1.2 Les descripteurs . . . . 15

1.2.1 D´ efinition . . . . 15

1.2.2 Classement des descripteurs . . . . 15

1.2.2.1 Type num´ erique/structur´ e du descripteur . . . . 15

1.2.2.2 Classement selon la dimensionnalit´ e . . . . 17

1.2.2.3 Classement selon le type de propri´ et´ es d´ ecrites . . . . 18

1.2.3 R´ eduction du nombre de descripteurs . . . . 18

1.2.3.1 Redondance . . . . 18

1.2.3.2 Pertinence . . . . 19

1.2.3.3 La compression . . . . 19

1.2.3.4 La cr´ eation de nouveaux descripteurs (permettant la r´ e- duction de dimensions) . . . . 20

1.2.3.5 S´ election de descripteurs . . . . 20

1.3 Druggabilit´ e - Les filtres . . . . 22

1.3.1 D´ efinitions . . . . 22

1.3.1.1 Compos´ es drug-like . . . . 22

1.3.1.2 Compos´ es lead-like . . . . 23

1.3.2 Filtres sur les propri´ et´ es . . . . 23

1.3.3 Scores . . . . 24

1.3.4 Filtres structuraux . . . . 25

1.4 Espace chimique/Espace de visualisation . . . . 25

1.4.1 Espaces ”single molecule coding” . . . . 26

1.4.2 Espaces ”pairwise molecule coding” . . . . 27

1.5 Similarit´ e/ dissimilarit´ e . . . . 28

1.5.1 M´ etriques . . . . 28

1.5.1.1 Propri´ et´ es . . . . 28

1.5.1.2 Les diff´ erentes mesures de similarit´ e . . . . 29

1.5.2 Les sous-structures . . . . 33

1.5.3 Les limites de ces mesures . . . . 33

1.6 Diversit´ e chimique . . . . 34

1.6.1 Diversit´ e et Repr´ esentativit´ e . . . . 35

7

(9)

1.6.1.1 La repr´ esentativit´ e . . . . 35

1.6.1.2 La diversit´ e . . . . 36

1.6.2 Types de s´ election . . . . 37

1.6.2.1 Cadre formel du clustering . . . . 38

1.6.2.2 S´ election bas´ ee sur les clusters . . . . 40

1.6.2.3 S´ election bas´ ee sur le partitionnement . . . . 40

1.6.2.4 S´ election bas´ ee sur la dissimilarit´ e . . . . 41

1.6.2.5 S´ election bas´ ee sur l’optimisation . . . . 41

1.7 Outliers . . . . 41

1.7.1 Cadre statistique . . . . 41

1.7.1.1 D´ efinitions . . . . 41

1.7.1.2 M´ ethodes de d´ etection . . . . 41

1.7.2 Cadre de la ch´ emoinformatique . . . . 42

1.7.2.1 D´ efinitions . . . . 42

1.7.2.2 M´ ethodes de d´ etection . . . . 42

1.7.3 Conclusion . . . . 43

1.8 Publication . . . . 43

2 Pr´ esentation des donn´ ees 65 2.1 Origine des donn´ ees . . . . 65

2.2 Traitement de la collection . . . . 69

2.3 Description des mol´ ecules . . . . 70

2.4 Jeux tests . . . . 70

3 S´ election par diversit´ e : Formalisation 74 3.1 Notre objectif . . . . 74

3.1.1 D´ efinition formelle de la s´ election par diversit´ e . . . . 75

3.2 Les diff´ erentes approches li´ ees ` a notre objectif . . . . 76

3.2.1 k-means et k-medo¨ıds (M3) . . . . 76

3.2.2 k-median/k-center : Formulation . . . . 78

3.2.2.1 k-median . . . . 78

3.2.2.2 k-center . . . . 78

3.2.3 k-median/k-center : Strat´ egies de r´ esolution heuristiques . . . . 81

3.2.3.1 Strat´ egie d’ajout it´ eratif . . . . 81

3.2.3.2 Strat´ egies de suppression it´ erative . . . . 85

3.2.3.3 Strat´ egie d’alternance . . . . 85

3.2.3.4 Heuristiques composites . . . . 87

3.3 Notre impl´ ementation du probl` eme k-center . . . . 87

3.3.1 Etape 1 . . . . 88

3.3.2 Etape 2 (a) : Affectation des objets aux centres . . . . 88

3.3.2.1 Affectation avec CLOSE . . . . 88

3.3.2.2 Affectation avec BEST . . . . 89

3.3.2.3 Conclusion . . . . 90

3.3.3 Etape 2 (b) : Calcul des centres . . . . 90

3.3.3.1 H-centers . . . . 91

3.3.3.2 S-centers . . . . 91

3.3.3.3 Conclusion . . . . 91

3.3.4 Etape 2 (c) : Calcul du centre le plus proche . . . . 91

3.3.5 Etape 2 (d) et (e) . . . . 91

(10)

3.3.6 Crit` ere d’arrˆ et . . . . 92

4 S´ election par diversit´ e : Exp´ erimentation 93 4.1 Plan d’exp´ erimentation . . . . 93

4.2 Crit` eres d’´ evaluation des m´ ethodes compar´ ees . . . . 94

4.2.1 Crit` eres en rapport aux groupes form´ es . . . . 95

4.2.1.1 Le rayon . . . . 95

4.2.1.2 EC Ind . . . . 96

4.2.1.3 Singletons . . . . 97

4.2.2 Crit` eres en rapport aux distances . . . . 98

4.2.2.1 Diversit´ e-Recouvrement de l’espace . . . . 98

4.2.2.2 Repr´ esentativit´ e . . . 102

4.2.2.3 Dissimilarit´ e totale de l’´ echantillon . . . 104

4.3 Distances inter-mol´ ecules . . . 107

4.4 Etude des r´ esultats pour l’´ echantillonnage d’un jeu avec outliers (jeu : J1 et k = 1000) . . . 107

4.4.1 S´ election Al´ eatoire (M1) . . . 107

4.4.1.1 Stabilit´ e sur 10 runs . . . 107

4.4.1.2 R´ esultats sur la moyenne des 10 runs (jeu 1 et k = 1000) . 109 4.4.2 S´ election avec k -center (M2) . . . 112

4.4.2.1 Stabilit´ e sur 10 runs . . . 112

4.4.2.2 R´ esultats sur la moyenne des 10 runs (jeu 1 - k = 1000) . . 115

4.4.3 S´ election avec k -medo¨ıds (M3) . . . 119

4.4.3.1 Stabilit´ e sur 10 runs . . . 119

4.4.3.2 R´ esultats sur la moyenne des 10 runs (jeu 1 - k = 1000) . . 122

4.4.4 S´ election avec Maximum-Dissimilarity (M4) . . . 126

4.4.4.1 Stabilit´ e sur 10 runs . . . 128

4.4.4.2 R´ esultats sur la moyenne des 10 runs (jeu 1 - k = 1000) . . 131

4.4.5 S´ election avec Sphere-Exclusion (M5) . . . 137

4.4.5.1 Stabilit´ e sur 10 runs . . . 137

4.4.5.2 R´ esultats sur la moyenne des 10 runs (jeu 1 - k = 1000) . . 140

4.4.6 Comparaison des m´ ethodes . . . 145

4.5 Impact du jeu initial avec outliers sur l’´ echantillonnage (jeux : J1 versus J3 versus J5 - k = 1000) . . . 154

4.5.1 S´ election par tirage al´ eatoire (M1) . . . 154

4.5.2 S´ election par k -center (M2) . . . 156

4.5.3 S´ election par k -medo¨ıds (M3) . . . 158

4.5.4 S´ election par Maximum-Dissimilarity (M4D) . . . 160

4.5.5 S´ election par Sphere-Exclusion (M5) . . . 162

4.5.6 Conclusion . . . 164

4.6 Impact de la taille de l’´ echantillonnage d’un jeu avec outliers (jeu : J1 - k = 1000, 500, 100) . . . 164

4.6.1 S´ election al´ eatoire (M1) . . . 164

4.6.2 S´ election avec k -center (M2A) . . . 168

4.6.3 S´ election avec k -medo¨ıds (M3) . . . 173

4.6.4 S´ election avec Maximum-Dissimilarity (M4) . . . 179

4.6.5 S´ election avec Sphere-Exclusion (M5) . . . 182

4.6.6 Conclusion sur l’impact de la taille de l’´ echantillon . . . 182

9

(11)

4.7 Impact de l’absence d’outliers dans le jeu initial sur l’´ echantillonnage (jeux :

J1 versus J2 - k = 1000) . . . 184

4.7.1 S´ election par tirage al´ eatoire M1 . . . 184

4.7.2 S´ election par k-center (M2) . . . 186

4.7.3 S´ election par k-medo¨ıds (M3) . . . 188

4.7.4 S´ election par Maximum-Dissimilarity (M4) . . . 190

4.7.5 S´ election par Sphere-Exclusion (M5) . . . 192

4.7.6 Conclusion . . . 194

4.8 Impact du jeu initial sans outlier sur l’´ echantillonnage (Jeux : J2 versus J4 versus J6 - k = 1000) . . . 194

4.8.1 S´ election par tirage al´ eatoire (M1) . . . 194

4.8.2 S´ election par k-center (M2) . . . 196

4.8.3 S´ election par k-medo¨ıds (M3) . . . 198

4.8.4 S´ election par Maximum-Dissimilarity (M4D) . . . 200

4.8.5 S´ election par Sphere-Exclusion (M5) . . . 202

4.8.6 Conclusion . . . 204

4.9 Conclusion de la s´ election par diversit´ e . . . 204

Conclusion 207

Annexes 219

A Liste des descripteurs discrets (compteurs) 219

B Liste des descripteurs r´ eels 221

C R´ esultats des ´ echantillons de 1000 mol´ ecules sur J3 et J5 pour tous les

param´ etrages des m´ ethodes 225

D R´ esultats pour les diff´ erentes tailles d’´ echantillons pour la m´ ethode M5233 E R´ esultats pour des ´ echantillons de 1000 mol´ ecules sur J2 pour tous les

apram´ etrages des m´ ethodes 235

(12)

Le processus de d´ ecouverte et de d´ eveloppement d’un m´ edicament est constitu´ e de nombreuses ´ etapes :

– D´ ecouverte de la cible (g` ene, prot´ eine ou cellule) ` a atteindre

– Criblage ` a haut d´ ebit (HTS, c’est ` a dire tests de plusieurs centaines ` a plusieurs milliers de mol´ ecules chimiques sur la cible)

– D´ ecouverte de mol´ ecules chimiques actives

– Recherche de mol´ ecules similaires non toxiques et les plus actives possibles sur la cible

– Tests cliniques – Validation

– Mise sur le march´ e

Ce processus complet coˆ ute aujourd’hui environ 800 millions d’euros et peut prendre une quinzaine d’ann´ ees. C’est pourquoi, la recherche pharmaceutique tente d’optimiser chacune de ces ´ etapes. Pour cela elle fait appel ` a un nouveau domaine de recherche : la ch´ emoinformatique. En effet la ch´ emoinformatique propose de bons outils pour diminuer le coˆ ut et le temps de plusieurs ´ etapes du processus avec notamment les techniques de mod´ elisation mol´ eculaire, de docking, de QSAR... Ces techniques utilisent souvent des m´ e- thodes d’apprentissage artificiel.

Le travail que nous allons pr´ esenter se situe en amont de l’´ etape de criblage ` a haut d´ ebit et dans le cas o` u peu ou pas d’information sur la cible sont connues. En effet, si la cible exacte n’est pas connue, on ne peut extrapoler aucune information sur la structure ou l’activit´ e potentielle que devra avoir la mol´ ecule m´ edicament. Dans l’id´ eal, on pourrait vouloir tester toutes les mol´ ecules chimiques possibles pour en trouver une active sur la cible. Cependant il existe plus de 10 millions de mol´ ecules disponibles et un nombre quasi- ment infini de produits chimiques envisageables. Il est donc impossible de les tester tous. Le biologiste souhaitera alors tester un nombre restreint de mol´ ecules couvrant autant d’ac- tivit´ es biologiques que possible. Dans ce cas, on parle alors de sous-ensemble de mol´ ecules divers. Il s’agit donc d’extraire un sous-ensemble divers ` a partir d’une grande quantit´ e de mol´ ecules. De nombreux travaux se sont pench´ es sur ce probl` eme. Cependant, ils ne sont pas toujours applicables aux grands jeux de donn´ ees, et la notion de diversit´ e n’est pas d´ efinie formellement. Le but de cette th` ese est d’approfondir la notion de diversit´ e, de cr´ eer des crit` eres que les techniques de s´ election par diversit´ e peuvent optimiser et de proposer une nouvelle m´ ethode de s´ election par diversit´ e. Ce travail a ´ et´ e r´ ealis´ ee en collaboration avec l’´ equipe de ch´ emoinformatique de l’ICOA et avec l’´ equipe d’apprentissage du LIFO.

Une des difficult´ es de la th` ese a r´ esid´ e dans la communication entre ces deux domaines aux techniques et aux vocabulaires souvent tr` es diff´ erents. Les travaux pr´ esent´ es par la suite r´ esultent de la synergie des expertises apport´ ees par la ch´ emoinformatique et par l’apprentissage artificiel.

11

(13)

Dans un premier chapitre, nous pr´ esenterons les notions li´ ees aux mol´ ecules et ` a la diversit´ e qui seront utilis´ ees dans le reste de la th` ese. Nous d´ efinirons notamment ce qu’est une mol´ ecule, les diff´ erentes fa¸ con de les collecter et de les classer. Puis nous ´ evoquerons les techniques de descriptions des compos´ es chimiques, ainsi que les diff´ erents filtres pou- vant leur ˆ etre appliqu´ es. Nous d´ ecrirons quelques techniques permettant de visualiser les produits dans des espaces de faible dimension. Enfin, les notions de similarit´ e/dissimilarit´ e seront pr´ esent´ ees pour ensuite d´ efinir la diversit´ e et expliquer les diff´ erentes m´ ethodes d´ ej` a existantes dans ce domaine.

Le deuxi` eme chapitre nous permettra de d´ ecrire les donn´ ees utilis´ ees pour r´ ealiser les travaux de la th` ese. Nous pr´ esenterons tout d’abord comment les mol´ ecules ont ´ et´ e collec- t´ ees puis trait´ ees. Ensuite nous parlerons des descripteurs choisis pour d´ ecrire les donn´ ees.

Enfin la cr´ eation des diff´ erents jeux servant aux tests sera pr´ esent´ ee.

Les chapitres trois et quatre constituent le coeur de ce travail et se concentreront sur la s´ election par diversit´ e.

Dans le chapitre trois nous donnerons une d´ efinition de la diversit´ e que nous formali- serons par un crit` ere. Nous le comparerons ` a d’autres crit` eres similaires d´ ecouverts dans la litt´ erature en apprentissage artificiel. Puis chaque m´ ethode compar´ ee par la suite sera d´ ecrite. Enfin nous d´ evelopperons notre propre impl´ ementation du probl` eme de s´ election par diversit´ e.

Dans le chapitre quatre nous pr´ esenterons notre plan d’exp´ erimentation ainsi que les diff´ erents crit` eres d’´ evaluation utilis´ es pour comparer et valider nos r´ esultats. Ensuite, les r´ esultats de s´ election de chaque m´ ethode seront ´ etudi´ es s´ eparement puis compar´ es entre eux. Nous comparerons ´ egalement les r´ esultats pour diff´ erents jeux de donn´ ees pr´ esentant des propri´ et´ es identiques ou diff´ erentes et pour diff´ erentes tailles de s´ election.

Enfin nous concluerons en r´ esumant les apports et les perspectives qu’offre cette th` ese.

(14)

D´ efinitions et Etat de l’art

Dans un premier temps nous d´ efinissons ce qu’est une mol´ ecule, comment l’identifier et enfin nous verrons que les mol´ ecules peuvent ˆ etre organis´ ees en collections de diff´ erents types dans le but de faciliter leur manipulation.

Les mol´ ecules ainsi d´ efinies, nous pourrons expliquer comment les d´ ecrire et nous ver- rons qu’il existe de nombreuses possibilit´ es dans ce domaine. Nous verrons ensuite que ces descriptions conduisent ` a la d´ efinition d’espaces math´ ematiques dans lesquels on peut projeter et situer les mol´ ecules les unes par rapport aux autres.

Ainsi nous exposerons les diff´ erents modes de comparaison des mol´ ecules (mesure de similarit´ e/dissimilarit´ e). Enfin nous tenterons de d´ efinir la diversit´ e d’un ensemble de mo- l´ ecules et nous donnerons les m´ ethodes existantes pour effectuer la s´ election par diversit´ e.

1.1 Les mol´ ecules

1.1.1 D´ efinition et identification

Les atomes sont les ´ el´ ements ` a partir desquels une mol´ ecule est constitu´ ee. Les atomes de carbone, d’hydrog` ene, d’oxyg` ene et d’azote sont les principaux ´ el´ ements des mol´ ecules du vivant. Chacun de ces atomes est identifi´ e par un symbole : C pour le carbone, H pour l’hydrog` ene, O pour l’oxyg` ene et N pour l’azote. Ceux-ci permettent d’´ ecrire la formule chimique de toute mol´ ecule. En effet, la constitution d’une mol´ ecule est repr´ esent´ ee par la formule brute (1 dimension, soit : C9H8O4 pour l’aspirine ou acide ac´ etylsalicylique) et par sa formule semi-developp´ ee (2 dimensions, cf. Figure 1.1(a)). La mol´ ecule peut ´ ega- lement ˆ etre repr´ esent´ ee en 3 dimensions (cf. Figure 1.1(b)) en s´ electionnant une de ses conformations possibles dans l’espace.

Enfin, ` a chaque mol´ ecule est associ´ e un nom unique suivant la nomenclature IUPAC

¹

. Pour la mol´ ecule de la figure 1.1, il s’agit de l’acide 2-ac´ etyloxybenzo¨ıque. Cependant ce nom peut devenir tr` es complexe avec la longueur de la mol´ ecule et n’est pas adapt´ e aux traitements automatiques. Des codes ont alors ´ et´ e mis en place pour nommer chaque compos´ e chimique. Nous trouvons notamment le code SMILES

²

[1] (cf. Tableau 1.1) et le code InChI

³

[2]. Le code InChI identifie de fa¸ con unique chaque compos´ e chimique et permet de manipuler les informations concernant ces produits plus facilement au sein de grands ensembles de mol´ ecules.

1. Union Internationale de Chimie Pure et Appliqu´ ee 2. Simplified Molecular Input Line Entry System 3. The IUPAC International Chemical Identifier

13

(15)

(a) Formule semi-developp´ ee (b) Une conformation 3D

Figure 1.1: Repr´ esentations 2D et 3D de l’aspirine Code SMILES CC(=O)OC1=CC=CC=C1C(=O)O

Code InChI 1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12) Table 1.1: Tableau de quelques codes utilis´ es pour repr´ esenter la mol´ ecule d’aspirine 1.1.2 Classement

Chaque jour, plus de 12 000 nouvelles substances chimiques (organiques ou inorga- niques) sont ajout´ ees [3] ` a la plus c´ el` ebre des collections de mol´ ecules : le CAS Registry.

Il devient donc important, d’une part de les caract´ eriser dans des ensembles refl´ etant leur disponibilit´ e sur le march´ e, d’autre part de collecter les informations les concernant et de les classer de mani` ere intelligente.

1.1.2.1 Caract´ erisation de la disponibilit´ e : Ensembles chimiques

Tout d’abord, tous les compos´ es chimiques peuvent ˆ etre class´ es dans des ensembles chimiques. Chacun de ces ensembles caract´ erise des groupes de mol´ ecules en fonction de leur disponibilit´ e ou de leur faisabilit´ e (cf. Figure 1.2). Hann et Oprea [4] distinguent quatre ensembles chimiques :

– Ensemble Virtuel : l’ensemble des mol´ ecules possibles, imaginables de taille raison- nable (500 ` a 1000 Dalton, ensemble estim´ e ` a 10

⁶⁰

produits) [5]. Il n’y aurait pas assez de mati` ere dans l’univers pour fabriquer une mol´ ecule de chacun de ces produits.

– Ensemble Tangible : l’ensemble des produits possiblement synth´ etisables (avec les connaissances actuelles), le nombre de mol´ ecules de cet espace est estim´ e entre 10

²⁰

et 10

²⁴

[6].

– Ensemble Global : l’ensemble des compos´ es qui ont d´ ej` a ´ et´ e synth´ etis´ es. Il est impos- sible de connaˆıtre leur nombre exact car beaucoup de mol´ ecules sont confidentielles [7].

– Ensemble R´ eel : l’ensemble des produits actuellement existants et r´ eellement dispo- nibles, c’est ` a dire l’ensemble des collections existantes chez les fournisseurs.

Dans la suite de notre ´ etude, nous nous int´ eressons ` a l’ensemble r´ eel, et nous utiliserons

donc des produits r´ eellement disponibles, mais l’´ etude est applicable ` a tout type d’ensemble

de mol´ ecules.

(16)

Figure 1.2: Les ensembles chimiques et le nombre approximatif de mol´ ecules qu’ils contiennent

1.1.2.2 Collections

Nous avons vu que l’espace r´ eel contient plusieurs millions de compos´ es chimiques. Les chimistes et autres utilisateurs de ces mol´ ecules ont donc dˆ u cr´ eer des collections pour or- ganiser cette masse de donn´ ees. Ces collections sont aussi appel´ ees chimioth` eques. Celles-ci peuvent ˆ etre virtuelles ou r´ eelles.

Les chimioth` eques r´ eelles sont souvent sous forme de plaques de puits (cf. Figure 1.3) contenant chacun un produit diff´ erent. Ces plaques sont donc prˆ etes ` a ˆ etre test´ ees.

Figure 1.3: Exemple de plaques 96 puits (soci´ et´ e Nunc)

Les chimioth` eques virtuelles sont un ensemble d’informations plus ou moins organis´ ees et hi´ erarchis´ ees regroupant tout ou partie des donn´ ees concernant un ensemble de compo-

15

(17)

s´ es chimiques. Elles peuvent ˆ etre de plusieurs types et sont class´ ees diff´ eremment dans la litt´ erature. Par exemple, la review [8] classe les collections de mol´ ecules selon leur contenu en 3 types : bases de litt´ erature (donn´ ees bibliographiques), bases factuelles (propri´ et´ es physico-chimiques, spectres, description des projets de recherche) et bases structurales (informations topologiques, r´ eactions associ´ ees aux mol´ ecules). Nous adoptons ici le clas- sement propos´ e par Gasteiger [9] qui divise les chimioth` eques en bases bibliographiques et en bases de structures chimiques. Nous d´ efinissons chacun de ces types de collection tout en sachant que la fronti` ere entre eux n’est pas absolue.

Les bases bibliographiques Ces bases contiennent les publications originales concer- nant chaque compos´ e de la base. On y trouve ´ egalement la litt´ erature li´ ee aux mol´ ecules et parfois des donn´ ees exp´ erimentales. Parmi les plus connues nous comptons : CAS Re- gistry [10] avec plus de 60 millions de substances organiques et inorganiques, Belstein [11]

avec 10 millions de produits et 320 millions de donn´ ees exp´ erimentales. La revue ”Basic overview of Chemoinformatics” [8] donne une liste exhaustive des bases bibliographiques disponibles.

Les bases de structures chimiques Ces librairies peuvent provenir de plusieurs sources (distributeurs commerciaux, entrepˆ ots acad´ emiques). Dans ce type de librairies, les com- pos´ es apparaissent dans de multiples repr´ esentations (2D, SMILES, fingerprints : cf. pa- ragraphe 1.2.2.1) et la plupart contiennent un large panel de valeurs caract´ erisant les mol´ ecules (appel´ ees aussi descripteurs : section 1.2). On peut donc aussi appeler ces bases, des librairies annot´ ees. Parmi les bases de structures chimiques on trouve notamment : iResearch de ChemNavigator [12] avec 15 millions de structures uniques provenant de 179 fournisseurs, Zinc [13], la chimioth` eque nationale [14], ChemDB [15], ChemIDplus [16]. Chaque fournisseur commercial propose ´ egalement sa propre librairie de produits chi- miques (nous en donnons une liste des principaux dans le chapitre 2). Il existe enfin des bases formant un catalogue de ces produits commerciaux accompagn´ es d’une information sur les fournisseurs les proposant : e-molecules [17], ACD [18], CHEMCATS [19] ou encore ChemSource [20].

Certaines librairies sont annot´ ees avec des informations sur des cibles biologiques po- tentielles. c’est le cas notamment de PubChem [21], de la base du NCI [22], ChemBank [23], ChemMine [24], ChEBI [25]. Certaines d’entre elles r´ eunissent uniquement des mo- l´ ecules m´ edicaments comme la Drug Bank [26] qui recense les cibles biologiques li´ ees ` a chacun des compos´ es de la librairie, ou encore Prestwick [27].

Parmi les librairies annot´ ees, on compte ´ egalement les bases contenant des informations thermodynamiques. Enfin certaines librairies sont particuli` eres car elles ne contiennent pas que des compos´ es existants. En effet, les librairies combinatoriales appartiennent plutˆ ot ` a

”l’ensemble global” d´ efini pr´ ec´ edemment. Les librairies combinatoires r´ eelles proviennent de la chimie combinatoire et elles sont consid´ er´ ees comme des chimioth` eques r´ eelles (comme d´ efinies plus haut). En revanche les librairies combinatoires virtuelles sont bas´ ees sur un ensemble de fragments mol´ eculaires et de r´ eactions que l’on sait r´ ealisables. Les compos´ es contenus dans ces librairies r´ esultent d’un grand nombre de combinaisons possibles et synth´ etisables entre ces fragments. Pour plus d’informations sur la construction de ces librairies on peut se r´ ef´ erer aux travaux suivants [28, 29, 30]. A titre d’exemple, r´ ecemment Fink et Reymond [31] ont construit une tr` es grande librairie combinatoire de 26,4 millions de mol´ ecules respectant les r` egles de biodisponibilit´ e de Lipinski (voir paragraphe 1.3).

Enfin, les librairies cibl´ ees contiennent des compos´ es aux caract´ eristiques sp´ ecifiques

en relation avec une ou quelques cibles biologiques particuli` eres. Par exemple certains tra-

(18)

vaux [32] d´ ecrivent une technique pour construire une librairie cibl´ ee enrichie en mol´ ecules bioactives.

Les sous-librairies Les librairies sont souvent beaucoup trop grandes pour effectuer par exemple une recherche de m´ edicament cibl´ ee ou des tests HTS in vitro

⁴

. Il est en effet impossible de pratiquer des tests biologiques ` a l’´ echelle de plusieurs millions de compos´ es, pour des raisons de temps et de coˆ ut. Il est donc indispensable de r´ eduire la taille de ces librairies pour obtenir des sous-librairies qui font partie de la classe des bases de structures chimiques. Celles-ci sont s´ electionn´ ees selon diff´ erents crit` eres, par exemple :

– s´ election par diversit´ e pour effectuer un HTS (criblage ` a haut d´ ebit) r´ eel ou virtuel sans connaissance de la cible

– s´ election par similarit´ e ` a un compos´ e donn´ e potentiellement actif, pour trouver un compos´ e le plus actif possible et/ou non toxique

1.2 Les descripteurs

1.2.1 D´ efinition

Toute mol´ ecule est d´ ecrite par des valeurs que l’on appelle descripteurs. Ces valeurs peuvent ˆ etre obtenues exp´ erimentalement mais le plus souvent, elles sont calcul´ ees ` a partir de la structure de la mol´ ecule. Par exemple, le poids mol´ eculaire est calcul´ e ` a partir de celui des atomes constituant le compos´ e chimique.

De nombreux travaux [33, 34] ´ etudient le calcul ou la pr´ ediction de certains descripteurs.

Plusieurs logiciels sont disponibles pour effectuer ces calculs, comme : QSARIS [35], Cerius2 [36], VolSurf [37], Dragon [38]. Enfin des librairies informatiques telles que le CDK [39]

ont ´ et´ e d´ evelopp´ ees. Elles permettent ` a des utilisateurs avertis d’int´ egrer le calcul de leurs descripteurs ` a une plateforme informatique d´ ej` a existante.

Il est possible de classer les milliers de descripteurs existants [40] de diff´ erentes fa¸ cons.

Nous verrons ces classements, puis nous pr´ esenterons quelques m´ ethodes permettant de manipuler un nombre r´ eduit de descripteurs.

1.2.2 Classement des descripteurs

En effet on peut organiser les descripteurs ainsi : – selon leur type : quantitatif, qualitatif, structur´ e

– selon la dimensionnalit´ e de la repr´ esentation mol´ eculaire ` a partir de laquelle sont d´ eduits les descripteurs

– selon la nature des propri´ et´ es d´ ecrites

1.2.2.1 Type num´ erique/structur´ e du descripteur

Nous d´ ecrivons ici quatre types principaux de formes num´ eriques ou g´ eom´ etriques que peuvent prendre les descripteurs.

4. In vitro signifie ”dans le verre” par opposition ` a in vivo (dans l’organisme, dans la cellule). L’expression in vitro d´ esigne une recherche ou un test effectu´ e en tube ` a essai ou plus g´ en´ eralement en dehors de l’organisme vivant, dans des conditions artificielles.

17

(19)

Les variables simples Il s’agit de la majorit´ e des descripteurs. Ils peuvent prendre une valeur num´ erique dite quantitative ou une valeur qualitative.

Les variables qualitatives ou symboliques comme par exemple la couleur des yeux, sont des variables ne prenant que des valeurs non num´ eriques appel´ ees caract´ eristiques ou modalit´ es. Elles peuvent ˆ etre :

– ordinales, dans ce cas les modalit´ es (ou valeurs) que prennent les variables peuvent ˆ

etre class´ ees par ordre croissant ou d´ ecroissant (par exemple la variable taille peut prendre les modalit´ es petit, moyen, grand). Les variables ordinales peuvent ˆ etre num´ eriques (par exemple : 1 = petit, 2 = moyen, 3 = grand) mais les op´ erations math´ ematiques (telles que la somme ou la moyenne) n’ont pas de sens sur ces valeurs.

– nominales, dans ce cas les modalit´ es des variables ne sont pas ordonnables (exemple : la couleur peut prendre les modalit´ es rouge, jaune, bleu).

Lorsque ces variables ne prennent que deux modalit´ es, elles sont dites dichotomiques (exemple : jour/nuit). En informatique une variable dichotomique est dite variable bi- naire et elle est exprim´ ee par les valeurs 0 et 1.

Enfin lorsque les donn´ ees sont d´ ecrites avec des variables num´ eriques, ces derni` eres sont dites quantitatives ou mesurables. Une variable est quantitative continue lorsqu’elle peut prendre l’une des valeurs d’un intervalle comme par exemple le poids mol´ eculaire.

Une variable est quantitative discontinue ou discr` ete lorsqu’elle ne prend que des valeurs isol´ ees les unes des autres, par exemple le nombre d’atomes d’une mol´ ecule), le nombre de valeurs qu’elle peut prendre est alors d´ enombrable. Les valeurs des variables discr` etes sont g´ en´ eralement des valeurs enti` eres.

Figure 1.4: Exemple de fingerprint

Les fingerprints (cf. Figure 1.4) Les fingerprints sont des vecteurs de bits (ou valeurs binaires). Chaque bit prend la valeur 0 ou 1. Cette valeur code l’absence ou la pr´ esence de certains fragments structuraux

⁵

ou d’autres caract´ eristiques. Parfois, un ou plusieurs bits peuvent coder une propri´ et´ e physico-chimique. Un exemple de la construction de fingerprint est donn´ e dans [41]. Les plus couramment utilis´ es sont les fingerprints MACCS et Daylight [42], il existe aussi MolPrint2D [43], le fingerprint BCI [44], le fingerprint standard 2D de tripos [45] ou encore le fingerprint de Scitegic [46]. Les fingerprints restent l’un des types de descripteurs les plus utilis´ es en chemo-informatique pour d´ ecrire les mol´ ecules et les comparer entre elles. Ils sont d’ailleurs souvent utilis´ es comme seul type

5. On appelle fragment structural, un sous-ensemble d’une mol´ ecule ; c’est ` a dire une partie de l’enchaˆı-

nement des atomes. Par exemple un cycle compos´ e de 5 carbones est un fragment structural pouvant se

trouver au sein d’une mol´ ecule

(20)

de descripteur. C’est pourquoi leur efficacit´ e ` a caract´ eriser correctement les mol´ ecules a

´ et´ e ´ etudi´ ee ` a plusieurs reprises [47, 48].

Vecteurs et matrices Les descripteurs peuvent ˆ etre de forme plus complexe comme des vecteurs ou des matrices. Il peut s’agir de matrices de connectivit´ e indiquant pour chaque couple d’atomes la pr´ esence ou non d’une liaison.

Graphes (cf. Figure 1.5) Ce type de descripteurs permet de repr´ esenter chaque mo- l´ ecule par un ensemble de nœuds et d’arˆ etes. Chaque nœud peut repr´ esenter une sous- structure de la mol´ ecule, une fonction ou un atome. Ces nœuds sont connect´ es entre eux par des arˆ etes symbolisant les liaisons existantes de la mol´ ecule. Cette repr´ esentation per- met d’utiliser des algorithmes de comparaison de graphes pour calculer la similarit´ e entre mol´ ecules chimiques.

Figure 1.5: Exemple de graphe tir´ e de [49]

1.2.2.2 Classement selon la dimensionnalit´ e

Nous avons vu que la mol´ ecule peut ˆ etre repr´ esent´ ee en une, deux ou trois dimensions.

Les descripteurs peuvent ˆ etre calcul´ es ` a partir de chacune de ces dimensions. On obtient donc trois classes diff´ erentes.

Descripteurs obtenus ` a partir de la formule brute (1D) Ce sont les descripteurs bas´ es uniquement sur les atomes et leur nombre. Ce sont donc souvent des compteurs d’atomes simples (nombre de carbones, nombre d’hydrog` enes...). On peut ´ egalement trou- ver des binaires codant l’absence ou la pr´ esence de certains ´ el´ ements sp´ ecifiques. Enfin, parmi ces descripteurs on trouve des valeurs telles que le poids mol´ eculaire qui peuvent ˆ etre calcul´ ees ` a partir de cette formule brute.

Descripteurs obtenus ` a partir de la formule d´ evelopp´ ee (2D) Ce sont des descrip- teurs bas´ es sur la topologie de la mol´ ecule, les groupes d’atomes et les fonctions chimiques (comme le coefficient de partage octanol/eau ou LogP, la pr´ esence de certains fragments).

On trouve ´ egalement les descripteurs li´ es ` a la connectivit´ e tels que les matrices de connec- tivit´ e vues pr´ ec´ edemment.

19

(21)

Descripteurs obtenus ` a partir de la conformation dans l’espace (3D) Il s’agit ici de descripteurs bas´ es sur la st´ er´ eochimie et la g´ eom´ etrie de la mol´ ecule. On y trouve notamment les descripteurs de surface (par exemple la surface de distribution du po- tentiel ´ electrostatique), les conformations possibles que peut prendre une mol´ ecule dans l’espace, les ´ energies (HOMO, LUMO). On peut ´ egalement y classer les descripteurs ap- pel´ es pharmacophores. Ceux-ci sont repr´ esent´ es sous forme de graphes (connexes ou non).

Ils indiquent des fonctions chimiques ainsi que leur enchaˆınement qui pourraient ˆ etre ca- ract´ eristiques d’une activit´ e biologique.

1.2.2.3 Classement selon le type de propri´ et´ es d´ ecrites

Enfin il est possible de classer les descripteurs selon les propri´ et´ es qu’ils d´ ecrivent d’une mol´ ecule.

Propri´ et´ es physico-chimiques macroscopiques Il s’agit par exemple du poids mo- l´ eculaire et du LogP.

Propri´ et´ es structurales Ces propri´ et´ es concernent les constituants de la mol´ ecule, il s’agit des compteurs d’atomes et de liaisons.

Propri´ et´ es topologiques Cet ensemble rassemble les descripteurs li´ es ` a la connectivit´ e de la mol´ ecule (les matrices de connectivit´ e par exemple et divers indices d´ eriv´ es de ces matrices).

Ainsi ces classements permettent ` a l’utilisateur de choisir la ou les classes les plus adapt´ ees ` a son projet et/ou aux informations dont il dispose sur la mol´ ecule. Par exemple si on ne dispose pas des informations 3D sur le compos´ e, certains descripteurs ne pourront pas ˆ etre calcul´ es. Ou encore, une recherche bas´ ee sur les sous-structures ne requiert pas de descripteurs sur les propri´ et´ es physico-chimiques. En revanche, lors de la recherche de m´ edicaments, un filtrage (cf. section 1.3) doit ˆ etre utilis´ e pour, entre autres, ´ eliminer des mol´ ecules potentiellement toxiques. Dans ce cas, les propri´ et´ es physico-chimiques sont indispensables.

1.2.3 R´ eduction du nombre de descripteurs

Nous avons vu qu’il existe plusieurs milliers de descripteurs. Or il n’est pas possible de tous les utiliser pour comparer des mol´ ecules. Cela ne serait d’ailleurs pas pertinent puisque plusieurs d’entre eux sont redondants et d’autres ne sont pas forc´ ement pertinents selon l’objectif que l’on souhaite atteindre.

1.2.3.1 Redondance

On appelle descripteurs redondants, des variables qui apportent la mˆ eme information.

En statistique il s’agit de deux variables tr` es corr´ el´ ees entre elles. Pour Whitley [50] par exemple, la redondance est ”une d´ ependance lin´ eaire exacte entre plusieurs colonnes (des- cripteurs) d’une matrice de donn´ ees. Ce qui signifie qu’au moins une de ces colonnes contri- bue ` a une information non unique”. Nous pouvons illustrer la redondance par le sch´ ema 1.6(a). Sur celui-ci un ensemble de points est d´ ecrit par deux variables x et y, et est donc projet´ e selon deux axes. On remarque que cet ensemble comporte deux groupes distincts.

Or si on supprime la variable y, l’ensemble de points est alors projet´ e sur l’axe x. Dans

(22)

ce cas, la variable x permet toujours de discriminer deux groupes au sein de l’ensemble.

De mˆ eme si on supprime la variable x, les points sont projet´ es sur l’axe y ; on obtient le mˆ eme type de r´ esultats. Ces deux variables sont donc consid´ er´ ees comme redondantes puisqu’elles apportent toutes deux la mˆ eme information sur l’ensemble de points. Si ces deux variables sont conserv´ ees pour la suite de l’analyse, cela risque de donner un poids artificiellement plus ´ elev´ e ` a l’information qu’elles contiennent.

1.2.3.2 Pertinence

On d´ efinit la pertinence d’une variable, par sa capacit´ e ` a d´ elivrer une information

”int´ eressante” sur les observations qu’elle d´ ecrit au regard de l’objectif de l’analyse. Cette pertinence d´ epend donc du projet dans lequel on se place. Dans le cadre de l’apprentissage supervis´ e et toujours selon Whitley [50], les descripteurs pertinents ont ”une corr´ elation statistique significative avec la variable r´ eponse (d’une analyse) et ne doivent pas avoir une variance faible”. Dans le cadre de l’apprentissage non supervis´ e, nous pouvons illustrer le concept de pertinence avec le sch´ ema 1.6(b). Sur celui-ci un ensemble de points est d´ ecrit par deux variables x et y, et est donc projet´ e selon deux axes. On peut voir que cet ensemble comporte deux groupes distincts. Lorsqu’on retire la variable y, on obtient la projection de cet ensemble sur l’axe x. Dans ce cas on observe toujours deux groupes. En revanche lorsqu’on supprime la variable x et que l’on effectue alors la projection des points sur l’axe y, on remarque qu’il n’existe plus qu’un seul groupe de points. Dans le cadre de ce sch´ ema o` u l’on souhaite discriminer deux groupes au sein d’un ensemble, la variable y n’est donc pas pertinente.

(a) Illustration de la redondance (b) Illustration de la pertinence

Figure 1.6: Illustration de la redondance et de la pertinence de deux variables x et y Il est donc important de r´ eduire le nombre de descripteurs pour ´ eliminer la redondance et ne conserver que les descripteurs pertinents. Mais cette r´ eduction permet ´ egalement ` a l’utilisateur d’observer moins de variables et donc de mieux comprendre les ph´ enom` enes expliquant les donn´ ees et les r´ esultats de son analyse. Il existe plusieurs techniques de r´ eduction de dimensions : la compression, la cr´ eation de nouveaux descripteurs rassemblant plusieurs informations, la s´ election.

21

(23)

1.2.3.3 La compression

Nous avons vu que les fingerprints codent pour la pr´ esence ou l’absence de certains fragments structuraux dans une mol´ ecule. Or, ´ etant donn´ e le nombre consid´ erable d’infor- mations que l’on peut r´ esumer dans un fingerprint, sa taille peut vite devenir trop grande pour r´ ealiser les calculs de comparaison de mol´ ecules en un temps raisonnable. Ils sont donc souvent compress´ es. L’efficacit´ e de cette compression est controvers´ ee et a ´ et´ e ´ etudi´ ee par Baldi et al. [51] qui pr´ esente plusieurs algorithmes de compression.

Pour mieux comprendre ce qu’est la compression d’un fingerprint nous pouvons ex- pliquer une m´ ethode simple cit´ ee dans cet article. Prenons un fingerprint de 10 bits : (1,0,0,1,0,0,0,0,1,0). On d´ efinit l’index de repr´ esentation par un vecteur d’entiers indexant la position dans le fingerprint des bits valant 1. Pour l’exemple, l’index de repr´ esentation est donc (0,3,8). Ensuite la repr´ esentation dite ”run-length” est un vecteur indexant la lon- gueur des s´ eries de bits valant 0 suivies d’un bit valant 1. Ici, ce vecteur serait le suivant : (0,2,4). Ces deux repr´ esentations du fingerprint produisent un vecteur d’entiers qui est une forme de compression.

1.2.3.4 La cr´ eation de nouveaux descripteurs (permettant la r´ eduction de dimensions)

Tout d’abord, plusieurs travaux proposent des indices qui r´ esument des ensembles de descripteurs. Chacun de ces indices peut ˆ etre consid´ er´ e comme un descripteur ` a part enti` ere. On peut trouver plusieurs exemples de ces indices notamment dans les travaux de Balban et al. [52] et de Gregori-Puigjan´ e et al. [53] mais ´ egalement dans deux livres [54, 55]. Ensuite, il est ´ egalement possible d’utiliser des m´ ethodes telles que l’ACP (Analyse en Composante Principale). Celle-ci a pour principe de r´ eduire un ensemble de descripteurs en un nombre r´ eduit de composantes correspondant chacune ` a une combinaison lin´ eaire de l’ensemble des descripteurs. Elle ´ elimine dans le mˆ eme temps la redondance.

L’inconv´ enient de telles combinaisons est que, lors d’analyses et de comparaisons de mol´ ecules, elles ne permettent pas une compr´ ehension ais´ ee des propri´ et´ es r´ egissant les ph´ enom` enes existants entre mol´ ecules. Une alternative ` a la compression et ` a la combinaison des donn´ ees, est la s´ election de descripteurs.

1.2.3.5 S´ election de descripteurs

Il s’agit de choisir parmi les milliers existants, les descripteurs qui d´ ecrivent le mieux une mol´ ecule en termes de structure, de propri´ et´ es. Il est donc question d’identifier la pertinence de certains descripteurs au regard d’un but pr´ ecis (dans notre cas : favoriser une bonne s´ election par diversit´ e). Mais ´ egalement, on souhaite ´ eliminer la redondance (d´ efinie pr´ ec´ edemment), c’est ` a dire ne pas conserver deux descripteurs codant le mˆ eme type d’information.

Cadre de la s´ election Dans notre cas, nous souhaitons effectuer une s´ election sur un

jeu de descripteurs associ´ es ` a des mol´ ecules dont on n’a aucune connaissance a priori. Par

exemple, dans le cas de notre ´ etude nous travaillons avec des mol´ ecules dont ne connaˆıt

pas l’activit´ e biologique ´ eventuelle. Plus g´ en´ eralement, on ne poss` ede aucune informa-

tion sur une quelconque organisation des mol´ ecules les unes par rapport aux autres. En

apprentissage artificiel (ou Machine Learning), on se situe donc dans le cadre de l’appren-

tissage non supervis´ e. Par opposition l’apprentissage supervis´ e est le cas o` u l’on poss` ede

des connaissances sur le jeu de donn´ ees (une certaine classification par exemple).

(24)

Or en apprentissage, de nombreux travaux traitent de la s´ election de descripteurs dans le cadre supervis´ e. En revanche pour l’apprentissage non supervis´ e, peu d’´ etudes et de m´ ethodes existent. Nous donnerons ici les diff´ erents types possibles de s´ election de des- cripteurs pour l’apprentissage non supervis´ e.

Les diff´ erentes approches de s´ election de variables Il existe 2 approches diff´ erentes pour la s´ election de variables en apprentissage non supervis´ e :

– les approches ”filtre”

– les approches ”enveloppe”

Avec les approches ”filtre”, la s´ election de descripteurs s’effectue avant toute op´ eration d’apprentissage. Il s’agit la plupart du temps de m´ ethodes dites de ranking ou classement.

Les descripteurs sont class´ es selon un crit` ere comme l’entropie, la variance, la corr´ ela- tion etc... Ces approches sont ind´ ependantes de l’application d’apprentissage utilis´ ee par la suite pour traiter les donn´ ees. Par exemple, Dash et Liu [56] proposent une m´ ethode de ranking bas´ ee sur l’entropie du jeu de donn´ ees. D’autres m´ ethodes positionn´ ees dans diff´ erents contextes d’apprentissage sont notamment cit´ ees dans la review de Guyon et Elisseeff [57] et concernent principalement l’apprentissage supervis´ e.

Les approches ”enveloppe” sont constitu´ ees de trois ´ etapes : la s´ election d’un sous- ensemble de descripteurs, l’apprentissage ` a partir de ce sous-ensemble et l’´ evaluation du r´ esultat de l’apprentissage pour savoir si le sous-ensemble est optimal ou non. Si le r´ esultat de l’apprentissage n’est pas satisfaisant, un autre sous-ensemble est test´ e jusqu’` a obtention du r´ esultat souhait´ e. Pour cela, il convient d’effectuer trois choix :

– le choix de la strat´ egie de recherche des sous-ensembles possibles dans l’espace des variables

– le choix du pr´ edicteur ou classifieur utilis´ e en fonction de l’op´ eration d’apprentissage d´ esir´ ee

– le choix de la m´ ethode d’´ evaluation de la performance

Tout d’abord, une recherche exhaustive de tous les sous-ensembles possibles de descrip- teurs ( au nombre de 2

^d

o` u d est le nombre de descripteurs total) n’est pas envisageable [58]. C’est pourquoi plusieurs strat´ egies de recherche de ces sous-ensembles ont ´ et´ e d´ eve- lopp´ ees comme nous pouvons le voir dans la review de Kohavi et John [59]. Parmi ces strat´ egies, les plus connues sont les strat´ egies gloutonnes ”forward selection” et ”backward selection”. La strat´ egie ”forward” consiste ` a commencer avec un ensemble vide auquel on ajoute s´ equentiellement le descripteur qui, en combinaison avec les descripteurs d´ ej` a s´ e- lectionn´ es, optimise un crit` ere choisi. Ce crit` ere peut ˆ etre le coefficient de corr´ elation par exemple. Dans ce cas, on cherchera ` a ajouter it´ erativement le descripteur le moins corr´ el´ e

`

a ceux d´ ej` a s´ electionn´ es. Un exemple d’une telle strat´ egie est d´ evelopp´ e par Withley et al.

en 2000 [50] pour le domaine de la chemoinformatique.

La strat´ egie ”backward” commence avec la totalit´ e des descripteurs et les ´ elimine un par un it´ erativement selon le mˆ eme type de crit` ere ` a optimiser. Pour ces deux strat´ egies, l’ajout ou la suppression s’arrˆ ete lorsque le crit` ere n’est plus optimis´ e par les descripteurs restants.

Ces strat´ egies gloutonnes ne sont pas les meilleures et ne garantissent pas une solution optimale mais il est admis qu’elles sont rapides et produisent une solution raisonnable.

Ensuite, il s’agit de choisir l’algorithme d’apprentissage utilis´ e pour traiter les donn´ ees avec le sous-ensemble de descripteurs propos´ e par la strat´ egie de recherche. Dans le cadre de l’apprentissage supervis´ e, il s’agira de choisir un pr´ edicteur tel que les arbres de d´ ecision ou les Support Vector Machine (SVM). Dans le cadre de l’apprentissage non supervis´ e, il

23

(25)

s’agit souvent de clustering.

Enfin, pour ´ evaluer la performance de l’apprentissage avec un sous-ensemble de des- cripteurs donn´ e, il existe plusieurs possibilit´ es. Celles-ci permettent de guider la recherche et de la stopper. Dans le cadre de l’apprentissage supervis´ e, ´ etant donn´ e que les donn´ ees sont ´ etiquet´ ees, il suffit de mesurer la qualit´ e de la pr´ ediction. Si la qualit´ e n’est pas ac- ceptable, les trois ´ etapes de l’approche enveloppe sont r´ ep´ et´ ees jusqu’` a obtention d’une bonne pr´ ediction.

En revanche dans le cadre de l’apprentissage non supervis´ e, on ne connaˆıt pas a priori les classes des objets. Il faut donc d´ eterminer un crit` ere ` a optimiser. En g´ en´ eral il s’agit de crit` eres li´ es ` a la qualit´ e du clustering tels que la s´ eparation des clusters.

On trouve un exemple de s´ election de descripteurs via l’approche enveloppe dans les travaux de Dy et Brodley [60]. Tout comme cette th` ese, leur travaux se situent dans le cadre non supervis´ e.

1.3 Druggabilit´ e - Les filtres

Les descripteurs que nous venons de d´ efinir permettent d’´ evaluer les propri´ et´ es d’une mol´ ecule. Or cette ´ etape est cruciale dans le d´ eveloppement d’un m´ edicament. En effet, pour devenir un m´ edicament, un compos´ e chimique doit certes poss´ eder une bonne acti- vit´ e biologique, mais il doit ´ egalement avoir des propri´ et´ es qui lui conf` erent une bonne biodisponibilit´ e. On entend par ce terme : des propri´ et´ es d’Absorption, de Distribution, de M´ etabolisme, d’Elimination (propri´ et´ es ADME) acceptables pour le corps humain. A ces propri´ et´ es, s’ajoute souvent l’´ evaluation de la Toxicit´ e (ADMET). Un compos´ e chimique qui poss` ede de bonnes propri´ et´ es ADMET est un bon candidat pour ˆ etre un m´ edicament, il est alors appel´ e ”drug-like”.

Par le pass´ e, les tests de biodisponibilit´ e apparaissaient tr` es tard dans le processus de d´ eveloppement d’un m´ edicament. Cela avait pour cons´ equence d’´ eliminer des produits dans des phases finales, faisant ainsi perdre le b´ en´ efice de plusieurs ann´ ees de recherche.

Afin de r´ eduire les coˆ uts de d´ eveloppement il est devenu indispensable d’´ eliminer les mau- vais candidats le plus tˆ ot possible. Aujourd’hui, cette ´ elimination peut intervenir avant mˆ eme la cr´ eation de sous-librairies de produits ` a tester, par l’application de filtres que nous allons d´ ecrire.

1.3.1 D´ efinitions

1.3.1.1 Compos´ es drug-like

Pour cr´ eer des filtres, il a fallu donner une d´ efinition pr´ ecise de ce que l’on attend d’un compos´ e drug-like. Voici quelques d´ efinitions qui ont conduit ` a la mise en place de nouveaux filtres :

– Lipinski [61, 62] d´ ecrit les mol´ ecules drug-like comme ”des compos´ es qui poss` edent des propri´ et´ es ADMET suffisamment acceptables pour une bonne absorption orale”.

– Walters et Murcko [63] en 2002 d´ efinissent un compos´ e drug-like comme ”une mol´ e-

cule qui contient des groupes fonctionnels et/ou qui poss` ede des propri´ et´ es physico-

chimiques coh´ erentes avec la majorit´ e des m´ edicaments connus”. Ils passent en revue

plusieurs techniques informatiques pour identifier les mol´ ecules drug-like.

(26)

– Muegge [64] propose que ”le crit` ere drug-like soit un descripteur g´ en´ eral qui d´ efinit le potentiel d’une petite mol´ ecule ` a devenir un m´ edicament”.

– Vieth et al. [65] disent que ”les propri´ et´ es drug-like sont vues comme celles qui conf` erent ` a la mol´ ecule des propri´ et´ es pharmacocin´ etiques et pharmacodynamiques d´ esirables, ind´ ependamment de la cible biologique”.

Mais comme le souligne Lipinski, la notion drug-like n’est pas seulement li´ ee ` a des pro- pri´ et´ es ADMET. Elle est ´ egalement li´ ee au mode d’administration que l’on souhaite pour le m´ edicament [66] ; il faut prendre en compte les cibles (exemple : syst` eme nerveux central ou CNS) ou les barri` eres ` a franchir pour atteindre la cible (exemple : Blood-Brain Barrier ou BBB). C’est pourquoi les filtres qui vont ˆ etre d´ ecrits sont ` a utiliser avec pr´ ecautions et

`

a adapter en fonction du projet que l’on m` ene.

1.3.1.2 Compos´ es lead-like

Il existe ´ egalement des compos´ es dits ”lead-like”. Le concept de mol´ ecule lead-like est bas´ e sur le mˆ eme principe que le concept de mol´ ecule drug-like, mais il est plus restrictif.

Lors d’un criblage ` a haut d´ ebit, lorsqu’un ou plusieurs hits (mol´ ecules r´ eagissant avec la cible) sont d´ ecouverts, on cherche alors un lead, c’est ` a dire une mol´ ecule dont la structure est optimis´ ee ` a partir de celle(s) des hits. Ce compos´ e lead servira ensuite ` a trouver un compos´ e dont l’activit´ e sur la cible biologique est optimale. Cette ´ etape se situant apr` es la d´ ecouverte d’activit´ e, nous nous penchons uniquement sur le concept drug-like qui peut ˆ etre appliqu´ e avant les criblages ` a haut d´ ebit.

1.3.2 Filtres sur les propri´ et´ es

Il existe plusieurs filtres pour obtenir des compos´ es drug-like et lead-like. On trouve un r´ esum´ e des diff´ erents filtres lead-like dans les travaux de Charifson et al. [67]. Nous pr´ esentons ci-dessous les filtres drug-like.

La ”r` egle des 5” de Lipinski (pour administration par voie orale) [66] est la plus souvent utilis´ ee. Cette r` egle contient 4 param` etres concernant les propri´ et´ es qu’un m´ edicament peut avoir :

– Poids mol´ eculaire ≤ 500 Da – LogP ≤ 5

– Nombre d’atomes donneurs de liaisons hydrog` enes ≤ 5 – Nombre d’atomes accepteurs de liaisons hydrog` enes ≤ 10

Lipinski indique [62, 61] que si au moins deux de ces conditions ne sont pas v´ erifi´ ees, la mol´ ecule pourra avoir une faible absorption ou une faible perm´ eabilit´ e.

En 2002, Veber [68] a compl´ et´ e cette r` egle avec deux nouveaux param` etres : – surface polaire de la mol´ ecule ≤ 140 ˚ A

– Nombre de liaisons tournantes ≤ 10

Ces r` egles ne doivent pas ˆ etre consid´ er´ ees comme discriminatrices de bons/mauvais candidats m´ edicaments [69]. Elles permettent de d´ elimiter un p´ erim` etre de propri´ et´ es.

Certaines mol´ ecules sortant de ce p´ erim` etre pourraient ˆ etre des m´ edicaments mais avec peu de chance pour une administration par voie orale.

D’autres auteurs se sont pench´ es sur l’importance de certaines propri´ et´ es mol´ eculaires pour obtenir des filtres drug-like :

25

(27)

– Bergstrom et al. [70] en 2003 montrent que ”les propri´ et´ es de surface mol´ eculaire d’un compos´ e peuvent pr´ edire la solubilit´ e et la perm´ eabilit´ e d’un m´ edicament avec une confiance suffisante pour conduire ` a une classification des mol´ ecules m´ edicaments”.

– Vieth et al. [65] en 2004 ont ´ etudi´ e la diff´ erence entre des m´ edicaments oraux et non-oraux par des analyses statistiques. Ils ont ainsi montr´ e que plusieurs facteurs influencent la biodisponibilit´ e. Par exemple, ”les m´ edicaments administr´ es par voie orale poss` edent moins de donneurs et d’accepteurs de liaisons H et moins de liaisons tournantes que les m´ edicaments administr´ es par d’autres voies”.

– Vistoli et al. [71] en 2008 ont pr´ esent´ e la flexibilit´ e mol´ eculaire comme un autre descripteur important pour ´ evaluer le crit` ere drug-like d’un compos´ e.

L’utilisation de ces filtres classiques est maintenant tr` es r´ epandue dans la plupart des logiciels commerciaux comme : Absolv [72], Cerius 2 [36], Idea [73], OraSpotter [74], QikProp [75], QMPRPlus [76], Volsurf [37].

Enfin les r` egles d´ ecrites dans ces filtres sont r´ esum´ ees plus compl` etement dans les propri´ et´ es ADMET (Absorption, Distribution, M´ etabolisme, Elimination, Toxicit´ e). Gola et al. [34] passe en revue les m´ ethodes de pr´ ediction de ces propri´ et´ es. R´ ecemment, Gleeson [77] a g´ en´ er´ e un jeu de r` egles ADMET simples et interpr´ etables. De nos jours aucun projet de d´ ecouverte de m´ edicaments ne peut se faire sans la pr´ ediction des propri´ et´ es ADMET et une s´ election associ´ ee des mol´ ecules.

1.3.3 Scores

Plusieurs travaux pr´ esentent des approches statistiques pour d´ efinir la biodisponibilit´ e des mol´ ecules.

Martin [78] en 2005 pr´ esente un score de biodisponibilit´ e. Pour ce faire, les diff´ erents descripteurs utilis´ es pour d´ efinir la r` egle des 5, ainsi que le PSA (Polar Surface Area) et d’autres d´ ecrivant la perm´ eabilit´ e sont calcul´ es. Grˆ ace ` a des mol´ ecules dont la biodispo- nibilit´ e et la perm´ eabilit´ e ont d´ ej` a ´ et´ e test´ es in vivo, elle a identifi´ e des r` egles propres ` a chaque type de mol´ ecules (anions, neutres...). De ces r` egles un score ABS (A Bioavaibility Score) a ´ et´ e construit. Celui-ci correspond ` a la probabilit´ e qu’un compos´ e ait une perm´ ea- bilit´ e ou une biodisponibilit´ e sup´ erieure ` a 10%. Ce score a ´ et´ e valid´ e par sa capacit´ e ` a identifier les compos´ es connus comme bien ou peu absorb´ es par l’homme.

Monge et al. [79] ont impl´ ement´ e un score drug-like progressif. Pour chaque propri´ et´ e

d´ efinie dans les filtres classiques (8 crit` eres au total), une p´ enalit´ e variant de 0 ` a 1 est

calcul´ ee. Elle est calcul´ ee ` a partir d’une fonction empirique bas´ ee sur les valeurs seuils

des crit` eres drug-like. Par exemple pour le crit` ere ”nombre d’accepteurs de liaisons hy-

drog` ene” (HBA), la limite sup´ erieure pour une mol´ ecule drug-like est 10. Si une mol´ ecule

poss` ede moins de 7 HBA (soit 10 - 30%), la p´ enalit´ e est de 0. Si elle poss` ede plus de 13

HBA (soit 10 + 30%), la p´ enalit´ e maximum de 1 est appliqu´ ee. Des valeurs interm´ ediaires

sont appliqu´ ees pour les valeurs comprises entre 7 et 13. Toutes les fonctions r´ esultent de

la distribution des propri´ et´ es pour des m´ edicaments connus ou des limites propos´ ees par

d’autres auteurs. Ce score permet non seulement de discriminer les compos´ es drug-like,

des non drug-like, mais il permet ´ egalement de classer les compos´ es selon leur druggabilit´ e

croissante. De plus, contrairement aux m´ ethodes classiques de sommes de crit` eres satis-

faits, cette m´ ethode ´ elimine les effets de bords. Ceci est le cas par exemple pour le logP

qui peut avoir des valeurs variables pour un mˆ eme compos´ e selon la m´ ethode de calcul

utilis´ ee. Un compos´ e pouvait donc ˆ etre class´ e comme drug-like ou non drug-like selon la

m´ ethode utilis´ ee. Ce score ´ evite donc cet ´ ecueil.

(28)

Hutter [80] en 2007 a ´ etudi´ e la distribution des types d’atomes et leurs combinaisons par paires dans les mol´ ecules m´ edicaments connues et non-m´ edicaments. Il fait une ´ etude statistique des probabilit´ es d’apparition de ces combinaisons pour d´ eriver un score drug- like sur une ´ echelle logarithmique. Les m´ edicaments ont un score sup´ erieur ` a 0.3 et les autres produits doivent avoir un score proche de 0. L’efficacit´ e de ce score est confirm´ ee par un taux de pr´ ediction des m´ edicaments existants de 71%.

1.3.4 Filtres structuraux

Il existe d’autres types de filtres : les fonctions r´ eactives et les warheads d´ ecrits par Rishton [81]. Ces filtres ne sont pas exactement destin´ es ` a s´ electionner des compos´ es drug- like, mais ils sont utilis´ es pour la s´ election de compos´ es destin´ es au criblage ` a haut d´ ebit.

Les fonctions r´ eactives sont des fonctions se situant sur les compos´ es chimiques qui induisent des faux-positifs lors des criblages ` a haut d´ ebit. En effet ces compos´ es semblent r´ eagir avec les cibles biologiques, mais elles pr´ esentent en r´ ealit´ e une r´ eactivit´ e chimique avec ces cibles plutˆ ot qu’une activit´ e biologique. Elle se lient de mani` ere covalente aux cibles biologiques. Il est donc important d’´ eliminer les compos´ es pr´ esentant de telles fonctions avant tout criblage.

Les warheads sont des mol´ ecules qui entraˆınent ´ egalement des faux-positifs dans les criblages mais en formant des liaisons non covalentes.Ces compos´ es se distingue lors des criblages par une forte relation structure-r´ eactivit´ e[81]. De tels compos´ es doivent donc ˆ etre supprim´ es avant un criblage pour ne pas fausser les r´ esultats.

D’autres compos´ es ` a ´ eliminer, les promiscuous aggregating inhibitors, poss` edent des fonctionnalit´ es non-comp´ etitives, une faible relation structure-activit´ e et une mauvaise s´ e- lectivit´ e. Leur m´ ecanisme d’action a ´ et´ e d´ ecrit par McGoven et al. [82] et leur identification in silico

⁶

a ´ et´ e pr´ esent´ ee par Seidler [83].

1.4 Espace chimique/Espace de visualisation

Les mol´ ecules chimiques appartiennent ` a ce que l’on appelle l’espace chimique. Cet espace est d´ efini par Lipinski et Hopkins [84] comme suit : ”L’espace chimique peut ˆ etre vu comme ´ etant analogue ` a l’univers cosmique dans son immensit´ e, avec les compos´ es chimiques peuplant l’espace en lieu et place des ´ etoiles”.

Or parmi les ´ etapes du processus de d´ eveloppement d’un m´ edicament, il en existe plu- sieurs o` u l’on a besoin de comparer les mol´ ecules de cet espace entre elles (effectuer une s´ election par diversit´ e, trouver des mol´ ecules similaires ` a un lead...). Il est donc utile de les repr´ esenter dans un espace math´ ematique compr´ ehensible par l’homme et traduisant au mieux cet espace chimique absolu. En effet on peut repr´ esenter les compos´ es chimiques dans un espace multi-dimensionnel qui permet de mat´ erialiser les similarit´ es, et la diver- sit´ e dans un ensemble de produits. L’int´ erˆ et d’une telle repr´ esentation est bien expliqu´ e par Raghavendra et Maggiora [85] : ”Les espaces chimiques produisent une base intui- tive et conceptuelle pour la compr´ ehension des nombreuses relations existantes parmi les collections diverses de compos´ es”.

En apprentissage, on appelle cet espace multi-dimensionnel : l’espace des descriptions, d´ efini par les descripteurs d´ ecrivant les objets. En ch´ emoinformatique, cet espace est carac-

6. In silico signifie ”dans l’ordinateur” par opposition ` a in vitro (en tube ` a essai) ou ` a in vivo (au sein d’un organisme). Le terme in silico d´ esigne une recherche ou un test effectu´ e ` a l’aide de l’outil informatique

27

(29)

t´ eris´ e par les descripteurs mol´ eculaires. Dobson [86] pr´ ecise d’ailleurs que le terme ”espace chimique” est souvent employ´ e ` a la place ”d’espace des descripteurs multi-dimensionnel”.

De tels espaces sont en r´ ealit´ e des r´ egions de l’espace g´ en´ eral d´ efini par Lipinski pr´ ec´ edem- ment. Ces r´ egions ´ etant d´ efinies par le choix des descripteurs les caract´ erisant et de leurs limites, elles ne produisent pas les mˆ emes espaces et ne peuvent ˆ etre consid´ er´ ees comme espace absolu.

Plusieurs techniques existent pour construire de tels espaces multi-dimensionnels. Mag- giora et al. [87] proposent de classer les techniques d’extraction de mol´ ecules en 2 types, en fonction de l’espace dans lequel se placent les mol´ ecules concern´ ees. Nous proposons donc de classer les m´ ethodes de construction d’espaces chimiques et d’espaces de visualisation selon ces deux mˆ emes types :

– ”Single molecule coding (espace bas´ e sur les coordonn´ ees). Chaque mol´ ecule a des coordonn´ ees pr´ ecises dans un espace multi-dimensionnel. Ces coordonn´ ees sont d´ e- duites de plusieurs crit` eres connus des mol´ ecules. Chaque compos´ e poss` ede une po- sition absolue dans cet espace.

– ”Pairwise molecule coding (espace libre de coordonn´ ees). Les mol´ ecules sont ici ca- ract´ eris´ ees par leurs distances aux autres. Leur position dans l’espace n’est donc plus absolue puisqu’elle variera avec le jeu de mol´ ecules qui l’entourent.

1.4.1 Espaces ”single molecule coding”

La fa¸con la plus courante de repr´ esenter les mol´ ecules dans l’espace est d’utiliser les valeurs des descripteurs comme coordonn´ ees des mol´ ecules. Chaque descripteur correspond alors ` a une dimension de l’espace. Cette technique est souvent utilis´ ee non seulement pour caract´ eriser la position des mol´ ecules dans l’espace mais aussi et surtout pour permettre aux utilisateurs de visualiser les mol´ ecules et ainsi comprendre les relations qui les lient.

Or ´ etant donn´ e le grand nombre de descripteurs, la dimensionnalit´ e de l’espace devient tr` es vite inconcevable par un cerveau humain. C’est pourquoi il est n´ ecessaire d’utiliser des m´ ethodes de r´ eduction de la dimensionnalit´ e. Maniyar et al. [88] comparent les principaux algorithmes et m´ ethodes statistiques de visualisation :

– l’analyse en composantes principales [89]

– le mapping de Sammon [90] et les self-organizing maps (SOM) [91]

– le Generative Topographic Mapping (GTM) [92] et son pendant hi´ erarchique (HGTM) Les plus couramment utilis´ ees en ch´ emoinformatique sont l’ACP et les cartes de Ko- honen (ou SOM). Nous d´ ecrivons donc rapidement le principe de ces deux m´ ethodes.

L’ACP est une m´ ethode statistique qui op` ere une transformation lin´ eaire sur les des- cripteurs. Celle-ci aboutit ` a la d´ efinition de plusieurs composantes ou encore axes repr´ esen- tant au mieux les donn´ ees dans l’espace. Lorsque les donn´ ees sont d´ ecrites en n dimensions, cette m´ ethode va permettre de d´ ecouvrir au plus n axes de coordonn´ ees class´ es en fonction de la variance du nuage de points (mol´ ecules) qu’ils repr´ esentent.

Les cartes de Kohonen sont, eux, des r´ eseaux de neurones non supervis´ es. Lorsqu’on cherche ` a repr´ esenter un espace chimique, la couche de neurones en entr´ ee compte autant de neurones que de descripteurs. En g´ en´ eral, la couche de neurones de sortie se compose de neurones organis´ es en surface de tore. Ceux-ci correspondent alors ` a une repr´ esentation en deux dimensions de l’espace chimique.

Diff´ erentes applications impl´ ementent les diff´ erentes techniques de visualisation et

d’analyse des ensembles de mol´ ecules pr´ ec´ edemment cit´ ees :