• Aucun résultat trouvé

Problème de la recherche de similarités locales pour la prédiction de cibles 38

Ligand requête

Cible candidate 1 Cible candidate 2 ...

Site requête Surface cible 1 Surface cible 2

1. Modélisation du site

requête et des surfaces

des cibles candidates

...

2. Recherche du site par

similarité sur chaque cible

candidate et évaluation

d’un score

Similarité locale

avec le site requête

Score 1

Similarité locale

avec le site requête

Score 2

3. Sélection des cibles

prédites par un rang seuil

sur le classement des scores

(tri des scores)

Cible i

Cible j

...

...

score seuil

Cibles prédites

pour le ligand ...

...

Cible requête

1. Présentation générale de l’approche 39

Cible candidate

Ligand requête

Cible requête

Entrée du problème :

Le complexe requête et une cible

candidate

Représentation des surfaces des

macromolécules

Score de la cible

Détermination du site de liaison

requête

Recherche de sites candidats

Evaluation de la similarité pour

chaque site candidat et sélection du

meilleur score

Complexe requête

Figure 2 – Problème d’évaluation de la similarité locale entre le complexe requête et une cible

Le problème de la prédiction de cibles est un problème de classification binaire : étant données une

molécule ligand requête et un ensemble de macromolécules cibles candidates, il s’agit de partitionner en

deux l’ensemble des cibles candidates en sélectionnant un sous-ensemble de cibles prédites. L’approche

choisie, par similarité des cibles, consiste à déterminer cet ensemble de cibles prédites par similarité avec

une première cible requête également fournie en entrée et dont l’interaction avec le ligand requête est

connue.

Le processus général est schématisé dans la figure1. Dans un premier temps, le site de liaison requête

et les surfaces des cibles candidates sont modélisés à partir d’un complexe requête fourni par l’utilisateur

ainsi qu’une base de données de macromolécules cibles à explorer. Ensuite pour chacune des surfaces

candidates, le site requête est recherché, et une évaluation de la similarité est attribuée. Enfin la dernière

étape du processus consiste à trier les cibles suivant cette valeur de similarité afin de proposer un

sous-ensemble des cibles qui sont prédites pour interagir avec le ligand requête par le choix d’un seuil dans la

liste résultat. Le processus de recherche du motif pour une cible candidate donnée est plus précisément

présenté dans la figure2, correspondant au problème suivant :

Entrée : Le complexe requête constitué des conformères de la molécule ligand requête et de la

macro-molécule cible requête, ainsi que le conformère d’une macromacro-molécule cible candidate.

Sortie : Un score de similarité affecté à la cible candidate, ainsi que la donnée d’un site prédit

corres-pondant.

1.2 Approche pour la détermination de la meilleure superposition

À partir d’une définition d’un concept de région qui modélise une partie de la surface d’une

macromo-lécule, le problème consiste à déterminer pour une région requête donnée la meilleure région candidate et

la meilleure superposition. La notion de « meilleur » faisant référence à une mesure de similarité définie

pour une superposition donnée d’un couple de régions données. Une première idée naturelle pour explorer

l’espace de recherche consiste à lister toutes les régions de la cible candidate qui ont la même forme que

le site requête. C’est à dire une méthode exhaustive sur l’ensemble des sites candidats. Cependant dans le

cas général, la notion de « même forme » n’est pas définie. Une seconde idée également naturelle consiste

à « parcourir » l’ensemble de la surface candidate en considérant toutes les régions candidates pouvant

être obtenues par projection de la région requête. De la même manière la notion de parcours de cet espace

de superposition n’est pas évidente.

Ces difficultés motivent la considération d’un type de région particulier, ayant des propriétés

géomé-triques permettant d’utiliser différentes heuristiques. Unerégion circulaire de surface, ou région circulaire,

consiste en une approximation d’un disque géodésique autour d’un sommet central. D’une part il est

pos-sible de définir une génération exhaustive des régions circulaires de surface sur la surface de toute

macro-molécule. D’autre part cette structure permet d’utiliser des outils simples pour établir une superposition

et une évaluation de la similarité rapide entre deux régions circulaires. La forme régulière de ces régions

permet de définir une méthode d’alignement plus rapide, utilisant un axe de rotation privilégié sur un

disque géodésique. Elle permet également d’utiliser une méthode de filtrage, afin d’éliminer une partie

importante des alignements qu’il est nécessaire de réaliser.

L’heuristique développée en utilisant les régions circulaires repose sur le principe suivant lequel si

deux sites requête et candidat sont suffisamment similaires, alors ils partagent en particulier deux régions

circulaires qui sont également similaires. Ainsi, en partant de tous les couples de régions circulaires

simi-laires il est possible de compléter l’information au niveau des sites dans une étape de recomposition du

site prédit.

2. Modèle de la surface des molécules 41

2 Modèle de la surface des molécules

La représentation de la surface des macromolécules est construite à l’aide de la théorie des formes

alpha [Edelsbrunner 1995]. Cette surface représente l’ensemble des atomes accessibles au milieu extérieur,

susceptibles d’interagir avec des atomes d’une autre molécule. Une régularisation du polytope résultant

est effectuée afin de définir d’une part des caractéristiques géométriques pour chaque sommet et d’autre

part une notion précise de régions de surface utilisées dans nos algorithmes.