Ligand requête
Cible candidate 1 Cible candidate 2 ...
Site requête Surface cible 1 Surface cible 2
1. Modélisation du site
requête et des surfaces
des cibles candidates
...
2. Recherche du site par
similarité sur chaque cible
candidate et évaluation
d’un score
Similarité locale
avec le site requête
Score 1
Similarité locale
avec le site requête
Score 2
3. Sélection des cibles
prédites par un rang seuil
sur le classement des scores
(tri des scores)
Cible i
Cible j
...
...
score seuil
Cibles prédites
pour le ligand ...
...
Cible requête
1. Présentation générale de l’approche 39
Cible candidate
Ligand requête
Cible requête
Entrée du problème :
Le complexe requête et une cible
candidate
Représentation des surfaces des
macromolécules
Score de la cible
Détermination du site de liaison
requête
Recherche de sites candidats
Evaluation de la similarité pour
chaque site candidat et sélection du
meilleur score
Complexe requête
Figure 2 – Problème d’évaluation de la similarité locale entre le complexe requête et une cible
Le problème de la prédiction de cibles est un problème de classification binaire : étant données une
molécule ligand requête et un ensemble de macromolécules cibles candidates, il s’agit de partitionner en
deux l’ensemble des cibles candidates en sélectionnant un sous-ensemble de cibles prédites. L’approche
choisie, par similarité des cibles, consiste à déterminer cet ensemble de cibles prédites par similarité avec
une première cible requête également fournie en entrée et dont l’interaction avec le ligand requête est
connue.
Le processus général est schématisé dans la figure1. Dans un premier temps, le site de liaison requête
et les surfaces des cibles candidates sont modélisés à partir d’un complexe requête fourni par l’utilisateur
ainsi qu’une base de données de macromolécules cibles à explorer. Ensuite pour chacune des surfaces
candidates, le site requête est recherché, et une évaluation de la similarité est attribuée. Enfin la dernière
étape du processus consiste à trier les cibles suivant cette valeur de similarité afin de proposer un
sous-ensemble des cibles qui sont prédites pour interagir avec le ligand requête par le choix d’un seuil dans la
liste résultat. Le processus de recherche du motif pour une cible candidate donnée est plus précisément
présenté dans la figure2, correspondant au problème suivant :
Entrée : Le complexe requête constitué des conformères de la molécule ligand requête et de la
macro-molécule cible requête, ainsi que le conformère d’une macromacro-molécule cible candidate.
Sortie : Un score de similarité affecté à la cible candidate, ainsi que la donnée d’un site prédit
corres-pondant.
1.2 Approche pour la détermination de la meilleure superposition
À partir d’une définition d’un concept de région qui modélise une partie de la surface d’une
macromo-lécule, le problème consiste à déterminer pour une région requête donnée la meilleure région candidate et
la meilleure superposition. La notion de « meilleur » faisant référence à une mesure de similarité définie
pour une superposition donnée d’un couple de régions données. Une première idée naturelle pour explorer
l’espace de recherche consiste à lister toutes les régions de la cible candidate qui ont la même forme que
le site requête. C’est à dire une méthode exhaustive sur l’ensemble des sites candidats. Cependant dans le
cas général, la notion de « même forme » n’est pas définie. Une seconde idée également naturelle consiste
à « parcourir » l’ensemble de la surface candidate en considérant toutes les régions candidates pouvant
être obtenues par projection de la région requête. De la même manière la notion de parcours de cet espace
de superposition n’est pas évidente.
Ces difficultés motivent la considération d’un type de région particulier, ayant des propriétés
géomé-triques permettant d’utiliser différentes heuristiques. Unerégion circulaire de surface, ou région circulaire,
consiste en une approximation d’un disque géodésique autour d’un sommet central. D’une part il est
pos-sible de définir une génération exhaustive des régions circulaires de surface sur la surface de toute
macro-molécule. D’autre part cette structure permet d’utiliser des outils simples pour établir une superposition
et une évaluation de la similarité rapide entre deux régions circulaires. La forme régulière de ces régions
permet de définir une méthode d’alignement plus rapide, utilisant un axe de rotation privilégié sur un
disque géodésique. Elle permet également d’utiliser une méthode de filtrage, afin d’éliminer une partie
importante des alignements qu’il est nécessaire de réaliser.
L’heuristique développée en utilisant les régions circulaires repose sur le principe suivant lequel si
deux sites requête et candidat sont suffisamment similaires, alors ils partagent en particulier deux régions
circulaires qui sont également similaires. Ainsi, en partant de tous les couples de régions circulaires
simi-laires il est possible de compléter l’information au niveau des sites dans une étape de recomposition du
site prédit.
2. Modèle de la surface des molécules 41
2 Modèle de la surface des molécules
La représentation de la surface des macromolécules est construite à l’aide de la théorie des formes
alpha [Edelsbrunner 1995]. Cette surface représente l’ensemble des atomes accessibles au milieu extérieur,
susceptibles d’interagir avec des atomes d’une autre molécule. Une régularisation du polytope résultant
est effectuée afin de définir d’une part des caractéristiques géométriques pour chaque sommet et d’autre
part une notion précise de régions de surface utilisées dans nos algorithmes.
Dans le document
Algorithmes pour la prédiction in silico d'interactions par similarité entre macromolécules biologiques
(Page 47-50)