Les choix réalisés dans la conception de notre algorithmeBioBindconcernent d’une part le modèle et
la définition de la similarité et d’autre part la méthode de recherche. Cette distinction permet une
sépara-tion claire entre la définisépara-tion d’un problème d’optimisasépara-tion et les techniques de résolusépara-tion. L’ensemble de
la solution BioBind est orientée sur une problématique pharmacologique précise, la prédiction de cibles
secondaires potentielles pour des ligands, qui motive les choix dans la conception de l’algorithme présenté
dans le prochain chapitre, et permet de définir une méthode pertinente de validation de l’approche.
4.2.1 Représentation des molécules et mesure de la similarité
L’objectif suivi pour définir une représentation des molécules consiste à représenter la notion
d’acces-sibilité au milieu extérieur par une surface, avec un niveau de granularité à l’échelle de l’atome. La théorie
des formes alpha est utilisée pour proposer un modèle de surface triangulée, qui correspond de manière
exacte à la notion d’accessibilité définie comme la capacité d’une molécule d’eau à entrer en contact avec
un atome de la macromolécule. Ce modèle permet par ailleurs de définir un site de liaison, connu ou
prédit, comme un sous-ensemble de la représentation sans autre contrainte spécifique sur la forme des
sites.
On définit la similarité à partir d’une superposition qui détermine à son tour un schéma de
corres-pondance entre les sommets de deux surfaces triangulées. Chaque sommet est associé à un unique atome,
cependant la distinction entre sommet et atome est nécessaire car un même atome peut être associé à
plusieurs sommets de notre modèle. Il s’agit d’une conséquence de notre méthode de régularisation de la
topologie de la surface qui est également détaillée dans le chapitre suivant.
4.2.2 Recherche et alignement de motifs
À partir de ces définitions, le problème de la recherche de similarité locale peut être défini comme un
problème d’optimisation de la superposition d’un site sur la surface d’une macromolécule. On rappelle
qu’aucune contrainte de forme n’est imposéea priori sur le site qui est recherché, en particulier l’espace
de recherche sur la macromolécule n’est pas limité à un ensemble de régions prédéterminées. En effet
nous souhaitons que notre approche soit la plus exhaustive possible dans l’ensemble des sites pouvant être
prédits, qui ne sont pas nécessairement des sites connus, ni même obligatoirement des cavités, la seule
limite étant le degré de couverture de la base de données de structures tridimensionnelles utilisée.
La méthode de résolution pour déterminer la meilleure superposition entre un site et une surface est
basée sur une fragmentation exhaustive de la surface en petits disques géodésiques, qui sont superposés
pour proposer un ensemble d’alignements ensuite étendus sur l’intégralité du site. Cette heuristique,
conceptuellement similaire à la méthode consistant à considérer les triplets d’une représentation constituée
d’un ensemble de points, met à profit la structure topologique de la surface.
Chapitre III
BioBind - Bind Is Not Docking
Introduction
Notre algorithme,BioBind, est une approche de prédiction de cibles par évaluation de similarités entre
macromolécules. Il repose sur une modélisation des surfaces moléculaires qui utilise la théorie des formes
alpha, cette représentation permettant de définir le problème de la recherche de similarités locales entre
un motif donné et l’ensemble d’une surface moléculaire. Le problème de la prédiction de cibles consiste
alors à classer un ensemble de molécules en fonction du degré de similarité avec un motif recherché.
L’approche est formalisée par un problème d’optimisation où il s’agit de rechercher la meilleure
su-perposition entre deux régions qui maximise une mesure de similarité. Étant donnés un site de liaison
requête et une cible candidate, l’espace de recherche est ainsi constitué de l’ensemble des sites candidats
pouvant être définis sur la surface de la cible candidates et de l’ensemble des superpositions réalisables.
L’espace de recherche étant trop vaste pour être exploré de manière exhaustive, une heuristique a été
développée consistant essentiellement à définir des régions circulaires, approximant la notion de disque
géodésique, qui sont générées de manière exhaustive à la surface des molécules. La régularité géométrique
de ces régions permet d’utiliser des heuristiques efficaces pour superposer des régions circulaires, ces
dernières superpositions étant ensuite traduites à l’échelle du site requête qui est le motif initial recherché.
Sommaire
1 Présentation générale de l’approche . . . 38
2 Modèle de la surface des molécules . . . 41
3 Évaluation de la similarité locale . . . 45
4 Problème d’optimisation . . . 50
5 Approche de résolution par les régions circulaires . . . 56
6 Récapitulatif des différentes étapes successives . . . 62
1 Présentation générale de l’approche
Du point de vue du problème de la prédiction de cibles, l’objectif de notre approche BioBind est
de proposer une liste ordonnée de cibles à partir d’un site requête, triées suivant la capacité prédite à
lier le même ligand. L’approche consiste à évaluer une mesure de similarité locale entre le site requête et
une région de chaque cible candidate, le principe d’inférence de l’interaction permettant de traduire cette
similarité comme une capacité à lier le même ligand.
Le problème consiste donc en la recherche d’un motif, le site de liaison requête, sur une unique cible
candidate ainsi que l’évaluation de la similarité locale. C’est cette valeur attribuée pour chacune des cibles
candidates qui est en effet utilisée pour définir le classement résultant ; elle doit donc être comparable
entre des cibles différentes. Notre approche de résolution est basée sur une représentation de la surface
des macromolécules et une notion de fragmentation de cette surface afin d’adresser la problématique de
la complexité de la recherche.
1.1 Problème de la recherche de similarités locales pour la prédiction
Dans le document
Algorithmes pour la prédiction in silico d'interactions par similarité entre macromolécules biologiques
(Page 44-47)