• Aucun résultat trouvé

max(i , j)

a.

FigureII.5 – Détection des cavités fusionnées. a.Les empreintes moyennes (i et j) peuvent être combinées pour former une empreinte "fusionnée" (max(i, j)). Les empreintes moyennes de i et j sont indiquées par un code couleur sur la structure (bleu : atomes éloignés, rouge : atomes très proches). Les cavités moyennes de i et de j sont représentées sur leurs empreintes respectives et sont superposées sur l’empreinte combinée. b. L’ensemble des combinaisons possibles de fusions entre i et j est comparé avec les empreintes moyennes d’origine. Chaque point du graphe (i, j) coloré indique que la combinaison formée par les empreintes moyennes i et j est plus proche d’une empreinte moyenne k que de i ou de j. Le code couleur du point indique le numéro de la partition k la plus proche. c.L’empreinte moyenne de k est très proche de la combinaison de i et j. Les cavités de la partition k seront donc découpées, car elles ont été identifiées comme des cavités fusionnées.

4. S’il existe plusieurs zones non connexes, on étend ces zones au reste de la cavité en utilisant l’algorithme de ligne de partage des eaux (watershed en anglais) pour définir les sous-cavités qui composent la cavité d’origine (figure II.6.3-5).

5. L’empreinte de chaque sous-cavité est calculée et est utilisée pour redéfinir l’affectation de chacune de ces sous-cavités.

6. Si après division et affectation, il reste une sous-cavité pouvant être considérée comme une cavité fusionnée, on recommence l’étape de division sur cette cavité.

Dans tous les cas, on s’arrête si la taille de la sonde dépasse un seuil donné. Dans ce chapitre le rayon d’origine de la sonde est de 1.6 A, le pas d’augmentation du rayon est de 0.2 A et le rayon maximal est de 3 A.

2.7 Mesure de la qualité du suivi des cavités

Elaborer une métrique de qualité du suivi des cavités d’une protéine est difficile entre autres car un bon assignement des cavités peut être subjectif. J’essayerai d’objectiver au maximum la mesure tout en vérifiant graphiquement que ce que l’on obtient correspond bien à nos attentes. Il existe plusieurs possibilités pour mesurer la qualité de l’affectation de l’algorithme de suivi, le plus simple et le moins rigoureux restant la mesure "à l’œil". Cette solution à l’avantage de coller avec une définition intuitive des cavités et reste donc une validation tout à fait pertinente et souvent

sonde

1 2 3 4 5

FigureII.6 – Découpage géométrique des cavités fusionnées.L’exemple est artificiel et représenté en 2 dimensions. 1. Une sonde est choisie de taille plus grande que la sonde de détection. 2. Les zones accessibles au centre de la sonde sont calculées. 3. Chaque élément connexe se voit attribué un numéro différent (représenté ici par une couleur). 4. La distance à l’extérieur (représentée en gradient de couleur du bleu vers le rouge) est utilisée pour définir des goulots d’étranglement. 5. L’algorithme watershed étend chaque zone jusqu’à atteindre un goulot.

incontournable. Il est malheureusement quasiment impossible d’identifier tous les assignements insatisfaisants sur des milliers de conformations.

Pour essayer de s’affranchir des a priori, il est possible de suivre les cavités d’une protéine pour laquelle plusieurs sites ont été bien décrits dans la littérature. On peut alors vérifier que le suivi est cohérent et stable pour les cavités de ce site, en déterminant si les identifiants affectés aux cavités proches d’un ensemble de résidus clés (la poche) a tendance à prendre une valeur unique. Nous suivrons cette approche en suivant les cavités des quatre systèmes et en sélectionnant la cavité dont l’empreinte est la plus proche d’une définition de poche tirée de la littérature :

— pour la myoglobine, les atomes situés à moins de 5 A d’un des quatre atomes de xénon[114] définissent la poche pour ce site de fixation du xénon (dénotés Xe1 à Xe4 selon la nomen-clature de Tilton et al.)

— pour la protéine E du virus de la dengue, je définis trois poches décrites précédemment dans la littérature et utilisées dans des projets d’identification d’inhibiteurs : le site β-OG[181, 30] et les sites dits 1 et 2[193, 194].

— Deux sites ont été utilisés pour la toxine de l’anthrax (EF) : le site catalytique[195] et le site SABC, utilisé pour identifier un inhibiteur allostérique de la toxine[112]

— pour ABL1, deux sites ont été utilisés : le site de fixation de l’imatinib[196], ligand com-pétitif de l’ATP, et le site de fixation allostérique de GNF-2[197].

Une vue d’ensemble de ces sites est représentée figure II.7.

La cavité la plus proche du centre géométrique des résidus séléctionnés est considérée. Si aucune cavité ne se trouve à moins de 5 A du centre, on considère qu’il n’y a pas de cavité pour cette conformation. Deux mesures sont alors effectuées pour chaque site :

— la première mesure, Iquali,1, est calculée comme le nombre d’apparition de la cavité transverse observée le plus souvent, divisé par le nombre total de fois qu’une cavité appraît dans le site. Une mesure Iquali,1 élevée indique que l’affectation de la cavité du site est univoque, et donc stable.

— la seconde mesure, Iquali,div, est calculée comme la fréquence pour laquelle la cavité trans-verse n’est pas divisée (numéro assigné une unique fois pour une même conformation). Une

Xe1 Xe2 site 1 ch A Xe3 Xe4 site 1 ch B site 2 ch A site 2 ch B site β-OG ch A site β-OG ch B catalytique SABC imatinib GNF-2

a. b.

c. d.

Figure II.7 – Les sites utilisés dans ce chapitre. a.Les sites de la myoglobine : Xe1 à Xe4. b. Les sites de la protéine E du virus de la dengue : sites 1, 2 et β-OG des chaînes A et B. c. Les sites de EF : site actif (catalytique) et site allostérique (SABC). d. Les sites d’ABL1 : site de fixation de l’imatinib et de GNF-2.

mesure Iquali,div basse indique que le site tend à être réparti fréquemment sur deux cavités ou plus, ce qui est insatisfaisant (une cavité transverse coupée en deux la plupart du temps devrait être préférentiellement décomposée en deux cavités transverses).

Je définis également des bornes sur ces mesures pour considérer le suivi de la cavité du site comme une réussite ou un échec. Pour considérer un suivi de cavités comme réussi, on suppose que Iquali,1 et Iquali,div doivent être tous deux supérieurs à 0.75. Ces bornes ont été choisies pour donner une certaine sélectivité tout en qualifiant un nombre suffisant de protocoles de suivi pour pouvoir bien caractériser les différentes approches.

3 Résultats

L’objectif de cette section est de déterminer la meilleure méthode de suivi des cavités au cours d’une dynamique. Pour cela, les mesures décrites section 2.7 seront calculées sur les résultats de suivi des cavités de chacune des quatre dynamiques décrites section 2.1, en faisant varier les paramètres suivants (les notations en italiques seront utilisées dans le reste de ce chapitre par soucis de concision) :

— le groupe structural : atomes, chaînes principales/latérales (CPCL), résidus

— l’échantillonnage des cavités utilisées pour le partitionnement : 1/1 (toutes les cavités pour toutes les conformations) ou 1/10 (les cavités d’une conformation sur dix)

— la distance seuil utilisée : calculée en fonction de la distribution des distances (auto) ou fixe (0.15, 0.30, 0.5, 0.7, 0.8, 0.85, 0.9 )

— l’algorithme de partitionnement : DBSCAN, UPGMA, Hiérarchique-complet (complet), Par-titionnement spectral de graphe (Spectral), et lorsque c’est possible, Eyrisch et Helms (EH ) — la méthode d’assignement : par empreinte moyenne (moyenne) ou par cavité la plus proche

(minimum)

— le découpage des cavités fusionnées : avec et sans

Cela représente l’analyse de 576 trajectoires de suivi de cavités pour chaque protéine, soit 2304 trajectoires en tout.