• Aucun résultat trouvé

Validation de l’approche SCOTCH pour le cas d’interactions intra-moléculaires

Chapitre 4 : Prédiction des assemblages macromoléculaires

4.4. SCOTCH : une nouvelle méthode pour prédire la structure des assemblages protéiques

4.4.2. Validation de l’approche SCOTCH pour le cas d’interactions intra-moléculaires

Afin de tester le pouvoir discriminant de la méthode SCOTCH sur la base de données de validation de 28 complexes intra-moléculaires, j’ai généré 10000 modèles d’assemblages pour chacun des 28 cas à l’aide du programme FTDock (Gabb et al., 1997). J’ai ensuite calculé le score SCOTCH de chacune des solutions, puis classé ces solutions en fonction de ce score. De la même façon, j’ai classé ces différentes solutions en fonction des autres méthodes évolutives introduites précédemment, à savoir, les méthodes basées sur des analyses de conservation ou sur la détection de mutations concertées par les approches de Göbel et d’Afonnikov.

Concernant l’évaluation des modèles par une analyse de conservation, le score de conservation est toujours basé sur le programme rate4site (Mayrose et al., 2004; Pupko et al., 2002). Pour l’évaluation des solutions par les méthodes de détection de mutations concertées, j’ai implémenté une autre fonction de score précédemment introduite par Pazos lors d’une étude portant sur 21 complexes intra-moléculaires (Pazos et al., 1997) (pour plus de détails, voir en annexe (Madaoui and Guerois, 2007)). Dans cette étude, les auteurs identifient dans un premier temps par la méthode de Göbel (Gobel et al., 1994) l’ensemble des paires de résidus dont les mutations sont corrélées au cours de l’évolution, et ceci pour chaque paire de domaine protéique interagissant. Ensuite, après avoir généré un nombre important de modèles d’assemblage de chaque paire de domaines protéiques en interaction, les auteurs évaluent ces différents modèles à partir d’une fonction harmonique, appelée Xd, destinée à quantifier pour un modèle donné la prédominance de paires de résidus corrélées à son interface (Pazos et al., 1997). Ainsi, plus le paramètre Xd d’un modèle de complexe est fort, plus le nombre de paires corrélées à son interface est important. Les auteurs ont montré lors de cette étude que les modèles pour lesquels le paramètre Xd est le plus élevé, correspondent le plus souvent à des solutions proches des structures natives de complexes. J’ai donc calculé le paramètre Xd de chacune des solutions générées par le programme FTDock (Gabb et al., 1997), en recherchant les mutations concertées entre domaine protéiques interagissant soit en considérant la méthode de Göbel (Xd_Göbel), soit en considérant la méthode d’Afonnikov (Xd_Afonnikov) (Madaoui and Guerois, 2007).

Les qualités prédictives de chaque méthode d’évaluation peuvent être quantifiées en dénombrant le nombre de cas dans la base de validation pour lesquels un complexe vrai est sélectionné parmi : (i) les 10 meilleures solutions (Top 10), (ii) les 100 meilleures solutions (Top 100), (iii) les 1000 meilleures solutions (Top 1000), (iv) les 10000 solutions (Top 10000). La capacité prédictive de chaque approche est alors considérée comme excellente, bonne, acceptable ou mauvaise en fonction des 4 classes respectivement définies.

Suivant ce critère d’évaluation des différentes méthodes, nous constatons que le score SCOTCH donne les meilleurs résultats pour les cas d’interaction intra-moléculaires, avec une grande majorité de cas pour lesquels la discrimination est excellente ou bonne (Figure 49). L’amélioration est particulièrement remarquable si l’on considère uniquement les 10 meilleures solutions sur les 10000 produites par le programme FTDock, car l’approche SCOTCH sélectionne au moins une solution correcte pour près de la moitié de la base de données test (13 cas sur 28), contrairement aux autres approches.

Figure 49. Distribution du nombre de cas pour lesquels une vraie solution est sélectionnée parmi les 10, 100, 1000, 10000

meilleures solutions générées par docking suivant les scores évolutifs (i) SCOTCH (rouge), (ii) Conservation (jaune), (iii)

Xd_Göbel (bleu clair), (iv) Xd_Afonnikov (bleu foncé). Les scores Xd_Göbel et Xd_Afonnikov sont basés respectivement sur les

méthodes de Göbel (Gobel et al., 1994) et d’Afonnikov (Afonnikov et al., 2001). La base de données considérée est la base de données de validation intra-moléculaires de 28 complexes issus de la banque PSIMAP (Kim et al., 2004). Les modèles d’assemblages évalués ont été générés par le programme FTDock (Gabb et al., 1997), et une vraie solution correspond à un modèle dont le RMSD par rapport à la structure native du complexe est inférieur à 3Å. Figure adaptée de (Madaoui and Guerois, 2007).

J’ai également évalué les différentes méthodes évolutives par des courbes ROC (« Receiver Operating Characteristics »). Les courbes ROC, en représentant la fraction de vrais et de faux positifs pour différentes valeurs seuils, rendent compte de façon très visuelle de la sensibilité

et de la spécificité d’une méthode. La capacité prédictive d’une méthode est directement corrélée à l’aire sous la courbe (égale à 1 lorsque la discrimination fausses solutions / bonnes solutions est parfaite). Ce mode de représentation va ainsi permettre d’évaluer le pourcentage de mauvaises solutions éliminées par les différentes approches, et leur capacité à retenir les vraies solutions.

En examinant les courbes ROCs relatives aux différentes méthodes évolutives (Figure 50), nous confirmons que la méthode SCOTCH donne de meilleurs résultats en terme de pouvoir discriminant. Il est intéressant de noter que les méthodes basées sur des analyses de mutations concertées (méthodes de Göbel ou d’Affonikov) entre des partenaires protéiques donnent de meilleurs résultats qu’une analyse de conservation. La présence dans la base de données d’étude d’un certain nombre de domaines possédant de multiples sites d’interaction avec d’autres domaines (comme les complexes 1a9x, 1ay0, 1bgl ou 1ea0, (Madaoui and Guerois, 2007), pourrait être une des explications de ce résultat. En effet, les différents sites d’interaction conduisent à l’existence de multiples sites conservés à la surface d’un domaine et la méthode de conservation ne permet pas de sélectionner spécifiquement un site d’interaction parmi d’autres.

Figure 50. Comparaison des courbes ROCs pour les scores évolutifs SCOTCH (rouge), (ii) Conservation (jaune), (iii) Xd_Göbel

(bleu clair), (iv) Xd_Afonnikov (bleu foncé). Les scores Xd_Göbel et Xd_Afonnikov sont basés respectivement sur la méthode de Göbel (Gobel et al., 1994) et d’Afonnikov (Afonnikov et al., 2001). La base de données considérée est la base de données de validation intra-moléculaires de 28 complexes issus de la banque PSIMAP (Kim et al., 2004). Les modèles d’assemblages évalués ont été générés par le programme FTDock (Gabb et al., 1997), et une vraie solution correspond à un modèle dont le RMSD par rapport à la structure native du complexe est inférieur à 3Å. Figure adaptée de (Madaoui and Guerois, 2007).

4.4.3. Validation de l’approche SCOTCH pour le cas d’interactions inter-