• Aucun résultat trouvé

Attribution automatique des algorithmes de partitionnements 82

3.3 Application d’algorithmes de partitionnement au processus itératif

3.3.3 Attribution automatique des algorithmes de partitionnements 82

Malgré l’étonnante efficacité de l’algorithme des K-moyennes avec un paramètre de groupe fixé à deux tout au long du protocole, il est difficile d’affirmer avec certitude qu’il puisse être applicable pour des systèmes de poids moléculaire plus important. Un scénario pouvant être envisagé est d’avoir des contacts faux positifs décrivant des conformations alternatives différentes dès lors qu’on augmente la taille du système. Dans cette situation, l’algorithme des K-moyennes risque d’échouer à donner des groupes de conformations précis, le nombre de groupe étant un paramètre particulièrement sensible avec cette approche.

Figure III.M:Sélection automatique du nombre de groupes par itération Justesse

moyenne des conformations en appliquant le partitionnement en K-moyennes pour deux ou trois groupes par rapport à l’approche de détection automa-tique suivant le maximum du score de silhouette ou à l’aide de l’algorithme HDBSCAN

Deux alternatives pour l’ensemble des itérations sont testées ici : l’algorithme de partitionnement HDBSCAN et une détection du nombre de groupes pour chaque itération en fonction du score de silhouette des groupes. Pour vérifier la sensibilité de la méthode, une série de calcul a également été réalisée en augmentant le paramètre de groupe à trois.

Ces deux implémentations n’ont pas permis d’améliorer la convergence dans le cas du jeu de données testé. L’effet étant même contre productif dans le cas de la classe de repliement β où une détection plus fine du nombre de groupes a systématiquement conduit vers une sélection de la conformation alternative.

3.4 Analyse des conformations

Les différentes approches de validation constituent un moyen efficace pour com-prendre et localiser l’origine des distorsions lorsque le calcul de structure n’aboutit pas vers une conformation stable. Dans le cas présent, la formation quasi systé-matique d’images miroirs avec les contraintes de distance traduit d’un manque d’information. L’analyse des différents critères relatifs à la qualité des structures peuvent ici nous indiquer la nature de l’information erronée ou manquante.

Pour distinguer la combinaison de paramètres pouvant expliquer la formation des conformations alternatives, une analyse discriminante linéaire des critères énergé-tiques et qualitatifs délimitant les classes selon la justesse (RMSDref DSSP arrondi à l’inférieur pour définir des classes de structures) a été réalisée. Cette méthode supervisée permet sous conditions d’homoscédasticité1des variables de définir les combinaisons linéaires séparant au mieux un ensemble de classes connues au départ. Les critères qualitatifs proviennent ici des statistiques fournies par les programmes PROCHECK [184] et Molprobity [185].

En dehors des scores de précision des groupes ensembles, peu de critères expliquent les composantes linéaires (voir Fig.VI.B). Parmi les paramètres les plus discriminants (voir Fig.III.Na), on retrouve principalement les termes liés à la covalence (angles, longueur de liaison, ...). Ces valeurs restant dans les limites acceptables (< 4 σ) pour l’ensemble des structures comme par exemple l’écart quadratique moyen des longueurs de liaisons (voir Fig.III.Nb), elles ne peuvent apporter une information significative sur la qualité des structures.

Des mesures plus qualitatives comme la déviation de la chaîne latérale ou encore son orientation par rapport au squelette ne peuvent détecter de réelles distorsions du système. Au vu de l’impact négligeable de l’ensemble des critères testés sur la classification linéaire, il n’apparaît pas pertinent d’établir une conclusion sur une origine des conformations alternatives.

1. Dans ces conditions, la variabilité est similaire entre les paramètres définissant le système pour l’ensemble des observations (soit l’ensemble des conformères dans le cas présent)

a

b

Figure III.N: III.Na: Analyse discriminante linéaire déterminant la combinaison des

cri-tères énergétiques et qualitatifs séparant au mieux la justesse des groupes de

conformations obtenues.III.NbDistribution des deux premiers descripteurs

Molprobity projetés sur la première composante de la LDA en fonction de la justesse des groupes.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ca_rmsd_fitted_average_pyfit ca_rmsd_average_clust_pyfit ca_rmsd_fitted_average_tmscore tmscore_fitted_average gdt_ts_score_fitted_average gdt_ha_score_fitted_average ca_rmsd_fitted_average_aligned_tmscore ca_aligned_fitted_average_tmscore overall_energy bonds_energy angles_energy improper_energy dihe_energy vdw_energy elec_energy noe_energy cdih_energy rama_energy hbdb_energy rama_plot_core gen1_packqualz gen2_packqualz ramaplotz chirotanormz backconfz bondleng_rmsz bondang_rmsz omegangres_rmsz sidechainplan_rmsz impdihedist_rmsz inoutdist_rmsz used_restraints violated_restraints nunambig_rest violunambig_rest ensemble_rmsd_allres_backbone ensemble_rmsd_allres_heavy ensemble_rmsd_ordres_backbone 0.32 0.95 1.8 2 2.5 3.3 4.4 5.4 6.5 6.8 8.5 9.7 9.6 10 12 11 11 1.3 1.4 1.9 2.2 2.9 3.6 3.5 3.2 2.9 3.1 3.2 2.9 2.7 3 2.7 2.7 4 1.2 1.2 2.1 2.6 3.2 4.2 5.4 6.3 7.6 8.5 10 11 12 12 14 14 14 0.88 0.9 0.83 0.78 0.7 0.61 0.5 0.44 0.42 0.41 0.38 0.34 0.35 0.38 0.34 0.33 0.31 0.94 0.91 0.81 0.77 0.71 0.64 0.55 0.5 0.43 0.4 0.33 0.3 0.32 0.32 0.25 0.25 0.25 0.8 0.77 0.63 0.58 0.51 0.44 0.37 0.33 0.28 0.25 0.19 0.18 0.2 0.2 0.15 0.15 0.15 1 1.1 1.6 1.8 2 2.2 2.3 2.3 2.5 2.6 2.8 2.7 2.6 2.6 2.9 2.9 2.2 52 78 94 92 77 67 51 40 44 47 48 42 41 51 51 50 43

-7.1e+02 2.4e+03 8.1e+03 8.6e+03 9.5e+03 9.9e+03 7.9e+03 7.3e+03 6.8e+03 7.6e+03 1.9e+04 2.1e+04 1.6e+04 1.7e+042.8e+042.8e+043.7e+04

2.5 66 1.4e+02 1.4e+02 1.6e+02 1.7e+02 1.3e+02 1.1e+02 1e+02 1.4e+02 2.8e+02 2.8e+02 2.1e+02 2.6e+023.7e+023.5e+024.7e+02

35 2.1e+02 3.9e+02 4e+02 4.3e+02 4.4e+02 3.6e+02 3.1e+02 3.1e+02 3.8e+02 7.2e+02 7.3e+02 5.9e+02 6.9e+02 1.1e+03 1.1e+031.4e+03

7.7 49 1.1e+02 1.1e+02 1.2e+02 1.3e+02 1.1e+02 95 98 1.3e+022.4e+022.2e+02 1.6e+02 1.9e+022.7e+02 2.5e+02 2.9e+02

2.4e+02 4.1e+02 5.3e+02 5.3e+02 4.8e+02 4.5e+02 3.9e+02 3.7e+02 4.5e+02 5.1e+02 6.4e+02 6.4e+02 6e+02 7.1e+029.1e+02 9e+02 8.5e+02

-4.1e+02-5.4e+02-5.9e+02-5.1e+02-2.3e+02 -70 -8.5 -1.2e+02-3e+02-1.5e+02 -37 -1.5e+02-4.5e+02-1.1e+02-5e+02 -7.9e+02-7.9e+02

-1.4e+03-2.4e+03 -3e+03 -2.9e+03-2.6e+03-2.4e+03-2.1e+03-1.9e+03-2.4e+03-2.8e+03-3.6e+03-3.5e+03-3.2e+03-3.8e+03-4.8e+03-4.8e+03-4.6e+03

58 1.8e+03 3.8e+03 3.8e+03 4.1e+03 4.1e+03 3e+03 2.4e+03 2.4e+03 2.9e+03 6.7e+03 6.9e+03 5.8e+03 6.4e+03 1e+04 1e+04 1.9e+04

12 1.6e+03 4.9e+03 5.3e+03 5.4e+03 5.5e+03 4.6e+03 4.8e+03 4.6e+03 4.6e+03 1.2e+041.4e+041.1e+04 1e+04 1.7e+04 1.7e+04 1.7e+04

7.6e+02 1.3e+03 1.7e+03 1.8e+03 1.6e+03 1.6e+03 1.4e+03 1.3e+03 1.6e+03 1.8e+03 2.3e+03 2.2e+03 2.1e+03 2.5e+033.3e+03 3.3e+03 3.1e+03

-13 -71 -67 -54 -44 -40 -22 -13 -11 -16 -37 -42 -31 -40 -55 -57 -46 93 78 69 67 63 60 56 55 57 58 53 45 47 53 49 49 53 -4.1 -2.9 -3.2 -3.7 -4.1 -4.4 -4.9 -5.3 -5.1 -4.8 -4.6 -4.3 -4.6 -4.5 -4.2 -4.2 -4.7 -2.8 -2.2 -2.2 -2.5 -2.2 -2.1 -2.2 -2.4 -2.8 -3.1 -3 -2.4 -3 -3.2 -2.4 -2.6 -3.3 -0.4 -1.4 -2.7 -3.1 -3.7 -4.2 -5.1 -5.3 -5.5 -5.4 -5.4 -5.6 -5.4 -5 -5.6 -5.4 -5.2 2.9 -0.43 -1.3 -1.3 -1.7 -2.1 -1.9 -1.7 -2.1 -2.2 -1.9 -2.7 -2.4 -1.4 -2.3 -1.6 -0.11 -1.1 -1 -1.9 -2 -2.4 -2.8 -3.3 -3.7 -3.5 -3.3 -4.2 -5.3 -4.9 -4.3 -4.8 -4.8 -4.8 0.18 0.4 0.57 0.56 0.63 0.68 0.61 0.58 0.54 0.56 0.78 0.82 0.72 0.68 0.81 0.79 0.95 0.34 0.54 0.69 0.69 0.76 0.81 0.75 0.73 0.67 0.68 0.9 0.94 0.86 0.8 0.97 0.96 1.2 0.15 0.24 0.32 0.32 0.35 0.39 0.38 0.38 0.36 0.35 0.43 0.46 0.41 0.39 0.44 0.42 0.42 0.11 0.15 0.17 0.18 0.19 0.2 0.2 0.19 0.17 0.17 0.2 0.21 0.2 0.18 0.19 0.17 0.13 0.35 0.6 0.85 0.83 0.93 1 0.95 0.93 0.86 0.87 1.2 1.2 1.1 1 1.2 1.2 1.4 1.2 1.1 1.1 1.1 1.1 1.2 1.2 1.2 1.1 1.1 1.1 1.1 1.2 1.2 1.1 1.1 1.2

1.2e+02 1.9e+02 2.5e+02 2.4e+02 2.1e+02 2e+02 1.8e+02 1.7e+02 2.1e+02 2.4e+02 2.9e+02 2.8e+02 2.6e+02 3e+023.9e+02 3.5e+022.6e+02

3 2.3 2.9 3.3 3.1 2.9 2.5 2.1 2.2 2.4 4.1 4 4.3 4.8 6 7.3 8

1.2e+02 1.9e+02 2.5e+02 2.4e+02 2.1e+02 2e+02 1.8e+02 1.7e+02 2.1e+02 2.4e+02 2.9e+02 2.8e+02 2.6e+02 3e+023.9e+02 3.5e+022.6e+02

3 2.3 2.9 3.3 3.1 2.9 2.5 2.1 2.2 2.4 4.1 4 4.3 4.8 6 7.3 8 0.74 1.2 1.5 1.8 2 2.1 1.9 1.8 1.7 1.8 2.1 2 2.1 1.9 2.1 2.1 3.3 1.2 1.7 2.1 2.3 2.5 2.7 2.4 2.3 2.2 2.2 2.7 2.6 2.7 2.5 2.8 2.8 3.9 0.42 0.62 0.81 0.92 1.1 1.2 1.1 1 0.93 0.87 1.1 1 1.1 1.1 1.3 1.4 2.5 0.0 0.2 0.4 0.6 0.8 1.0

Figure III.O:Valeurs moyennes des critères qualitatifs en fonction des classes de justesse

4

Conclusions

Les contraintes de distances évolutives et natives aboutissant à une faible conver-gence dans l’approche standard, deux potentiels statistiques ont été testés pendant la dynamique pour restreindre le champ de recherche conformationnel. Sur les deux potentiel, celui relatif aux statistiques des angles dièdres de la liaison peptidique s’est avéré être le plus efficace pour améliorer la qualité des prédictions.

Contraindre le système par des potentiels de forces moyennes n’est cependant pas suffisant pour se soustraire de l’apparition de conformation miroirs durant les calculs. La quantité variable d’information nécessaire au repliement en fonction de la nature de la protéine cible [186] explique en grande partie la formation de ces conformations. Pour distinguer ces groupes de conformations, l’utilisation d’un algorithme de partitionnement strict s’est révélé être particulièrement efficace pour contraindre le protocole à ne sélectionner qu’une seule conformation. La fonction de score étendue et l’implémentation des méthodes de partitionnements ont de plus une application directe pour la détermination de structures par RMN lorsque le protocole éprouve des difficultés à fournir une solution unique.

Un obstacle persiste cependant suite à l’implémentation du partitionnement au niveau de la sélection des conformères. Pour la classe de repliement β et dans une moindre mesure la classe α+β, classer les modèles avec la fonction hybride standard ne permet pas de distinguer avec certitude les conformations se rapprochant de la structure native. Ces erreurs de classement ont été en partie résolue en utilisant un potentiel plus complexe intégrant les forces attractives de van der Waals, un potentiel électrostatique et les deux termes de forces moyennes précisés en amont. Les difficultés s’accumulent essentiellement au niveau de la classe de repliement β où le potentiel énergétique apporte moins d’information sur la nature de la conformation. Bien qu’il existe d’autres métriques ou modèles de validation [187], l’utilisation de critères qualitatifs ne semble pas dans ces situations être l’approche la plus efficace pour distinguer correctement les différentes conformations. Un autre moyen à court terme serait de se reposer sur l’utilisation de classifieurs non linéaires comme ceux proposés dans les dernières études comparatives CASP (Critical Assessment of protein Structure Prediction) [188]. Malgré une performance accru de ces méthodes, ces critères ne sont également pas exempt d’incohérences. Utiliser uniquement ce type de classification risque ainsi de n’avoir pour effet que de déplacer le problème vers d’autres complexes. Au vu des résultats dans la section précédente,

la meilleure solution semble être d’augmenter le nombre de contacts ou de modifier la fonction de pénalité pour les prédictions associés à la classe β.

La nécessité d’appliquer un algorithme de partitionnement à chaque itération n’est cependant pas clairement établie. L’existence d’itérations où les deux groupes ont un degré de similarité identique par rapport à la structure de référence suggère la convergence vers une seule conformation. Dans ces situations, une application moins systématique en activant par exemple l’étape uniquement au dessus d’un seuil de précision est à envisager.

A l’inverse, la détection d’un nombre de groupes fixe à chaque itération doit éga-lement être reconsidérée pour une application sur des systèmes moléculaires plus complexes. Ces derniers pouvant présenter d’autres types de conformations alterna-tives en dehors des arrangements miroirs, la sélection d’un seul groupe pendant le processus itératif paraît insuffisant. Ce problème peut être résolue en orientant le développement de manière similaire à l’approche proposée dans le logiciel CYANA [189] vers le calcul de structures en parallèle au delà de la première itération en fonction du nombre de conformations détectées. Une analyse plus poussée sur la performance des algorithmes non paramétriques devra être fait en amont pour estimer systématiquement le nombre de groupes. Intégrer d’autres algorithmes de regroupement moins strictes (les conformations pouvant alors appartenir à plus d’un groupe) pourrait également aider à orienter le choix vers des modèles plus représentatifs selon leur appartenance à un ou plusieurs groupes.

IV

Recherche de stratégies complémentaires

au traitement de l’information évolutive

En l’absence d’information structurale supplémentaire, le développement d’une stratégie commune de prédiction reste nécessaire. L’efficacité va-riable observée dans la section précédente révèle cependant les limites d’un traitement unique de l’information. Cette section a pour vocation d’aborder les stratégies alternatives ou complémentaires pour résoudre des cas difficiles ou faciliter la convergence des structures.

1

Introduction

La multiplication des sources d’informations structurales tend de nos jours à minimi-ser l’impact d’algorithmes de modélisation basés uniquement sur un type d’informa-tion orientant le développement vers des méthodes combinant des données aussi bien expérimentales que prédites [190]. L’intérêt des d’approches combinatoires est double, pouvant bénéficier aussi bien à la prédiction qu’à la détermination de structures. La performance croissante des méthodes consensus et l’apparition de méta prédicteurs comme bbcontacts [191] ou metapsicov-hb [97] forment ici un par-fait exemple pour améliorer la performance des méthodes de prédiction structurale. Dans un autre registre, l’ajout d’information de contacts de prédiction a par exemple permis d’améliorer en partie la détermination de structures à partir d’un nombre restreint de données RMN [192].

Dans un premier temps, nous avons testé d’autres sources d’informations en com-plément des données évolutives afin d’améliorer la convergence des prédictions de

novo. Le recourt à des méthodes complémentaires semble en effet être nécessaire

pour palier le manque apparent d’information pour certains systèmes et plus particu-lièrement pour la classe de repliement β[186]. Dans un second temps, l’intégration des contacts évolutif avec des données expérimentales RMN provenant du jeu de données EC-NMR [192] a été évalué.

2

Matériel et méthodes

2.1 Contacts liés aux motifs dans les feuillets bêta

Des contacts supplémentaires entre les brins bêta ont été générées à l’aide du programme bbcontacts [191]. Ce dernier s’appuie sur la prédiction de structure secondaire et les η meilleurs contacts d’une carte de contact prédite pour extrapoler les motifs récurrents liés aux liaisons hydrogènes dans les feuillets bêta. η équivaut au score de diversité de l’alignement de séquence soitp

N/Lpour un alignement comprenant N séquences associées à une protéine cible de longueur L. Deux modèles de Markov caché sont pour cela utilisés pour détecter les contacts liés aux feuillets bêta parallèle et anti-parallèle. Seul les chemins associés à un score de Viterbi supérieur à un seuil défini sont utilisés pour générer les contacts. Pour des raisons de simplicité, les résultats présentés ici utilisent les paramètres par défaut (soit un seuil de −7, 0).