• Aucun résultat trouvé

Cette section étudie l'inuence de la localité spatiale sur la prédictibilité d'une structure. Est-ce qu'une mutation dans une zone de séquence en contact est souvent destructrice de la structure ? Est-ce qu'au contraire il existe une redondance dans les interactions autorisant un taux de mutation élevé sans changement de structure ? Est-ce qu'il existe dans les protéines plus de diversité de séquence pour une même structure lorsque celle-ci est en interaction avec une autre partie de la structure ?

L'expérience réalisée ici pour répondre à ces questions consiste à comparer la prédic-tibilité des CF à celle des des fragments simples (notés SF pour Single Fragments) ainsi qu'à des paires de fragments qui ne seraient pas en interaction (notés PF pour Pair of Fragments). A cette n, nous avons extrait tous les CF du jeu de données Astral64 (voir détail de ce jeu de données en annexe 9), ainsi que pour chaque CF une paire de frag-ments (PF) possédant les même longueurs de segfrag-ments, mais pris aléatoirement dans la séquence. Aussi, nous nous sommes limités aux CF n'ayant pas de chevauchement entre les segments et nous avons choisi les PF de manière à ce qu'il n'y ait là encore aucun chevauchement entre les segments. Enn, pour chaque CF non chevauchant, nous avons extrait un fragment simple (i.e. contigu en séquence) pris aléatoirement dans la séquence dont la longueur vaut la somme des longueurs des deux fragments de CF.

Ensuite, pour pouvoir comparer la conservation de structure en fonction de la conser-vation de séquence entre les CF, les PF et les SF, l'idée est pour chaque CF (resp. PF, SF) de chercher dans la PDB  avec BLAST  les structures ayant une séquence si-milaire. On mesure ensuite la similarité de structure entre le CF (resp. PF, SF) requête et le hit dans la PDB. Ce procédé peut se résumer sous le diagramme suivant :

Prédictibilité des CF 93

Fig. 6.9: Procédure utilisée pour la mesure de la prédictibilité faible des CF. La pro-cédure identique est réalisée avec les PF (paires de fragments) et les SF (simples frag-ments).

Plus précisément, pour les CF et PF, chaque segment est cherché indépendamment avec BLAST et une p-value est calculée  pour chaque segment  à partir de la e-value de BLAST. La p-value totale est dénie comme étant la multiplication des p-values de chacun des segments (car ceux-ci sont non chevauchant, leur hits sont considérés indépendants). Pour les SF, il existe un biais lié à l'heuristique de BLAST : la recherche de séquence de SF nécessite une seule graine (voir section 2.1.0.6) alors que la recherche des deux segments des CF et des PF nécessite deux graines (une pour chaque segment). En conséquence, il y aura plus de hits pour les SF que pour les CF et les PF et en moyenne dans un hit l'identité de séquence sera probablement biaisée vers des valeurs légèrement plus élevée dans les CF et PF.

Par ailleurs, étant donné qu'on cherche à comparer structurellement un CF (resp. PF, SF) requête avec son hit, les fragments à comparer sont de même longueur et on peut utiliser les scores standards de similarité de structure (nous montrons les résultats avec le TM-score qui a l'avantage d'être normalisé). Utiliser un outil standard de comparaison de structure permet également d'éviter d'introduire biais dans l'analyse.

On obtient donc pour chaque hit un couple de valeurs (p-value,TM-score). En pre-nant tous ces couples pour lesquels la p-value est inférieure à un certain seuil pmax, on ob-tient pour chaque pmaxla distribution T MCF(pmax)(resp. T MP F(pmax), T MSF(pmax)) des valeurs du TM-score pour les CF (resp. pour les PF, les SF).

An d'étudier ces multiples distributions, on a choisi de regarder les diérences dans le haut des distributions associées aux CF et celles associées aux PF  les bas et médianes de distributions étant semblables. Les résultats sont visibles sur la gure 6.10.

Fig. 6.10: En gras : Dernier 5-quantile (80% des valeurs sont inférieures) de T MCF(pmax) (en violet), T MP F(pmax) (en rouge), T MSF(pmax) (en noir) en fonc-tion de pmax. En ligne minces : nombre de hits ayant une p-value inférieure à pmax en fonction de pmax.

Prédictibilité des CF 95

Fig. 6.11: Même graphique que précédemment en utilisant l'ASD à la place du TM-Score. Les conclusions sont comparables, l'ordre des courbes étant inversé car l'ASD est une dissimilarité alors que le TM-Score est une similarité de structure.

Sur le graphique 6.10, on peut voir que si on désire trouver l'ensemble d'homologues (en séquence) d'un motif structural tel que sa structure soit correctement conservée, alors il faudra xer un seuil de séquence beaucoup plus strict si le motif est un SF ou un PF que si c'est un CF. Par exemple, s'il on veut que 80% des hits aient une structure fortement conservée (par exemple un TM-score > 0.85), il faudra xer un seuil de similarité de séquence correspondant à une p-value pmax ≈ 10−18 pour les SF, de pmax ≈ 10−14 pour les PF, et de pmax ≈ 10−5 pour les CF. On voit sur ce même graphique, qu'avec ces seuils, on obtiendrait environ 1800 hits de SF, 1000 hits de PF et environ 2500 hits de CF.

On peut conclure que sur ce sous-ensemble de structure représentatif des 4 princi-pales classes SCOP, pour une même structure (à faible distorsion près), la diversité de séquences possibles dans le cas des CF est plus importante que dans le cas des SF et des PF.

Pour reprendre les termes de la formalisation du chapitre 4, nous avons évalué ici la cohérence de la prédictibilité des CF avec pour mesure de dissimilarité de structure d(A, B) := 1 − T M (A, B), et pour modèle MtCF ` q ⇔ p-value(q, qCF) ≤ pmax où p-value(q, r)est la p-value associée à la similarité de séquence entre q et r et tCF est une structure de CF de séquence qCF extraite d'une structure d'Astral64. Ainsi, 80% des structures homologues (pour un seuil de p-value pmax= 10−5) ont un TM-Score avec la structure requête supérieur à 0.85, ce qui peut se reformuler en disant que la règle de

cohérence est respectée à 80% par les CF pour des paramètres δ ≈ 1 − 0.85 = 0.15 et pmax = 10−5, alors qu'elle sera respectée à 80% par les SF pour δ ≈ 1 − 0.72 = 0.28, et par les PF pour δ ≈ 1 − 0.79 = 0.21.

L'expérience exposée montre donc que pour un CF on retrouve plus de diversité de séquence que dans un fragment simple ou dans une structure composée d'une paire de segments qui ne sont pas spéciquement en interaction. Il semble donc qu'il existe une certaine redondance dans les interactions permettant le maintien de la structure et que la mutation de la séquence sous-jacente tolère davantage de mutations sans changement de conformation. Selon les termes du chapitre 4, la localité spatiale renforce la cohérence de la prédictibilité (pour un modèle de séquence basé sur l'homologie). Pour aller plus loin, on pourrait utiliser un modèle de séquence plus n prenant en compte les mutations compensatoires dans les CF qui pourrait éventuellement améliorer encore leur prédictibilité.

6.5 Perspective : détection de CF par modèle logique de