• Aucun résultat trouvé

Méthodes

Dans le document Disponible à / Available at permalink : (Page 156-162)

23 Méthodes d’identification des différents facteurs

5.2 Impact de l’approximation de la thermostabilité par la thermophilicité : Te„v = T„. 142

6.2.1 Méthodes

Afin d’évaluer le changement de thermostabilité encouru ATm, nous nous sommes inspirés du logiciel PoPMuSiC-2.0 Ce logiciel développé, au sein de notre groupe, prédit le changement d’énergie libre de repliement d’une protéine lors de l’insertion d’une mutation sur la base de combinaisons de 24 potentiels statistiques dont les coefficients sont identifiés par un réseau de neurones. Ces différents potentiels statistiques, évaluent la propension d’un acide aminé de nature s à adopter certains éléments de structure. En plus de la distance spatiale d entre résidus, nous considérons deux éléments de structure supplémentaires t et a basés sur les angles de torsion è, \i/ et CD des atomes de la chaîne principale du résidu

O O

considéré et sur son accessibilité au solvant. Les distances d (allant de 3,0 A à 8,0 A) entre résidus sont observées entre les centres géométriques de ceux-ci et regroupés en intervalles de 0,2 Â. Les angles de torsion sont répartis en sept domaines de torsion t différents (fig. 1.5) L’accessibilité d’un résidu s d’une protéine est déterminée par le rapport de sa surface accessible au solvant sur sa surface accessible dans un tripeptide G-^-G étendu Ces valeurs d’accessibilité sont réparties en 5 domaines d’accessibilité a différents (0-5%, 5-15%, 15-30%, 30-50%, 50-100%) De manière à généraliser l’écriture des 24 potentiels statistiques utilisés se basant sur un ou plusieurs descripteurs de séquence et de structure, nous utilisons la forme suivante :

AW(c.,c,) = -ferin (6.3)

P(C,)P(C2)

où Cl et C2 peuvent être remplacés par les éléments de séquence ou de structure s, d,tcXa d’un résidu ou d’une paire de résidus et P(ci,C2) et P(c\) P(c2) sont respectivement les probabilités de les observer de manière conjointe dans la base de données et dans un état de référence où Cl et C2 sont indépendants.

En additionnant toutes les contributions AW(ci,C2) de tous les couples possibles (ci,C2) au sein d’une protéine de séquence et structure connue, il est possible d’en évaluer son énergie libre de repliement (cf. eq. 6.2 pour le potentiel AW^ , section 6.1). Cependant, l’utilisation de plusieurs éléments de structure différents complexifie la somme puisqu’ils ne sont pas

Chapitre 6 - Approches prédictives de la thermostabilité des protéines

complètement indépendants les uns des autres Nous avons repris le formalisme développé par Dehouck et al. (2006), qui permet de découpler les contributions énergétiques issues de plusieurs descripteurs en identifiant les termes de couplage entre eux. Ainsi, pour un potentiel statistique utilisant 3 descripteurs différents AW(ci,C2,C3), nous pouvons écrire les termes de couplage AW suivants :

AW (c,, C2, C3 ) = A W (Cj, Cj ) + AW (c2, C3 ) + AW (Cj, c, ) + A W (c,, Cj, C3 ) (6.4) où les termes de couplage contenant deux descripteurs Cx et Cy sont calculés par les potentiels ordinaires AW(c^,c^,) = AW(c^,c^), et le dernier est défini comme suit :

AW(c^,C2,Cy) = -kTlnP(Cl, C2, C3 )P(Ci )P(C2 )P(Cj )

P(C,, C2 )f(C2, C3 ) P(C3, C2 ) (6.5)

P{c\,C2,c{) est la probabilité d’observer ces trois descripteurs simultanément dans la base de données.

Ce dernier terme de couplage mesure la corrélation entre les trois descripteurs de séquence et de stmcture c\, C2 et C3, indépendamment des corrélations entre c\ et C2, C2 et C3 ainsi qu’entre C3 et c\. De manière plus générale, nous pouvons définir «-potentiels AW à l’aide de ses k<n termes de couplage ' :

AW(c,,C2,..., c„ ) = J '^AW(c,., c,.^,..., c,.^ )

*=2 i....

'1 <■••«■*

(6.6)

où les n termes de couplage décrivant les corrélations entre les n descripteurs de séquence et de structure sont définis par l’équation suivante :

AW(CpC2,...,cJ = -^rin k=n,n-2y '1 <■••<'* np(c,.,c,^,...,c,^_) '1...'*-1=1 (6.7)

Afin de s’assurer que chaque contribution n’est comptée qu’une seule fois, l’énergie libre de repliement d’une protéine de séquence S et de structure C, est évaluée par l’énergie totale Aiy(C,5) définie par la somme de toutes les contributions de tous les termes de couplage :

AW(C,5) = X Z (6.8)

*=2 i|... i*=l (c^,c,j,...,c,j)(=(C,S)

Ces 24 différents potentiels utilisent de 2 à 7 descripteurs en même temps. Il est possible de les regrouper en différents groupes P2, P2 en fonction de leur degré de couplage et de les diviser chacun en deux classes différentes : potentiels locaux et non-locaux (tableau 6.2). Les premiers décrivent les contributions liées plus particulièrement aux acides aminés qui

sont proches dans la séquence (e.g. AWsi, décrit l’influence de la nature d’un acide aminé s sur le domaine de torsion t adopté par un résidu voisin). Les seconds se focalisent essentiellement sur les résidus proches spatialement tels les potentiels de distance que nous avons dérivés aux chapitres 4 et 5.

Groupes de potentiels Dénomination des potentiels statistiques

Pi : Potentiels basiques d’ordre 2 Locaux : AW,,, AWo^ Non-locaux : AW,d, AIT,*

P2 : Termes de couplage d’ordre 3 Locaux : AW,„, AVT„„ AW^, AWa^s, AW^i Non-locaux : AlVx,* A1V,h, AW„.;h».., AWiHst P3 : Termes de couplage d’ordre 4

LfOCâux .

^^aSSS*AW^(jû5(, AW^jf/ Non-locaux : AWastd^

Tableau 6.2 - Liste des 24 potentiels statistiques regroupés en fonction de leur degré de couplage. Le potentiel statistique AWjj correspond au potentiel AW^i (AWjsi) de l’équation 3.9 (3.10).

Par ailleurs lors de l’insertion d’une mutation dans une protéine la différence de volume AV entre le résidu muté et mutant peut avoir une influence sur le changement de stabilité thermique observé. En remplaçant un grand résidu par un plus petit, une cavité se forme qui s’avère en général déstabilisante Au contraire, si le résidu mutant est plus grand, une tension stérique peut également entraîner une déstabilisation de la structure protéique. Les variations de volume liées à un remplacement par un résidu plus grand et plus petit sont notées respectivement AV+ et AV,. L’amplitude de leurs effets déstabilisants n’étant à priori pas identique, nous les avons considérées séparément (eq. 6.9). Ces deux termes de volume sont regroupés dans le groupe P4.

fO, siAV<0 fAV, siAV<0

AV, , AV_ =

V

'

[AV,siAV>0 [0, siAV>0 (6.9)

A l’aide de ces 24 potentiels statistiques et des critères de variation de volume nous allons prédire le changement de stabilité thermique d’une protéine ATm encouru lors de l’introduction d’une mutation. Plus précisément, la valeur du changement de thermostabilité prédit AT^ est exprimée comme une combinaison linéaire des variations des 24 potentiels statistiques AAWi, des deux termes de variation de volume et d’un terme indépendant.

f;flr,(A)AA\^. + «25(A)AV, +ûT2,(A)AV +a,,(A)

1=1

(

6

.

10

)

où les fonctions oti(A) correspondent à des coefficients qui varient avec l’accessibilité (A) du résidu remplacé. En effet, l’importance relative des différents potentiels statistiques varie selon que le résidu muté soit en surface ou en plein cœur de la protéine Par ailleurs, le signe négatif présent devant l’équation 6.10 reflète l’anti-corrélation qu’il y a entre la stabilité thermique et l’énergie libre de repliement d’une protéine. Une variation de ATm positive est considérée comme une augmentation de stabilité thermique alors qu’une variation négative d’une contribution AAW, est considérée comme une contribution énergétique favorable au repliement d’une protéine.

Chapitre 6 - Approches prédictives de la thermostabilité des protéines

Le réseau de neurones intervient dans l’identification de ces différentes fonctions cCi{A).

Nous avons choisi d’utiliser des fonctions ûî(A) sigmoïdales pour mimer l’évolution de l’accessibilité au solvant entre le cœur et la surface des protéines. Ces fonctions évoluent de manière continue et monotone entre la surface et le cœur des protéines. L’architecture du réseau de neurones consiste en 27 perceptrons indépendants, chacun ayant un neurone sigmoïdal caché et une sortie linéaire (fig. 6.2) Mathématiquement, le réseau s’écrit de la manière suivante :

«,(A)

= w,.

1 + e-n(A-Ci)

(

6

.

11

)

Ci est le point d’inflexion de la sigmoïde, r, en est sa pente et w,- et bi sont le poids et le biais de chaque fonction OCi{A)du réseau de neurones. Comme le montrent les équations 6.10 et 6.11, ce modèle est linéaire en les poids w, et les biais bi, mais non linéaire en les points d’inflexion ct et pentes r,-.

► «j(A)

► «2/a;

*'27\

Figure 6.2 - Schéma de la structure du réseau de neurones mis en œuvre pour identifier les fonctions <aî(A)

L’identification du modèle se fait en plusieurs étapes. Premièrement, les points d’inflexion ci et pentes rj de toutes les sigmoïdes sont fixées à 50% et 0,1 respectivement. Ceci permet de procéder à l’estimation linéaire des poids et des biais en minimisant, par la méthode des moindres carrés, la fonction de coût a mesurant les erreurs commises sur les prédictions des changements de thermostabiüté AT^ (eq. 6.12).

(7 =

(

6

.

12

)

N est le nombre de mutants, ATm.s est la variation de thermostabilité mesurée expérimentalement du mutant s et en est sa valeur prédite au travers des équations 6.10 et 6.11.

Une fois qu’une première estimation de tous les paramètres de notre modèle est réalisée, ce modèle est raffiné par plusieurs étapes successives d’optimisation. Chacune de ces étapes consiste à relâcher les coefficients du modèle, identifier les points d’inflexion et les pentes à l’aide d’une optimisation non-linéaire et d’en déduire linéairement les poids et les biais. Au final de cette procédure d’identification, les 108 paramètres du modèle (27 c,, 27 rj, 27 w/, et 27 bi) sont identifiés.

Pour terminer, une méthode de réduction des paramètres a été mise en place afin d’éviter une surparamétrisation du modèle et de faibles performances en validation croisée. Il s’agit d’une méthode itérative où à chaque étape d’identification du modèle, la matrice de covariance des paramètres est calculée et ceux dont la variance dépasse 80% de la variance la plus grande parmi tous les paramètres sont sélectionnés. Parmi ces paramètres ainsi sélectionnés, le paramètre présentant la plus grande covariance avec un autre paramètre est identifié. En fonction de la nature de ce paramètre, deux options différentes s’appliquent : s’il s’agit d’un point d’inflexion Cj ou d’une pente rj, celui-ci reprend sa valeur fixée au départ (à savoir : 50% et 0,1 respectivement). S’il s’agit d’un biais bi ou d’un poids w,-, celui-ci prend la valeur nulle. En outre, lorsqu’un poids w,- = 0, le point d’inflexion cj et la pente rj qui lui sont associés sont également annulés. Le modèle ainsi réduit est alors ré-identifïé avant la prochaine étape de réduction paramétrique. Cette réduction paramétrique prend fin lorsqu’aucun des paramètres w,-, bi (c,-, r,) ne présente une variance plus élevée que

10 mole^/kcal^ (10 K'^) et une covariance avec un autre paramètre plus élevée que

1 mole^/kcal^ (1 K'^).

Les données expérimentales utilisées lors des phases d’apprentissage et de validation de notre réseau de neurones sont les 1601 mutemts de la base de données BDj. Ces deux phases sont menées en parallèle et ont pour objectif de calibrer les 27 coefficients 0}(A) devant les 24 potentiels statistiques, les deux termes de volume et le terme indépendant pour nous permettre de prédire au mieux les changements de thermostabilité liés à une mutation ponctuelle. Plus précisément, nous avons utilisé une méthode d’échantillonnage répartissant les 1601 mutants aléatoirement dans N groupes de mutants. N-J groupes sont utilisés pour l’apprentissage de notre réseau de neurones et le groupe de mutants restant est utilisé pour sa validation. L’étape d’apprentissage réalisée sur les N-] groupes fournit un jeu de valeurs aux paramètres du réseau. L’étape de validation utilise ces valeurs de paramètres pour estimer les variations de thermostabilité des mutants présents dans le groupe restant. Les changements de thermostabilité prédits AT^ et mesurés ATm de ce dernier groupe sont comparés à l’aide d’une régression linéaire de manière à valider l’apprentissage réalisé.

En suivant cette méthodologie d’apprentissage et de validation, il est possible de réaliser

N phases d’apprentissage et N phases de validation en fonction des groupes considérés pour effectuer ces phases. La validation peut être directe (estimer les ATm sur les N-1 groupes utilisés lors de l’apprentissage) ou croisée (estimer les ATm sur le groupe restant). Nous avons donc comparé les AT^ estimées avec celles mesurées expérimentalement ATm pour chacune des N validations directes et indirectes possibles en effectuant N régressions linéaires. La moyenne des N coefficients de corrélation ainsi que leur écart type ont été calculés pour chaque type de validation.

Chapitre 6 — Approches prédictives de la thermostabilité des protéines

6.2.2 Résultats

Nous avons décidé de répartir aléatoirement les 1601 mutants de notre base de données en 5 groupes. Cette répartition aléatoire n’est effectuée qu’une seule fois et donne lieu à 5 phases d’apprentissage et de validation décrites à la section 6.2.1.

Lorsque l’on utilise le jeu complet de potentiels statistiques ainsi que les termes de volume et le terme indépendant (tableau 6.2), les coefficients de corrélation moyens des cinq régressions linéaires s’élèvent à 0,60 et 0,52 en validation directe et croisée respectivement. Bien que ces faibles coefficients soient directement liés à notre modèle, ils n’impliquent pas nécessairement que les fonctions énergétiques utilisées et/ou la structure de notre modèle soient de mauvaise qualité. En effet, certains mutants peuvent introduire une modification significative de la structure d’une protéine. Ces modifications ne sont pas prises en compte par notre modèle et peuvent diminuer les coefficients de corrélation. En outre, certaines erreurs expérimentales dans la mesure des températures de fusion d’une protéine peuvent également affaiblir le pouvoir prédictif de notre modèle. Afin de prendre en compte ces différents effets et d’obtenir une estimation plus pertinente du pouvoir prédictif de notre méthode, nous avons réaüsé les mêmes régressions linéaires en ôtant 10% des couples ( AT^, ATm) dont les valeurs prédites sont les plus éloignées des valeurs mesurées expérimentalement. Les coefficients moyens obtenus après l’exclusion de 10% des données les plus disparates sont de 0,78 et 0,72 pour les validations directe et croisée, respectivement.

Nous avons également testé la nécessité d’utiliser la totalité des 27 termes introduits dans le réseau de neurones en retirant certains groupes de potentiels statistiques (tableau 6.3). En retirant les potentiels statistiques d’ordre de couplage élevé P3 les performances de notre modèle sont légèrement meilleures en validation croisée. Par contre, les potentiels d’ordre plus faible Pi et P2 ainsi que les termes de volume P4 et le terme indépendant ne doivent pas être retirés du réseau de neurones au risque de faire chuter les performances de prédiction. La meilleure combinaison est celle utihsant les groupes de potentiels P\, P2 ainsi que les termes de volume P4 et le terme indépendant. Le coefficient de corrélation moyen et l’écart type moyen s’élèvent à 0,73 et 4,4 K respectivement, en validation croisée en excluant 10% des mutants.

Termes repris dans 1601 mutants - 10% le réseau de neurones" rf rc" Oa cr/ rf rf (^A

P \ +jP2+/^3+/^4+//îi/. 0,60 0,52 6,2 6,6 0,78 0,72 4,2 4,5

P\~hp2~^P4+î/26^. 0,57 0,53 6,3 6,6 0,76 0,73 4,3 4,4

Pi+P4+ind. 0,52 0,50 6,6 6,8 0,73 0,70 4,6 4,7

PI+P 2+P4 0,54 0,50 6,5 6,8 0,75 0,73 4,4 5,5

P\+P2+ind. 0,50 0,45 6,7 6,9 0,70 0,66 4,5 4,8

Tableau 6.3 - Pouvoir prédictif de notre modèle sur les changements de thermostabilité des protéines mutées.P\, P2, P3correspondent aux différents groupes de potentiels présentés au tableau 1, P4 fait allusion aux deux termes liés à la variation de volume du résidu remplacé et ind. est le terme indépendant du réseau de neurones. * r^ et r^ correspondent aux coefficients de corrélation moyens entre les prédites et mesurées en validation directe et croisée. Oa et ai sont les erreurs quadratiques moyennes (en K) entre les AT„ prédites et mesurées en validation directe et croisée.

6.2.3 Comparaison avec les estimations obtenues à partir de prédictions

Dans le document Disponible à / Available at permalink : (Page 156-162)