Construction du système d’experts - Nouvelle Stratégie de Prédiction des Structures Locales

4. Nouvelle Stratégie de Prédiction des Structures Locales

4.1.2 Méthodes

4.1.2.3 Construction du système d’experts

4.1.2.3.1Enrichissement de la séquence en acides aminés par des données

évolutionnaires.

Pour chaque protéine cible, le logiciel PSI-BLAST (Altschul et al. 1997) a été utilisé pour rechercher des séquences homologues dans la base de séquence non-redondante SWISSPROT (Boeckmann et al. 2003). Cet algorithme fonctionne de manière itérative. Il cherche tout d’abord des séquences similaires à la séquence cible. Puis, une Matrice de Score Position- Spécifique est calculée (Position-Specific Scoring Matrices en anglais ou PSSM). Elle contient des scores de sur- ou sous-représentation de chaque acide aminé en chaque position. Cette PSSM est ensuite utilisée pour une nouvelle itération dans le but de rechercher de nouvelles séquences similaires. Cette stratégie permet d’identifier des séquences homologues

ayant des relations de parenté plus lointaines. Un avantage de PSI-BLAST est qu’il couple chaque séquence proposée à un score de similarité par rapport à la séquence cible et à une mesure statistique (la e-value). Cette e-value mesure le nombre de séquences qu’il est possible de trouver par hasard dans la banque et ayant un score de similarité supérieur ou égal au score obtenu. Dans notre étude, quatre itérations de recherche sont réalisées et les séquences sélectionnées ont une e-value meilleures que 10-4_{. La PSSM finale est conservée. Le logiciel} blastpgp v2.2.13 a été utilisé (ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.13).

De façon similaire à l’étude précédente, chaque fragment de séquence à prédire fait 21 résidus de long (fragment d’intérêt de 11 résidus + extension de 5 résidus de part et d’autre pour tenir compte de l’environnement). Ainsi, pour chaque protéine cible, la PSSM obtenue est découpée en matrices chevauchantes de dimensions 20x21. Chaque fenêtre de séquence de 21 résidus est donc finalement représentée par une matrice de dimensions 20x21 caractérisant les spécificités de séquences observées parmi les séquences homologues (voir Figure 46). Finalement, les valeurs au sein des PSSMs sont normalisées pour être comprises dans l’intervalle [-1 ; +1] comme conseillé par (Chang and Lin 2001).

Figure 46. Enrichissement des fenêtres de séquence à prédire par des données évolutionnaires. Des protéines homologues à la séquence cible sont tout d’abord recherchées grâce au logiciel PSI- BLAST. Ce dernier permet également le calcul d’une matrice de score position-spécifiques ou PSSM caractérisant les spécificités de séquence observées parmi les homologues. Pour chaque fenêtre de séquence à prédire (en position j et de longueur 21), une sous-PSSM de dimension 20x21 est extraite. Cette sous-PSSM décrira la fenêtre de séquence j utilisée pour l’apprentissage des experts et la prédiction.

4.1.2.3.2Définition des experts par Machines à Vecteurs Supports (SVMs)

La seconde stratégie utilisée pour tenter d’améliorer la prédiction des structures locales, est la définition des experts par SVMs. Les SVMs correspondent à une généralisation des classifieurs linéaires (Hastie et al. 2001). Le principe d’apprentissage peut-être décomposé en deux étapes :

- Le jeu de données est tout d’abord projeté dans un espace de plus grande dimension en utilisant une fonction noyau. Cette fonction définit la similarité entre paires d’exemples au sein de cet espace (Lewis et al. 2006). Pour cette étude, nous avons choisi un noyau radial (Radial Basis Function en anglais ou RBF). Ce type de noyau a récemment été utilisé avec succès pour des prédictions de structures protéiques (Sander et al. 2006; Song et al. 2006). Il est défini comme suit :

données. de jeu du exemples deux sont et où 0, pour ) ' exp( ) ' , (x x x x 2 x x' K = −

γ

−

γ

Il implique le calibrage d’un paramètre γ.

- Par ailleurs, l’apprentissage des SVMs consiste à définir un hyperplan optimal situé le plus loin possible de tous les exemples d’une part et minimisant les erreurs d’apprentissage d’autre part. Cette procédure dépend d’un paramètre supplémentaire,

i.e., le paramètre C permettant de régler l’équilibre entre la minimisation des erreurs d’apprentissage et la maximisation des marges entre l’hyperplan et les exemples. De plus, un paramètre additionnel peut être optimisé : λ définit le poids des erreurs d’apprentissage sur les exemples positifs par rapport au poids des erreurs sur les exemples négatifs. Il correspond à une définition asymétrique du paramètre C.

Nous avons choisi d’utiliser le logiciel SVMlight adapté aux jeux de données de taille importante et possédant un algorithme rapide d’optimisation (Joachims 1999). Un expert SVM a été entrainé pour chaque classe structurale s en utilisant le sous-échantillon associé à s et tiré de l’échantillon 2 (paragraphes 3.3.4.1 et 4.1.2.2). Ainsi, des valeurs optimales pour γ, C et λ ont été calculées par grilles de validation croisée pour chaque classe s en fonction du pouvoir séparateur des experts (voir Figure 47). Pour conserver des temps de calculs raisonnables, ces paramètres ont été optimisés deux par deux, i.e. γ vs. C et γ vs. λ. Nous avons testé et adapté à notre procédure les intervalles de variation des paramètres conseillés par Hsu et collaborateurs (Hsu et al. 2003). Pour chaque classe s et pour chaque couple de paramètre testé (γ,λ) ou (γ,C), une procédure de validation croisée a été réalisée : l’échantillon d’apprentissage s est divisé aléatoirement en deux sous-échantillons contenant chacun le

même nombre d’exemples positifs et négatifs. Le premier sous-échantillon comprend 2/3 des données et est utilisé pour l’apprentissage du SVM avec le couple de paramètre testé. Le deuxième sous-échantillon est utilisé pour la validation. Pour chaque couple (γ,λ) ou (γ,C), cette procédure est répétée 5 fois et le taux moyen de bonne classification est calculé. Une fois le couple optimal sélectionné, l’apprentissage définitif du SVM est réalisé sur l’échantillon total dédié à la classe s.

Figure 47. Calibrage des SVMs pour chaque classe structurale.

(A) Un échantillon d’apprentissage dédié à la classe s est extrait de l’échantillon 2. Il contient des fragments de séquence appartenant à sa classe (exemples positifs, bleus) et le même nombre fragments n’appartenant pas à sa classe (exemples négatifs). Dans le cadre de l’optimisation des paramètres du SVM de la classe s, une grille permettant de tester les performances associées à chaque couple de paramètre est réalisée. Ainsi, pour chaque couple, une validation croisée est réalisée. Dans ce but, l’échantillon d’apprentissage s est divisé en deux sous-échantillons : 2/3 des protéines sont réservés à l’apprentissage, 1/3 restent dédiés au calcul d’un taux de classification correcte. Cette procédure est réalisée 5 fois. Un taux de classification correcte moyen est alors calculé. (B) Un exemple de grille est présenté pour la classe s. Les taux moyens de classification correcte obtenus pour chaque couple de paramètre sont représentés par des courbes iso-contours. Pour chaque classe s, le couple de paramètres permettant d’obtenir le meilleur taux moyen est sélectionné.

Pour la prédiction d’une fenêtre de séquence W, l’expert SVM entraîné pour la classe s va calculer une valeur de décision vs proportionnelle à la distance entre W et l’hyperplan

optimisé pour s. vs est positive si le SVM reconnaît la séquence W comme faisant partie des

séquences associées à sa classe, négative sinon. Ainsi, la compatibilité d’un fragment de séquence W avec une classe structurale s est mesurée par la valeur de décision vs du SVM ou

score.

4.1.2.3.3Sélection des candidats structuraux

Pour une prédiction donnée, les 120 scores obtenus (avec les experts définis par régression logistique ou SVM) sont analysés et les 5 PSLs ayant obtenus les meilleurs scores sont proposés en tant que candidats structuraux (cf. Figure 48).

Figure 48. 120 valeurs de décision calculées par les experts SVMs lors de la prédiction d'une fenêtre de séquence.

Cette figure présente un exemple de prédiction obtenu avec les experts définis par SVM. Pour une fenêtre de séquence cible, les 120 experts SVMs ont calculé une valeur de décision vs ou score de

compatibilité. Les 5 PSLs prédits correspondent alors aux classes structurales ayant obtenus les meilleurs scores : dans l’ordre, les PSLs n° 30, 71, 102, 48 et 31.

4.1.2.4 Comparaison avec d’autres stratégies de prédictions des structures locales

Dans le document Analyse et prédiction de la relation séquence - structure locale et flexibilité au sein des protéines globulaires (Page 130-134)