• Aucun résultat trouvé

Profile Hidden Markov model

6.1 Architectures

Nous voudrions représenter l’alignement de la Figure 6.1 par une chaîne de Markov caché. Pour cela, nous devons choisir une architecture, c’était dire l’organisation des d’états du modèle.

1. Proposer une architecture qui représente dans un premier temps seulement le bloc I, où les colonnes de l’alignement ne possédé pas de gaps.

2. Proposer une architecture qui représente maintenant les deux blocs I et II, où les colonnes de l’alignement ne possède pas de gaps.

3. Proposer une architecture pour représenter toutes les colonnes de l’alignement, nous allons permettre une certaine quantité de gaps dans les blocs conservés, par exemple moins que 20%.

6.2 Forward et Viterbi

1. Donner les formules de récurrence du algorithme forward pour les états Matchαt(M), insert αt(I) et deleteαt(D). Rapellαt(i) =ei(at)j∈Sαt1(j)pji

2. Donner les formules de récurrence du algorithme Viterbi pour les états Match vt(M), insert vt(I) et delete vt(D). Rapellvt(i) =ei(at)maxj∈S(vt1(j)pji)

6.3 Paramétrés du modèle I

Soit l’alignement multiple de la Figure 6.2, considérer comme état de match les colonnes de l’alignement avec moins de 20% de gaps:

1. Donner les fréquences d’émissions des états match et insert 23

Figure 6.1: Alignement de hemoglobins 2. Donner les fréquences de transitions entre les états

3. Dessiner l’architecture du modèle.

Figure 6.2: Alignement multiple pour estimation de paramétrés I

6.4 Paramétrés du modèle II

Soit l’alignement multiple de la Figure 6.3, considérer comme état de match les colonnes de l’alignement avec moins de 50% de gaps:

1. Donner les probabilités d’émissions des états match et insert en utilisant un pseudo-count de 1.

6.4. PARAMÉTRÉS DU MODÈLE II 25 2. Donner les probabilités de transitions des états en utilisant un pseudo-count de 1.

3. En utilisant les paramètres calculés précédemment, calculer la probabilité de la séquence TCGC sur les états M1, M2, M3, M4 et M1, M2, I2, M3, D4.

4. Calculer la séquence consensus de l’alignement de la Figure 6.3 à partir des états de match.

5. Supposons que la séquence CCTCGTTTT soit alignée contre le modèle pHMM. Suggérez un chemin pour cette séquence avec des probabilités plus élevées et plus basses.

Figure 6.3: Alignement multiple pour estimation de paramétrés II

7

Évaluation de la performance de

méthodes de détection d’homologie

7.1 Les measures de performance

Considérons le tableau de résultats suivant obtenu par un outil de détection d’homologie sur un ensemble de 18 séquences. Chaque ligne correspond à un identifiant de séquence, l’e-value et la classe (+ si la séquence a été correctement classée, c’est-à-dire que la fonction correcte a été prédite, et - sinon).

Id E-value Class Id E-value Class Id E-value Class

1 1E-25 + 7 3E-9 - 13 2E-3

-1. Calculer les mesures: true positives,false positives,false negatives,true positive rate (TPR), false positive rate (TPR), precision,recall and F-score.

2. Tracer la courbe ROC

3. Tracer la courbe Precision-Recall

4. L’aire sous la courbe (AUC) peut être trouvée par la formuleAU C = 1n+Sn, oùn+ est le nombre de true positive et n le nombre de false positive. S est obtenus comme suit : pour chaque + nous comptons combien - se sont produits avant, et nous additionnons toutes les valeurs.

7.2 Les courbes ROC et PR

Étant donnés les courbes de la Figure 7.1, calculer les AUC et comparer les méthodes.

27

Figure 7.1: ROC curves

7.3 Comparasion des outils

1. Étant donnés les courbes de la Figure 7.2, répondre aux questions suivantes:

a) Quel est l’outil avec la performance la plus faible?

b) Si l’on considère le seuilF P R= 0.1, quelle est la méthode la plus performante?

c) Si l’on considère le seuilF P R= 0.4, quelle est la méthode la plus performante?

d) Quel est l’outil avec la meilleur performance quand T P R= 1 etF P R= 1?

2. Considérons deux outils (C1 et C2) et un ensemble d’échantillons que nous souhaitons classer dans l’une des deux classes: true (0) etfalse (1). Pour chaque échantillon, les outils utilisent un score sur lequel ils se basent pour déterminer la classe de l’échantillon (score plus proche à 0 signifie classe 0, score plus proche à 1 signifie classe 1). Voici les résultats pour 8 échantillons, leur ground truth (GrTr) et les scores de deux outils.

GrT r={1,0,1,1,1,0,0,0}

C1 ={0.5,0.3,0.6,0.22,0.4,0.51,0.2,0.33} C2 ={0.04,0.1,0.68,0.22,0.4,0.11,0.8,0.53}

a) Calculer et dessiner les courbes ROC pour C1 et C2?

b) Calculer l’aire sous la courbe (AUC) pour les deux outils.

c) Quel est le seuil de décision que maximise le F-score pour C1 et C2?

d) En tenant compte des valeurs obtenues, décider quel outil est le meilleur et donner une justification du choix.

7.3. COMPARASION DES OUTILS 29 3. Nous allons maintenant calculer les courbes ROC pour les combinaisons des outils C1 et C2.

L’outil C1 classifie un échantillon i comme classe 1 si son score xi > τ1 (où τ1 est le seuil trouvé dans la question précédente), sinon il le classifie comme classe 0. La même chose pour C2.

Le premier outil combiné C3 peut être obtenu par l’intersection des décisions de deux outils, C3 = C1∩C2 (C3 classe un échantillon i en classe 1 si les deux outils de base le classent en classe 1). La deuxième combinaison peut être obtenue par l’union des décisions de deux outils C4 = C1∪C2 (C4 classe un échantillon icomme classe 1 si au moins l’un des outils de base le classe comme classe 1). Pour les combinaisons C3 et C4:

a) calculer les mesures: true positive, false positive, false negative, true positive rate, false positive rate, precision, recall and F-score;

b) tracer les courbes ROC;

c) tracer la courbe Precision-Recall.

d) Quelle est la meilleure stratégie de combinaison ?

Figure 7.2: ROC curves

8

Détection de motifs

8.1 Conventions et règles IUPAC.

Définir un motif commun à un ensemble de séquences revient à construire le profil le plus représen-tatif des séquences considérées. Le profil peut être défini par une expression régulière écrite selon les conventions symboliques IUPAC (Figures 8.1 and 8.2).

1. Étant donné l’alignement multiple de la Figure 8.3:

a) Donner la séquence consensus (motif) en utilisant le code IUPAC (Figure 8.1).

b) Calculer la table des fréquences, en déduire la matrice des poids-position.

c) Calculer le score de la troisième séquence et de la séquence consensus.

Figure 8.1: Conventions symboliques IUPAC Figure 8.2: Règles IUPAC

2. Étant donné le motif protéique de la Figure 8.4 en utilisant les règles de la Figure 8.2, répondre les questions suivantes:

31

Figure 8.3: Alignement multiple a) Quelle est la taille de ce motif?

b) Interpréter les différentes positions de ce profil protéique et donner une séquence qui le contient.

Figure 8.4: Motif protéique

3. Étant donné l’alignement multiple de la Figure 8.5, donner la séquence consensus ou motif en utilisant le code IUPAC de la Figure 8.2 .

Figure 8.5: Alignement multiple 2

8.2 Représentation de motifs en utilisant les logos

1. Étant donnée la Figure 8.6, répondre les questions suivantes : a) Quels sont les motifs et où ils se trouvent?

b) Donner leurs représentation en utilisant la Figure 8.1.

c) Donner leurs représentation en utilisant la Figure 8.2.

8.3. EXPECTATION-MAXIMIZATION. 33

Figure 8.6: Motif logo

Figure 8.7: Acide aminé logo d) Ces motifs sont indépendants? Ou vous trouvez une relation entre eux? Expliquez.

2. Étant donnés les logos de la Figure 8.7, répondez aux questions suivantes:

a) Donner la séquence consensus ou motif et la représentation selon le code IUPAC de la Figure 8.2

b) Donner la représentation de chaque motif en utilisant les quantificateurs d’expressions régulières (Figure 8.8).

8.3 Expectation-Maximization.

1. Considérez w= 3 et le modèle de motifp(t) de la Figure 8.9

a) En utilisant p(t), quelle est la probabilité de trouver le motif à partir de la deuxième position deX4 =ACAGTC

b) Calculer les nouveaux valeurs deZt pour X4 et les normalisez.

c) Considérez toutes les séquences X1 , X2 , X3 et X4 , et leurs Zt. Trouvez le modèle p(t+1)

Figure 8.8: Expressions régulières

Figure 8.9: Expectation-Maximization

Documents relatifs