MU4IN701 - Statistiques en bioinformatique et algorithmes sur les séquences

(1)

MU4IN701 - Statistiques en bioinformatique et algorithmes sur les séquences

Sorbonne Université - Master M1 BIM (Juliana Silva Bernardes)

January 31, 2020

(2)

(3)

Matrix de poids et inference sur les séquences

1.1 Functional annotation

Mark (T)rue or (F)alse. Justify your answers only for the ones which are false.

1. Annotation transfer involves "transferring" structural and functional annotation to uncharac- terized open reading frames (ORFs).

2. Annotation transfer is based only on sequence identity.

3. The similarity search for protein tranfer annotation is performed by powerful (optimal) algo- rithm.

4. 10-30% of all functional transfer annotation may be wrong.

5. Misannotation occurs because local similarity searches are not sensitive, that is, even with high confidence score false positives are detected.

1.2 Domains

1. Domains are structural units in a protein and usually they are responible for a particular function or interaction into the protein.

2. The majority of proteins has zero or one domain.

3. Domains are continous segments in the protein sequence.

4. Diﬀerent proteins can share the same domain.

1

(6)

5. Domains are extrated from protein sequences and classified into groups according to their sequence or structural similarities. Domain sequences are then storaged in domain databases.

6. Uniprot and Pfam are examples of domain databases.

7. Proteins with the same domain combination probably possed the same function.

1.3 Domain recognition tools

1. Domain sequences can be represented by probabilistic models.

2. Probabilistic models representing a domain family are used to scan query sequences.

3. Domain recognition tools are less sentive than global search similarity.

4. By using Domain recognition tools we can avoid wrong annotations.

1.4 Domain databases

Domain databases contains domain sequences extracted of related proteins. It is generally obtained from successive sequence analysis steps including similarity search, domain delineation, multiple sequence alignment and motif construction. One of the most used domain database is Pfam, a large collection of protein families, each represented by multiple sequence alignments and hidden Markov models (HMMs).

1. What are the most and less conseved positions in the alignment of Figure 1.1 ?

2. Taking into account only positions between 40 and 50, what is the consensus sequence of the alignment of Figure 1.1.

3. A sequence logo is a graphical representation of the sequence conservation of nucleotides (in a strand of DNA/RNA) or amino acids (in protein sequences). It is created from a collection of aligned sequences and depicts the consensus and sequence diversity. Consider the sequence logo in Figure 1.2, this logo was constructed from the aligment of Figure 1.1? Justify your answer.

1.5 Position Weight Matrix

A position weight matrix (PWM) is a commonly used representation of domains or motifs (patterns) in biological sequences. It is often derived from a set of aligned sequences

Dtrain =







a¹₀ a¹₁ ... a¹_L₋₁ a²₀ a²₁ ... a²_L₋₁

...

a^M₀ a^M₁ ... a^M_L₋₁





 ,

(7)

1.6. SEQUENCE INFERENCE 3

Figure 1.1: PF00286’s partial alignments

Figure 1.2: Partial sequence logo.

where a^j_i is symbol of the alphabet A (4 symbol for nucleotides in DNA sequences or 20 for amino acids in protein and 1 symbol for the gap), i represents positions in the aligment, j is a sequence identifier, L is the length of the aligment and M is the number of sequences in the aligment. A PWM has one row for each symbol in the alphabet and one column for each position of the aligment. We start by computing the frequencyni(a) of each symbola∈Afor each position iof D_train. Next, we can compute the PWM valuesω_i(a) = ⁿⁱ_M^(a).

1. Compute the frequency matrix for the aligment of Figure 1.3.

2. Compute the PWM for the aligment of Figure 1.3.

3. What we can do to avoid zero probabilities?

4. Recompute PWM for the aligment of Figure 1.3 avoiding zero probabilities.

1.6 Sequence inference

We can scan query sequences by looking for all positions with substantial similarity to a known position weight matrix (PWM). To do so, we compute the probabilityP(a₀, ..., a_L₋₁|ω) =^∏^L_i=0⁻¹ω_i(a_i)

(8)

Figure 1.3: Toy aligment

1. ComputeP(ACGT C|ω), whereω was computed at exercise 5.4.

2. After computing the probability ofP(ACGT C|ω), we cannot say that the sequenceACGT C has the motif/domain encoded in ω. For that, we need to compare this probability to the null model that is not specific to a given position. The null model can be computed by f⁽⁰⁾(b) = _L¹ ^∑^L_i=0⁻¹ωi(b), where b ∈ A. Compute f⁽⁰⁾(A), f⁽⁰⁾(C), f⁽⁰⁾(G), f⁽⁰⁾(−), and f⁽⁰⁾(−). And check^∑^|_i=0^A^| f⁽⁰⁾(b_i) = 1

3. SinceP⁽⁰⁾(b0, ..., bL−1) =^∏^L_i=0⁻¹f⁽⁰⁾(bi), compute P⁽⁰⁾(ACGT C)

4. To compare PWM and Null model we use the log likelihood (log-odds ratio)ℓ(b₀, ..., b_L₋₁) = log₂_P^P₍₀₎^(b⁰_(b^,...,b^L⁻¹^|^ω)

0,...,bL−1) =^∑^L_i=0⁻¹log₂_f^ω₍₀₎ⁱ^(b_(bⁱ⁾

i), computeℓ(ACGT C)

5. Can we say that the sequenceACGT C has the motif encoded in ω?

1.7 Determining conserved positions – sequence logo

The sequence logo (see Figure 1.2) will show how well residues are conserved at each aligned position. To compute that, we can use Shannon entropy that measures the uncertainty of each position i, given by: S_i= log₂(q) +^∑_a_∈Aω_i(a)·log₂[ω_i(a)] and the most conserved residue is obtained by:

a^⋆_i = argmax_a∈Aωi(a)

Compute S_i for all positions of alignment of Figure 1.3, where w_i was computed in exercise 4.

(9)

2

Alignement par paires et matrice de substitution

2.1 Alignement global (Needleman & Wunsch)

Soient deux séquences ACHAet CCAD.

1. Remplissez la matrice de programmation dynamique en suivant l’algorithme d’alignement global (Needleman & Wunsch) et le système de score suivant, mismatch = 0, gap = -1, match

= 1.

2. Quel est le score de l’alignement optimal ?

3. Qu’est que se passe si on change le système de score pour match=2, mismatch=-1 et gap=- 2. Donnez tous les alignements possibles et comparer l’alignement optimal avec celui de la question 1.

4. La Figure 2.1 montre le résultat de l’alignement global de deux protéines d’E.coli: lysC et metL. Expliquez les symboles ’|’, ’:’ et ’.’, regardez la Figure 2.4.

2.2 Alignement local (Smith & Waterman)

Soient deux séquences ACHAet CCAD.

1. Remplissez la matrice de programmation dynamique en suivant l’algorithme d’alignement local (Smith & Waterman), utilizez le même systeme de score de la question 2.1.1. Donnez tous les alignements possibles.

2. Quel est le score de l’alignement optimal ? 5

(10)

Figure 2.1: Alignement global des proteines lysC et metL (E.coli)

3. La Figure 2.2 présente le résultat de l’alignement local des deux protéineslysC etmetLde E.coli. Comparer les scores et pourcentage d’identité, similarité et gaps des alignements de la Figure 2.1 et de la Figure 2.2. Que remarquez-vous concernant la longueur de l’alignement ? NB: La protéine metL contient les domaines aspartokinase, homoserine et dehydrogenase, tandis que lysC contient seulement le domaine aspartokinase.

2.3 Pénalités de gaps

1. Donnez deux types possibles de pénalités de gaps.

2. Quelle serait la conséquence d’une pénalité de gap trop élevée ? Trop faible ?

3. Dans l’exemple ci-dessous, calculez le score de l’alignement, quand la pénalité de gap est -5, match=1 et mismatch=0, et quand la pénalité de gap d’ouverture est -5, d’extension est -0.5,

(11)

2.4. MATRICES DE SUBSTITUTION 7

Figure 2.2: Alignement local des proteines lysC et metL (E.coli) match=1 et mismatch=0

R L T S V Q T E L D N P K E M L T L G Q H

R L A S V - - E T D M P - - - - T L R Q H

4. Dans quels cas c’est utile utiliser deux pénalité de gaps : ouverture et extension ?

2.4 Matrices de substitution

Les matrices de substitution des acides aminés sont des matrices qui donnent un score de similarité ou de ressemblance entre deux acides aminés. Ces matrices, S, sont des matrices 20 x 20 (pour les 20 acides aminés standards) qui recensent l’ensemble des scores S(i, j) obtenus lorsqu’on substitue l’acide aminé i à l’acide j dans un alignement. Plus le score S(i, j) est élevé, plus la similarité

(12)

entre les deux acides aminés i et j est importante. Il existe plusieurs matrices, basées sur des principes de construction différents. On peut citer les plus fréquemment utilisées : Les matrices de Dayhoff, appelées PAM (probability of acceptable mutations), basées sur des distances évolutives entre espèces et les matrices de Henikoff, appelées BLOSUM, basées sur le contenu en information des substitutions.

1. Nous allons reconstruire une matrice du type BLOSUM. Pour cela, considerez l’aligment ci-dessous et l’alphabet A={A, B, C}:

0 1 2 3 4

A B C C B

A C A B A

C B C C B

A C B B B

(a) Trouvez les fréquences f_ij^k de chaque pair de résiduij pour chaque colonne k du alignement, où f_ij^k = n_in_j (si i̸= j), f_ij^k⁽ⁿ₂ⁱ⁾ (si i= j) et n_i est le nombre d’observations du residue iou j dans la colonne k.

(b) Trouvez fij =^∑_kf_ij^k, la somme des fréquences de chaque pair de résidu pour toutes les colonnes. Trouvez aussi T = ^∑fij. Vérifiez que T = wⁿ⁽ⁿ₂⁻¹⁾, où w est le nombre de colonnes du alignement et nle nombre de séquences.

(c) Trouvez q_ij la probabilité de la substitution de ivers j, où q_ij = ^f_T^ij.

(d) Trouvez pi la probabilité normalisée d’apparition du résidui, où pi=qii+^∑_j_̸_=i ^q₂^ij. (e) Trouvez S_ij, la valeur (ou score) de substitution du résidu i par le résidu j, où S_ij =

log^q_e^ij

ij, ete_ij =p²_i sii=j, sinon e_ij =p_ip_j+p_jp_i = 2p_ip_j.

2. Donner le score, pourcentage d’identité et de similqrité de l’alignement ci dessous, utilisez la matrice de substitution de la Figure 2.3 et pénalité de gap à -7.

R L T S V Q T E L D N P K E M L T L G Q H

R L A S V - - E T D M P - - - - T L R Q H

3. Que signifie les valeurs négatives et positives dans la matrice Blosum 50 (Figure 2.3).

(13)

2.4. MATRICES DE SUBSTITUTION 9

Figure 2.3: La matrice de substitution BLOSUM50

Figure 2.4: Propriétés des acides-aminés

(14)

(15)

3

BLAST, PSI-BLAST et Alignement multiple

3.1 BLAST

1. Supposons que nous voudrions chercher une séquence dans une base de donnée déjà indexée, dans quel ordre les étapes ci-dessous seront exécutées. Numérotez de 1 à 5 les étapes du algorithme BLAST.

( ) Utilisation d’une matrice de substitution (par exemple BLOSUM) pour calculer le score entre chaque mot de la séquence requête et de tous les mots présents dans la base de données.

( ) Chaque fois qu’un mot du dictionnaire dépasse le seuil (hit), étendre dans les deux direc- tions pour obtenir un High-scoring Segment Pair (HSP).

( ) Construction d’un dictionnaire de mots trouvés dans la séquence requête.

( ) Renvoyer les alignements avec des HSP significatifs.

( ) Sélection des mots avec un score suﬃsant (seuil sur le score des paires de mots).

2. Parmi les paramètres du outil BLAST suivants, lesquels auraient tendance à renvoyer plus de résultats de recherche:

a) Activer le filtre de basse complexité.

b) Changer le filtre de E-value de 1 à 10.

c) Augmenter la valeur du seuil de Bit score.

d) Changer la matrice de score de PAM30 à PAM70.

3. Quand la E-value d’une recherche BLAST devient plus grande:

a) La valeur du Bit score augmente aussi.

b) Le Bit score tend à diminuer.

c) Le pourcentage d’identité augmente aussi.

d) Il a plus de chance que ça soit un vrai positif.

11

(16)

4. L’algorithme BLAST compile une liste de mots, typiquement 3 acides aminés (pour une recherche de protéines). Les mots dont le score est au dessus d’une valeur de seuil T sont définis comme :

a) Des "hits" et sont utilisés pour une recherche dans une base de données de correspondances exactes qui pourraient ensuite être étendus.

b) Des "hits" et sont utilisés pour chercher une base de données pour des correspondances exactes ou partielles qui pourraient être étendues.

c) Des "hits" et sont alignés les uns aux autres.

d) Des "hits" et sont reportés comme des scores basiques.

5. Un gène a été isolé chez E. Coli puis séquencé. On souhaite déterminer quelle est ou quelles sont la ou les proteine codées par ce gène. Quel outil de la suite BLAST utiliser dans cette situation ?

a) Blast n : recherche d’une séquence nucléotidique dans une banque d’ADN b) Blast x : recherche d’une séquence nucléotidique dans une banque de proteines

c) t Blast n : recherche d’une séquence proteique dans une banque d’ADN d) Blast p : recherche d’une séquence proteique dans une banque de proteines.

6. Soit la Figure 3.1 qui montre le résultat graphique de BLAST. Répondez aux questions : a) Quelle est la longueur approximative de la séquence requête ?

b) Combien de séquences BLAST a-t-il retrouvé avec cette recherche ?

c) Pensez-vous que la séquence requete à beaucoup d’homologues ? Justifiez votre réponse.

Figure 3.1: Resultat graphique du BLAST

7. Supposons que nous avons les sequences = {s1’: aghr’, s2’: cgghr’, s3’: cggha’} et w=3, quelle est l’indexation de ces sequences par BLAST ?

8. Montrez comment la séquence s4 = agghv sera alignée par BLAST en utilisant les séquences et la base de donnée indexée de la question précédente. Montrez tous les calculs nécessaires.

Rappel : vous devez étendre l’alignement à gauche et/ou à droite tant que le score est supérieur à un seuil T. Pour calculer le score utilisez la matrice BLOSUM 2.3 et considérez le seuil T

> 18.

(17)

3.2. PSIBLAST 13

3.2 PSIBLAST

1. Numérotez de 1 à 4 les étapes du algorithme PSIBLAST.

( ) Le profil est comparé à la base de données de protéines, recherchant à nouveau des alignements locaux. Après quelques modifications mineures, l’algorithme BLAST peut être utilisé directement pour cela.

( ) Le programme construit un alignement multiple, puis un profil (matrice de poids), à partir de alignements locaux significatifs trouvés. La séquence de requête d’origine sert de modèle pour l’alignement multiple et le profil, dont les longueurs sont identiques à celles de la requête.

( ) PSI-BLAST prend en entrée une seule séquence protéique et la compare à une base de données de protéines, en utilisant le programme BLAST gapped.

( ) PSI-BLAST itère, en revenant à l’étape ( ), un nombre arbitraire de fois ou jusqu’à la convergence.

2. Parmi les afirmations ci-dessous les quelles sont fausse?

a) Avec PSIBLAST est possible chercher une sequence proteique contre une base de donnees de nucleotides.

b) PSIBLAST est pas sensible aux parametre de BLAST.

c) PSIBLAST execute pour n iteration, ou n est defini par l’utilisateur.

d) PSIBLAST n’est pas indique pour la recherche de proteine multi-domains.

3. Soit l’alignement entre les deux sequences S₁ etS₂, calculer son score en utilisant la PSSM (position specific scoring matrix) de la table ci-dessous et de la matrice Blosum de la Figure 2.3. Que remarquez vous?

S1 Q V K L L E S G P E

S₂ k V Q I T E P G - G

A R N D C Q E G H I L K M F P S T W Y V

Q -3 -2 -2 -2 -6 7 4 -4 -2 -6 -5 -1 -3 -6 -4 -3 -3 -5 -4 -5

V 1 -4 -4 -4 -3 -3 -3 -4 -4 4 0 -3 1 -1 -1 0 0 -4 -3 4

K -1 -2 -3 -4 -4 4 -1 -4 -4 -1 -1 -2 -2 -3 -4 1 2 -5 -4 4

L -3 -4 -5 -6 -4 -4 -5 -6 -5 1 4 -5 4 -3 -5 -3 0 -5 -4 4

L -3 -1 -2 -2 -4 4 -2 -5 2 -1 -1 -2 -3 -3 -4 -1 5 -5 -4 2

E -5 -3 -3 0 -7 8 3 -6 -1 -7 -6 -1 -5 -7 -2 -2 -3 -1 -5 -6

S -2 -1 -3 -2 -5 1 -2 -4 -4 -4 -6 -1 -5 -5 4 5 1 -6 -5 -5

G 0 -4 -4 -2 -5 1 0 4 -3 -6 -2 -2 -5 -6 5 -2 -2 -6 -5 -5

P 1 -4 -3 0 -4 -3 -2 1 -2 -2 -3 -2 -4 1 3 4 1 -5 -2 -1

E -1 0 -2 0 -2 2 1 0 -1 0 1 -1 -1 -1 -3 0 0 -4 -1 2

3.3 Alignement Multiple

1. Parmi ces propositions, laquelle ne s’applique pas à l’alignement multiple progressif ?

(18)

a) L’algorithme procède en plusieurs étapes.

b) L’algorithme est une approche heuristique.

c) L’algorithme est praticable à un grand nombre de séquences.

d) L’algorithme retourne l’alignement optimal.

2. A partir de l’alignement multiple nousne pouvons pas:

a) voir les similarités d’un ensemble de séquences.

b) Identifier les domaines/motifs conservés.

c) Comprendre l’évolution d’un ensemble de séquences.

3. Pour eﬀectuer l’alignement multiple progressif de n séquences combien d’alignements par paire sont nécessaires ?

4. Parmi ces propositions, laquellene s’applique pasaux arbres guides utilisés dans l’alignement multiple progressif ?

a) On peut calculer un arbre à partir d’une matrice de distance des alignement par paires.

b) L’arbre sera utilisé comme guide pour déterminer l’ordre d’incorporation des séquences dans l’alignement multiple.

c) L’arbre peut être interprété comme un arbre phylogénétique, car il explique l’histoire évolutive de ses protéines.

5. Pour quoi nous ne pouvons pas utiliser l’algorithme de programmation dynamique (Needleman- Wunsch) pour aligner plusieurs séquences ?

6. A partir du schéma de la Figure 3.2 expliquer les étapes des algorithmes dit d’alignement progressif.

7. Soit les séquences et l’arbre guide de la Figure 3.3, dire dans quelle ordre les sequences ont été alignés.

8. Calculer le score de l’alignement multiple ci-dessous en utilisant la matrice de la Figure 2.3 et coût de gap -5. Rappel : le score de chaque position est la somme de tous les scores obtenus par BLOSUM50, et le score final est la somme des scores de chaque position divisé par la taille de l’alignement.

0 1 2 3 4

A - C P A

A C S P A

C D S - A

A C W P A

(19)

3.3. ALIGNEMENT MULTIPLE 15

Figure 3.2: alignement progressive

Figure 3.3: Séquences et arbre guide

(20)

(21)

4

Chain de Markov

4.1 Propriétés et classification des états

1. Parmi les éléments suivants, quels sont les vecteurs de probabilité ?

a) [1

1 ]

b)



 0.5 0.5 0.5



 c)





 0 0 1 0





 d)





 1/6 1/2 1/3 0





 e)



 1.3

−0.7 0.4





2. Lesquels des éléments suivants sont des matrices stochastiques ? a)

[0.4 0.3 0.6 0.7 ]

b) [1 0

0 1 ]

c)

[0.4 0.6 0.7 0.3 ]

d)





1 0 0

1/2 0 1/2 1/3 1/3 1/3





3. Montrer que dans une chaîne de Markov P(X0, X1, . . . Xn) =P(X0)^∏ⁿ_t₋₁P(Xt|Xt−1) 4. Soit la chaîne de Markov de la Figure 4.1, répondre aux questions suivantes :

a) Si on est dans l’état 3 est-ce qu’on peut arriver au stat 6 ?

b) SiX0= 1 etX3 = 1, combien de trajectoire existes ? Quel(s) probabilité(s) ? c) Est-ce que à partir de l’état 4 on peut arriver au état 5 et vice-versa.

d) Lister tous les couples d’états (i,j) tel que j est accessible à partir de i.

e) Lister tous les couples d’états communicant.

f) la chaîne de Markov de la Figure 4.1 est periodique ? Justifiez votre réponse.

4.2 Matrice de transitions

1. Quelle est la matrice de transition représentant la chaîne de Markov de la Figure 4.2. Sup- posons que les états sont ordonnés avec A avant B.

17

(22)

Figure 4.1: Exemple d’une chaîne de Markov

Figure 4.2: Markov chain graph

2. Soit P la matrice de transition pour une chaîne de Markov à 3 états. Quelle est la probabilité qu’on soit initialement dans l’état 2 et au l’état 3 à l’observation suivante ?

P =





0.3 0 0.7 0.4 0.4 0.2 0.25 0.75 0





3. Supposons qu’Amy saute ou fasse du vélo tous les jours pour faire de l’exercice. Si elle fait du jogging aujourd’hui, demain elle va lancer une pièce de monnaie et faire du jogging si elle atterrit et fait du vélo si elle atterrit en queue. Si elle fait du vélo un jour, elle fera toujours du jogging le jour suivant. Cette situation peut être modélisée comme une chaîne de Markov à 2 états. Prenant "jogging" pour être l’état 1, et "bike ride" pour être l’état 2, quelle est la matrice de transition?

4. Considérons un joueur pour qui les transitions entre les bons jeux et les mauvais jeux peuvent être modélisées comme une chaîne de Markov. Un bon jeu suit un bon jeu avec une probabilité de 0.75, alors qu’un mauvais jeu suit un mauvais match avec une probabilité de 0.80.

a) Quels sont les états de la chaîne de Markov.

b) Trouver la matrice de probabilité de transition de la chaîne de Markov.

c) Si X₆ est un bon jeu. Trouvez la probabilité queX₈ soit un mauvais jeu.

(23)

4.3. VECTEUR D’ÉTAT OU STATIONAIRE 19 5. Soit la Figure 4.3 représentant une chaîne de Markov.

a) Quelle est la matrice de transition?

b) Trouver P(X₂ = 1|X₁= 1, X₀ = 3)

Figure 4.3: chaîne de Markov 3 stats

6. Un système informatique peut fonctionner dans deux modes diﬀérents. Chaque heure, il reste dans le même mode ou passe à un mode diﬀérent selon la matrice de probabilité de transition P =

[

0.4 0.6 0.6 0.4 ]

a) Calculer la matrice de probabilité de transitionPⁿoùn= 2. b) Si le système est en Mode ià 17h, quelle est la probabilité qu’il soit en Mode I à 20h le même jour?

4.3 Vecteur d’état ou stationaire

1. Etant donné le vecteur d’état initial(1,0)et la matrice de transition P=

[

0.13 0.87 0.91 0.09 ]

, trouvez le vecteur d’état correspondant à deux étapes plus tard (n = 2).

2. Soit P =

[0.5 0.5

1 0

]

la matrice de transition d’une chaîne de Markov, parmi les éléments suivants quel est le vecteur stationaire.

a) [

0.5 0.5 ]

b) [

1 0 ]

c) [

0 1 ]

d) [

1/3 2/3 ]

e) [

2/3 1/3 ]

3. Supposons que les transitions entre les bonnes journées au travail et les mauvaises journées au travail puissent être modélisées comme une chaîne de Markov. Une bonne journée suit une autre bonne journée avec une probabilité de 0.7, alors qu’une mauvaise journée suit une autre mauvaise journée avec une probabilité de 0.6.

a) Trouver la matrice de probabilité de transition de la chaîne de Markov.

b) Supposons qu’un travailleur travaille pendant longtemps. Environ quelle proportion de ses jours sera bonne?

4. Un dispositif informatique peut être soit dans un mode occupé (état 1) traitant une tâche, soit dans un mode inactif (état 2), lorsqu’il n’y a aucune tâche à traiter. Étant dans un mode

(24)

occupé, il peut terminer une tâche et entrez un mode inactif n’importe quelle minute avec la probabilité 0.2. Ainsi, avec la probabilité 0.8 il reste une autre minute en mode occupé.

Étant dans un mode inactif, il reçoit une nouvelle tâche à chaque minute avec la probabilité 0.1 et entre dans un mode occupé. Ainsi, il reste une minute dans un mode inactif avec la probabilité 0.9. L’état initial est inactif.

a) Soit π₀ = [

0 1 ]

l’état de l’appareil àn= 0. Trouverπ₂.

b) Trouver π_∗ le vecteur stationaire de la chaîne de Markov. c) Calculer la probabilité de la trajectoire des états: X0 = 1,X1= 2,X2 = 2,X3 = 1,X4= 2

4.4 CpG-islands

Un di-nucléotide CpG, parfois appelé site CpG en référence à l’anglais CpG site, est un segment d’ADN de deux nucléotides dont la séquence de bases nucléiques est CG. La notation ń CpG ż est une abréviation de cytosinephosphateguanine destinée à être clairement distinguée de la notation ń CG ż qui peut également désigner une paire de bases sur deux brins d’ADN distincts et non la séquence d’un brin d’ADN donné. Dans les génomes, les di-nucléotides CpG ont une distribution diﬀérente de celle d’autres di-nucléotides comme GpC, ApT ou TpA, car ils définissent des îlots CpG dans lesquels leur concentration est bien plus élevée et qui jouent un rôle dans la régulation de l’expression génétique.

1. Notre objectif est de mettre en place un modèle probabiliste pour CpG-islands. Parce que les paires de nucléotides consécutifs sont importantes dans ce contexte, nous pouvons utiliser les chaîne de Markov car la probabilité d’un symbole dépend de la probabilité de son prédécesseur.

Soient les séquences S1=ACTCGCGTACG et S2=CCGCATTCGGA repérer dans une site CpG, quelle est la matrice de transition ?

2. Soient les matrices de transitions de la Figure 4.4 et π₀ = [

0.25 0.25 0.25 0.25 ]

, donner la probabilité de la séquence S=ACGTCG.

Figure 4.4: matrices de transitions de CpG-island

(25)

5

Hidden Markov model

5.1 Proprietés générales

Supposons une chaîne de Markov caché (HMM) avec des étatsXt qui ne sont pas observés (valeurs i ∈ S, la probabilité de transition entre un état i ∈ S et un état j ∈ S est pij). On observe un processus Y_t à valeurs sur O avec des probabilités d’émission e_i(a), pour un état i ∈ S et un symbole a∈ O. On suppose aussi que le premier étatX₀ suit une loi P(X₀ =i) =π_i⁽⁰⁾.

Le but est de donner des formules générales pour des HMM, qui nous aident à calculer des vraisemblances et des probabilités a posteriori d’un HMM. Vous pouvez utiliser

- la formule de Bayes: P(A, B) =P(A|B)·P(B),

- les indépendances conditionnelles qui définissent un HMM (ex. propriété de Markov).

1. Donner une formule pour la probabilité d’une séquence (i_t, a_t)_t=0:T (états est symboles con- nus), en utilisant seulement les probabilités π⁽⁰⁾,pete.

2. Montrer qu’on peut décomposer la probabilité que la position t possédé l’état caché X_t= i comme produit de deux probabilités

P(X_t=i, a_o, a₁, ..., a_T) =P(X_t=i, a_o, a₁, ..., a_t)·P(a_t+1, ..., a_T|X_t=i) En suite, en appelle les deux facteurs (variables “forward” et “backward”)

αt(i) =P(Xt=i, ao, a1, ..., at), βt(i) =P(at+1, ..., a_T|Xt=i).

3. Montrer la formule de récurrence pour la variable forward:

α_t(i) =e_i(a_t)^∑

j∈S

α_t₋₁(j)p_ji.

21

(26)

4. Montrer la formule de récurrence pour la variable backward:

β_t(i) =^∑

j∈S

p_ij e_j(a_t+1)β_t+1(j)

5. Montrer que la probabilité a posteriori de trouver des valeurs Xt =i etXt+1 =j est donné par

P(X_t=i, X_t+1=j|a_o, a₁, ..., a_T) = α_t(i)p_ij e_j(a_t+1)β_t+1(j) P(a₀, ..., a_T)

5.2 Aplications

Considérer le HMM de la Figure 5.1 et le vecteur π0 = [

0.5 0.5 ]

pour répondre aux questions.

Pour simplifier nous allons considérer H=high, L=low, R=rain et D=dry

Figure 5.1: Modèle de Markov cachés

1. Calcule la probabilité de la l’observation RR si les séquences d’états sont LH.

2. Calculer les probabilités forward et backward pour l’observation RD

3. Calcule la probabilité de la l’observation DR, ainsi que la séquence d’états cachés plus prob- able.

4. Estimer les probabilités du modèle quand l’observation est RRDRDDRRDR et les états sont HHLHLLHHLL.

(27)

6

Profile Hidden Markov model

6.1 Architectures

Nous voudrions représenter l’alignement de la Figure 6.1 par une chaîne de Markov caché. Pour cela, nous devons choisir une architecture, c’était dire l’organisation des d’états du modèle.

1. Proposer une architecture qui représente dans un premier temps seulement le bloc I, où les colonnes de l’alignement ne possédé pas de gaps.

2. Proposer une architecture qui représente maintenant les deux blocs I et II, où les colonnes de l’alignement ne possède pas de gaps.

3. Proposer une architecture pour représenter toutes les colonnes de l’alignement, nous allons permettre une certaine quantité de gaps dans les blocs conservés, par exemple moins que 20%.

6.2 Forward et Viterbi

1. Donner les formules de récurrence du algorithme forward pour les états Matchαt(M), insert αt(I) et deleteαt(D). Rapellαt(i) =ei(at)^∑_j_∈Sαt−1(j)pji

2. Donner les formules de récurrence du algorithme Viterbi pour les états Match vt(M), insert v_t(I) et delete v_t(D). Rapellv_t(i) =e_i(a_t)max_j_∈S(v_t₋₁(j)p_ji)

6.3 Paramétrés du modèle I

Soit l’alignement multiple de la Figure 6.2, considérer comme état de match les colonnes de l’alignement avec moins de 20% de gaps:

1. Donner les fréquences d’émissions des états match et insert 23

(28)

Figure 6.1: Alignement de hemoglobins 2. Donner les fréquences de transitions entre les états

3. Dessiner l’architecture du modèle.

Figure 6.2: Alignement multiple pour estimation de paramétrés I

6.4 Paramétrés du modèle II

Soit l’alignement multiple de la Figure 6.3, considérer comme état de match les colonnes de l’alignement avec moins de 50% de gaps:

1. Donner les probabilités d’émissions des états match et insert en utilisant un pseudo-count de 1.

(29)

6.4. PARAMÉTRÉS DU MODÈLE II 25 2. Donner les probabilités de transitions des états en utilisant un pseudo-count de 1.

3. En utilisant les paramètres calculés précédemment, calculer la probabilité de la séquence TCGC sur les états M1, M2, M3, M4 et M1, M2, I2, M3, D4.

4. Calculer la séquence consensus de l’alignement de la Figure 6.3 à partir des états de match.

5. Supposons que la séquence CCTCGTTTT soit alignée contre le modèle pHMM. Suggérez un chemin pour cette séquence avec des probabilités plus élevées et plus basses.

Figure 6.3: Alignement multiple pour estimation de paramétrés II

(30)

(31)

7

Évaluation de la performance de

méthodes de détection d’homologie

7.1 Les measures de performance

Considérons le tableau de résultats suivant obtenu par un outil de détection d’homologie sur un ensemble de 18 séquences. Chaque ligne correspond à un identifiant de séquence, l’e-value et la classe (+ si la séquence a été correctement classée, c’est-à-dire que la fonction correcte a été prédite, et - sinon).

Id E-value Class Id E-value Class Id E-value Class

1 1E-25 + 7 3E-9 - 13 2E-3 -

2 1E-20 + 8 5E-8 - 14 6 -

3 1E-18 + 9 8E-7 + 15 9 -

4 1E-15 - 10 3E-6 - 16 0.01 -

5 1E-14 + 11 4E-5 - 17 0.05 -

6 1E-10 - 12 3E-4 - 18 1 -

1. Calculer les mesures: true positives,false positives,false negatives,true positive rate (TPR), false positive rate (TPR), precision,recall and F-score.

2. Tracer la courbe ROC

3. Tracer la courbe Precision-Recall

4. L’aire sous la courbe (AUC) peut être trouvée par la formuleAU C = 1−_n₊^S_n₋, oùn+ est le nombre de true positive et n₋ le nombre de false positive. S est obtenus comme suit : pour chaque + nous comptons combien - se sont produits avant, et nous additionnons toutes les valeurs.

7.2 Les courbes ROC et PR

Étant donnés les courbes de la Figure 7.1, calculer les AUC et comparer les méthodes.

27

(32)

Figure 7.1: ROC curves

7.3 Comparasion des outils

1. Étant donnés les courbes de la Figure 7.2, répondre aux questions suivantes:

a) Quel est l’outil avec la performance la plus faible?

b) Si l’on considère le seuilF P R= 0.1, quelle est la méthode la plus performante?

c) Si l’on considère le seuilF P R= 0.4, quelle est la méthode la plus performante?

d) Quel est l’outil avec la meilleur performance quand T P R= 1 etF P R= 1?

2. Considérons deux outils (C1 et C2) et un ensemble d’échantillons que nous souhaitons classer dans l’une des deux classes: true (0) etfalse (1). Pour chaque échantillon, les outils utilisent un score sur lequel ils se basent pour déterminer la classe de l’échantillon (score plus proche à 0 signifie classe 0, score plus proche à 1 signifie classe 1). Voici les résultats pour 8 échantillons, leur ground truth (GrTr) et les scores de deux outils.

GrT r={1,0,1,1,1,0,0,0}

C1 ={0.5,0.3,0.6,0.22,0.4,0.51,0.2,0.33} C2 ={0.04,0.1,0.68,0.22,0.4,0.11,0.8,0.53}

a) Calculer et dessiner les courbes ROC pour C1 et C2?

b) Calculer l’aire sous la courbe (AUC) pour les deux outils.

c) Quel est le seuil de décision que maximise le F-score pour C1 et C2?

d) En tenant compte des valeurs obtenues, décider quel outil est le meilleur et donner une justification du choix.

(33)

7.3. COMPARASION DES OUTILS 29 3. Nous allons maintenant calculer les courbes ROC pour les combinaisons des outils C1 et C2.

L’outil C1 classifie un échantillon i comme classe 1 si son score xi > τ1 (où τ1 est le seuil trouvé dans la question précédente), sinon il le classifie comme classe 0. La même chose pour C2.

Le premier outil combiné C3 peut être obtenu par l’intersection des décisions de deux outils, C3 = C1∩C2 (C3 classe un échantillon i en classe 1 si les deux outils de base le classent en classe 1). La deuxième combinaison peut être obtenue par l’union des décisions de deux outils C4 = C1∪C2 (C4 classe un échantillon icomme classe 1 si au moins l’un des outils de base le classe comme classe 1). Pour les combinaisons C3 et C4:

a) calculer les mesures: true positive, false positive, false negative, true positive rate, false positive rate, precision, recall and F-score;

b) tracer les courbes ROC;

c) tracer la courbe Precision-Recall.

d) Quelle est la meilleure stratégie de combinaison ?

Figure 7.2: ROC curves

(34)

(35)

8

Détection de motifs

8.1 Conventions et règles IUPAC.

Définir un motif commun à un ensemble de séquences revient à construire le profil le plus représen- tatif des séquences considérées. Le profil peut être défini par une expression régulière écrite selon les conventions symboliques IUPAC (Figures 8.1 and 8.2).

1. Étant donné l’alignement multiple de la Figure 8.3:

a) Donner la séquence consensus (motif) en utilisant le code IUPAC (Figure 8.1).

b) Calculer la table des fréquences, en déduire la matrice des poids-position.

c) Calculer le score de la troisième séquence et de la séquence consensus.

Figure 8.1: Conventions symboliques IUPAC Figure 8.2: Règles IUPAC

2. Étant donné le motif protéique de la Figure 8.4 en utilisant les règles de la Figure 8.2, répondre les questions suivantes:

31

(36)

Figure 8.3: Alignement multiple a) Quelle est la taille de ce motif?

b) Interpréter les diﬀérentes positions de ce profil protéique et donner une séquence qui le contient.

Figure 8.4: Motif protéique

3. Étant donné l’alignement multiple de la Figure 8.5, donner la séquence consensus ou motif en utilisant le code IUPAC de la Figure 8.2 .

Figure 8.5: Alignement multiple 2

8.2 Représentation de motifs en utilisant les logos

1. Étant donnée la Figure 8.6, répondre les questions suivantes : a) Quels sont les motifs et où ils se trouvent?

b) Donner leurs représentation en utilisant la Figure 8.1.

c) Donner leurs représentation en utilisant la Figure 8.2.

(37)

8.3. EXPECTATION-MAXIMIZATION. 33

Figure 8.6: Motif logo

Figure 8.7: Acide aminé logo d) Ces motifs sont indépendants? Ou vous trouvez une relation entre eux? Expliquez.

2. Étant donnés les logos de la Figure 8.7, répondez aux questions suivantes:

a) Donner la séquence consensus ou motif et la représentation selon le code IUPAC de la Figure 8.2

b) Donner la représentation de chaque motif en utilisant les quantificateurs d’expressions régulières (Figure 8.8).

8.3 Expectation-Maximization.

1. Considérez w= 3 et le modèle de motifp^(t) de la Figure 8.9

a) En utilisant p^(t), quelle est la probabilité de trouver le motif à partir de la deuxième position deX₄ =ACAGTC

b) Calculer les nouveaux valeurs deZ^t pour X₄ et les normalisez.

c) Considérez toutes les séquences X1 , X2 , X3 et X4 , et leurs Z^t. Trouvez le modèle p^(t+1)

(38)

Figure 8.8: Expressions régulières

Figure 8.9: Expectation-Maximization

MU4IN701 - Statistiques en bioinformatique et algorithmes sur les séquences