La P valeur associée à un score ς se lit comme « la probabilité qu’un score au moins égal à ς soit le fruit du hasard ».

Stati S TARS

Remarque 4.24. La P valeur associée à un score ς se lit comme « la probabilité qu’un score au moins égal à ς soit le fruit du hasard ».

4.3.2 Intégration des propriétés statistiques

La première idée qu’il est naturel de mettre en œuvre est d’utiliser leZ-score en lieu et place du score deux à deux dansSTARS_{. Les tests réalisés n’ont eu d’impact notoire ni sur la qualité des résultats, ni sur}

le temps d’exécution. Ceci s’explique principalement par le fait que globalement, la relation d’ordre entre les solutions candidates ne s’en trouve pas (ou peu) modifiée (d’après les expérimentations). Les motifs consensuels (i.e., modèles construits à partir de chaque solution pour les représenter) proposés

par cette variante sont souvent un peu plus petits (d’un ou deux symboles), ce qui a comme incidence d’augmenter légèrement (moins de 0,5%) la sensibilité moyenne, et de baisser tout aussi légèrement la valeur prédictive positive moyenne sur les séquences générées aléatoirement (cf. Section 3.4 – page 73). À défaut d’améliorer la qualité des résultats, une seconde variante a été testée, visant à diminuer le temps de calcul. Afin de réaliser une économie de temps, la stratégie mise en place a consisté à diminuer l’espace de recherche en intégrant comme paramètre d’entrée une erreur de première espèce α, et en ne conservant que les paires candidates dont le score avait une P -valeur au plus égale à α. Les tests réalisés en fixantα = 5% sont identiques en qualité à ceux de la première variante présentée ci- avant. Le gain en temps d’exécution n’est pas non plus significatif (environ2% de gain de temps sur les séquences biologiques). En fixant l’erreur de première espèce plus petite, le gain de temps augmente peu, en revanche, la qualité des résultats en est très vite affectée.

STARS _{n’étant pas initialement conçu pour tenir compte d’une information sur la distribution des}

fonctions, il semble évident (au vu des résultats obtenus par ces adaptations) que le principe même de l’algorithme doit être complètement repensé. C’est pourquoiStatiSTARSn’est pas une version améliorée deSTARS_{, mais bien une nouvelle méthode, offrant notamment la possibilité d’intégrer une contrainte de}

quorum.

Toutefois, dans la mesure où les résultats du premier algorithme sont tout de même très satisfai- sants, plusieurs concepts de l’algorithme initial se retrouvent dans cette nouvelle méthode. Le cahier des charges établi pour le premier algorithme demeure le même (cf. Section 2.5.3 – page 42), à savoir une utilisation et une paramétrisation simple et intuitive, ainsi qu’une grande modularité dans le type de motifs à extraire.

Avant de détailler cette nouvelle méthode, il est nécessaire de succinctement rappeler le fonction- nement de STARS_{, et de mettre en exergue les implications dues à la méconnaissance des propriétés}

statistiques des fonctions de score qu’il utilise.

STARS_{est un algorithme probabiliste. Ceci est en grande partie dû au peu d’informations fournies par}

le score. En effet, le score ne permet dans cette méthode que de comparer les solutions entre elles au fil du déroulement de l’algorithme. La notion de score élevé ou faible n’apparaît alors qu’au fur et à mesure de l’exécution, d’où la nécessité d’effectuer plusieurs cycles afin de décider de l’importance d’un score donné. Comme le nombre de cycles qu’il est possible de réaliser est exponentiel, seul un sous-ensemble (choisi au hasard) de ces cycles est réellement effectué, conférant ainsi le caractère probabiliste deSTARS_.

Le fait de disposer d’informations statistiques comme la moyenne et la variance sur les fonctionsBlock- Based permet de ne pas avoir à effectuer un grand nombre de cycles pour déterminer si le score est élevé ou pas. Donc cela apporte clairement un gain au niveau du temps d’exécution. De plus, l’apport des propriétés statistiques des fonctions de score rend l’algorithme non plus probabiliste, mais déterministe. Toutefois, une partie importante des concepts présents dans cette méthode sont repris dansStatiSTARS_,

et il apparaît judicieux de s’appuyer sur l’algorithme deSTARS_{(cf. Algorithme 4.1 – page ci-contre) afin}

de la présenter.

L’approche deSTARS_{consiste à considérer à tour de rôle chaque séquence comme étant une séquence}

de référence, supposée contenir toutes les solutions à extraire. Cette approche permet de considérer tous les motifs de la séquence de référence comme des modèles externes dont les occurrences sur les autres séquences sont recherchées. Cette solution (discutée à la section 3.3.1 – page 58) présente plusieurs avantages. Principalement, cela permet de définir un modèle consensuel représentatif d’une collection de motifs et de diminuer la complexité liée au calcul d’un score global à partir des scores deux à deux entre

1 Nom : STARS 2 E n t r é e s : S = {s₁, . . . , s_t} % Ensemble d e s s é q u e n c e s à t r a i t e r . % 3 Σ,C(Σ) % A l p h a b e t e t c o u v e r t u r e de l ’ a l p h a b e t u t i l i s é . % 4 p % Nombre de r é s u l t a t s à r e n v o y e r . % 5 f : Σ∗× Σ∗→ R % F o n c t i o n de s c o r e . % 6 S o r t i e : Sol % Ensemble d e s r é s u l t a t s . % 7 V a r i a b l e s : OldSol % Ensemble d e s r é s u l t a t s a v a n t l e d e r n i e r c y c l e . % 8 ` % Numéro de l a s é q u e n c e de r é f é r e n c e % 9 k % i n d i c e de l a s é q u e n c e en c o u r s de t r a i t e m e n t % 10 π % P e r m u t a t i o n s u r S ( s0i = sπi) . % 11 nb_cycles % Compteur de c y c l e s . % 12 T Stock % V e c t e u r de t a i l l e t pour l e pré−t r a i t e m e n t d e s s é q u e n c e s . % 13 T Shared % V e c t e u r de t a i l l e 2 n− 1 pour l e s d é c a l a g e s e n t r e 2 s é q u e n c e s . % 14 T Cand % M a t r i c e C a r r é e de t a i l l e t pour l e t r a i t e m e n t de T Shared . %

15 Début 16 % Pré−t r a i t e m e n t d e s s é q u e n c e s . % 17 Pour ` de 1 à t F a i r e 18 T Stock[`]← Créer_Tableau_Stockage(s_`) . % A l g o r i t h m e 3.3 , p . 64 % 19 Fin Pour 20 21 Pour ` de 1 à t F a i r e 22 Pour k de 1 à t F a i r e 23 S i `6= k Alors

24 T Shared← Créer_Tableau_Correspondances(s`, T Stock[k]) . % A l g o r i t h m e 3.4 , p . 65 %

25 T Cand[`, k]← Créer_Tableau_Candidats(T Shared) . % A l g o r i t h m e 3.5 , p . 66 %

26 Fin S i 27 Fin Pour 28 Fin Pour 29 30 % P r o c e s s u s d ’ e x t r a c t i o n . % 31 Sol← ∅ , OldSol ← ∅ . 32 `← 0 , nb_cycles ← 0 . 33 R é p é t e r 34 % C h o i x de l a s é q u e n c e de r é f é r e n c e , p u i s de l a p e r m u t a t i o n . % 35 `← (` mod t) + 1 . 36 C h o i s i r une p e r m u t a t i o n π de S t e l l e que s0₁= s_`. 37 % C a l c u l de l a s o l u t i o n p o u r c e t t e p e r m u t a t i o n . % 38 Sol← Sol ∪STARS-χ(S, π, p, f) . % A l g o r i t h m e 3.2 , p . 63 %

39 T r i e r Sol p a r s c o r e s & e t ne c o n s e r v e r que l e s p m e i l l e u r s r é s u l t a t s . 40 % M i s e à j o u r du nombre de c y c l e s e x e m p t s de m o d i f i c a t i o n . %

41 S i Sol6= OldSol Alors 42 nb_cycles← 0 .

43 S i n o n

44 nb_cycles← nb_cycles + 1 .

45 Fin S i

46 Tant Que (nb_cycles < t2)

47 A f f i c h e r e t R e t o u r n e r Sol . 48 Fin

Algorithme 4.1 – Algorithme d’extraction de motifsSTARS_.

un motif consensuel et ses occurrences (cf. Section 3.2.2 – page 49). Cette approche est donc reprise dansStatiSTARS_{. Aussi, la phase de pré-traitement des séquences, permettant d’optimiser l’extraction}

des solutions candidates (cf. Section 3.3.3 – page 62), est-elle conservée (lignes 17 à 28). Il en est de même pour la notion de similarité utilisée, à savoir lae-similarité (cf. Section 3.2.1 – page 46), dont les propriétés permettent d’une part le pré-traitement des séquences, et d’autre part l’usage de toutes les fonctions proposées à la section 3.2.2 – page 49. Celles-ci permettent d’évaluer le degré de similarité (et notamment via les fonctionsBlock-Based ) entre deux motifs donnés. L’idée étant de fonder la méthode sur les propriétés statistiques des fonctions, seules les fonctions dont lesP -valeurs (cf. Définition 4.22 – page 111) sont calculables sont considérées. Le calcul du score global d’une collection de motif dans la première méthode utilise les scores deux à deux entre le modèle consensuel (présent sur la séquence de référence) et ses occurrences sur les autres séquences. Cette approche en étoile (cf. Figure 2.2) est éga- lement reprise ici. Toutefois, dansSTARS_{, chaque séquence est considérée comme séquence de référence}

:::::::::plusieurs fois, et ceci de manière cyclique (i.e., tous lest cycles, t étant le nombre de séquences en en-

trée). Les séquences pré-traitées (le traitement dépendant de la séquence de référence) sont donc stockées dans une matriceT Cand telle que T Cand[`, k] représente l’ensemble des motifs e-similaires maximaux (cf. Définition 3.14 – page 56) entre la séquence de références`et la séquenceskpour tous les décalages (cf. Définition 3.10 – page 54) entre ces deux séquences. Ici, chaque séquence n’étant considérée qu’une seule fois comme référence, il n’est pas besoin de conserver les tablesT Cand[`, k], mais seulement la table pour la séquence de référence en cours. Le traitement doit alors être effectué entre les lignes 27 et 28 de l’algorithme 4.1 – page précédente. Ces modifications sont reportées sur l’algorithme 4.2 – page ci-contre.

Les propriétés statistiques utilisées parStatiSTARS_{pour l’extraction des collections de motifs solu-}

tions du problème EM_q (cf. ligne 29 – page suivante) sont donc essentiellement les notions deZ-score et deP -valeur. La première différence fondamentale introduite par rapport àSTARS_{concerne la relation}

d’ordre entre les paires de motifs similaires. En effet, celle-ci n’est plus basée sur les valeurs des scores calculés, mais sur leursZ-scores, et plus précisément sur leurs P -valeurs. Ce changement a pour consé- quence immédiate que seules les paires de motifs candidates dont la mesure de similarité est significative (i.e., ceux dont laP -valeur traduit un score exceptionnel6_{) sont conservés dans l’espace des solutions. La} notion d’exceptionnel est définie par l’erreur de première espèce maximale autorisée (cf. Définition 4.23 – page 111). En effet, tout score ς, donné par une fonction de score suivant une loi_{N (µ, σ), dont la} P -valeur est inférieure ou égale à une erreur α donnée est tel que ς− µ

σ2 ≥ Uα.

Par conséquent, seules les paires de motifs ayant unZ-score supérieur à un seuil Uαsont traitées dans conservées dans les tablesT Cand[k]. Le seuil Uαest – par définition – tel que Prob[x≤ Uα] = 1− α et peut être approché en temps constant (à partir de la table E.1 – page 213).

Concernant le cas plus particulier des fonctions Block-Based dont les composantes sont d’ordre polynomial, afin de calculer E[Sn] et Var[Sn] pour une paire candidate de longueur n, il faudrait, en toute rigueur, effectuer le calcul des probabilitésp1etp0 pour la paire en question. Cela peut se faire en temps linéaire par rapport àn, ce qui ne change donc pas la complexité liée au calcul du score (comme pourSTARS_{, il est supposé que le calcul du score d’un couple de mots est linéaire en temps sur la taille}

des mots). Néanmoins, cela alourdit l’algorithme et le gain d’information n’est pas significatif.

Afin d’alléger les calculs, les probabilités p1 etp0 considérées sont respectivement les probabilités que deux symboles pris au hasard dans l’ensemble des séquences de_{S soient en « correspondance » ou}

1 Nom : StatiSTARS

2 E n t r é e s : S = {s1, . . . , st} % Ensemble d e s s é q u e n c e s à t r a i t e r . % 3 Σ,C(Σ) % A l p h a b e t e t c o u v e r t u r e de l ’ a l p h a b e t u t i l i s é . % 4 p % Nombre de r é s u l t a t s à r e n v o y e r . % 5 fn: Σ∗× Σ∗→ R % F o n c t i o n de s c o r e d i s t r i b u é e normalement s e l o n N (µn, σn) . % 6 α % E r r e u r de p r e m i è r e e s p è c e . % 7 q % C o n t r a i n t e de quorum 0≤ q ≤ 100 . % 8 S o r t i e : Sol % Ensemble d e s r é s u l t a t s . % 9 V a r i a b l e s : ` % Numéro de l a s é q u e n c e de r é f é r e n c e % 10 k % i n d i c e de l a s é q u e n c e en c o u r s de t r a i t e m e n t % 11 T Stock % V e c t e u r de t a i l l e t pour l e pré−t r a i t e m e n t d e s s é q u e n c e s . % 12 T Shared % V e c t e u r de t a i l l e 2 n− 1 pour l e s d é c a l a g e s e n t r e 2 s é q u e n c e s . % 13 T Cand % V e c t e u r de t a i l l e 2 n− 1 pour l e t r a i t e m e n t de T Shared . %

14 Début 15 % Pré−t r a i t e m e n t d e s s é q u e n c e s . % 16 Pour ` de 1 à t F a i r e 17 T Stock[`]← Créer_Tableau_Stockage(s`) . % A l g o r i t h m e 3.3 , p . 64 % 18 Fin Pour 19 20 Sol← 0 21 Pour ` de 1 à t F a i r e 22 Pour k de 1 à t F a i r e 23 S i `6= k Alors

24 T Shared← Créer_Tableau_Correspondances(s`, T Stock[k]) . % A l g o r i t h m e 3.4 , p . 65 %

25 T Cand[k]← Créer_Tableau_Candidats(T Shared) . % A l g o r i t h m e 3.5 , p . 66 %

26 Fin S i

27 Fin Pour

28 % P r o c e s s u s d ’ e x t r a c t i o n . %

29 Sol← Sol ∪ { S o l u t i o n s pour l a s é q u e n c e de r é f é r e n c e s_`.}

30 Fin Pour

31 T r i e r Sol p a r s c o r e s & e t ne c o n s e r v e r que l e s p p r e m i e r s é l é m e n t s . 32 A f f i c h e r e t R e t o u r n e r Sol .

33 Fin

Algorithme 4.2 – Ébauche de l’algorithme d’extraction de motifsStatiSTARS.

bien au contraire en « non correspondance ». La probabilitép1 est alors la moyenne des probabilités de « correspondances » entre toutes les paires distinctes de séquences.

p1:= 2 t (t− 1) t X i=1 t X j=i+1 X α∈Σ p(i)_α p(j)_α , p0 := 1− p0,

oùp(k)α représente la probabilité d’apparition du symboleα dans la séquence sk.

probabilité d’apparition du symboleα est pα. La valeurp1est alors sensiblement égale à p1 ' 2 t (t− 1) t X i=1 t X j=i+1 X α∈Σ p2_α, ' 2 t (t− 1) t X i=1 (t_{− i)} X α∈Σ p2_α, ' 2 t (t− 1) t2−t (t− 1) 2 X α∈Σ p2_α, 'X α∈Σ p2_α.

4.3.3 Extraction des solutions

L’intégration d’une contrainte de quorumq implique que pour un motif de la séquence de référence s` ayant une occurrence dans au moins dq te séquences, il faut tenir compte du fait qu’il existe peut- être des séquences dans lesquelles ce motif n’a pas d’occurrence. Bien qu’élémentaire, cette remarque est capitale. En effet, à chaque cycle,STARS_{présuppose qu’il existe une solution (i.e.,, un motif de la}

séquence de référence ayant au moins une occurrence dans chaque autre séquence). De plus, l’ordre de traitement des séquences a une influence nécessitant d’effectuer de nombreux essais (cf. Section 3.3.4 – page 67). Essayer d’intégrer une contrainte de quorum dans de telles conditions équivaudrait alors à lancer l’algorithme sur tous les sous-ensemble d’au moinsdq te séquences de S. Il apparaît clairement qu’il est préférable

1. que l’ordre de traitement des séquences n’ait pas ou peu d’influence ;

2. de ne pas présupposer de la présence d’au moins une occurrence des motifs dans chaque séquence. L’approche choisie consiste à ne pas effectuer de comparaisons sur les motifs, mais sur les positions de chaque symbole des motifs. En effet, siw1etw2sont deux motifs distincts des`, avecw1 w2, et tels quew1 ait une occurrence sur une séquencesk1 (k1 6= `) et que w2 ait une occurrence sur une séquence sk2 (k2 6= `), alors il est préférable de considérer différemment les positions de w1qui ne sont pas dans w2, les positions dew2qui ne sont pas dansw1, et les positions communes àw1etw2. C’est pourquoi, à chaque position de la séquence de référence est associée la liste des motifs maximaux contenant cette position, et cela pour chaque alignement avec chaque autre séquence de l’ensembleS. Cette information permet de déterminer, pour une position donnée, et par un simple comptage, le nombre de séquences ayant une occurrence d’un motif incluant ladite position.

À chaque position i de la séquence de référence s` est donc associée un vecteur Ti de taille t (où t = |S|) ainsi qu’un compteur τi. Ainsi, pour chaque séquence sk 6= s`,Ti[k] est la liste des triplets ([a; b], z, δ), tels que [a; b] _{∈ T Cand}s`[k][δ], et tel que le Z-score z de S(s`[a..b], sk[a + δ..b + δ]) est

supérieur au seuilUα; le compteurτicorrespond au nombre de listes non vides deTi(pour des raisons algorithmiques, la liste correspondant au cassk = s`contient un seul élément :([1..|s`|], z, 0), où z est leZ-score de S(s`, s`)). Une condition nécessaire pour qu’un motif de s` ait une occurrence dans au moinsdq te séquences de S est que :

Dans le document Extraction de Motifs Communs dans un Ensemble de Séquences.<br />Application à l'identification de sites de liaison aux protéines dans les séquences primaires d'ADN. (Page 126-131)