• Aucun résultat trouvé

C HAPITRE 2 Exploration des

2.3 Notions de similarité et fonctions de score entre plusieurs mots

Définir une mesure de similarité entre plusieurs mots est une tâche plus ardue que de mesurer une similarité entre seulement deux mots. En effet, il est nécessaire de proposer préalablement une repré- sentation d’un ensemble de mots. Cette représentation doit permettre l’interprétation de la mesure de

la similarité. Dans le contexte de l’analyse de séquences biologiques, une représentation fréquemment rencontrée consiste à aligner les mots sur une grille à deux dimensions, ou chaque ligne correspond à un mot et chaque colonne à une position d’au moins un mot. Les mots sont alors dits alignés. Toutefois, dans le contexte plus spécifique de l’analyse de séquences primaire d’ADN, il est possible de contraindre la représentation, en fixant que chaque colonne correspond à une position dans tous les mots. Cette condition, bien qu’assez restrictive, n’est pas déraisonnable. En effet, du point de vue biologique, les substitutions ont une fréquence d’apparition très supérieure à celles cumulées des insertions et des sup- pressions (cf. Section 1.2.1 – page 16). Les mots sont alors dits alignés sans trous (cf. Figure 2.1). Cela présuppose également que tous les mots soient de la même longueur.

a c g a t c g a c g a c g a t a g c t a c g a g g g a g c a c g c t a g g a t c g a c t a g c t a g c a g c a c t a g c a g c t a g c a t c g a

Figure 2.1 – Alignement sans trou d’un ensemble de mots.

2.3.1 Quelques fonctions basées sur la mesure de l’entropie

La mesure de l’entropie a été initialement élaborée par SHANNONen [121] dans le cadre du traitement du signal (cf. Section 2.2.1 – page 25). Cette mesure correspond à la différence entre la quantité d’information nécessaire a priori (cf. Équation 2.4 – page 28) pour coder chaque symbole d’une séquence à une position donnée et la quantité d’information nécessaire à ce même codage a posteriori pour cette même position (cf. Équation 2.7 – page 28). Ainsi, cette mesure est calculée sur la base des probabilités d’obtenir chaque symbole de Σ à la position i ainsi que sur leurs fréquences à cette même position

a posteriori dans les séquences d’un ensembleS (resp. piα, fi(α), α∈ Σ). La mesure de l’entropie à la

positioni est définie (cf. Équation 2.8 – page 28) par R(i) = X α∈Σ fi(α) log2piα− P α∈Σlog2piα |Σ| .

Il est possible de donner une approximation de cette formule (cf. Équation 2.9 – page 29).

Cette mesure peut être utilisée afin d’associer un score à un alignement local sans trous, par exemple en sommant l’entropie engendrée à chaque position i de cet alignement (i.e., PiR(i)). Cette mesure a été utilisée dans PRATT [18, 71] (cf. Section 2.5.2 – page 38). Il été montré que ce score suivait une loi Gamma G(n, λ), où les paramètres n et λ dépendent essentiellement des probabilités d’apparition des symboles de l’alphabet (quelques exemples de la distribution en fonction des paramètren et λ sont donnés à l’annexe E.2).

Plusieurs variantes peuvent être développées, par exemple en considérant la moyenne (arithmétique, géométrique, harmonique, quadratiques, . . . ) de l’entropie sur l’ensemble des positions. Dans le contexte de la comparaison d’alignements sans trous de longueur variables – ce qui est le cas dans le contexte de cette étude – ces variantes ont pour effet d’atténuer le biais induit par la longueur des alignements, ce qui n’est pas nécessairement opportun. En effet, si deux alignements de longueurs différentes sont

considérés égaux par l’utilisation d’une moyenne, il peut s’avérer préférable de considérer de prime abord l’alignement le plus grand.

L’utilisation de la mesure de l’entropie pour chaque position dans un alignement de plusieurs mots donné permet de surcroît d’induire une relation d’ordre entre les symboles de l’alphabet (pour chacune des positions). Cette mesure permet alors de déterminer un motif consensuel (qui se veut le plus repré- sentatif, eu égard à la fonction de score utilisée) de l’alignement, voire même d’utiliser le contenu d’in- formation en vue de l’élaboration d’un «Sequence Logo » (cf. Équation – page 29). Nonobstant l’usage d’autres fonctions de score, l’usage de «Sequence Logo » demeure pleinement justifié pour représenter de tels consensus.

2.3.2 Utilisation de matrices de similarité

Permettre l’usage des matrices de similarité est important (cf. Section 2.2.2 – page 31). En effet, elles sont le reflet d’une réalité biologique. Les possibilités de scores offertes par ces matrices sont nom- breuses. De la même façon que pour la mesure de l’entropie, il est possible de sommer ou de déterminer un coût moyen par position dans un alignement, et de calculer, à partir des valeurs obtenues pour chaque position, une somme, un produit, une moyenne, . . .

2.3.3 Mesures composites

Une des manières de calculer un score global à l’ensemble des mots de l’alignement est d’opérer un calcul (moyenne, somme, produit, minimum, . . . ) sur les scores des mots pris deux à deux. Si la collection de mots est alignée sur un modèle consensuel, alors il est probablement plus judicieux de considérer les scores de chaque mot par rapport au modèle (cette méthode peut également être utilisée pour construire un modèle consensuel, permettant de maximiser/minimiser le score global). La figure 2.2 illustre la différence entre ces deux approches. La partie gauche de la figure (en étoile) représente le calcul d’un score par rapport à un modèle consensuel (en gris clair), tandis que la partie droite correspond au calcul d’un score entre les motifs pris deux à deux. Les boîtes grises correspondent aux motifs et un trait entre deux boîtes signifie que les deux motifs représentés sont similaires. Dans le cas de l’approche en étoile, le motif central (en gris clair) n’appartient pas nécessairement à la collection de motifs.

De même que dans le cadre de la mesure de la similarité de deux mots, il est possible d’utiliser un score seuil afin de déterminer si les mots d’un ensemble sont (globalement) similaires. Il n’y a pas nécessairement d’implication forte entre la similarité globale d’un ensemble de mots et la similarité des mots pris deux à deux (similarité locale). Dans le cas de l’approche en étoile par exemple, plusieurs mots considérés comme globalement similaires peuvent tout à fait n’être pas similaires deux à deux.