Recherche de patterns pr´esentant des occurrences avec erreurs

3.2 D´ecouverte de patterns

3.2.5 Recherche de patterns pr´esentant des occurrences avec erreurs

recherchent un pattern d’une longueur l donnée et défini sur Σ uniquement, pattern qui a un nombre minimum d’occurrences dans S avec exactement k ou au plus k erreurs. La particularité de ce type de problème est que le pattern recherché n’a pas forcément d’oc-currences exactes dans S mais un ensemble d’occurrences approchées, qui peuvent être très différentes les unes des autres lorsqu’on les compare deux à deux.

Cette problématique s’est considérablement développée à la suite du lancement d’un problème challenge (Pevzner and Sze, 2000), lequel est décrit et commenté en détail dans la Section 5.2. Prenons en exemple le paramétrage de base du problème challenge : on commence par générer aléatoirement T = 20 séquences sur un alphabet de cardinalK = 4 (ADN) de longueur 600. On génère ensuite un pattern de longueur l = 15 (sur l’alpha-bet Σ) que l’on insère exactement une fois par séquence, mais en effectuant à chaque insertion d = 4 substitutions aléatoires. Deux insertions peuvent donc avoir jusqu’à huit symboles différents. Énumérer tous les patterns de longueur 15 et vérifier s’ils ont une occurrence par séquence avec quatre erreurs n’est clairement pas réalisable en un temps raisonnable. Un certain nombre d’algorithmes traitant cette problématique existent, dont la plupart sont dédiés au challenge. Citons notamment WINNOVER (Pevzner and Sze, 2000), PROJECTION (Buhler and Tompa, 2001; Buhler and Tompa, 2002), en particulier PatternBranching (Price et al., 2003), Multiprofiler (Keich and Pevzner, 2002), et SMILE (Marsan and Sagot, 2000; Marsan, 2002). Il faut préciser que SMILE n’est pas dédié au challenge, mais présente des fonctionnalités plus générales. Il peut trouver un pattern à une distance de Hamming d’au plusdde ses occurrences, et peut en fonction du choix de

l’uti-3.2. D ÉCOUVERTE DE PATTERNS 35 lisateur autoriser une ou plusieurs régions variables dans le pattern. Il permet également de rechercher des patterns sur un alphabet étendu.

WINNOVER propose de travailler directement à partir des facteurs deS de longueur 15. Cette approche construit un graphe où chaque noeud est un facteur de longueur 15 et tous les facteurs sont représentés. Deux noeuds sont reliés par un arc s’ils n’appartiennent pas à la même séquence et s’ils ont un nombre de symboles différents plus petit ou égal à 2d. Un grapheT−parti¹ (T = 20) est ainsi obtenu dans lequel les 20 occurrences du signal forment une clique de taille 20. La recherche de cliques dans un graphe est un problème NP-difficile. Le fonctionnement de Winnover est basé sur l’idée de réduire la taille du graphe en supprimant les noeuds dont on est sûr qu’ils n’appartiennent pas à une grande clique. Le programme utilise pour cela la notion de clique augmentable. Un noeud u est voisin de la clique C={v₁, v₂, . . . , vk} si{v₁, v₂, . . . , vk, u}forme également une clique, et une clique est dite augmentable si elle a au moins un voisin dans chacune des T parties du graphe. Le principe de réduction du graphe est basé sur l’observation que tous les arcs d’une clique maximale de taille T font également partie d’au moins

T−2 k−2

cliques aug-mentables de taille k. Le programme retire alors tous les arcs qui appartiennent `a moins de

T−2 k−2

cliques. Le procédé est itéré jusqu’à l’obtention d’une petite collection de cliques augmentables dans lesquelles la clique maximale de tailleT aura une chance d’être trouvée en un temps raisonnable.

L’algorithme PROJECTION est une approche probabiliste, dont l’idée principale con-siste à utiliser des fonctions de hachage. Le principe concon-siste à transformer un mot de longueurlen un autre mot de longueurd formé par la concaténation des symboles choisis dans d positions parmi l. Une fonction donnée résulte du choix aléatoire des d positions qui sont concaténées. Tous les facteurs de S de longueurl sont transformés par une fonc-tion de hachage donnée. Si cette foncfonc-tion produit un mot plus souvent que les autres, il y a de bonne chance qu’il soit issu d’une partie non négligeable des occurrences du mot inséré.

L’algorithme PatternBranching consiste en un grimpeur strict sur le voisinage de Ham-ming. Cet algorithme est le plus efficace pour résoudre le problème challenge, même sur des instances plus difficiles du problème. L’espace de recherche correspond à tous les mots de longueur l. Le grimpeur cherche à minimiser une fonction objectif corres-pondant à une somme de distances de Hamming minimales. Soit A un mot de lon-gueur l et soit H(A, P) la distance de Hamming entre A et P, un facteur de S. Soit

soit la somme des distances de Hamming minimales pour chaque séquence entreA et tous les facteurs d’une séquence. Le grimpeur est lancé sur tous les facteurs de S et cela suffit généralement à identifier les occurrences du motif inséré.

Il faut noter que d’une fa¸con générale, ce type de modèle n’est pas très significa-tif du point de vue biologique. En effet, ce modèle suppose que les substitutions sont

1Un grapheT-parti est ´egalement appel´eT−colorable.

équiprobables pour toutes les positions. De plus dans le cas le plus contraint (chercher un mot qui a une occurrence par séquence avec exactement d erreurs), il suppose que toutes les occurrences du motif biologique recherché ont subit le même nombre de substitutions

à partir d’un ancêtre commun, ce qui n’est que très rarement le cas dans la pratique.

Si l’on autorise au plus d erreurs, les occurrences d’un motif auront une chance d’être retrouvées pour autant que d soit petit par rapport à l. Dans le cas contraire, il est fort probable que ce type de modèle identifie un grand nombre d’occurrences, parmi lesquelles les occurrences réelles du motif ne seront pas discernables des occurrences non significa-tives.

3.3 Les alignements deux ` a deux par programmation dy-namique

La publication décrivant l’algorithme de Needleman et Wunsch de programmation dynamique pour l’alignement de deux séquences (Needleman and Wunsch, 1970) est cer-tainement l’une des les plus connues en bioinformatique. Cet algorithme permet d’effectuer un alignement global entre deux séquences de longueurnetmde fa¸con optimale avec une complexité spatiale et temporelle de O(nm). Il existe plusieurs variantes, toutes basées sur la programmation dynamique (Gotoh, 1982; Smith and Waterman, 1981). Nous ne présenterons ici que l’algorithme de Needleman and Wunsh pour l’alignement global. Le lecteur intéressé pourra se référer au deuxième chapitre de (Durbin et al., 1998) dans le-quel plusieurs de ces algorithmes sont décrits en détail.

Les algorithmes d’alignement de séquences par programmation dynamique sont inten-sivement utilisés en bioinformatique. Il sont de plus à la base de la majeure partie des programmes d’alignement multiples. L’alignement de deux séquences consiste à mettre en relation les similarités qu’elles peuvent présenter. Afin d’illustrer la nature d’un ali-gnement, prenons un exemple d’alignement global entre deux protéines homologues de serpents : une neurotoxine du Bongare rayé (Bungarus multicinctus, NXLH5 BUNMU) et une cardiotoxine du Cobra cracheur (Naja sputatrix, CTX1 NAJSP) :

CTX1 NAJSP MKTLLLTLVVVTIVCLDLGYTLKCNKLVPLFY---KTCPAGKNLCYKIF NXLH5 BUNMU METLLLTLVVVTIVCLDLGYTMQCKTC--SFYTCPNSETCPDGKNICVKRS CTX1 NAJSP

MVAT----PKVPVKRGCIDVCPKSSLLVKYVCCNTDRCN-NXLH5 BUNMU WTAVRGDGPKREIRRECAATCPPSKLGLTVFCCTTDNCNH

Deux symboles disposés l’un au-dessous de l’autre sont dits appariés. Certains appa-riements sont constitués de deux symboles identiques alors que d’autres concernent des symboles différents : un acide aminé ayant été substitué par l’autre au cours de l’évolution.

Nous verrons plus loin que certaines substitutions sont biologiquement pertinentes car elle concernent des acides aminés aux propriétés physico-chimiques similaires, et sont plus souvent observées dans des alignements supposés “corrects” par rapport à ce que l’on at-tendrait par hasard. Un appariement de deux symboles suppose qu’ils sont homologues, c’est-à-dire qu’ils sont supposés descendre d’un ancêtre commun. Un alignement, est une description explicite des homologies supposées, contrairement aux patterns ou aux modèles probabilistes (que nous verrons plus loin). Un alignement suppose deux types de muta-tion : la substitution (un symbole est remplacé par un autre) et l’insertion ou ladélétion.

3.3. ALIGNEMENTS DEUX `A DEUX DE S ´EQUENCES 37

Dans le document Stratégies d'optimisation combinatoire pour le problème de l'alignement local multiple sans indels, et application aux séquences protéiques (Page 45-48)