Le problème EM correspond au cas particulier du problème EM q lorsque q = 100%, soit EM 100.

C HAPITRE 2 Exploration des

Remarque 2.23. Le problème EM correspond au cas particulier du problème EM q lorsque q = 100%, soit EM 100.

2.5.2 Solutions existantes

Depuis, de nombreux algorithmes ont vu le jour pour tenter de répondre à ces problèmes. Plu- sieurs formulations en ont été données, et plusieurs notions de similarité ont été étudiées. BRAZMA& al.

ont proposé [18] une classification des algorithmes en fonction de la structure des motifs qu’ils sont ca- pables d’extraire (cf. Annexe B.3). Il est également possible de proposer une classification basée sur les principes de fonctionnement des algorithmes.

Classification

Les algorithmes peuvent être classé en quatre catégories, selon qu’ils sont « déterministes » ou « probabilistes », et selon qu’ils sont basés sur une structure d’index ou sur une fouille des données. Avant de classer les principaux algorithmes d’extraction de motifs, il est nécessaire d’expliciter chaque catégorie. Algorithme déterministe vs. Algorithme probabiliste :

Un algorithme est déterministe si étant données ses entrées, il renvoie toujours les mêmes résultats. Il est probabiliste dans le cas contraire. Un algorithme probabiliste emploie généralement un générateur de nombres [pseudo-]aléatoires, en vue de sélectionner un chemin vers un résultat. Toutefois, ceci n’est pas une condition suffisante pour que l’algorithme soit probabiliste. Par exemple, l’algorithme de tri rapide peut-être réalisé en choisissant le pivot aléatoirement, et pourtant le résultat de l’algorithme est toujours le même. Il est donc déterministe.

Base d’index vs. Base de Fouille :

Une structure d’indexation permet de représenter les données (dans le cas présent les séquences) afin d’extraire les informations contenues (ici les facteurs, suffixes ou préfixes) rapidement. Les structures utilisées en algorithmique du texte sont principalement les Trie , les PATRICIA Trie , les Automates des

Suffixes, les Arbres des Suffixes [33] ou encore les tables des suffixes [93]. Les algorithmes qui ne se basent pas sur de telles structures retrouvent donc les informations dont ils ont besoin en fouillant les données.

Les algorithmes d’extraction de motifs

Il est ambitieux de vouloir être exhaustif à propos des méthodes d’extraction existantes, néanmoins certains algorithmes sont devenus des références dans ce domaine, tant du point de vue de leur efficacité que des modélisations qu’ils ont donné de ce problème.

Chaque algorithme présenté dans la table 2.1 est une réponse au problème EM ou EM_q. Chacun d’entre eux est ici présenté succinctement, en précisant le type de motifs qu’ils permettent de découvrir, et en insistant sur leurs avantages et leurs inconvénients.

_Algorithmes Déterministes Probabilistes À base d’index MOTIF[122] DISCOVER[129] PRATT[71] SMILE[99] de fouille

MEME[9] Meta-MEME[57]

SPLASH[22] GIBBS [81]

TEIRESIAS [112] PROJECTION[21] WINNOWER[108]

CONSENSUS[66] Table 2.1 – Algorithmes d’extraction de motifs.

BRAZMA & al. [18] ont élaboré une classification des algorithmes selon le type de motifs qu’ils

permettent d’extraire (cf. Annexe B.3). Cette classification est élaborée en suivant la notation PROSITE

(cf. Annexe B.2). Afin de faciliter la lecture, les différentes classes de motifs sont également donnés dans la table 2.2.

classe motifs trous illustration

A simples non T-C-T-T-G-A

B simples longueur fixe D-R-C-C-x(2)-H-D-x-C

C dégénérés non G-G-G-T-F-[ILV]-[ST]-[ILV]

D dégénérés longueur fixe V-x-P-x(2)-[RQ]-x(4)-G-x(2)-L-[LM]

E simples longueur bornée G-C-x(1,3)-C-P-x(8,10)-C-C

F dégénérés longueur bornée C-x(2,4)-C-x(3)-[ILVFYC]-x(8)-H-x(3,5)-H

G simples longueur non bornée D-T-A-G-Q-E-*-L-V-G-N-K

H dégénérés longueur non bornée D-T-A-G-[NQ]-*-L-V-G-N-[KEH]

I dégénérés longueur bornée ou non D-T-A-x(2,5)-G-[NQ]-*-L-V-G-N-[KEH] Table 2.2 – Classification des algorithmes d’extraction de motifs.

Les algorithmes déterministes à base d’index :

MOTIF [122] est exclusivement dédié à l’extraction de motifs dans les séquences protéiques (pro- blèmeEM_q). L’algorithme utilise une matrice afin de représenter l’ensemble des motifs contenant exac- tement trois acides aminés, séparés par un nombre fixe de jokers (le nombre maximum de joker est fixé à l’avance par l’utilisateur). Cette description le classe dans la catégorie B. Chaque motif est quantifié par un score obtenu à partir d’une matricePAM250. Les motifs contigus (sur les séquences) sont ensuite concaténés, et leur score mis à jour. Plusieurs paramètres doivent être fixés par l’utilisateur, afin de res- treindre l’espace de recherche, tels que le nombre d’occurrences minimum d’un motif sur l’ensemble des séquences, ou encore le nombre de motifs à renvoyer.

PRATT[71] apporte une réponse au problèmeEM_q. Cet algorithme utilise un index afin de représenter les motifs présents dans tout ou partie des séquences. À chaque motif de cet index (représenté par un nœud) sont également associées plusieurs informations, dont le nombre de séquences dans lesquelles il est présent, ainsi que son score. Le type de motifs renvoyés par cet algorithme le classent dans la catégorieF. Par défaut, PRATTutilise la mesure de l’entropie (cf. Section 2.2.1 – page 25) afin d’assigner un score aux motifs, il est toutefois possible de choisir une autre fonction de score parmi les quatre autres fonctions proposées. De plus, cet algorithme intègre la notion de quorum. Les paramètres en entrée de l’algorithme sont peu nombreux, et relativement explicites. Ils requièrent assez peu de connaissances

a priori sur le(s) motif(s) à extraire. Toutefois, il est nécessaire (en raison de la structure d’index utilisée)

de fixer une borne supérieure de la longueur des motifs à extraire. Dans sa version courte, l’algorithme met en évidence des petits motifs très conservés. Ils sont en général trop petits pour être significatifs. L’algorithme propose une phase de « raffinement » afin d’étendre les motifs, mais les motifs obtenus alors sont souvent trop dégénérés dans le cas de séquences nucléiques pour être exploitables. Cet outil est donc réellement efficace lorsque les motifs à extraire sont petits et très bien conservés, ou alors dans le cas de séquences protéiques.

SMILE [99] est basé sur un arbre des Suffixes [127] (cf. Section 5.1.2 – page 142). Comme PRATT, cette méthode intègre la notion de quorum (problème EM_q), et appartient à la classe F. La fonction de score utilisée est ici la distance de HAMMING dans un premier temps, puis l’estimation d’un Z-score

(score centré réduit – la notion deZ-score est détaillée à la section 4.3.1 – page 110). Le paramétrage est, comme précédemment, assez réduit, toutefois il réside une ambiguïté, puisqu’il faut fixer à la fois le nombre de substitutions maximum autorisées et le nombre maximum de jokers. Ainsi, certaines substitutions sont considérées comme des jokers et d’autres non. De plus, il est nécessaire de fixer les bornes inférieure et supérieure de la longueur des motifs à extraire. Enfin, l’estimation duZ-score est réalisée de manière très empirique, et n’apporte pas nécessairement autant de pertinence et de crédit qu’il n’y paraît de prime abord (cf. [38] pour une discussion à ce propos).

Un algorithme Probabiliste à base d’index :

DISCOVER[129] apporte une réponse au problème EM. L’algorithme construit un arbre des suffixes à partir d’un sous-ensemble des séquences sélectionné au hasard. De cet arbre, sont extraits les motifs les plus similaires (le score utilisé alors est la distance de LEVENSHTEIN). Ces motifs sont ensuite recherchés sur l’ensemble des séquences. Les résultats obtenus subissent ensuite un post-traitement permettant de fournir des motifs appartenant à la classeG. Plus la taille de l’échantillon de séquences choisi initialement est importante, plus les résultats sont fiables. En contrepartie, la première phase de l’algorithme est la plus gourmande en temps de calcul. Ainsi, la grande difficulté avec cette méthode est de trouver le juste équilibre entre le temps de calcul et la pertinence des résultats.

Les algorithmes Déterministes à base de fouille :

MEME[9] est basé sur la maximisation d’un critère statistique appelé la vraisemblance. Il s’agit en fait de la probabilité qu’un événement (l’existence d’un motif par exemple) se produise en fonction des données qui ont déjà été traitées et des données restant à traiter. L’algorithme fabrique un modèle de longueur fixée a priori qui possède la propriété de maximiser la vraisemblance (ou son logarithme, ce qui revient au même). Le modèle est affiné par itérations successives ; jusqu’à stabilisation du maximum de vraisemblance (à unε près), ou jusqu’à ce qu’un nombre maximum d’itérations aient été effectuées. La valeur deε et du nombre maximal d’itérations peut être fixé par l’utilisateur. Si les résultats obtenus

par cette méthode sont dans l’ensemble fiables (les motifs trouvés sont valides), cet algorithme présente l’inconvénient d’en manquer un certain nombre. Cette méthode appartient à la catégorieC et répond au problèmeEMq.

SPLASH[22] et TEIRESIAS[112] renvoient tous deux des motifs de la classeB, et répondent au pro- blèmeEM_q. En plus d’un paramétrage compliqué, le nombre trop important de motifs fournis en résultats rendent ces méthodes peu exploitables dans le cadre de la découverte de sites biologiques particuliers. Toutefois, TEIRESIASa été utilisé parIBMdans un tout autre contexte, celui de la lutte contre lesSPAM. WINNOWER[108] utilise la distance de HAMMINGafin d’extraire les motifs similaires deux à deux, et répond au problèmeEM. L’algorithme nécessite que la longueur des motifs soit connue a priori. Outre

cet inconvénient, la seule garantie apportée par cette méthode est que s’il existe une collection de motifs de longueur fixée et deux à deux à distance de HAMMINGbornée (classeA/C ), alors elle figurera dans l’ensemble des collections de motifs renvoyés.

Les algorithmes Probabilistes à base de fouille :

GIBBS[81] utilise un principe d’échantillonnage afin d’évaluer la pertinence et de raffiner des motifs sélectionnés au hasard. Cette méthode traite le problème EMq. Bien que la longueur des motifs doit être fixée a priori, sa bonne vitesse d’exécution permet d’exécuter l’algorithme plusieurs fois en faisant varier la longueur. Les résultats obtenus par cette méthode sont généralement très bons, surtout lorsque les séquences sont globalement éloignées. Toutefois si les séquences sont globalement toutes très proches les unes des autres, alors la qualité et la pertinence des résultats risquent fort d’en souffrir. Les motifs renvoyés classent cette méthode dans la catégorieC.

PROJECTION [21] a été créé en vue de résoudre à un problème (énoncé dans [108]) et de concur- rencer WINNOWER. Ce problème consiste à extraire tous les motifs de même longueur fixée a priori et à distance de HAMMING également fixée a priori dans un ensemble de séquences (EM). L’algorithme se classe donc dans la catégorie A/C. Il s’appuie sur l’élaboration d’une fonction de hachage associée à chaque motif à extraire. La fonction de hachage est établie en choisissant aléatoirement un certain nombre (paramètre en entrée, dont les bornes conseillées sont fonction de la distance maximale, du nombre et de la taille des séquences) de positions dans les motifs présents dans les séquences. Lorsque pour une même clé de hachage, le nombre de motifs associé est suffisamment important, la collection de motifs est analy- sée en vue d’en extraire les résultats. Le processus est réitéré plusieurs fois (sur la base d’une estimation statistique de ce nombre). Cet algorithme offre des performances théoriques quasi optimales selon les auteurs. Pourtant, il semble qu’il soit inadapté à l’extraction de motifs dans les séquences biologiques (toujours selon les auteurs).

Meta-MEME [57] utilise les résultats de MEME pour construire un modèle de MARKOV caché (cf. [79, chapitre ] pour un complément d’information au sujet de cette structure). Cet outil répond donc au problème EM_q. Il est ensuite utilisé pour chercher des motifs consensuels dans des banques de séquences. Les résultats obtenus par cette méthode sont fortement dépendants de la qualité des bases de données utilisées, et demeurent assez difficiles à interpréter.

Un algorithme à base de fouille :

CONSENSUS[66] propose en option une version déterministe ou bien probabiliste pour répondre au problème EM. En effet, l’algorithme est basé sur le choix de motifs candidats dans les séquences. Ces

de ces graines est effectué soit linéairement sur la première séquence, ce qui confère à l’algorithme son caractère déterministe (auquel cas les résultats dépendent fortement de l’ordre des séquences) ; soit les graines sont choisies arbitrairement dans les séquences, rendant l’algorithme probabiliste. Le principal inconvénient de cette méthode réside dans le fait que la longueur du motif à extraire doit être connue à l’avance.

2.5.3 Analyse des besoins

Les méthodes précédemment décrites sont loin d’être universelles. En effet, elles sont généralement dédiées à l’extraction d’une catégorie de motifs : les promoteurs et autres sites de liaisons. Celles qui se veulent plus généralistes sont en général peu efficaces en pratiques. Pourtant, malgré cette spécialisation sur le type de motifs recherchés, les inconvénients de chaque méthode sont nombreux : motifs de longueur fixée à l’avance, schéma de score figé, classe de motif trop restrictive, réponses inexploitables, . . . , quand il ne s’agit pas tout simplement du paramétrage qui par sa complexité rend la méthode inutilisable. La plupart des algorithmes d’extraction sont efficaces lorsque l’utilisateur est très bien renseigné sur ce qu’il faut découvrir. Dès que les algorithmes sont utilisés « en aveugles », ils deviennent purement et simplement inexploitables.

Au constat de ces lacunes, il apparaît évident qu’il est nécessaire d’apporter une solution au problème de l’extraction de motifs qui propose à la fois une paramétrisation simplifiée et une grande modularité dans le type de motifs à découvrir. Le chapitre suivant décrit un nouvel algorithme d’extraction de motifs (EM) :STARS_{[is a Tool for Analysis & Research in Sequences]. Le cahier des charges de cet algorithme}

a été élaboré en vue d’offrir cette simplicité d’utilisation, ainsi que cette souplesse dans la description des motifs à extraire. Ceci constitue le principal axe de recherche de cette thèse. Il s’agit d’un algorithme probabiliste à base de fouille, renvoyant des motifs de la classeD. Dans le cadre de l’étude des propriétés de cette nouvelle méthode, un second algorithme est proposé au chapitre 4, répondant au problèmeEMq: StatiSTARS [uses Statistical Techniques for Analysis & Research in Sequences]. Cette méthode est également classée dans la catégorieD. Afin d’améliorer le traitement des séquences en entrée, nous nous sommes intéressé à une structure d’indexation introduite par ALLAUZEN& al. en. Cette structure

(la plus économique à ce jour) a donné des résultats très prometteurs, mais d’obscurs détails demeurent (ensemble des mots reconnus par la structure, dénombrement de cet ensemble, . . . ). L’utilisation de cette structure pourrait être très intéressante, pour le stockage et la comparaison des séquences deux à deux dansSTARS_etStatiSTARS, sous réserve que les points obscurs ne le soient plus. Dans ce contexte, une étude approfondie de cette structure a été menée mettant en évidence l’ensemble de mots reconnus par cet index, ainsi que la pertinence statistique de ses résultats. Les conclusions de cette étude ne permettent pas de légitimer l’utilisation de cet index en l’état. Afin d’améliorer l’efficacité de cette structure, une légère modification est présentée à la fin du chapitre 5. Le nouvel index ainsi proposé demeure aussi séduisant par sa simplicité que la structure initiale, mais semble nettement plus fiable et efficace selon les premières constatations. Une étude plus théorique de la pertinence de cette nouvelle structure est en cours, mais nécessitera un temps d’étude probablement assez long. La suite de cette étude s’inscrit naturellement dans les recherches ultérieures aux travaux présentés dans ce manuscrit.

CHAPITRE

3

Dans le document Extraction de Motifs Communs dans un Ensemble de Séquences.<br />Application à l'identification de sites de liaison aux protéines dans les séquences primaires d'ADN. (Page 53-58)