Comparaison de structures secondaires d'ARN

(1)

HAL Id: tel-00637131

https://tel.archives-ouvertes.fr/tel-00637131

Submitted on 30 Oct 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Julien Allali

To cite this version:

Julien Allali. Comparaison de structures secondaires d’ARN. Informatique [cs]. Université de Marne

la Vallée, 2004. Français. �tel-00637131�

(2)

en Informatique

Comparaison de structures secondaires d’ARN.

Julien Allali

Num´ ero oﬃciel

Universit´ e de Marne-la-Vall´ ee

(c) Université de Marne-la-Vallée, Julien Allali - 2005

Origine : http://pelleas.univ-mlv.fr - URL : http://pelleas.univ-mlv.fr/document/UMLV-2005-000337-PDF

(3)

pr´ esent´ ee par Julien Allali

pour l’obtention du titre de Docteur en Informatique

sur le sujet

Comparaison de structures secondaires d’ARN.

directeurs de th` ese Maxime Crochemore

Marie-France Sagot

soutenue le 23 D´ ecembre 2004 devant le jury compos´ e de : Alain Denise (Rapporteur)

Christine Gaspin (Rapporteur) Robert Giegerich (Rapporteur) Dominique Perrin (Examinateur)

Claude Thermes (Examinateur)

(4)

(5)

Un grand merci ` a Marie-France Sagot d’avoir accept´ e il y a trois ans de diriger ma th` ese. Merci pour son accueil toujours chaleureux, ses nombreux conseils et son aide. Merci pour avoir ´ etabli une relation d’´ egal ` a ´ egal entre nous me permettant un plein ´ epanouissement en tant que chercheur. Enﬁn, merci pour son amiti´ e.

Merci ` a Maxime Crochemore d’avoir accept´ e de diriger ma th` ese. Merci de m’avoir donn´ e goˆ ut ` a l’algorithmique. Merci pour sa gentillesse et ses nombreux conseils.

Merci ` a Christine Gaspin d’avoir accept´ e de r´ ediger un rapport sur ma th` ese. Merci ` a elle ainsi qu’aux membres du BIA pour leur accueil et pour l’interˆ et qu’ils ont manifest´ e envers mes travaux ` a chacune de mes visites.

Merci ` a Robert Giegerich d’avoir rapport´ e cette th` ese et test´ e avec succ` es mon logiciel migal. Merci pour ses nombreux conseils.

Merci ` a Alain Denise pour avoir accept´ e de rapporter ma th` ese. Merci aussi pour son accueil chaleureux au s´ eminaire du LRI.

Merci ` a Dominique Perrin d’avoir accept´ e d’ˆ etre examinateur dans mon jury de th` ese. Merci pour sa gentillesse tout au long de ces ann´ ees ` a l’Uni- versit´ e de Marne la Vall´ ee.

Merci ` a Claude Thermes d’avoir accept´ e d’ˆ etre examinateur dans mon jury de th` ese. Merci ` a lui et Yves d’Aubenton-Carafa pour l’interˆ et qu’ils ont manifest´ e envers mes travaux lors de mes visites au Centre de G´ en´ etique Mol´ eculaire de Gif-Sur-Yvette. Leur aide m’a ´ et´ e pr´ ecieuse dans ma compr´ e- hension des ARN. J’esp` ere continuer notre collaboration en leur fournissant bientˆ ot un outil de qualit´ e.

Merci ` a Jean Berstel pour ses conseils ainsi que pour la conﬁance plac´ ee en moi et en mes capacit´ es d’enseignant.

Merci ` a Mathieu Raﬃnot qui m’a orient´ e vers la recherche et l’algorith-

mique pour la g´ enomique. Il n’a jamais ´ et´ e avare de conseils et il sait toujours

(6)

r´ eapparaitre au bon moment.

Merci ` a tous les membres du laboratoire de l’Institut Gaspard Monge. Ils ont toujours ´ et´ e gentils et amicaux, je suis convaincu que l’ambiance qu’ils cr´ eent tous les jours au laboratoire m’a ´ et´ e d’une grande aide durant ces trois ann´ ees. Merci ` a Remi, Julien et Christophe pour les discussions passionnantes aux pauses coca. Merci ` a Line pour sa bonne humeur permanente et sa d´ evotion pour les cadeaux de naissance.

Merci aux membres de l’´ equipe Baobab ainsi qu’` a Marina, Raquel et S´ ebastien pour leur accueil toujours chaleureux ` a Lyon.

Merci aux imageux : Vence, BuD et Pascal, leur pr´ esence est toujours un plaisir : “N’h´ esitez pas ` a prendre le RER”.

Merci ` a mes compagnons de th` ese : Chlo´ e, Grom, Bud, Pascal, Pirro, Pierre et Benoˆıt ; j’esp` ere que nos chemins continueront ` a se croiser pour longtemps.

Merci ` a Skaya pour son amiti´ e et ses nombreux coups de pouce tech- niques : il reste une bible pour beaucoup d’entre nous. Merci ` a lui et Bud pour leurs nombreux conseils dans les Warrens ou le syst` eme :)

Un grand merci ` a Laurent Marsan : tu m’as aid´ e ` a de nombreuses reprises tant au niveau professionnel que personnel. M´ eﬁe-toi quand mˆ eme du 9-0, un jour il arrivera !

Merci ` a Remi pour son soutien et ses conseils durant ces 3 ann´ ees, ainsi que pour son amiti´ e.

Merci ` a Christophe pour son dynamisme, son franc caract` ere et son amiti´ e.

Merci aux b´ eta-testeurs de ma librairie sur l’arbre des k-facteurs : Alexan- dra Carvalho (Lisbonne), Patricia Thebault (Toulouse) et Pierre Peterlongo (Paris).

Merci ` a tous les d´ eveloppeurs de logiciels libres, outils qui m’ont ´ et´ e in- dispensables tout au long de ma th` ese.

Merci ` a ma compagne Claire qui m’a soutenu tout au long de cette

´ epreuve : ton soutien constant et ta conﬁance en moi ont ´ et´ e indispensables

`

a la r´ ealisation de ce travail. Merci ` a mon ﬁls Louis, qui m’a apport´ e tant de joie durant ce dernier mois de th` ese.

Enﬁn, merci ` a toute ma famille, en particulier mes parents et fr` eres pour

leur soutien ainsi que la ﬁert´ e qu’ils ont maintes fois manifest´ ee ` a mon ´ egard.

(7)

L’ARN, acide ribonucl´ eique, est un des composants fondamentaux de la cellule. Les ARNs sont constitu´ es d’une s´ equence orient´ ee de nucl´ eotides not´ es A,C,G et U. Une telle s´ equence se replie dans l’espace en formant des liaisons entre les nucl´ eotides deux ` a deux. La fonction des ARNs au sein de la cellule est li´ ee ` a la conformation spatiale que ces ARNs adoptent. Ainsi, il est essentiel de pouvoir comparer deux ARNs du point de vue de leur conformation aﬁn de d´ eterminer, par exemple, s’ils ont la mˆ eme fonction.

On distingue trois niveaux dans la structure d’un ARN. La structure primaire correspond ` a la s´ equence de nucl´ eotides, la structure secondaire est constitu´ ee de la liste de certaines liaisons form´ ees entre les nucl´ eotides (celles correspondant aux h´ elices), tandis que la structure tertiaire consiste en la description exacte de la forme tridimensionnelle de la mol´ ecule (les coordonn´ ees de chaque nucl´ eotide).

Bien que la structure tertiaire soit celle qui d´ ecrit le mieux la forme spa- tiale d’un ARN, il est admis que deux ARNs ayant une fonction mol´ eculaire similaire ont des structure secondaires proches. On peut distinguer divers

´

el´ ements de structure secondaire tels que les h´ elices, les boucles multiples, les boucles terminales, les boucles internes et les renﬂements.

Essentiellement trois formalismes ont ´ et´ e propos´ es ` a ce jour aﬁn de mo-

d´ eliser la structure secondaire d’un ARN. Le premier, celui des s´ equences an-

not´ ees par des arcs, permet de repr´ esenter la s´ equence de l’ARN, les arcs cor-

respondant alors aux liaisons entre les nucl´ eotides (les lettres de la s´ equence)

qui s’apparient. Les 2-intervalles, qui sont une g´ en´ eralisation des s´ equences

annot´ ees, sont form´ es par deux intervalles disjoints. La structure secondaire

peut alors ˆ etre vue comme une famille de 2-intervalles. Enﬁn, une troisi` eme

repr´ esentation, celle des arbres enracin´ es ordonn´ es, oﬀre de nombreuses pos-

sibilit´ es aﬁn de repr´ esenter la structure secondaire d’un ARN, du niveau

nucl´ eotidique au niveau du r´ eseau des boucles multiples.

(8)

L’un des inconv´ enients de toutes ces approches r´ eside dans le fait qu’elles mod´ elisent la structure secondaire d’un ARN selon un point de vue particu- lier (nucl´ eotides, h´ elices etc.). Nous proposons dans ce travail une nouvelle mod´ elisation, appel´ ee RNA-MiGaL, constitu´ ee de quatre arbres li´ es entre eux, repr´ esentant la structure ` a diﬀ´ erents niveaux de pr´ ecision. Ainsi, le plus haut niveau correspond au r´ eseau de boucles multiples consid´ er´ e comme

´ etant le squelette de la mol´ ecule. Le dernier niveau d´ etaille quant ` a lui les nucl´ eotides de la s´ equence.

Pour comparer de telles structures, nous utilisons la notion de distance d’´ edition entre deux arbres. Cependant, au vu de certaines limitations de celle-ci pour comparer des arbres repr´ esentant la structure secondaire ` a un haut niveau d’abstraction, nous avons introduit une nouvelle distance d’´ edi- tion qui prend en compte deux nouvelles op´ erations d’´ edition : la fusion de noeuds et la fusion d’arcs.

A l’aide de cette nouvelle distance, nous proposons un algorithme permet- `

tant de comparer deux RNA-MiGaLs. Celui-ci est impl´ ement´ e au sein d’un

outil permettant la comparaison de deux structures secondaires d’ARN.

(9)

RNAs are one of the fundamental elements of a cell. Generally, RNAs are deﬁned as oriented sequences of nucleotides (denoted by A,C,G and U). Inside a cell, RNAs do not have a linear shape but fold in space. The molecular function of an RNA strongly depends on this tri-dimensional folding. Hence, the comparison of the tri-dimensional structure of two RNAs is essential to determine whether the RNAs share the same function.

The structure of an RNA is generally divided into three parts. The ﬁrst is the primary structure which corresponds to the sequence of nucleotides.

The secondary structure is composed of the list of links between nucleotides that represent helices. Finally, the tertiary structure corresponds to the exact tri-dimensional folding of the RNA.

Although the tertiary structure is the most accurate deﬁnition of the spatial structure adopted by an RNA, it is well-known that two RNAs sha- ring the same function will also have closely related secondary structures.

A few other structural elements can be distinguished in an RNA secondary structure. These are the helices, multiloops, hairpin loops, internal loops and bulges.

Up until now, essentially three data structures have been proposed to represent an RNA secondary structure : arc-annotated sequences, 2-intervals and rooted oriented trees. Arc-annotated sequences are sequences with arcs between nucleotides of the sequence that form a pair in the structure. 2- intervals generalise arc-annotated sequences and correspond to two disjoint subsets. An RNA secondary structure is then deﬁned as a family of 2- intervals. Finally, rooted ordered trees can represent an RNA secondary struc- ture at various levels, from the nucleotides up to the network of multiloops.

One of the drawbacks of all these approaches is that they model the

secondary structure of an RNA from a speciﬁc point of view (nucleotides,

helices etc.). We decided to introduce a new model called RNA-MiGaL, made

(10)

of four trees related among them. Each of these trees represents the structure of an RNA at a particular level of detail : the upper level models the network of multiloops that is considered as the skeleton of the secondary structure, while the lower level represents nucleotides.

We use the tree edit distance to compare two RNA-MiGaLs. However, due to some limitations of the classical edit distance to compare trees representing RNA secondary structures, we introduced two new edit operations named

”node fusion” and ”edge fusion”, thus providing a new edit distance.

Using this distance, we developed an algorithm to compare two RNA-

MiGaLs. The algorithm has been implemented in a package which allows

RNA secondary structures to be compared in various ways.

(11)

Introduction 7

1 Contexte Biologique 13

1.1 Les ARN dans la cellule . . . 13

1.2 Quelques exemples d’ARN . . . 14

1.3 Repliement et structure des ARN . . . 16

1.4 Comparaison des ARN . . . 19

1.4.1 Repliement d’ARN. . . 20

1.4.2 Inf´ erence de mod` eles. . . 21

1.4.3 Classiﬁcation . . . 21

1.4.4 Phylog´ enie. . . 21

2 Etat de l’art sur la mod´ ´ elisation d’ARN et les algorithmes de comparaison d’ARN 23 2.1 S´ equence annot´ ee par des arcs . . . 24

2.1.1 Introduction et notations . . . 24

2.1.2 Probl` emes et Algorithmes . . . 27

2.1.3 2-intervalles : une g´ en´ eralisation des s´ equences annot´ ees 49 2.1.4 Conclusion . . . 52

2.2 Arbres enracin´ es et ordonn´ es . . . 52

2.2.1 Plusieurs arbres possibles . . . 52

2.2.2 Comparaisons d’arbres enracin´ es et ordonn´ es . . . 57

2.2.3 Conclusion . . . 74

3 Mod´ elisation et algorithmes pour la comparaison des ARN 77 3.1 Deux nouvelles op´ erations d’´ edition . . . 78

3.1.1 L’´ edition d’arbres pour les ARN : r´ esultats pratiques . 78 3.1.2 Deux nouvelles op´ erations d’´ edition . . . 88

1

(12)

3.1.3 Algorithme . . . 95

3.1.4 R´ esultats pratiques . . . 99

3.2 MiGaL : “Multiple Graph Layer” . . . 103

3.2.1 Description du mod` ele . . . 104

3.2.2 RNA-MiGaL . . . 104

3.2.3 Algorithme d’´ edition ` a travers MiGaL . . . 107

3.2.4 Comparaison de RNA-MiGaL . . . 111

3.2.5 R´ esultats pratiques . . . 118

Conclusion 131 A L’arbre des k-facteurs 135 A.1 The at most k-deep factor tree . . . 137

A.1.1 Introduction . . . 137

A.1.2 Suﬃx trees . . . 138

A.1.3 Ukkonen’s algorithm . . . 140

A.1.4 Factor trees . . . 146

A.1.5 Coding and experiments . . . 151

A.1.6 Conclusion . . . 164

Bibliographie 165

(13)

1.1 L’ARN . . . 14

1.2 La traduction de l’ARN . . . 16

1.3 Structure d’une h´ elice . . . 17

1.4 H´ elices d’un ARNt . . . 17

1.5 El´ ´ ements de structure secondaire . . . 18

1.6 Pseudo-nœud . . . 19

1.7 Arbre phylog´ enique . . . 22

2.1 S´ equences annot´ ees par des arcs . . . 25

2.2 Types de s´ equences annot´ ees . . . 26

2.3 S´ equences annot´ ees et structures secondaires . . . 26

2.4 S´ equence annot´ ee d’un ARNt . . . 27

2.5 Probl` eme LAPCS . . . 29

2.6 R´ eduction de clique ` a LAPCS(crois´ es,crois´ es) . . . 32

2.7 Complexit´ es de LAPCS . . . 34

2.8 Exemple de APS . . . 35

2.9 Complexit´ es de APS . . . 36

2.10 Edition de s´ equence . . . 38

2.11 Algorithme de calcul de la distance d’´ edition . . . 41

2.12 Alignement de deux s´ equences . . . 42

2.13 Alignement de s´ equences annot´ ees . . . 43

2.14 Op´ erations d’´ editions sur les s´ equences annot´ ees . . . 44

2.15 Complexit´ e de EDIT(crois´ es, sans arc) . . . 47

2.16 Relations entre 2-intervalles . . . 50

2.17 2-intervalles et structures secondaires . . . 50

2.18 Famille de 2-intervalles . . . 50

2.19 Accessibilit´ e des bases d’une structure secondaire . . . 53

2.20 Arbre d’une structure secondaire . . . 54

3

(14)

2.21 Diﬀ´ erents codage d’une structure secondaire par les arbres . . 56

2.22 ´ Equivalence des s´ equences annot´ ees et des arbres . . . 57

2.23 Op´ eration de substitution . . . 59

2.24 Op´ erations de d´ el´ etion et insertion . . . 60

2.25 Distance d’´ edition entre deux arbres . . . 63

2.26 Racines gauches d’un arbre . . . 65

2.27 Ordre de calcul des distances entre sous-arbres . . . 65

2.28 Algorithme du calcul de la distance d’´ edition entre arbres . . . 67

2.29 D´ ecompositions en sous-arbres lors de l’´ edition . . . 69

2.30 Association contrainte entre deux arbres . . . 71

2.31 Association contrainte entre deux arbres . . . 72

2.32 Alignement de deux arbres . . . 73

2.33 Repr´ esentation parenth´ es´ ee d’un ARN . . . 75

3.1 Deux ARN de type RNAse P . . . 79

3.2 Codage de deux ARN par des arbres . . . 80

3.3 Deux ARN de type RNAse P . . . 81

3.4 Codage de deux ARN par des arbres . . . 82

3.5 R´ esultat de l’´ edition de deux arbres . . . 83

3.6 R´ esultat de l’´ edition de deux arbres . . . 83

3.7 R´ esultat de la comparaison de deux ARN . . . 84

3.8 R´ esultat de la comparaison de deux ARN . . . 85

3.9 R´ esultat de l’´ edition sur deux ARN . . . 87

3.10 Fusion de nœuds, fusion d’arcs . . . 89

3.11 Fusion de nœuds et d´ el´ etion . . . 93

3.12 Fusion de nœuds suivie d’une fusion d’arcs . . . 94

3.13 Algorithme d’´ edition avec les op´ erations de fusion . . . 96

3.14 R´ esultat de l’´ edition avec fusion sur deux arbres . . . 100

3.15 R´ esultat de l’´ edition avec fusion sur deux ARN . . . 101

3.16 R´ esultat de l’´ edition avec fusion sur deux ARN . . . 102

3.17 R´ esultat de l’´ edition avec fusion sur deux arbres . . . 102

3.18 MiGaL . . . 105

3.19 Ordre et parent´ e ` a travers RNA-MiGaL . . . 107

3.20 RNA-MiGaL . . . 108

3.21 Comparaison de deux MiGaLs . . . 110

3.22 Erreur lors de l’´ edition s´ epar´ ee . . . 115

3.23 Ancres pour l’´ edition s´ epar´ ee . . . 116

3.24 Fonctions de coˆ uts . . . 120

(15)

3.25 Codage alternatif pour le niveau 3 de RNA-MiGaL . . . 124

3.26 Deux introns de Groupe I . . . 125

3.27 Comparaison des RNA-MiGaLs au niveau 0 . . . 126

3.28 Comparaison des RNA-MiGaLs au niveau 1 . . . 127

3.29 Comparaison des RNA-MiGaLs au niveau 2 . . . 128

3.30 Comparaison des RNA-MiGaLs au niveau 3 . . . 129

A.1 Suffix trie, implicit suffix tree and suffix tree . . . 139

A.2 Naive algorithm building suﬃx tree . . . 140

A.3 Fast string insertion . . . 143

A.4 Ukkonen algorithm . . . 144

A.5 k-factor tree . . . 147

A.6 k-factor tree construction algorithm . . . 150

A.7 A suﬃx tree exemple . . . 152

A.8 Coding the suﬃx tree . . . 155

A.9 Insertion in a list of occurrences . . . 158

A.10 Practical results of the factor tree . . . 162

(16)

L’informatique g´ enomique d´ esigne l’ensemble des proc´ ed´ es informatiques permettant le traitement de donn´ ees biologiques. Cette discipline de l’infor- matique revˆ et un caract` ere original de par les relations qui se sont cr´ e´ ees entre biologistes et informaticiens au cours des 30 derni` eres ann´ ees.

Les donn´ ees collect´ ees par les biologistes sont de plus en plus nombreuses et leur traitement ne peut plus ˆ etre eﬀectu´ e manuellement de mani` ere sys- t´ ematique. L’ordinateur est devenu un outil indispensable pour la recherche d’informations dans ces donn´ ees, ou encore pour diriger des exp´ eriences pra- tiques souvent longues et coˆ uteuses.

Pour l’informatique, la g´ en´ etique est un nouveau domaine riche en pro- bl` emes. Au d´ ebut de la bioinformatique, la g´ en´ etique a apport´ e un ensemble de questions relatives ` a l’ADN dont le s´ equen¸cage commen¸cait ` a se sys- t´ ematiser. Ces probl` emes sont tr` es divers, de la recherche d’une s´ equence particuli` ere, par exemple un g` ene dans un g´ enome, ` a la recherche d’un motif commun ` a plusieurs s´ equences. L’algorithmique du texte, domaine d´ ej` a ´ etabli de l’informatique, a trouv´ e l` a un nouveau champ d’applications apportant ses sp´ eciﬁcit´ es : la taille des donn´ ees ` a traiter, les types de s´ equences cherch´ ees, l’alphabet des s´ equences ` a consid´ erer.

Pour chaque probl` eme biologique, le travail commence par une analyse de ce probl` eme par l’informaticien et le biologiste aﬁn d’en construire une instance formelle qui doit ˆ etre ` a la fois g´ en´ erale mais aussi contenir les contraintes pratiques li´ ees ` a ce probl` eme.

Imaginons qu’un biologiste recherche une s´ equence particuli` ere dans un g´ enome, celle-ci pouvant ˆ etre pr´ esente de fa¸con inexacte. Pour l’informaticien, il va falloir g´ en´ eraliser ce probl` eme ` a la recherche d’un motif quelconque dans un texte avec ´ eventuellement des erreurs. Il faut en outre caract´ eriser ces erreurs ainsi que la nature du motif et du texte. L’informaticien propose alors une instance formelle du probl` eme, qui peut ˆ etre la recherche d’un motif court

7

(17)

de taille ﬁxe k dans un texte de taille n sur un alphabet ` a 4 lettres avec au plus e erreurs correspondant ` a des mutations (changement d’une lettre dans le motif). Si ce formalisme correspond bien au probl` eme biologique initial, alors l’informaticien peut commencer ` a chercher une solution performante

`

a ce probl` eme. Dans cette recherche, il est important de tenir compte des caract´ eristiques du probl` eme (court motif de taille ﬁxe, alphabet de faible taille) pour en tirer proﬁt.

Une fois une solution trouv´ ee, celle-ci doit ˆ etre test´ ee par le biologiste aﬁn de v´ eriﬁer que l’algorithme r´ esout bien la question initiale. Si ce n’est pas le cas, alors il faut revoir le formalisme. Il se peut, par exemple, que le nombre d’erreurs d´ epende de la taille du motif, ou bien ces erreurs peuvent aussi ˆ etre des d´ el´ etions ou insertions.

On voit ainsi que la bioinformatique demande une r´ eelle collaboration entre biologistes et informaticiens tant pour la compr´ ehension du probl` eme biologique et de son formalisme que pour la validation de celui-ci sur des cas concrets.

C’est ainsi qu’a d´ ebut´ e cette th` ese, par des discussions et des rencontres avec des biologistes pour analyser le probl` eme de la comparaison de structures secondaires des ARN. Dans un premier temps, nous avons eu l’id´ ee d’un nouveau type de mod´ elisation des structures secondaires des ARN en utilisant diﬀ´ erents niveaux de pr´ ecision dans la repr´ esentation de cette structure. Cette id´ ee fut soumise ` a des experts en ARN qui ont valid´ e cette approche vis-` a- vis de la nature des structures de ces ARN pour plusieurs raisons : d’une part, il est bien connu qu’au sein d’une mˆ eme famille (ARN ayant une mˆ eme fonction), la “forme” des ARN est conserv´ ee tandis que leur s´ equence peut varier de mani` ere importante d’un ARN ` a l’autre. D’autre part, le r´ eseau de boucles multiples (niveau le plus abstrait de notre mod` ele) constitue le squelette de la structure secondaire et est tr` es souvent caract´ eristique des ARN ayant une mˆ eme fonction.

L’´ etape suivante fut la recherche d’un algorithme permettant la comparai- son de ce nouveau type d’objets. Cette recherche nous a amen´ e ` a analyser en profondeur les algorithmes existants pour eﬀectuer la comparaison d’arbres.

En outre, l’algorithme d’´ edition pour la comparaison d’arbres repr´ esentant les ARN ` a un haut niveau d’abstraction a montr´ e certaines limitations. Pour pallier celle-ci, nous avons d´ eﬁni une nouvelle distance pour comparer ces arbres, composants de notre mod` ele g´ en´ eral, puis nous avons ´ etabli un algo- rithme pour la comparaison de deux ARN repr´ esent´ es par notre mod` ele.

La derni` ere ´ etape de validation est encore en cours, mais les premiers

(18)

r´ esultats sont d´ ej` a prometteurs. Nous esp´ erons ainsi reprendre la collabora- tion initiale avec les biologistes pour ﬁnir de valider notre mod` ele en pratique, l’am´ eliorer et le compl´ eter.

Le th` ese est divis´ ee en 3 parties, portant respectivement sur le contexte biologique de notre travail, l’´ etat de l’art sur les mod` eles et algorithmes de comparaison des structures secondaires d’ARN et, enﬁn, la pr´ esentation de nos r´ esultats dans ce domaine.

Dans la premi` ere partie, nous pr´ esentons le contexte biologique de nos travaux. En effet, pour r´ epondre au mieux au probl` eme de la comparaison d’ARN, il est n´ ecessaire de bien comprendre ce que sont les ARN, leur struc- ture et leur rˆ ole au sein de la cellule. Apr` es avoir d´ ecrit la nature mol´ eculaire des ARN, nous expliquerons comment ils se replient et adoptent une confor- mation spatiale particuli` ere fortement li´ ee ` a l’activit´ e de l’ARN. Nous fi- nissons par la pr´ esentation de quatre probl` emes sur les ARN n´ ecessitant un algorithme efficace pour leur comparaison : le repliement de s´ equence, l’inf´ erence de mod` ele, la classification automatique et la construction d’arbre phylog´ enique.

La deuxi` eme partie pr´ esente l’´ etat de l’art des mod` eles et algorithmes d´ ej` a propos´ es pour la repr´ esentation et la comparaison des structures secon- daires d’ARN. Nous commencerons par les s´ equences annot´ ees par des arcs, formalisme introduit par Evans [24] pour la mod´ elisation des ARN consistant en des s´ equences auxquelles on ajoute des arcs reliant deux symboles de la s´ equence. Nous analyserons trois probl` emes sur ces s´ equences :

– La recherche de la plus longue sous-s´ equence commune avec conserva- tion des arcs.

– La recherche de motif dans une s´ equence annot´ ee.

– L’´ edition de deux s´ equences annot´ ees.

Nous ﬁnirons cette partie en pr´ esentant les 2-intervalles, introduits par Via- lette [85], qui peuvent ˆ etre vus comme une g´ en´ eralisation des s´ equences an- not´ ees.

En 1984, Zuker et Sankoﬀ [99] ont ´ et´ e les premiers ` a introduire les arbres pour la repr´ esentation des structures secondaires d’ARN. Plus tard, Shapiro [73] pr´ esentera une autre fa¸con de repr´ esenter ces structures par des arbres.

Nous montrerons qu’en fait il existe de nombreuses fa¸cons de coder les struc-

tures secondaires par des arbres en fonction du type d’informations que l’on

souhaite mod´ eliser. Quel que soit le mod` ele choisi, l’arbre r´ esultant est un

arbre enracin´ e et ordonn´ e, c’est-` a-dire que l’ordre entre les ﬁls d’un nœud

compte. L’une des voies pour la comparaison de ces arbres est l’utilisation

(19)

de la distance d’´ edition. L’´ edition d’arbre introduite en 1977 par Selkow [72]

est une extension naturelle de la d´ eﬁnition de l’´ edition entre s´ equences in- troduite en 1966 par Levenshtein [56]. Dans ce probl` eme, on dispose d’un ensemble d’op´ erations de base appel´ ees op´ erations d’´ edition pour transfor- mer un arbre. ` A chacune de ces op´ erations est associ´ e un coˆ ut. On d´ eﬁnit alors la distance d’´ edition entre deux arbres comme le minimum des coˆ uts des suites d’op´ erations transformant le premier arbre en le deuxi` eme.

En 1989, Zhang et Shasha [95] fournissent un algorithme de type pro- grammation dynamique plus simple et plus performant que celui de Tai. Nous analyserons en d´ etail cet algorithme, une partie de nos travaux ´ etant bas´ ee dessus. Nous terminerons cette partie en pr´ esentant la distance d’alignement d’arbres enracin´ es et ordonn´ es introduit par Jiang dans [47] qui, contraire- ment au cas des s´ equences, n’est pas ´ equivalente ` a la distance d’´ edition.

La troisi` eme partie expose les r´ esultats de nos travaux de th` ese. Dans un premier temps, nous faisons une analyse d´ etaill´ ee de certains r´ esultats pratiques obtenus avec le calcul de distance d’´ edition entre deux arbres or- donn´ es. En outre, nous montrerons trois probl` emes pos´ es par l’utilisation de cette distance dans le contexte de la comparaison de structures secondaires d’ARN. Pour r´ esoudre deux de ces trois probl` emes, nous avons introduit de nouvelles op´ erations d’´ edition : la fusion de nœuds et la fusion d’arcs. Nous pr´ esentons ensuite un algorithme permettant le calcul de la distance d’´ edition munie de ces nouvelles op´ erations suivi des r´ esultats obtenus en pratique.

Dans un deuxi` eme temps, nous d´ eﬁnissons le type MiGaL, correspondant ` a un empilement de graphes reli´ es entre eux par des applications d’abstraction.

L’application de MiGaL aux structures secondaires conduit au type RNA- MiGaL correspondant ` a 4 arbres enracin´ es, ordonn´ es repr´ esentant 4 vues de la structure secondaire ` a un niveau de d´ etail diff´ erent. Ensuite, nous d´ efinissons un algorithme g´ en´ eral pour la comparaison de telles structures ainsi qu’une d´ eclinaison sp´ ecifique utilisant l’algorithme d’´ edition d’arbre pr´ ec´ edemment d´ efini. Nous concluons cette partie par quelques r´ esultats pratiques obtenus avec notre nouveau mod` ele.

Enﬁn, en conclusion, nous aborderons les extensions possibles de nos tra-

vaux. Du point de vue biologique, nous tentons d’amener les premi` eres id´ ees

pouvant permettre la g´ en´ eralisation de notre mod` ele aux structures tertiaires

d’ARN. Cette d´ emarche nous force ` a introduire des graphes avec cycles dans

notre mod` ele multi-niveau et n’est pas sans cons´ equence sur les algorithmes

permettant alors la comparaison de ces nouveaux mod` eles. Du point de vue

algorithmique, nous essayerons d’examiner les diﬀ´ erentes voies qui s’oﬀrent ` a

(20)

nous pour le passage au probl` eme de la comparaison multiple de structures se-

condaires. L’int´ erˆ et principal est non plus de fournir une valeur d’appr´ eciation

de la similarit´ e entre deux structures comme c’est le cas dans la comparai-

son deux ` a deux, mais plutˆ ot d’ˆ etre capable d’inf´ erer un mod` ele commun ` a

plusieurs ARN.

(21)

Contexte Biologique

Nous allons d´ ecrire le contexte biologique dans lequel se situent nos tra- vaux. Dans un premier temps, nous d´ etaillerons le rˆ ole des ARN dans la cel- lule. Aﬁn d’illustrer notre propos, nous donnerons quelques exemples d’ARN connus. Le repliement et la structure des ARN seront ensuite abord´ es. Pour ﬁnir, nous pr´ esenterons quelques probl` emes pos´ es par les biologistes faisant intervenir la comparaison de structures d’ARN.

1.1 Les ARN dans la cellule

L’ARN, acide ribonucl´ eique, est un des composants fondamentaux de la cellule. Les ARN sont des mol´ ecules form´ ees par des nucl´ eotides. Ces nucl´ eotides r´ esultent de la combinaison d’une base h´ et´ erocyclique azot´ ee, Ad´ enine, Guanine, Uracile ou Cytosine, avec un ribose et un groupement acide phosphorique. Il est usuel de faire r´ ef´ erence ` a ces nucl´ eotides par les lettres A,C,G et U correspondantes aux diﬀ´ erentes bases.

La ﬁgure 1.1 repr´ esente les 4 nucl´ eotides ainsi qu’une chaˆıne d’ARN (form´ ee par ces nucl´ eotides). On peut voir qu’une des extr´ emit´ es de la chaˆıne se termine par un groupement phosphate, c’est l’extr´ emit´ e 5’ ; l’autre extr´ emit´ e se termine par un sucre, c’est l’extr´ emit´ e 3’. Les ARN sont ainsi des mol´ ecules orient´ ees : la s´ equence d´ ebute du cot´ e 5’ et se termine du cot´ e 3’.

Les ARN sont le produit de la transcription de l’ADN. Cette transcription est effectu´ ee par l’ARN polym´ erase (3 types chez les eucaryotes, un seul chez les procaryotes). Celle-ci se fixe ` a l’ADN sur une r´ egion qualifi´ ee de promo- trice. L’ARN polym´ erase parcourt alors le brin d’ADN dans le sens 3’ vers 5’

13

(22)

Fig. 1.1 – Sur la gauche, la repr´ esentation d’un nucl´ eotide ; ` a droite celle d’un ARN.

et contruit une s´ equence compl´ ementaire ` a l’ADN parcouru. Lorsque l’ARN polym´ erase rencontre un signal sp´ eciﬁque sur le brin d’ADN, la transcription de l’ADN est termin´ ee et une s´ equence compl´ ementaire de la r´ egion lue est ainsi produite. Chez les procaryotes, cette s´ equence est produite dans le cyto- plasme et peut ˆ etre directement utilis´ ee pour fabriquer des prot´ eines. Chez les eucaryotes, cette s´ equence est appel´ ee le transcrit primaire ou ARN nucl´ eaire h´ et´ erog` ene et va subir de profondes modiﬁcations ` a travers le processus de maturation. La maturation du transcrit peut consister en la suppression de certaines parties dites non codantes ou mˆ eme en la partition du transcrit en plusieurs ARN.

L’ARN ainsi produit peut remplir de nombreux rˆ oles au sein de la cellule en fonction du g` ene dont il est issu. Nous allons maintenant voir des exemples de divers types d’ARN.

1.2 Quelques exemples d’ARN

– Les ARN les plus connus sont les ARN messagers, not´ es ARNm. Ces

ARN sont les porteurs de l’information g´ en´ etique (ADN) codant pour

une prot´ eine. C’est ` a travers le proc´ ed´ e de traduction que les prot´ eines

sont synth´ etis´ ees ` a partir d’un ARNm.

(23)

Jusqu’` a tr` es r´ ecemment, il a ´ et´ e suppos´ e que les ARNm n’´ etaient pas structur´ es et n’avaient pas d’autre rˆ ole que de v´ ehiculer le code d’une prot´ eine. Cependant il a ´ et´ e montr´ e [76] [5] [91] que certains ARNm jouent un rˆ ole important dans certains m´ ecanismes de r´ egulation et qu’ils seraient plus structur´ es qu’initialement suppos´ e. Par exemple, les

“riboswitches” [76][88] sont form´ es dans les ARNm et sont impliqu´ es dans la r´ egulation de g` enes chez les bact´ eries.

– Les ARN ribosomaux, not´ es ARNr, sont les composants de base des ribosomes. Ces ribosomes sont form´ es de 2 ARNr (nomm´ ees respecti- vement grande sous unit´ e et petite sous unit´ e) ainsi que de prot´ eines.

Les ribosomes sont les acteurs principaux de la traduction d’un ARNm en prot´ eine.

– Les ARN de transfert, ou ARNt, jouent ´ egalement un rˆ ole lors de la traduction, en partenariat avec les ribosomes. Les ARNt font le lien entre les nucl´ eotides d’un ARNm et les acides amin´ es (composants de base des prot´ eines). Ce sont eux qui apportent les acides amin´ es n´ ecessaires ` a la synth` ese des prot´ eines et ainsi font le lien entre le monde des ARN et celui des prot´ eines.

La ﬁgure 1.2 pr´ esente de mani` ere tr` es simpliﬁ´ ee le m´ ecanisme de traduc- tion et le rˆ ole jou´ e par les ARNm, ARNr et ARNt.

Comme nous venons de le voir, les ARNr, les ARNt ainsi que certains ARNm exercent une fontion mol´ eculaire sp´ eciﬁque au sein de la cellule. Ces fonctions sont li´ ees ` a des conformations spatiales bien pr´ ecises. On dit que les ARN sont structur´ es : ils adoptent dans l’espace une conformation d´ etermin´ ee et sp´ eciﬁque ` a leur activit´ e. Ainsi, des motifs de structures ont pu ˆ etre ´ etablis pour certaines classes d’ARN [93][36][12]. Nous reviendrons sur ces notions plus tard.

Depuis les ann´ ees 90, de nombreux autres types d’ARN ont ´ et´ e d´ ecouverts.

Par exemple, les snARN (“small nuclear RNA”) sont des ARN de petite taille intervenant dans le processus de maturation du transcrit primaire, les snoARN (“small nucleolar RNA”) jouent un rˆ ole dans la modiﬁcation de bases de plusieurs familles d’ARN (ARNr, snARN, . . .), les microARN in- hibent l’expression d’un g` ene. Pour l’ensemble de ces ARN, la conformation spatiale adopt´ ee par l’ARN est ´ egalement directement li´ ee ` a son activit´ e.

Nous allons maintenant voir en quoi consiste cette conformation spatiale.

(24)

Fig. 1.2 – Les diﬀ´ erentes ´ etapes de la traduction.

1.3 Repliement et structure des ARN

Les ARN sont des s´ equences mono-brin de nucl´ eotides (A, C, G et U).

Dans la cellule, ils ne restent pas sous une forme lin´ eaire. En eﬀet, un ARN se replie sur lui-mˆ eme et des liaisons fortes se cr´ eent entre certains de ses nucl´ eotides. Plusieurs liaisons peuvent ˆ etre rencontr´ ees [54][55] :

– Les liaisons Watson-Crick ou liaisons canoniques sont les liaisons ma- joritaires. Une liaison de ce type se fait entre un A et un U, ou bien entre un C et un G.

– Les liaisons de type Wobble mises en ´evidence en 1966 par Crick sont les liaisons entre un G et un U. Ces liaisons sont les liaisons non-canoniques les plus courantes.

– D’autres liaisons plus rares telles que les liaisons G–A [68] et les liaisons C–U [40].

Ces liaisons se forment par blocs tout au long de l’ARN. Un bloc, ou suite de liaisons nucl´ eotidiques, forme une h´ elice dans l’espace (en trois dimension).

La ﬁgure 1.3 montre une h´ elice form´ ee par une telle suite. La ﬁgure 1.4 montre

les h´ elices qui composent un ARNt.

(25)

Fig. 1.3 – ` A gauche, on voit une suite de liaisons dont un wobble en rouge.

A droite, l’h´ ` elice form´ ee par cette suite de liaisons.

Fig. 1.4 – ` A gauche sont repr´ esent´ ees les quatres h´ elices qui constituent la

structure secondaire de l’ARNt dont la s´ equence est ` a droite.

(26)

L’ensemble des liaisons nucl´ eotidiques, ou appariements de bases, qui composent les h´ elices d’un ARN constitue sa structure secondaire. Une fois les h´ elices d´ etermin´ ees, on peut distinguer les ´ el´ ements de structure secondaire suivants (ceux-ci sont repr´ esent´ es sur la ﬁgure 1.5) :

– Une h´ elice est une suite continue de liaisons entre nucl´ eotides.

– Une boucle terminale est la suite de bases non appari´ ees formant une boucle ` a l’extr´ emit´ e d’une h´ elice.

– Une boucle multiple d´ esigne le point de rencontre d’au moins 3 h´ elices.

– Une boucle interne est form´ ee par deux suites de bases reliant deux h´ elices. Une boucle interne peut ˆ etre vue comme un cas particulier d’une boucle multiple.

– Un renﬂement est une boucle interne dont l’une des suites de bases est de longueur nulle.

– Une tige d´ enote une suite d’h´ elice(s)/boucle(s) interne(s)/renﬂement(s).

Fig. 1.5 – Les points repr´ esentent les bases de l’ARN. Les h´ elices sont in- diqu´ ees en bleu, les boucles terminales en rouge, les boucles multiples en vert, une boucle interne en rose et un renﬂement en bleu ciel. Cet ARN poss` ede 8 tiges dont 6 ne sont form´ ees que d’une h´ elice, les deux autres ´ etant entour´ ees en jaune.

La structure primaire d’un ARN correspond ` a sa s´ equence de nucl´ eotides.

(27)

On d´ efinit les pseudo-nœuds [69] comme ´ etant une suite de liaisons nucl´ eo- tidiques entre des nucl´ eotides libres (non appari´ ees) dans la structure secon- daire (voir figure 1.6). Lorsque l’on prend en compte les pseudo-nœuds ainsi que d’autres int´ eractions form´ ees au sein de l’ARN telles que par exemple les liaisons triples (une troisi` eme base se lie avec une liaison canonique) et les liaisons h´ elice-h´ elice [20], on parle de structure tertiaire. ` A ce niveau, la structure spatiale de l’ARN est parfaitement d´ efinie.

Fig. 1.6 – Exemple d’un pseudo-nœud : les liaisons qui forment le pseudo- nœud sont en pointill´ e.

Il est bien ´ evident que la structure tertiaire est la structure la plus pr´ ecise permettant d’´ etudier la fonction d’un ARN, celle-ci ´ etant li´ ee ` a la conforma- tion spatiale adopt´ ee. Cependant, il est admis que deux ARN ayant une structure secondaire proche auront une fonction mol´ eculaire similaire. C’est pourquoi l’ensemble des approches visant ` a ´ etudier la fonction des ARN r´ ealis´ ees ` a ce jour repose sur la structure secondaire avec ´ eventuellement la prise en compte des pseudo-nœuds.

1.4 Comparaison des ARN

La comparaison de structures secondaires d’ARN trouve de nombreuses

applications en biologie. En eﬀet, il est couramment admis que si deux ARN

ont une structure spatiale proche, alors ils ont la mˆ eme fonction biologique.

(28)

Nous allons voir des exemples pratiques d’utilisation de la comparaison de la structure secondaire des ARN.

1.4.1 Repliement d’ARN.

Actuellement il existe deux fa¸cons de d´ eterminer la structure secondaire d’un ARN.

La premi` ere est exp´ erimentale ` a l’aide de m´ ethodes de cristallographie par diﬀraction aux rayons X ou de r´ esonance magn´ etique nucl´ eaire [41]. Ces m´ ethodes sont longues et coˆ uteuses.

La deuxi` eme se fait ` a l’aide d’algorithmes utilisant la structure primaire d’un ARN. Un premier type d’algorithme utilise une approche bas´ ee sur la thermodynamique [98][100][64]. On d´ etermine la structure secondaire de l’ARN qui poss` ede l’´ energie libre minimum selon un mod` ele th´ eorique de calcul d’´ energie. C’est donc la structure th´ eorique la plus stable. Bien que cette approche donne de bons r´ esultats, surtout sur les petits ARN, il arrive souvent que la structure pr´ edite ne soit pas la bonne [97]. En eﬀet, un ARN n’adopte pas toujours la structure dont l’´ energie totale est minimale mais plutˆ ot une conformation ayant une ´ energie proche de la conformation la plus stable. C’est pourquoi les programmes bas´ es sur cette approche proposent non pas de g´ en´ erer la meilleure structure secondaire mais plutˆ ot un certain nombre de structures possibles dont l’´ energie est proche de l’´ energie mini- mum. Il faut alors choisir parmi ces structures celle qui est “correcte”. Si l’on dispose de la structure secondaire d’un ARN dont la fonction est identique ` a l’ARN dont on cherche le repliement, on peut alors comparer cette structure

`

a chacune des structures possibles aﬁn d’en extraire la plus proche.

Une autre type d’algorithme repose uniquement sur une analyse compa- rative d’un ensemble de s´ equences d’ARN dont on fait l’hypoth` ese qu’ils ont la mˆ eme fonction [37][32][14][78][81].

Bien que nombreuses, il est possible de d´ eterminer un ensemble de struc-

tures secondaires possibles pour chacune de ces s´equences. Une fois ces struc-

tures calcul´ ees, on peut comparer ensemble ces structures aﬁn de trouver

pour chaque s´ equence la structure pr´ esentant la meilleure similarit´ e avec les

structures des autres s´ equences d’ARN.

(29)

1.4.2 Inf´ erence de mod` eles.

Une autre application de la comparaison de structures est la g´ en´ eration d’un mod` ele pour une famille d’ARN connus [9][92]. Par mod` ele, on entend une description la plus pr´ ecise possible d’une structure secondaire ` a laquelle la majorit´ e des ARN de cette famille se conforme.

Pour calculer ce mod` ele, on dispose d’un ensemble de structures secon- daires d’ARN ayant une mˆ eme fonction biologique. Il faut alors comparer ces structures entre elles et d´ eterminer avec le plus de pr´ ecision possible les parties communes.

De tels mod` eles existent d´ ej` a pour certaines familles d’ARN [93][12], cependant ceux-ci ont ´ et´ e construits le plus souvent manuellement et la g´ en´ eration automatique “ﬁable” de mod` eles reste un probl` eme encore lar- gement ouvert.

1.4.3 Classiﬁcation

Le probl` eme de la classiﬁcation (“clustering”) est de partitionner un en- semble de structures secondaires selon leur similarit´ e. Pour cela, on dispose d’un ensemble de structures dont on ne connaˆıt pas a priori la fonction.

Dans un premier temps, on compare chacune de ces structures deux ` a deux.

Puis, on constitue des groupes de telle fa¸con ` a ce que toutes les structures secondaires au sein d’un mˆ eme groupe soient “proches” [74].

L’une des difficult´ es est de d´ efinir la notion de “proche” et d’´ etablir le nombre de groupes “id´ eal”. En effet, une solution triviale ` a ce probl` eme revient ` a cr´ eer autant de groupes qu’il y a de s´ equences. La solution oppos´ ee consiste ` a n’avoir qu’un seul groupe pour l’ensemble des s´ equences. Ainsi, on voit bien qu’il faut mettre en place des crit` eres ` a la fois sur le nombre de groupes et la similarit´ e des structures au sein de chaque groupe. L’outil utilis´ e pour la comparaison des structures tient une place importante dans cette d´ emarche car il sert ` a ´ etablir la similarit´ e entre les ARN.

1.4.4 Phylog´ enie.

La phylog´ enie consiste en l’´ etude de l’´ evolution de divers organismes aﬁn de d´ eterminer leurs liens de parent´ e (souvent repr´ esent´ e par un arbre)[57][67][26].

Dans la ﬁgure 1.7, on peut voir des arbres phylog´ eniques pour 5 esp` eces.

La racine de ces arbres repr´ esente l’ancˆ etre hypoth´ etique commun ` a ces 5

(30)

esp` eces. Un nœud interne repr´ esente l’ancˆ etre commun aux esp` eces descen- dantes de ce nœud. Dans notre exemple, l’arbre de gauche nous dit que les esp` eces C et D ont un ancˆ etre commun, lui mˆ eme issu d’une esp` ece qui est aussi ancˆ etre de E. L’arbre de droite donne un autre sch´ ema possible de l’´ evolution de ces esp` eces.

Fig. 1.7 – Exemple de deux arbres phylog´ eniques des 5 esp` eces : A,B,C,D et E. Chaque arbre pr´ esente une histoire diﬀ´ erente de l’´ evolution.

Ainsi, l’une des probl´ ematiques de la phylog´ enie est d’´ etablir l’arbre phy- log´ en´ etique d’un ensemble d’esp` eces. Pour cela, on doit observer les simila- rit´ es entre ces esp` eces afin de trouver une histoire ´ evolutive possible refl´ etant ces similarit´ es. Par exemple, on peut utiliser le g` ene codant pour une mˆ eme prot´ eine de plusieurs esp` eces. Une autre possibilit´ e est d’utiliser des struc- tures d’ARN pour ´ etudier l’´ evolution d’une famille d’ARN [50][16]. Pour d´ eterminer la proximit´ e de ces structures, nous avons besoin d’algorithmes capables d’en effectuer la comparaison.

Comme nous venons de le voir, la comparaison de structures d’ARN

pr´ esente de nombreuses applications et est un aspect important dans l’´ etude

des ARN. Nous allons maintenant examiner les diﬀ´ erentes possibilit´ es exis-

tantes pour comparer deux ARN.

(31)

Etat de l’art sur la mod´ ´ elisation d’ARN et les algorithmes de

comparaison d’ARN

Depuis une quinzaine d’ann´ ees de nombreux mod` eles et formalismes ont

´

et´ e propos´ es pour repr´ esenter la structure des ARN dans le but de les com- parer. Dans cette partie, nous allons exposer ces diﬀ´ erents formalismes ainsi que les algorithmes qui leur sont associ´ es.

Le premier mod` ele sera les s´ equences annot´ ees par des arcs. Ce mod` ele est tr` es proche de la structure secondaire car il consiste en une s´ equence augment´ ee par des arcs entre les symboles de celles-ci qui peuvent ˆ etre vus comme les liaisons entre les nucl´ eotides. Nous verrons trois probl` emes for- malis´ es ` a partir de ce mod` ele : la recherche de la plus longue sous s´ equence annot´ ee commune ` a deux s´ equences annot´ ees, la recherche d’un motif dans une s´ equence annot´ ee par des arcs et l’´ edition de deux s´ equences annot´ ees.

Ces probl` emes sont, dans le cas g´ en´ eral, NP-Complets. Nous examinerons des restrictions compatibles avec la mod´ elisation des ARN permettant d’obtenir des algorithmes polynomiaux. Nous terminerons sur les 2-intervalles. Ceux-ci peuvent ˆ etre vus comme une g´ en´ eralisation des s´ equences annot´ ees par des arcs. Un 2-intervalle est l’union disjointe de deux intervalles sur les entiers ou les r´ eels. Les ARN sont alors mod´ elis´ es par un ensemble de 2-intervalles (un 2-intervalle repr´ esentant une h´ elice). Le probl` eme ´ etudi´ e dans ce cas sera celui de la recherche de motif dans cet ensemble. De mˆ eme que pour les s´ equences annot´ ees, ce probl` eme a ´ et´ e prouv´ e comme ´ etant NP-Complet dans le cas g´ en´ eral. Cependant, des restrictions sur le motif cherch´ e permettent

23

(32)

d’obtenir des algorithmes eﬃcaces.

Enﬁn, le dernier chapitre montre comment utiliser les arbres pour mod´ eliser les ARN. Nous verrons qu’il existe de nombreux types d’arbres pour cette mod´ elisation en fonction du type d’information que l’on souhaite repr´ esenter.

Nous ﬁnirons sur le probl` eme d’´ edition entre deux arbres ainsi que celui de leur alignement.

2.1 S´ equence annot´ ee par des arcs

Evans dans [24] et [25] introduit la structure de s´ equence annot´ ee par des arcs. La ﬁn de ce chapitre est consacr´ ee aux 2-intervalles qui peuvent ˆ etre vu comme une g´ en´ eralisation des s´ equences annot´ ees.

Dans un premier temps, nous allons donner la d´ eﬁnition d’une telle s´ e- quence ainsi que certains cas particuliers de s´ equences annot´ ees. Puis nous aborderons trois probl` emes algorithmiques : la recherche de la plus longue sous-s´ equence commune avec conservation des arcs, la recherche de motif dans une sous-s´ equence annot´ ee et l’´ edition de deux s´ equences annot´ ees.

2.1.1 Introduction et notations

Dans l’ensemble de ce chapitre nous adoptons les notations suivantes : on d´ esigne par t une s´ equence de | t | symboles pris sur un alphabet Σ. On notera t[i] le i ^` ^eme caract` ere de t. Ainsi t = t[1]t[2] . . . t[ | t | ]. La cardinalit´ e d’un ensemble E est not´ ee | E | .

La d´ eﬁnition g´ en´ erale d’une s´ equence annot´ ee est la suivante : D´ eﬁnition 1. S´ equence annot´ ee par des arcs :

Un s´ equence annot´ ee par des arcs S(t, A) est d´ eﬁnie par une chaˆıne t sur un alphabet Σ ainsi qu’un ensemble A de couples de positions (i, j) sur t (i, j ∈ [1; | t | ]) tels que ∀ (i, j ) ∈ A, i < j .

La ﬁgure 2.1 montre deux exemples de s´ equences annot´ ees par des arcs.

On peut ﬁxer un certain nombre de contraintes (limitations) sur une s´ equence annot´ ee telles que :

1. Un symbole c ∈ Σ ne peut ˆ etre mis en relation via un arc qu’avec un

autre symbole c ∈ Σ.

(33)

Fig. 2.1 – Deux exemples de s´ equences annot´ ees par des arcs.

2. Les arcs de la s´ equence ne peuvent se croiser (cas repr´ esent´ e par des cercles bleus dans la ﬁgure 2.1) :

∀ (i, j) et (k, l) ∈ A tels que i < k alors j ≤ k ou j ≥ l.

3. Chaque ´ el´ ement de t ne peut avoir au plus qu’un seul arc (cas repr´ esent´ e par des cercles rouges sur la ﬁgure 2.1) :

∀ i, l ∈ [1; | t | ], il existe au plus un couple (i, l) ∈ A.

Cela signiﬁe que deux arcs ne peuvent partager une mˆ eme extr´ emit´ e.

4. Deux arcs ne peuvent ˆ etre inclus l’un dans l’autre :

∀ (i, j) et (k, l) ∈ A alors soit i < j ≤ k < l, soit k < l ≤ i < j.

5. A est vide.

Muni de ces contraintes, nous pouvons d´ efinir diff´ erents types de s´ equences annot´ ees par des arcs (voir la figure 2.2) :

g´ en´ eral : pas de limitation.

crois´ es : contrainte 3.

imbriqu´ es : contraintes 2 et 3.

successifs : contraintes 2, 3 et 4 sans arc : contrainte 5.

On remarquera la relation d’inclusion existante entre ces groupes. En ef- fet, les s´ equences de type sans arc d´ eﬁnissent un sous-ensemble des s´ equences de type successifs . . . qui sont un sous-ensemble des s´ equences g´ en´ eral. Voyons maintenant comment mod´ eliser les ARN avec de telles s´ equences.

Comme l’a fait remarquer Lin dans [60], lorsqu’on repr´ esente la structure

secondaire des ARN par des s´ equences annot´ ees par des arcs, alors deux arcs

ne partagent pas une mˆ eme extr´ emit´ e (restriction 3). La ﬁgure 2.3 montre

(34)

Fig. 2.2 – Exemple des diﬀ´ erents types de s´ equences annot´ ees (de gauche ` a droite et de haut en bas) : g´ en´ eral, imbriqu´ es, crois´ es, successifs et sans arc.

un ARN repr´ esent´ e par une s´ equence annot´ ee par des arcs.

Fig. 2.3 – Une s´ equence annot´ ee par des arcs repr´ esentant un ARN. Les arcs dessin´ es sous la s´ equence correspondent ` a un pseudo-nœud et croisent d’autres arcs.

Proposition 1. Mod´ elisation de la structure secondaire des ARN sans pseudo- nœuds :

Toute structure secondaire d’ARN qui ne contient pas de pseudo-nœuds est mod´ elisable par une s´ equence annot´ ee par des arcs de type imbriqu´ es.

D´ emonstration. Imm´ ediat (voir ﬁgure 2.4) de par la d´ eﬁnition d’une struc- ture secondaire sans pseudo-nœuds.

Proposition 2. Mod´ elisation de la structure secondaire des ARN avec pseudo- nœuds :

Toute structure secondaire d’ARN prenant en compte les pseudo-nœuds est mod´ elisable par une s´ equence annot´ ee par des arcs de type crois´ es.

D´ emonstration. Imm´ ediat (voir ﬁgure 2.4) de par la d´ eﬁnition d’une struc-

ture secondaire avec pseudo-nœuds.

(35)

Notons aussi que la structure primaire (s´ equence) des ARN est mod´ elisable par le type sans arc. La structure tertiaire des ARN implique des liaisons telles que les pseudo-nœuds ou encore les liaisons triples (liaison d’une base avec un liaison canonique). Ainsi les structures tertiaires des ARN sont mod´ elisables par les s´ equences annot´ ees par des arcs de type g´ en´ eral.

Fig. 2.4 – S´ equence annot´ ee repr´ esentant un ARN de transfert.

2.1.2 Probl` emes et Algorithmes

Nous allons maintenant voir trois probl` emes sur les s´ equences annot´ ees par des arcs, ` a savoir la recherche de la plus longue sous s´ equence commune ` a deux s´ equences annot´ ees, la recherche d’un motif dans une s´ equence annot´ ee et l’´ edition de deux s´ equences annot´ ees par des arcs.

LAPCS : recherche d’une sous-s´ equence commune ` a deux s´ equences.

Comme nous l’avons vu, un des enjeux de l’´ etude des ARN est l’inf´ erence

d’une sous-structure commune ` a deux (ou plusieurs) ARN. Dans le cadre

d’une mod´ elisation par des s´ equences annot´ ees par des arcs, ceci se traduit

par le probl` eme de la recherche de la plus longue sous-structure commune ` a

deux s´ equences annot´ ees, aussi appel´ e LAPCS (pour “longest arc preserving

common subsequence”). Ce probl` eme repose sur la notion d’association entre

deux s´ equences annot´ ees avec pr´ eservation des arcs.

(36)

D´ eﬁnition 2 (Association). Soient deux s´ equences annot´ ees par des arcs S ₁ (t ₁ , A ₁ ) et S ₂ (t ₂ , A ₂ ). On d´ eﬁnit une association M (S ₁ , S ₂ ) comme ´ etant un ensemble de couples (i, j) avec i ∈ [1; | t ₁ | ] et j ∈ [1; | t ₂ | ] tels que :

∀ (i ₁ , j ₁ ) ∈ M et ∀ (i ₂ , j ₂ ) ∈ M :

– Si i ₁ = i ₂ alors j ₁ = j ₂ (association un-un).

– Si i ₁ < i ₂ alors j ₁ < j ₂ (pr´ eservation de l’ordre).

– (i 1 , i 2 ) ∈ A 1 si et seulement si (j 1 , j 2 ) ∈ A 2 (pr´ eservation des arcs).

– t ₁ [i ₁ ] = t ₂ [j ₁ ] (pr´ eservation des symboles).

De l` a, nous pouvons d´ eﬁnir une sous s´ equence commune ` a deux s´ equences annot´ ees avec pr´ eservation des arcs :

D´ eﬁnition 3 (Sous s´ equence commune). Soient deux s´ equences annot´ ees par des arcs S ₁ (t ₁ , A ₁ ) et S ₂ (t ₂ , A ₂ ). On dira que L(t, A), s´ equence annot´ ee par des arcs, est une sous s´ equence commune ` a S 1 et S 2 avec pr´ eservation des arcs s’il existe une association (suite de couples) M = { m ₁ , . . . , m _|t| } telle que :

– ∀ m _v = (i, j) ∈ AS, t[v] = t ₁ [i] = t ₂ [j ].

– ∀ m _u = (i ₁ , j ₁ ), m _v = (i ₂ , j ₂ ) ∈ M , (u, v) ∈ A si et seulement si (i ₁ , i ₂ ) ∈ A ₁ (et donc (j ₁ , j ₂ ) ∈ A ₂ ).

Il ne reste plus qu’` a d´ eﬁnir la plus longue sous s´ equence commune ` a deux s´ equences avec pr´ eservation des arcs :

D´ eﬁnition 4 (Probl` eme LAPCS(longest arc-preserving common sub- sequence)). Soient deux s´ equences annot´ ees par des arcs S ₁ (t ₁ , P ₁ ) et S ₂ (t ₂ , P ₂ ).

On appelle LAPCS, la sous s´ equence commune ` a S ₁ et S ₂ de longueur maxi- male.

On notera LAPCS(Type1, Type2) le probl` eme de la recherche de la plus longue sous s´ equence commune ` a deux s´ equences annot´ ees, la premi` ere ´ etant de type Type1 et la deuxi` eme de type Type2, parmi les types g´ en´ eral, crois´ es, imbriqu´ es, successifs, sans arc d´ eﬁnis pr´ ec´ edemment.

Comme le montre la table 2.5, les diﬀ´ erents probl` emes LAPCS(Type1, Type2) sont inclus les uns dans les autres du fait de la relation d’inclusion qui existe entre les diﬀ´ erents types de s´ equences annot´ ees.

Le probl` eme LAPCS(sans arcs, sans arcs) correspond ` a la recherche de la

plus longue sous s´ equence commune ` a deux s´ equences, probl` eme bien connu

en algorithmique du texte.

(37)

LAPCS g´ en´ eral crois´ es imbriqu´ es successifs sans arcs g´ en´ eral •

crois´ es • ⊃ •

imbriqu´ es • ⊃ • ⊃ •

successifs • ⊃ • ⊃ • ⊃ •

sans arcs • ⊃ • ⊃ • ⊃ • ⊃ •

Fig. 2.5 – Relation entre les diﬀ´ erentes instances du probl` eme LAPCS.

Proposition 3 ( LAPCS(sans arcs, sans arcs) [38]). La recherche de la plus longue sous s´ equence commune ` a deux s´ equences t ₁ et t ₂ sur un alphabet ﬁxe se fait en O( | t ₁ || t ₂ | ).

D´ emonstration. L’algorithme r´ esolvant ce probl` eme a ´ et´ e propos´ e en 1975 par Hirschberg et repose sur une technique de programmation dynamique.

Pour plus de d´ etails on se r´ ef´ erera ` a [38].

Dans [24], Evans montre que LAPCS(g´ en´ eral, sans arcs) est NP-Complet.

Nous pouvons tout d’abord faire la proposition suivante :

Proposition 4 ( LAPCS(Type1, Type2)) . LAPCS(Type1, Type2) est dans NP.

Puis Evans montre que LAPCS(g´ en´ eral, sans arcs) est NP-dur par r´ eduction

`

a partir du probl` eme des ensembles ind´ ependants :

D´ eﬁnition 5 (Probl` eme des ensembles ind´ ependants ( Independent Set )). Soit un graphe G(V, E), d´ eﬁni par un ensemble de sommets V et d’arcs E. On dit qu’un sous ensemble V de sommets de G est ind´ ependant, si pour chaque couple de sommets (u, v ) ∈ V , il n’existe pas d’arc entre u et v dans E. Le probl` eme des ensembles ind´ ependants est le suivant : Soit un graphe G(V, E) et un entier k, existe-t-il un sous ensemble ind´ ependant de G de taille k ?

Proposition 5 (R´ eduction). Le probl` eme des ensembles ind´ ependants peut

ˆ etre r´ eduit en temps polynomial au probl` eme LAPCS(g´ en´ eral, sans arcs).

(38)

D´ emonstration. Nous ne donnons pas la r´ eduction compl` ete, mais seulement le codage utilis´ e, pour la preuve compl` ete voir [24].

Pour eﬀectuer la r´ eduction, on part d’un graphe G(V, E) et on construit deux s´ equences annot´ ees S ₁ (t ₁ , P ₁ ) et S ₂ (t ₂ , P ₂ ). Pour S ₁ , on a t ₁ = a ^|V ^| et P ₁ = E et pour S ₂ , t ₂ = a ^k et P ₂ = ∅ . On montre ainsi que G poss` ede un ensemble ind´ ependant de taille k si et seulement si il existe une association de taille k entre S 1 et S 2 .

On conclut par le th´ eor` eme suivant :

Th´ eor` eme 1 (Complexit´ e de LAPCS(g´ en´ eral, sans arcs)). LAPCS(g´ en´ eral, sans arcs) est NP-Complet.

D´ emonstration. D’apr` es les propositions 4 et 5, le probl` eme est dans NP et est NP-dur.

Corollaire 1 (Complexit´ e de LAPCS(g´ en´ eral, Type2)). LAPCS(g´ en´ eral, Type2) est NP-Complet quel que soit le type de Type2.

D´ emonstration. Quelque soit le type de Type2, LAPCS(g´ en´ eral, Type2) a pour sous probl` eme LAPCS(g´ en´ eral, sans arcs) (voir la table d’inclusion 2.5) et est dans NP (proposition 4).

Puis Evans montre que le probl` eme de recherche de clique dans un graphe peut ˆ etre r´ eduit en temps polynomial ` a LAPCS(crois´ es, crois´ es). Voici la d´ eﬁnition du probl` eme de recherche de clique dans un graphe :

D´ eﬁnition 6 (Clique dans un graphe (d´ ecision)). Soit G(V, E) un graphe non orient´ e connexe et k un entier. Existe-t-il un sous graphe complet de G ` a k sommets ?

Proposition 6 (R´ eduction). Le probl` eme de recherche de clique dans un graphe peut ˆ etre r´ eduit en temps polynomial au probl` eme LAPCS(crois´ es, crois´ es).

D´ emonstration. Voici le codage utilis´ e : On se donne un graphe G(V, E) com- pos´ e de n sommets et un entier k. On construit alors les s´ equences annot´ ees S ₁ (t ₁ , P ₁ ) et S ₂ (t ₂ , P ₂ ) de la mani` ere suivante :

– t ₁ = (ba ⁿ b) ⁿ : t ₁ est compos´ e de n blocs de la forme (ba ⁿ b). Ainsi la

longueur de t ₁ est n ² + 2n.

(39)

– P ₁ = { ((u − 1)(n + 2) + 1, u(n + 2)) | u ∈ V }

{ ((u − 1)(n + 2) + v + 1, (v − 1)(n + 2) + u + 1 | (u, v) ∈ E }

La premi` ere partie d´ efinit un arc entre les deux “b” aux extr´ emit´ es de chaque bloc (ba ⁿ b) de t ₁ . La deuxi` eme partie, pour chaque arc (u, v) de E, cr´ ee un arc entre le v ^` ê ^me “a” du bloc u et le u ^` ê ^me “a” du bloc v . – t ₂ = (ba ^k b) ^k : t ₂ est compos´ e de k blocs de la forme (ba ^k b). Ainsi la

longueur de t ₂ est k ² + 2k.

– P ₂ = { ((u − 1)(k + 2) + 1, u(k + 2)) | u ∈ [1; k] }

{ ((u − 1)(k + 2) + v + 1, (v − 1)(k + 2) + u + 1) | u ∈ [1; k[, v ∈ ]u; k] } La premi` ere partie de l’expression construit un arc entre les deux “b”

aux extr´ emit´ es de chaque bloc (ba ^k b) de t ₂ . Dans la deuxi` eme partie, pour chaque bloc i, on cr´ ee un arc pour tous les j ^` ^e ^me “a”, j > i, vers le (k − j ) ^` ^e ^me “a” du bloc j .

En fait, S ₂ correspond ` a la s´ equence S ₁ que l’on obtiendrait ` a partir d’un graphe complet de taille k.

Nous avons donn´ e ici le codage utilis´ e pour la r´ eduction, on se r´ ef´ erera ` a [24] pour la preuve compl` ete.

La ﬁgure 2.6 montre l’exemple d’un graphe et des s´ equences annot´ ees construites selon le codage d´ ecrit ci-dessus.

Il en suit le th´ eor` eme suivant :

Th´ eor` eme 2 (Complexit´ e de LAPCS(crois´ es, crois´ es) ). Le probl` eme LAPCS(crois´ es, crois´ es) est NP-Complet.

D´ emonstration. LAPCS(crois´ es, crois´ es) est dans NP et d’apr` es la proposi- tion 6, le probl` eme est NP-dur.

Proposition 7 (R´ eduction). Le probl` eme des ensembles ind´ ependants peut- ˆ etre r´ eduit en temps polynomial au probl` eme LAPCS(crois´ es, sans arc).

D´ emonstration. Voici le codage utilis´ e pour construire une instance du probl` eme LAPCS(crois´ es, sans arc) ` a partir d’une instance du probl` eme des ensembles ind´ ependants. (voir [24] pour la preuve compl` ete).

Pour faire cette r´ eduction, on part d’un graphe G(V, E) ` a n sommets et d’un entier k. On construit alors S ₁ (t ₁ , P ₁ ) et S ₂ (t ₂ , P ₂ ) comme suit :

– t ₁ = (ba ⁿ ) ⁿ

– P 1 = { ((u − 1)(n + 1) + v + 1, (v − 1)(n + 1) + u + 1) | (u, v) ∈ E } : pour

chaque arc (u, v), on cr´ ee un arc entre le u ^` ^e ^me “a” du v ^` ^e ^me bloc (ba ⁿ )

et le v ^` ^e ^me “a” du u ^` ^e ^me bloc.