• Aucun résultat trouvé

lettres 1.1 Du génome au protéome

1.3 De la compréhension des macromolécules au problèmes de texte

L’analogie entre les macromolécules et du texte est évidente dès que l’on essaie de représenter leurs structures primaires. Un brin d’ADN est une succession orientée (5’–3’, cf. Section 1.1.1 – page 12) de bases que les biologistes ont pris l’habitude de représenter par leurs initiales. Leur représentation sous forme textuelle (initiales des bases lues de gauche à droite) ne pose donc pas de problème. La représentation des protéines sous forme de texte est plus compliquée. En effet, les acides aminés sont plus nombreux, et certains partagent une même initiale. Toutefois, il est possible d’associer un symbole distinct par acide aminé. La difficulté s’accroît lorsque l’on essaie de représenter une macromolécule dont on ne connaît pas avec précision tous les composants. Le problème devient insurmontable en l’absence de conventions.

1.3.1 Le standardIUPAC

Il a fallu attendre  avant que soit adoptée la nomenclature des acides nucléiques [69], et  pour ce qui est des acides aminés [70] ; dates auxquelles l’INTERNATIONALUNION OFBIOCHEMISTRY AND MOLECULAR BIOLOGY, conjointement à l’INTERNATIONAL UNION OF PURE AND APPLIED

CHEMISTRYont défini les conventions de représentation des acides nucléiques et aminés (cf. Annexe A ; [68]). Ces normes, du fait de leur apparition tardive, ne sont pas toujours respectées. D’autres standards existent (GCG, staden, . . . ), mais n’intègrent pas toujours de notion sémantique dans leurs choix de représentation. En effet, le principe de ces standards est de représenter les macromolécules (ADN,ARN

et protéines) sous forme de séquences de lettres ou d’abréviations, en gérant dans la mesure du possible la possibilité de trouver plusieurs acides nucléiques ou aminés à certaines positions données (e.g. dans le cas d’une représentation consensuelle d’une macromolécule). La normeIUPAC est la plus complète, la plus documentée et la plus justifiée des trois normes citées ci-dessus. C’est pourquoi les travaux présentés dans ce manuscrit, se basent sur le respect de cette norme.

1.3.2 Problématiques

L’analogie entre les macromolécules et du texte peut être menée plus loin qu’une simple représen- tation desdites macromolécules. En effet, en reprenant l’exemple des facteurs de transcription (cf. Sec- tion 1.1.3 – page 15 – et Figure 1.5), la caractérisation des sites de liaisons concerne une information présente au niveau de la structure primaire des séquences d’ADN. De manière générale, les génomes sont très structurés. Deux brins d’ADN codant pour la même fonctionnalité biologique sont structu- rellement souvent proches. Les recherches sur la structure primaire des protéines sont basées sur les mêmes principes que pour la recherche sur la structure primaire de l’ADN, si ce n’est que l’alphabet est

plus étendu. En revanche, les structures tertiaire et quaternaire des protéines revêt un caractère impor- tant pour son fonctionnement. Aussi, la recherche peut alors être basée uniquement sur les propriétés physico-chimiques des acides aminés composant une protéine. La représentation textuelle des séquences primaires doit alors pouvoir permettre d’établir ces propriétés. Parmi les problèmes inhérents à l’analyse des séquences biologiques, certains sont exclusivement focalisés sur l’analyse des séquences primaires des macromolécules, et sont transposables à des problèmes d’algorithmique du texte, tels la recherche ou l’extraction de motifs répétés, ou encore l’alignement de séquences.

Extraction de Motifs vs. Recherche de Motifs

La recherche de ressemblances entre deux ou plusieurs séquences biologiques permet de mettre en évidence certaines fonctionnalités cellulaires. Plusieurs problèmes apparaissent alors, en fonction des in- formations disponibles. Selon que la recherche de ressemblance est basée sur la connaissance préalable d’un « motif » dans les séquences, ou au contraire qu’il s’agisse de découvrir un ou plusieurs « motifs » ressemblants dans les séquences, il est possible de distinguer deux problématiques complémentaires. Le premier problème, appelé recherche de motifs dans un ensemble de séquences, consiste à rechercher dans les séquences les positions d’un (ou plusieurs) motif « ressemblants » aux motifs fournis a priori. La notion de ressemblance traduit les phénomènes biologiques d’altération des séquences (cf. Section 1.2.1 – page 16). Le second problème, appelé « extraction de motifs dans un ensemble de séquences », consiste à extraire le (ou les) motif(s) commun(s) (i.e., qui se ressemblent ou qui ressemblent à un motif consen- suel) à l’ensemble de séquences, sans connaissance précise de ce(s) motif(s). Dans les deux cas, la pre- mière difficulté rencontrée lors de l’élaboration de méthodes de résolution de ces problèmes, est de définir

l’ensemble des critères permettant d’affirmer si deux motifs sont ressemblants ou non. S’en suit généra- lement le problème de la délimitation de l’espace de recherche, et enfin de l’évaluation de la pertinence des résultats fournis par lesdites méthodes.

Alignement de séquences

La ressemblance de séquences peut également être étudiée au niveau de la séquence entière, et non pas au niveau de quelques motifs. Dans le cas de la recherche ou de l’extraction de motifs, les comparai- sons se font localement sur les séquences. Il est question de ressemblance (ou similitude) locale. Dans le cas de l’étude, non plus de la présence d’un motif biologique particulier, mais d’une structure globale commune à plusieurs séquences, il est alors question de ressemblance globale. La majorité des méthodes recherchant des similitudes globales entre deux ou plusieurs séquences est basée sur un mécanisme d’ali- gnement des séquences (cette notion est reprise et illustrée dans le chapitre suivant). L’alignement se lit en deux dimensions. Les lignes correspondent aux séquences, tandis que les colonnes correspondent aux positions dans chacune des séquences. Dans une même colonne, deux acides nucléiques ou aminés qui ne se correspondent pas sont alors des substitutions. Selon les choix de représentations, il est possible ou non d’insérer un « trou » dans la colonne, représentant alors une suppression d’un acide dans la séquence (ou une insertion dans les séquences ne contenant pas de trou). La lecture de l’alignement vise à mettre en évidence les parties communes à toutes les séquences. À l’instar des problèmes de la recherche et de l’extraction de motifs, la principale difficulté consiste à modéliser la notion de ressemblance globale, puis à délimiter l’espace des possibles. Ce problème est néanmoins très proche – à plusieurs égards – du problème précédent, et les modélisations de la ressemblance sont souvent les mêmes.

CHAPITRE

2