• Aucun résultat trouvé

´et´e observ´e dans les ann´ees 60 (Bock et al., 1966; Morris and DeMoss, 1965; Yegian and Stent, 1969) sans ˆetre expliqu´e. Ces travaux donnent un point de vue compl`etement neuf sur l’usage des codons, et modifient les notions de codons rares ou majeurs en codons sensitifs ou insensitifs aux carences.

On note respectivement ti et fi, le nombre d’ARNt reconnaissant le codon i, et la fr´equence d’emploi du codon i relativement `a ses synonymes, et αi la fraction relative d’ARNt charg´es dans la cellule. On suppose que, `a l’´equilibre, le taux de chargement des ARNt de chaque esp`ece est proportionnel au taux d’utilisation par les complexes riboso-maux de ces ARNt. Si on prend l’exemple simple de deux codons synonymes reconnus par deux ARNt diff´erents, la condition d’´equilibre pr´ec´edente s’´ecrit comme l’´egalit´e des rapport des concentrations des ARNt charg´es et de leur taux d’utilisation :

(1−α1)t1 (1−α2)t2 = f1

f2. (3.9)

Cette ´equation repr´esente simplement l’´egalit´e des taux de deux processus chimiques, le chargement par les synth´etases et le d´echargement par le complexe ribosomal, pour deux ARNt charg´es du mˆeme acide amin´e. Elle permet de voir que, si l’on soumet la cellule `a une carence dans l’acide amin´e qui devrait ˆetre charg´e sur ces ARNt,α1 etα2 ne tendent pas vers z´ero `a la mˆeme vitesse. L’un des deux ARNt va voir la concentration de ses ´el´ements charg´es chuter `a z´ero, tandis que pour l’autre elle restera non nulle. L’ARNt qui va voir sa concentration d’´el´ements charg´es diminuer le plus est celui pour lequel le ratio ti/fi est le plus faible au d´epart. Si on se replace dans le contexte des mod`eles pr´ec´edents, et que l’on suppose que la cellule est optimis´ee pour un usage de codons permettant de minimiser les temps d’attente au niveau du ribosome, alors on respecte la condition t1/t2 =p

f1/f2. Dans ce cas, on voit que si la concentration en ARNt 1 est la plus importante (donc t1 > t2, et le codon 2 est le codon rare), on trouve t1/f1 < t2/f2. C’est donc l’ARNt reconnaissant le codon majoritaire, celui-la mˆeme qui est employ´e par les prot´eines essentielles, qui va voir sa concentration chuter `a z´ero en cas de carence, dans ce mod`ele. Et l’ARNt correspondant au codon rare qui va continuer `a ˆetre exprim´e, mˆeme si c’est `a un taux plus faible. Donc une cellule optimis´ee pour acc´el´erer sa traduction sur milieu riche l’est naturellement pour changer de codons majeurs en cas de carence. Ce changement peut avoir de nombreuses cons´equences, dont la premi`ere est la diminution du taux de production des prot´eines ayant le biais de codons des g`enes fortement exprim´ees, par exemple les prot´eines ribosomales. En effet, la cellule en situation de carence doit

´economiser ses acides amin´es, et ne peut se permettre de faire augmenter son stock de ribosomes : elle doit avant cela synth´etiser l’acide amin´e manquant en quantit´es suffisantes pour rentabiliser l’investissement repr´esent´e par la fabrication de nouveaux ribosomes.

D’ailleurs, il a ´egalement ´et´e observ´e que les voies biosynth´etiques des acides amin´es, qui ne s’expriment qu’en situation de carence, ont leurs g`enes cod´es majoritairement par des codons insensitifs, qui sont certains des codons “rares”. Ces g`enes sont donc traduits sans difficult´e lors des situations de carence, au moins du point de vue des ARNt : leur usage de codons est optimis´e de la mˆeme mani`ere que celui des prot´eines fortement ex-prim´ees, mais de fa¸con ajust´ee au contenu en ARNt r´eel que les ARNm voient au moment de leur expression, et pas celui qui est observ´e en phase exponentielle de croissance. De plus, cette hypoth`ese permet ´egalement d’expliquer le choix des codons employ´es dans les s´equences promotrices des op´erons des voies biosynth´etiques : ce sont les codons les plus sensibles, donc ceux qui disparaissent le plus vite en cas de carence. Ce double usage

86 CHAPITRE 3. CODE G ´EN ´ETIQUE ET USAGE DE CODONS des codons permet aux op´erons biosynth´etiques d’ˆetre transcrits en cas de carence uni-quement – grˆace aux m´ecanismes d’att´enuation transcriptionnelle d´ecrits au chapitre 2 – tout en permettant que les g`enes eux-mˆemes soient cod´es avec des codons pour lesquels les ARNt charg´es ne vont pas manquer.

Finalement, l’analyse de la s´equence messager des ARNtm montre qu’elle est cod´ee par des codons insensitifs. En cas de brusque carence dans le milieu, la traduction des mol´ecules coˆuteuses va s’arrˆeter, n´ecessitant des ARNtm pour d´ebloquer les ribosomes.

Et l’usage de codons de la s´equence messager des ARNtm est optimis´e par rapport au contenu r´eel en ARNt dans lequel les ARNtm baignent lorsqu’ils sont utilis´es. De ce point de vue, les ARNtm peuvent ˆetre consid´er´es comme une r´eponse `a un facteur de stress, la carence en un acide amin´e.

Deuxi` eme partie

Classification et th´ eorie de l’information

87

Introduction

La classification s’int´eresse au probl`eme de la r´eduction des jeux de donn´ees. Le but de toute classification est de regrouper les donn´ees dans un ensemble de groupes de fa¸con

`

a ce que les donn´ees situ´ees dans le mˆeme groupe soient les plus similaires possibles. Un exemple trivial est de partitionner la liste {rose, Marie, chien, chat, ´el´ephant, Emmanuel, bleu, dromadaire, vert, Paul} en sous-listes. On obtient intuitivement :

– Marie, Paul et Emmanuel – les pr´enoms

– chien, chat, ´el´ephant, dromadaire – les animaux – vert, bleu, rose – les couleurs

Mais partitionner de fa¸con automatique d’´enormes jeux de donn´ees est un probl`eme complexe. Rien que sur cet exemple simple, on peut identifier plusieurs des ´el´ements n´ecessaires `a toute classification. Il faut savoir, avant de classer, le nombre des groupes dans lesquels on veut s´eparer les donn´ees, et le crit`ere de similarit´e que l’on veut employer.

Dans notre exemple, tous deux ont ´et´e choisis par le lecteura posteriori, apr`es analyse des donn´ees. Le choix du crit`ere de partition, mˆeme s’il paraˆıt intuitif dans cet exemple, est une question complexe, car le crit`ere de partition doit ˆetre objectif. On peut par exemple se poser la question, pourquoi “rose” est class´e comme une couleur et pas comme un pr´enom ? L’absence d’une majuscule est dans ce cas un crit`ere bien d´efini permettant de choisir. Mais comment classer “saumon” avec les crit`eres pr´ec´edents ? Est-ce un animal ou une couleur ?

Les usages de la classification sont multiples. En informatique, les techniques de clas-sification servent `a compresser les donn´ees, les images par exemple, comme on le verra au chapitre 5. Un autre usage, connu de tous, est l’“antispam”, qui trie les courriers

´electroniques et inf`ere de leur int´erˆet, les classant en deux cat´egories.

En statistiques, les donn´ees sont regroup´ees de fa¸con `a limiter le nombre de cat´egories afin de faciliter la compr´ehension et d’augmenter le pouvoir statistique `a l’int´erieur de chaque classe. La classification permet d’abr´eger la description n´ecessaire pour donner le sens des mesures statistiques faites sur, par exemple, 1000 personnes, sans avoir `a d´ecrire les particularit´es de chacun.

En biologie, et tout particuli`erement en g´enomique, les techniques de classification ont de multiples usages, dˆus `a la grande taille des jeux de donn´ees utilis´es. Les applications sont multiples, comme la classification de prot´eines par leur composition en acides amin´es, ou la classification de donn´ees d’expression par leur similarit´e, dans le but d’identifier des g`enes ayant les mˆemes r´egulateurs. Une autre des applications les plus connues des techniques de classification en biologie est la r´ealisation de classifications phylog´en´etiques, retra¸cant l’´evolution des organismes et permettant d’´etablir des liens de parent´e entre esp`eces. C’est une forme de classification hi´erarchique qui est employ´ee dans ce cas. Une autre application est l’analyse de donn´ees d’expression. En effet, l’´etude de donn´ees d’expression de g`enes

89

90

conduit naturellement `a vouloir identifier des groupes de g`enes qui s’expriment ensemble, et donc `a classer les donn´ees en groupes. De plus, dans ce cas, la m´ethode de classification employ´ee doit ˆetre robuste et tenir compte du bruit qui est in´evitablement pr´esent dans les donn´ees.

Chapitre 4