• Aucun résultat trouvé

NOTRE M ´ ETHODE DE CLASSIFICATION 121

6.1 ´ Etat de l’art

6.2. NOTRE M ´ ETHODE DE CLASSIFICATION 121

sur la classification `a cause de probl`eme d’´echantillonnage : les fluctuations non si-gnificatives d’usage de codons sont plus importantes sur les g`enes courts, et un g`ene tr`es court de 10 r´esidus form´e `a 10% d’un codon particulier doit moins biaiser la classification qu’un g`ene ayant la mˆeme fr´equence d’usage de ce codon et long de 1000 triplets.

– Le choix du nombre de groupes est d´efini par un crit`ere objectif bas´e sur la stabilit´e des groupes form´es. Aucune information biologique n’est incluse a priori dans la classification : l’algorithme n’a pas d’id´ees pr´econ¸cues sur ce qu’il s’attend `a obser-ver1. Ceci permet d’affirmer que les groupes observ´es ne sont form´es que sur la base du biais d’usage de codons, et donc d’en d´eduire toutes les propri´et´es qui y sont reli´ees.

– Notre algorithme n’emploie pas de distance entre g`enes, comme celle qui est impli-citement utilis´ee en analyse des correspondances. Au lieu de cela, il optimise une propri´et´e bas´ee sur les groupes dans leur ensemble, et pas sur des relations par paires des g`enes les composant.

Nous allons r´esumer ici comment fonctionne notre m´ethode de classification, et sur quelles bases th´eoriques elle se fonde. Nous ne pr´esenterons ici que les principes, les calculs ´etant pr´esent´es dans l’article et d´etaill´es dans l’annexe B, page 237.

6.2.1 Crit`ere de partition

Notre m´ethode de classification se base sur la maximisation d’un crit`ere, bas´e sur la r´epartition des g`enes dans les diff´erents groupes, et mesurant le gain d’information apport´e par la classification en fonction du biais d’usage de codons, par rapport `a une classification homog`ene. Nous nous pla¸cons dans un cadre bayesien, et calculons la distribution des probabilit´es d’usage de codons dans chaque groupe qui maximise les chances d’observer les g`enes class´es `a l’int´erieur. A priori, la distribution d’usage de chaque codon est suppos´ee uniforme dans chaque groupe, car aucun g`ene n’est class´e. Apr`es la classification des g`enes dans les groupes, cette distribution a chang´e, et s’est biais´ee de fa¸con `a refl´eter au mieux les g`enes que contient chaque groupe : c’est la distribution a posteriori. Le gain d’information est mesur´e en comparant la distribution des probabilit´es d’usage des codons dans chaque groupe avant et apr`es classification. La quantit´e maximis´ee est l’´ecart entre ces deux distributions, consid´er´ee comme la distance de Kullback-Leibler les s´eparant.

Ceci nous permet de trouver le crit`ere `a maximiser. Cependant, il est impossible de tester toutes les classifications et de trouver celle qui le maximise, le nombre de classifica-tions de plus de 4000 g`enes en S groupes ´etant trop nombreuses. Un algorithme sp´ecial a donc ´et´e d´evelopp´e et test´e, inspir´e `a la fois des algorithmes de classification hi´erarchique et des algorithmes de type k-means. Cet algorithme a ´et´e pr´ef´er´e `a des m´ethodes de recuit simul´e pour des questions de vitesse de convergence, sans que cela ne modifie en rien les conclusions.

Notre algorithme fonctionne en deux temps. Tout d’abord, par une m´ethode de clas-sification hi´erarchique modifi´ee (voir ci-dessous), il construit une partition pour chaque nombre de groupe possible. Ensuite, un crit`ere de stabilit´e est calcul´e sur chaque partition, permettant de d´esigner celle qui est la plus repr´esentative de la r´ealit´e.

1Contrairement au chercheur, qui malgr´e toute son objectivit´e interpr`ete toujours les r´esultats `a sa mani`ere.

122 CHAPITRE 6. CLASSIFICATION DE G `ENES ET USAGE DE CODONS

6.2.2 Algorithme de classification

Notre algorithme de construction des classifications est hi´erarchique : il construit suc-cessivement une s´erie de partitions de moins en moins fines, en fusionnant `a chaque ´etape les deux groupes dont la r´eunion maximise le crit`ere d´efini pr´ec´edemment. Ce crit`ere ´etant bas´e sur les comptes des codons `a l’int´erieur de chaque groupe, le calcul de toutes les fusions possibles est ais´e, et se fait simplement en mesurant la diff´erence induite par l’enl`evement des deux groupes `a fusionner et le gain apport´e par leur fusion. Ceci permet `a l’algorithme d’ˆetre rapide, surtout quand de nombreuses fusions sont possibles.

Afin que notre classification ne soit pas pi´eg´ee dans un maximum local, une phase de r´eallocation dynamique it´erative a lieu lorsque le nombre de groupes est suffisamment faible, `a partir de 40 dans l’article. `A cette ´etape, chaque g`ene est successivement d´eplac´e dans chaque groupe – d’o`u l’int´erˆet de commencer cette proc´edure quand le nombre de groupes est faible – et la nouvelle valeur du crit`ere de partition est calcul´ee. Au final, le d´eplacement conserv´e est celui qui augmente la valeur du crit`ere de partition, s’il existe. Cette phase a lieu it´erativement `a deux niveaux : tout d’abord chaque g`ene est test´e comme d´ecrit ci-dessus, puis, si au moins un mouvement a eu lieu, tous les g`enes sont de nouveau test´es. Ceci permet de replacer des g`enes situ´es au niveau des “fronti`eres” des groupes. Cette phase permet ´egalement de maximiser le crit`ere d’information mˆeme sur les g`enes dont l’usage du code est trop sp´ecifique pour vraiment appartenir `a un groupe, quand le nombre de groupes est faible.

6.2.3 Estimation du nombre de groupes

Finalement, la partition qui repr´esente le “mieux” les donn´ees est estim´ee par une mesure simple de la stabilit´e des groupes. Techniquement, on mesure pour chaque g`ene la probabilit´e que son usage du code le fasse attribuer dans le groupe auquel il appartient vraiment. Cette valeur est moyenn´ee arithm´etiquement sur les g`enes de chaque groupe, puis g´eom´etriquement sur les groupes, pour renforcer le poids d’´eventuelles valeurs faibles `a l’´echelle d’un groupe. Ceci permet facilement de pointer, par exemple, deux groupes aux distributions de probabilit´es tr`es proches : les valeurs des stabilit´es de chaque g`ene dans ce cas seront proches de 0.5, et le produit sur tous les g`enes fera chuter la stabilit´e globale tr`es rapidement.

Une pr´ecaution doit ˆetre prise : calculer simplement la stabilit´e comme expliqu´e au paragraphe pr´ec´edent ne permet pas de trouver la partition des donn´ees ayant le nombre de groupes le plus fiable, car ce crit`ere de stabilit´e est strictement d´ecroissant en fonction du nombre de groupes. Pour r´esoudre ce probl`eme, nous comparons les valeurs des stabilit´es obtenues `a S groupes `a celle obtenue sur une partition en S groupes d’un jeu de donn´ees non structur´e. Pour cela, nous construisons tout d’abord ce jeu de donn´ees, `a partir des probabilit´es moyennes d’usage de chaque codon dans le g´enome. Le fait de garder ces probabilit´es, ainsi que le nombre et les longueurs des g`enes, identiques au jeu de donn´ees r´eel, permet de ne pas biaiser notre analyse. Ensuite, nous appliquons l’algorithme de classification sur ces donn´ees, et calculons la stabilit´e des groupes de ce jeu de donn´ees. Le maximum de la diff´erence entre la stabilit´e r´eelle et la stabilit´e du jeu de donn´ees non structur´e d´efinit le nombre de groupes r´eel des donn´ees.

6.3. L’ARTICLE 123

6.3 L’article

Voici l’article, tel qu’il a ´et´e publi´e dans la revue PLoS Computational Biology (Fig. 6.1). Ici il est suivi des figures et des tables pr´esent´ees dans le journal comme mat´eriels suppl´ementaires, ainsi que par l’addendum que nous avons ´ecrit pour compl´eter notre analyse par la suite.

Les principales conclusions sont les suivantes :

– Notre m´ethode de classification permet de retrouver et d’am´eliorer en pr´ecision les r´esultats des pr´ec´edentes analyses par correspondances faites sur E. coli K12 et B, subtilis (M´edigue et al., 1991; Moszer et al., 1999), en trouvant 4 groupes de g`enes chez la premi`ere et 5 chez la seconde.

– La similarit´e du biais de codons entre plusieurs g`enes est tr`es corr´el´ee avec l’appar-tenance aux mˆemes voies m´etaboliques, ou aux mˆemes op´erons.

– De plus, le biais d’usage de codons des g`enes est corr´el´e `a leurs fonctions. En plus de la traditionnelle association entre g`enes fortement exprim´es et biais de codons, que nous retrouvons, on observe que les g`enes anaboliques – des g`enes exprim´es en situation de carence pour permettre la survie de l’organisme – de B. subtilis partagent le mˆeme biais. Ceci est `a mettre en relation avec les travaux dont nous avons parl´e `a la section “Le paradoxe des codons rares”, paragraphe 3.5.c, page 84 sur les codons sensibles ou insensibles, et la diff´erence de contenu cellulaire en ARNt en fonction des conditions ext´erieures.

– Les g`enes partageant le mˆeme biais de codons ont une tendance `a ˆetre voisins sur le chromosome, aussi bien chez E. coli que chez B. subtilis. Ces corr´elations spatiales s’´etendent sur des distances en moyenne cinq fois plus grandes que la longueur typique des op´erons. Ce ph´enom`ene que nous avons mis en avant pour la premi`ere fois pourrait ˆetre expliqu´e par une s´election pour une r´egulation de la traduction en fonction du contexte d’expression g´en´etique.

124 CHAPITRE 6. CLASSIFICATION DE G `ENES ET USAGE DE CODONS

Fig. 6.1 – Image que j’ai pr´epar´ee et propos´ee `a la revue PLoS Computational Biology pour la couverture du num´ero contenant notre article.

Codon Usage Domains over Bacterial

Documents relatifs