NOTRE M ´ ETHODE DE CLASSIFICATION 121

6.1 ´ Etat de l’art

6.2. NOTRE M ´ ETHODE DE CLASSIFICATION 121

sur la classification à cause de problème d’échantillonnage : les fluctuations non si-gnificatives d’usage de codons sont plus importantes sur les gènes courts, et un gène très court de 10 résidus formé à 10% d’un codon particulier doit moins biaiser la classification qu’un gène ayant la même fréquence d’usage de ce codon et long de 1000 triplets.

– Le choix du nombre de groupes est défini par un critère objectif basé sur la stabilité des groupes formés. Aucune information biologique n’est incluse a priori dans la classification : l’algorithme n’a pas d’idées précon¸cues sur ce qu’il s’attend à obser-ver1. Ceci permet d’affirmer que les groupes observés ne sont formés que sur la base du biais d’usage de codons, et donc d’en déduire toutes les propriétés qui y sont reliées.

– Notre algorithme n’emploie pas de distance entre gènes, comme celle qui est impli-citement utilisée en analyse des correspondances. Au lieu de cela, il optimise une propriété basée sur les groupes dans leur ensemble, et pas sur des relations par paires des gènes les composant.

Nous allons résumer ici comment fonctionne notre méthode de classification, et sur quelles bases théoriques elle se fonde. Nous ne présenterons ici que les principes, les calculs étant présentés dans l’article et détaillés dans l’annexe B, page 237.

6.2.1 Crit`ere de partition

Notre méthode de classification se base sur la maximisation d’un critère, basé sur la répartition des gènes dans les différents groupes, et mesurant le gain d’information apporté par la classification en fonction du biais d’usage de codons, par rapport à une classification homogène. Nous nous pla¸cons dans un cadre bayesien, et calculons la distribution des probabilités d’usage de codons dans chaque groupe qui maximise les chances d’observer les gènes classés à l’intérieur. A priori, la distribution d’usage de chaque codon est supposée uniforme dans chaque groupe, car aucun gène n’est classé. Après la classification des gènes dans les groupes, cette distribution a changé, et s’est biaisée de fa¸con à refléter au mieux les gènes que contient chaque groupe : c’est la distribution a posteriori. Le gain d’information est mesuré en comparant la distribution des probabilités d’usage des codons dans chaque groupe avant et après classification. La quantité maximisée est l’écart entre ces deux distributions, considérée comme la distance de Kullback-Leibler les séparant.

Ceci nous permet de trouver le critère à maximiser. Cependant, il est impossible de tester toutes les classifications et de trouver celle qui le maximise, le nombre de classifica-tions de plus de 4000 gènes en S groupes étant trop nombreuses. Un algorithme spécial a donc été développé et testé, inspiré à la fois des algorithmes de classification hiérarchique et des algorithmes de type k-means. Cet algorithme a été préféré à des méthodes de recuit simulé pour des questions de vitesse de convergence, sans que cela ne modifie en rien les conclusions.

Notre algorithme fonctionne en deux temps. Tout d’abord, par une méthode de clas-sification hiérarchique modifiée (voir ci-dessous), il construit une partition pour chaque nombre de groupe possible. Ensuite, un critère de stabilité est calculé sur chaque partition, permettant de désigner celle qui est la plus représentative de la réalité.

1Contrairement au chercheur, qui malgré toute son objectivité interprète toujours les résultats à sa manière.

122 CHAPITRE 6. CLASSIFICATION DE G `ENES ET USAGE DE CODONS

6.2.2 Algorithme de classification

Notre algorithme de construction des classifications est hiérarchique : il construit suc-cessivement une série de partitions de moins en moins fines, en fusionnant à chaque étape les deux groupes dont la réunion maximise le critère défini précédemment. Ce critère étant basé sur les comptes des codons à l’intérieur de chaque groupe, le calcul de toutes les fusions possibles est aisé, et se fait simplement en mesurant la différence induite par l’enlèvement des deux groupes à fusionner et le gain apporté par leur fusion. Ceci permet à l’algorithme d’être rapide, surtout quand de nombreuses fusions sont possibles.

Afin que notre classification ne soit pas piégée dans un maximum local, une phase de réallocation dynamique itérative a lieu lorsque le nombre de groupes est suffisamment faible, à partir de 40 dans l’article. À cette étape, chaque gène est successivement déplacé dans chaque groupe – d’où l’intérêt de commencer cette procédure quand le nombre de groupes est faible – et la nouvelle valeur du critère de partition est calculée. Au final, le déplacement conservé est celui qui augmente la valeur du critère de partition, s’il existe. Cette phase a lieu itérativement à deux niveaux : tout d’abord chaque gène est testé comme décrit ci-dessus, puis, si au moins un mouvement a eu lieu, tous les gènes sont de nouveau testés. Ceci permet de replacer des gènes situés au niveau des “frontières” des groupes. Cette phase permet également de maximiser le critère d’information même sur les gènes dont l’usage du code est trop spécifique pour vraiment appartenir à un groupe, quand le nombre de groupes est faible.

6.2.3 Estimation du nombre de groupes

Finalement, la partition qui représente le “mieux” les données est estimée par une mesure simple de la stabilité des groupes. Techniquement, on mesure pour chaque gène la probabilité que son usage du code le fasse attribuer dans le groupe auquel il appartient vraiment. Cette valeur est moyennée arithmétiquement sur les gènes de chaque groupe, puis géométriquement sur les groupes, pour renforcer le poids d’éventuelles valeurs faibles à l’échelle d’un groupe. Ceci permet facilement de pointer, par exemple, deux groupes aux distributions de probabilités très proches : les valeurs des stabilités de chaque gène dans ce cas seront proches de 0.5, et le produit sur tous les gènes fera chuter la stabilité globale très rapidement.

Une précaution doit être prise : calculer simplement la stabilité comme expliqué au paragraphe précédent ne permet pas de trouver la partition des données ayant le nombre de groupes le plus fiable, car ce critère de stabilité est strictement décroissant en fonction du nombre de groupes. Pour résoudre ce problème, nous comparons les valeurs des stabilités obtenues à S groupes à celle obtenue sur une partition en S groupes d’un jeu de données non structuré. Pour cela, nous construisons tout d’abord ce jeu de données, à partir des probabilités moyennes d’usage de chaque codon dans le génome. Le fait de garder ces probabilités, ainsi que le nombre et les longueurs des gènes, identiques au jeu de données réel, permet de ne pas biaiser notre analyse. Ensuite, nous appliquons l’algorithme de classification sur ces données, et calculons la stabilité des groupes de ce jeu de données. Le maximum de la différence entre la stabilité réelle et la stabilité du jeu de données non structuré définit le nombre de groupes réel des données.

6.3. L’ARTICLE 123

6.3 L’article

Voici l’article, tel qu’il a été publié dans la revue PLoS Computational Biology (Fig. 6.1). Ici il est suivi des figures et des tables présentées dans le journal comme matériels supplémentaires, ainsi que par l’addendum que nous avons écrit pour compléter notre analyse par la suite.

Les principales conclusions sont les suivantes :

– Notre méthode de classification permet de retrouver et d’améliorer en précision les résultats des précédentes analyses par correspondances faites sur E. coli K12 et B, subtilis (Médigue et al., 1991; Moszer et al., 1999), en trouvant 4 groupes de gènes chez la première et 5 chez la seconde.

– La similarité du biais de codons entre plusieurs gènes est très corrélée avec l’appar-tenance aux mêmes voies métaboliques, ou aux mêmes opérons.

– De plus, le biais d’usage de codons des gènes est corrélé à leurs fonctions. En plus de la traditionnelle association entre gènes fortement exprimés et biais de codons, que nous retrouvons, on observe que les gènes anaboliques – des gènes exprimés en situation de carence pour permettre la survie de l’organisme – de B. subtilis partagent le même biais. Ceci est à mettre en relation avec les travaux dont nous avons parlé à la section “Le paradoxe des codons rares”, paragraphe 3.5.c, page 84 sur les codons sensibles ou insensibles, et la différence de contenu cellulaire en ARNt en fonction des conditions extérieures.

– Les gènes partageant le même biais de codons ont une tendance à être voisins sur le chromosome, aussi bien chez E. coli que chez B. subtilis. Ces corrélations spatiales s’étendent sur des distances en moyenne cinq fois plus grandes que la longueur typique des opérons. Ce phénomène que nous avons mis en avant pour la première fois pourrait être expliqué par une sélection pour une régulation de la traduction en fonction du contexte d’expression génétique.

124 CHAPITRE 6. CLASSIFICATION DE G `ENES ET USAGE DE CODONS

Fig. 6.1 – Image que j’ai préparée et proposée à la revue PLoS Computational Biology pour la couverture du numéro contenant notre article.

Codon Usage Domains over Bacterial

Dans le document Biais de codons et régulation de la traduction chez les bactéries et leurs phages (Page 122-126)