• Aucun résultat trouvé

3.3.1 Biais dans la composition en acides aminés

La principale particularité du génome de P. falciparum est donc son taux très élevé en A+T atteignant 90% dans certaines régions (Gardner et al.,2002). Ce taux est remarquable car il est nettement supérieur à celui observé dans la plupart des organismes. Lors de la traduction, ce déséquilibre dans la composition en nucléotides des gènes se traduit par un biais de la composition en acides aminés des protéines. Ce biais constitue un obstacle important à la recherche de séquences homologues et à l’annotation fonctionnelle de P. falciparum.

3.3. ATYPICITÉS 81

Lorsque l’on parle de biais compositionnel chez P. falciparum, on se compare implicitement à un ensemble d’organismes de référence appelés organismes modèles. Les organismes modèles sont les organismes qui ont fait l’objet des études à la paillasse les plus massives et bien souvent les plus anciennes. Par conséquent, ce sont les premiers à avoir été complètement séquencés. Chez la plupart des organismes modèles, comme la levure par exemple, le taux de A+T est généralement d’environ 60%. Le biais compositionnel d’un organisme (AT-riche ou GC- riche) s’observe donc par un déséquilibre dans la fréquence d’utilisation des acides aminés codés par des codons AT-riches (FYMNIK) et GC-riches (GARP) dans l’ensemble de ses protéines. Nous avons comparé la distribution en acides aminés chez P. falciparum (d’après les séquences protéiques extraites du site Web de PlasmoDB version 5.5 datant du début 2009), avec celle des organismes actuellement séquencés et répertoriés dans Swiss-Prot (bénéficiant d’une grande qualité d’annotation). La figure 3.5 représente, pour ces deux ensembles de protéines, la distribution des 20 acides aminés, ordonnés par le pourcentage moyen d’A+T permettant leur synthèse (calcul uniquement à partir du code génétique sans tenir compte d’une table d’usage des codons). Cette figure montre clairement la baisse de fréquence des 4 acides aminés GC-riches (GARP) chez P. falciparum. On remarque que cette diminution de l’arginine (R), codée par 6 codons différents, est compensé par la lysine (K) bien que codée uniquement par deux codons distincts. Ces acides aminés sont tous deux chargés positivement et facilement interchangeables. On observe également que la leucine (L) codée par 6 codons semble être fréquemment remplacée par l’isoleucine, codée par 3 codons mais AT-riche, qui est également un autre acide aminé aliphatique. Un chiffre à retenir pour illustrer ce déséquilibre est celui de la prédominance des acides aminés (I, K, N). Avec ces trois seuls acides aminés, P. falciparum code plus de 35% de ses séquences protéiques.

De plus, il a été suggéré que le biais provient d’une pression d’origine nucléique (Singer et Hickey, 2000; Bastien et al., 2004). On observe en effet que la distribution des nucléotides diffère selon la position dans les codons. Les chiffres extraits de la table d’usage des codons de P. falciparum (PlasmoDB 6.5) montre un pourcentage en A+T supérieur en deuxième position d’un codon par rapport à la première position (environ 78% contre 68% respectivement). Le plus fort taux de A+T (>82%) est observé en troisième position des codons (Musto et al., 1995). De plus, on constate une autre particularité en troisième posi- tion : l’inversion des tendances entre l’adénine et la thymine. Sur les deux premières positions des codons le taux d’adénine est supérieur de plus de 20% à celui de thymine. En troisième position la fréquence d’une thymine devient plus élevée (de 5%) que celle de l’adénine, ce qui se traduit notamment par une utilisation plus fréquente de l’asparagine N (codée à 86% par le codon AAT et à 14% par AAC) que de la lysine K (codée à 82% par AAA pour 18% de AAG).

3.3.2 Insertions de faible complexité

La seconde particularité que l’on observe chez P. falciparum est la longueur de ses protéines, environ 20% plus longues que les protéines homologues d’autres organismes (Pizzi et Frontali,2001). Quand un alignement multiple est possible, cette différence de taille semble provenir de la présence dans les protéines de P. falciparum de longues insertions, allant

Figure3.5 – Logos de la composition moyenne en acides aminés des protéines de

P. falciparum (en haut) et de Swiss-Prot (en bas). Les fréquences des acides aminés

sont reportées sur l’axe de droite. Les acides aminés sont placés dans l’ordre décroissant (de gauche à droite) en fonction de leur richesse en AT (cf. figure 2.4 66 pour le code couleur). L’ordonnancement est calculé selon la proportion en A+T moyenne des codons (indiquée au centre). Seul le code génétique universel est considéré, c.-à-d. que l’usage des codons de P. falciparum n’intervient pas.

3.3. ATYPICITÉS 83

parfois jusqu’à plusieurs centaines d’acides aminés. Ces insertions séparent parfois des blocs bien conservés qui sont adjacents dans les protéines homologues des autres espèces (cf. Figure

3.6) et gênent par la même occasion les recherches de similarité notamment lors du calcul de score BLAST, à cause du biais compositionnel (Bastien et al.,2005).

Figure 3.6 – Exemple d’une insertion de faible complexité caractérique des pro- téines de P. falciparum. Les protéines alignées sont des deuxièmes sous-unités d’ARN polymérases de type II appartenant à A. thaliana (AT5G45140 — positions 804 à 958), S. ce- revisiae (AAA68096 — positions 841 à 997) et P. falciparum (PFB0715w — positions 816 à 1174). La zone de faible comlexité se trouve au centre du domaine Pfam RNA_pol_Rpb2_6 (PF00562).

La caractéristique notable de ces insertions est la présence de zones de faible complexité, terme issu de la théorie de la complexité (Kolmogorov,1968;Lempel et Ziv,1976), appliquée pour la première fois aux séquences protéiques par (Wootton et Federhen,1993). On observe dans les insertions de longs segments composés d’une répétition intensive d’un seul acide aminé ou de très courts motifs. De plus, il a été observé une divergence rapide des résidus au centre de ces insertions avec une préférence pour des acides aminés hydrophiles. Cependant, les insertions semblent conservées sur leurs bords pour des raisons de contraintes phénoty- piques (Pizzi et Frontali,2001). La sous-représentation d’acides aminés hydrophobes, semble indiquer que ces zones codent des domaines non-globulaires à la surface des protéines plas- modiales. La fonction de ces insertions reste à l’heure actuelle inconnue. Cependant, elles ne semblent pas, a priori, altérer le repliement fonctionnel de la protéine. Les régions nucléiques de faible complexité étant autant présentes dans les introns que dans les exons, l’hypothèse d’une pression de sélection au niveau nucléique a été émise. On observe dans ces régions de faible complexité une utilisation de l’asparagine N et de la lysine K qui atteignent respecti- vement des fréquences de 16,4% et 13,3%, révélant, malgré une préférence pour les codons

A-riches sur les deux premières positions, qu’il existe une pression de sélection chez P. falcipa- rum en faveur de l’asparagine N (codée par AAT et AAC) sur la lysine K (codée par AAA et AAG). La caractérisation fonctionnelle et structurale des insertions chez P. falciparum reste un champ de recherche ouvert.