• Aucun résultat trouvé

Les trois outils TargetP, SignalP4.1 et Phobius ont mis en évidence 2623 protéines portant un peptide signal dont 2197 ne contiennent ni domaine transmembranaire, ni motif de rétention

dans le réticulum endoplasmique (Figure 11). Grâce à l’annotation des familles multigéniques

dans la version 2 du génome de M. larici-populina décrite précédemment, nous avons pu

mettre en évidence 563 familles de gènes SP de plus de deux membres. Nous avons vérifié

la structure en introns/exons des gènes au sein de familles de SP et inclu dans le catalogue

des SP les gènes codant pour des protéines prédites par un seul des trois outils utilisés mais

dont la structure introns/exons est similaire aux autres SP au sein d’une même famille

multigénique. Ainsi le sécrétome final de M. larici-populina comprend 2238 SP dont 64,6% font

partie de familles de SP de plus de deux membres, 12% font partie de familles de deux

membres et plus et 23,4% SP sont des singletons (Figure 11). Parmi ces 2238 SP, 64,2%

(1439) sont des gènes codant des petites protéines sécrétées de moins de 300 acides aminés

(small secreted proteins ; SSP). Enfin, pour rechercher de possibles effecteurs candidats

parmi les 2238 SP , l’outil de prédiction EffectorP a permis de mettre en évidence 932

effecteurs candidats rassemblant des caractéristiques typiques des effecteurs fongiques et

151

ont donc été classés comme tel. Le sécrétome de M. larici-populina contient également 1380

SP prédites comme non-apoplastiques par l’outil ApoplastP et 832 SP sont prédites comme

résidentes de l’apoplaste. Nous avons également utilisé l’outil LOCALIZER qui prédit 282 SP

ciblant les chloroplastes, 139 ciblant les mitochondries et 485 ciblant les noyaux des cellules

végétales. Les gènes codant des effecteurs ciblant les chloroplastes sont bien prédits comme

tel (famille CTP ;Petre et al., 2016 ; Cf. Chapitre IV ; Annexe 1).

Figure 11 : Prédiction et analyse du sécrètome de M. larici-populina v2.0

Le sécrètome de M. larici-populina a été prédit en utilisant les trois outils de prédiction de peptide signal suivants : TargetP1.1 (T) ; SignalP4.1 (S) et Phobius (P). Une protéine donnée a été considérée comme prédite sécrétée « Secreted Protein » (SP) si au moins deux sur trois prédictions indiquent la présence d’un peptide signal. La présence dans la séquence protéique de chaque protéine de M. larici-populina 2.0 de domaines transmembranaires et de motifs de rétention dans le réticulum endoplasmique est prédite par les outils de prédiction TMHMM et PS-scan, respectivement. Les SP protéines avec plus d’un domaine transmembranaire prédit ou avec un domaine transmembranaire prédit en dehors des 60 premiers acides aminés ne sont pas considérées comme sécrétées. De même les protéines contenant un motif de rétention dans le réticulum endoplasmique prédit sont éliminées du sécrètome. Les familles multigéniques déterminées par analyse MCL qui contiennent au moins la moitié des membres prédits comme sécrétés sont considérées comme des familles multigéniques de protéines sécrétées (Familles de SP). Parmi ces familles, les protéines non prédites comme sécrétées par au moins deux des trois outils de prédiction

152

Figure 11. Prédiction et analyse du sécrètome de M. larici-populina v2.0

des protéines sécrétées mais montrant une structure introns/exons similaire aux autres membres sécrétés de la famille, sont ajoutées au sécrètome de M. larici-populina 2.0. Les petites protéines sécrétées de moins de 300 acides aminés sont identifiées comme SSP (« small secreted proteins »). Enfin les effecteurs candidats de M. larici-populina 2.0 sont prédits parmi le sécrètome avec l’outil de prédiction EffectorP et leur localisation intracellulaire in planta est prédite par les deux outils ApoplastP et LOCALIZER.

Dans le sécrétome de M. larici-populina de la version 1 du génome, 1184 SSP avaient été

identifiées par combinaison d’outils de prédiction et d’annotation manuelle. Nous en

retrouvons 84% (995 SSP) ré-annotées dans le génome version 2. Dans la version 1 du

génome des homologues des effecteurs connus chez les Pucciniales étaient retrouvés. Ainsi,

24 homologues des Avrs de M. lini étaient présents dans la version 1 du génome : 1 SP

homologues de AvrL567 ; 8 SP homologues de AvrM ; 13 SP homologues de AvrP4, 1 SP

homologue de AvrP123 et chez U. fabae et U. striatus 1 SP homologue de RTP1. Dans la

version 2 du génome nous retrouvons des gènes codant des SP homologues d’effecteurs

caractérisés chez M. lini tels que : 1 SP homologue de AvrL567 ; 8 SP homologues de AvrM ;

5 SP homologues de AvrP4, 1 SP homologue de AvrP123 et 3 SP homologues de RTP1. A

l’image du génome entier, la majorité des protéines sécrétées sont sans fonction (76,8% ;

1719 gènes) mais certaines SP présentent des fonctions prédites dans les bases de données

GO, KOG, IPR ou annotées spécifiquement. Au total, 519 SP (23,2%) ont une fonction ou un

domaine prédits. Parmi les fonctions prédites sur la base de données KOG, on retrouve 2010

SP de fonction inconnues et 228 avec diverses fonctions prédites (Figure 12). Les fonctions

les plus représentées (plus de 1% du sécrétome) sont les fonctions associées aux

« Modifications post-traductionnelles, renouvellement des protéines et chaperonnes » (46

SP) et au « Transport et métabolisme carboné » (34 SP). Les autres catégories KOG sont

représentées à moins de 1% du sécrétome (Figure 12). Dans les catégories annotées plus en

détail et impliquées dans le succés de l’infection on retrouve 158 CAZymes sécrétées, 11

expansines, 43 des protéases et on trouve 1 transporteur (Mitochondrial carrier protein). Il est

également à noter que 12 SP portent un domaine CFEM (Extracellular membrane protein, en

anglais) qui est un domaine spécifique des champignons et potentiellement impliqué dans

l’infection (Kulkarni et al., 2003). Parmi les effecteurs caractérisés chez M. lini, 14 sont

transférés dans la version 2 du génome.

153

Figure 12 : Catégories KOG annotées dans le sécrétome de M. larici-populina 2.0

Les axes des abscisses et des ordonnées indiquent respectivement le nombre de protéines sécrétées (SP) et les catégories KOG. *Les SP sans fonction KOG ne sont pas affichées sur ce graphique et représentent 2010 SP.

Certains agents phytopathogènes filamenteux, comme par exemple l’oomycète P. infestans,

présentent un génome à deux vitesses avec d’une part le génome conservé concentrant la

majorité des gènes dans des régions pauvres en TE et avec un faible espacement

intergénique, et d’autre part les gènes codant les effecteurs dans des régions riches en TE et

faible en gènes avec un espace intergénique important (Raffaele & Kamoun, 2012). L’analyse

de la version 1 du génome de M. larici-populina n’avait pas révélé d’association significative

entre les gènes codant des SSP et les régions riches en éléments transposables (Duplessis

et al., 2011a). Ici, la nouvelle version du génome correspond à un nouvel assemblage qui a

pu modifier les environnements proches de régions contenant des gènes SP. Afin de vérifier

cela, nous avons cartographié les régions intergéniques du génome et du sécrétome.

Contrairement à ce qui a été décrit chez l’oomycète P. infestans ou l’ascomycète L. maculans,

les gènes codant le sécrétome de M. larici-populina présentent une distribution similaire aux

autres gènes (Figure 13).

154

Figure 13 : Environnement génique des génome et sécrètome de M. larici-populina 2.0.

Les axes des abscisses et des ordonnées indiquent respectivement les régions intergéniques en 5’ et 3’ du génome de M. larici-populina. Les gènes de M.larici-populina 2.0 ont été triés selon des « fenêtres » à deux dimensions sur la base de la distance avec les régions intergéniques environnantes en 5’ et 3’. A. « Heatmap » représentant la distribution des distances intergéniques en 5’ et 3’ pour tous les gènes de M. larici-populina. B. pour le sécrètome de M. larici-populina 2.0. Les échelles représentent le nombre de gènes par fenêtre.

Cette analyse du sécrétome de M. larici-populina 2.0 permet d’établir le nouveau catalogue

d’effecteurs candidats prédits par les derniers algorithmes de prédiction génomique

disponibles.

4. Annotation des familles de gènes codant des CAZymes, des protéases et des

transporteurs

Les familles de gènes codant des enzymes hydrolytiques ciblant les polymères végétaux, tels