• Aucun résultat trouvé

2.2 Caractérisation des sRNAs

3

Objectifs et structure de la thèse . . . 27

Introduction

1.1 Des origines de la microbiologie aux premières classifications bactériennes sur critères phénotypiques

L’étude des micro-organismes constitue un domaine d’importance capitale au centre de secteurs clefs du développement de nos sociétés humaines tels que les sciences fondamentales, les sciences environnementales, la médecine, le secteur de la production agroalimentaire et l’agriculture, les bio-technologies, ou encore l’industrie pharmaceutique. La prise de conscience de l’existence de ces êtres non visibles à l’œil nu est pourtant relativement récente. En effet, il faut attendre le développement du microscope pour commencer à explorer et étudier le monde des microbes.

Si la date précise de l’invention du microscope reste difficile à déterminer, c’est néanmoins au cours du XVIIe siècle qu’Antonie Van Leeuwenhoek (1632-1723) réalise des améliorations majeures permettant la conception du premier microscope capable d’offrir un grossissement de près de 300x (Porter & van Leeuwenhoek, 1976) (voirfig.1.1). Ce microscope permet alors les premières observations et dessins connus d’organismes microscopiques.

FIGURE1.1: Antonie Van Leeuwenhoek (1632 ↔ 1723). Un commerçant et savant néerlandais qui a considérablement amélioré la puissance du microscope optique. Il est considéré comme l’un des précurseurs de la biologie cellulaire et de la microbiologie (source de l’image : https:// www.rijksmuseum.nl). A droite, le schéma de son microscope, et quelques croquis de micro-organismes (“animacules”) qu’il a observés et détaillés (source de l’image : http://yalepress .tumblr.com).

Malgré le perfectionnement des techniques de microscopie et la multiplication des observations qui vont suivre, les études sur le sujet ne se développent réellement qu’au cours du XIXe siècle. En

effet, la plupart des naturalistes de l’époque considèrent au mieux les micro-organismes comme des intermédiaires entre plantes et animaux dont la provenance découlerait d’un phénomène de “génération spontanée”. C’est en 1864, que Louis Pasteur réfute cette idée, jusqu’alors admise, de “génération spontanée” des micro-organismes microscopiques et met en évidence plusieurs bactéries responsables de maladies humaines contagieuses (Dunlop, 1928). Enfin, Ernst Haeckel, un entomologiste allemand propose en 1866, une classification qui brisera la dichotomie jusque là admise “Plantae” / “Animalia” en proposant la création d’un troisième règne : les “Protista” (protistes) qui correspondent aux organismes unicellulaires, à l’exception des algues bleues qui restent dans le domaine des plantes (Sander & Haeckel, 2002).

Plusieurs tentatives de classification des bactéries ont été élaborées au cours du XXe siècle. Les méthodes jusqu’alors basées sur les caractères morphologiques trouvèrent rapidement leurs limites en raison de la simplicité structurale apparente de ces organismes. Néanmoins, les progrès réalisés en microscopie ont permis d’acquérir de nouveaux éléments. Ainsi Edouard Chatton propose en 1937 une séparation de ces microorganismes en fonction de la structure observée de leur noyau. Il sépare les êtres vivants en Eukarya (eucaryotes, de “eu” = vrai ; “caryon” = noyau), regroupant sous ce terme les cellules nucléées (animaux, plantes et protistes) et Prokarya (procaryotes, de “pro” = avant ; “caryon” = noyau), désignant les cellules anucléées (Sapp, 2005).

1.2 Développement de la phylogénie moléculaire et arbre universel du vivant

En 1977, Carl Woese et Georges Fox proposent une organisation du vivant en trois domaines : les Eukarya (eucaryotes) qui regroupent des organismes possédant une organisation cellulaire de type eucaryote allant de micro-organismes unicellulaires à des organismes multicellulaires de grande taille, les (Eu)bacteria (bactéries) et un nouveau domaine, les Archeae (archées). Les deux derniers regroupant tous deux uniquement des micro-organismes d’organisation procaryote (Woese & Fox, 1977). La mise en place de cette classification est fondée sur la base de la comparaison de fragments d’ARN ribosomiques 16S de plusieurs organismes (voirfig.1.2). Par la suite, plusieurs études ont tenté de définir les espèces sur la base des séquences d’ARN ribosomique 16S (Ley, Turnbaugh, Klein, & Gordon, 2006). Cependant, l’ARN 16S n’est pas assez résolutif pour pouvoir classer les bactéries de toutes les espèces et en particulier les souches relevant d’une même espèce. D’autres approches expérimentales basées sur l’application d’un seuil sur le niveau d’hybridation ADN-ADN ou DDH1entre génomes sont utilisées (le seuil DDH recommandé pour la délimitation des espèces étant de 70%) (Goris et al., 2007). Néanmoins, ces approches sont fastidieuses et difficiles à standardiser entre laboratoires. D’autres méthodes basées sur le pourcentage d’identité moyenne des familles de gènes orthologues ou ANI2entre les génomes ont été proposées récem-ment (le seuil recommandé pour délimiter les espèces étant de 95%) (Konstantinidis, Ramette, & Tiedje, 2006 ; Goris et al., 2007).

1. DNA-DNA hybridization 2. Average Nucleotide Identity

Bacteries

Thermotogales Cyanobac teries Microsporidies Flagellés Ciliés Plantes Animaux Champign ons Flavobacteries Bacterie s vertes non sulf ureuses Bactérie s pourpr es Bactérie s Gram+ Pyrodici tum Thermopr oteus Halophiles extrêmes Methanom icrobial es Thermoco ccales Methanoc occales Methanob acterial es

Archées Eucaryotes

Euryarchaeota Crenarchaeota

FIGURE1.2: Arbre universel du vivant proposé par Carl Woese et associées. La topologie ainsi que les longueurs de branches sont basées sur la comparaison des séquences des ARNr. D’après (Woese et al., 1990).

2.1 Vers une biologie haut-débit

Vers le début des années 2000, les sciences du vivant ont connu de grands bouleversements liés au développement de la biologie haut-débit. L’émergence de nouvelles technologies a en effet permis d’entreprendre des analyses à grande échelle sur l’étude des séquences des génomes (génomique), l’étude de l’expression des gènes (transcriptomique), l’étude des produits de traduc-tion (protéomique), l’étude de la composante acquise de l’informatraduc-tion transmise (épi-génétique) et enfin l’étude simultanée des communautés d’organismes occupant une même niche écologique (la métagénomique). Cette diversification s’est faite de concert avec une accumulation toujours croissante de données (fig.2.1), rendant nécessaire le développement de la biologie computation-nelle à grande échelle afin de les stocker, de les traiter, de les analyser et de les interpréter, inscrivant la recherche biologique dans le contexte émergeant du Big Data.

0 5000 10000 15000 20000 25000 1985−2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Années Nombre Status Contigs Scaffold Chromosome Génome complet

FIGURE 2.1: Nombre de génomes procaryotes séquencés et soumis au NCBI entre 1995 et 2014. Source : GenBank prokaryotes.txt (fichier téléchargé le 04/09/2017).

2.2 Caractérisation des sRNAs

Chez les bactéries, l’identification de sous-régions structurées, conservées et exprimées au niveau des régions inter-géniques a servi de base à la découverte de courtes séquences transcrites mais généralement non traduites : les ARNs non-codants ou ARNnc (ncRNAs1) appelés également sRNAs2(Livny & Waldor, 2007). Ce type d’analyse systématique a été initialement réalisé sur la bactérie modèle Escherichia coli, au début des années 2000 (Argaman et al., 2001 ; Rivas, Klein, Jones, & Eddy, 2001 ; Wassarman, Repoila, Rosenow, Storz, & Gottesman, 2001). Leur validation expérimentale a pu être effectuée à postériori au cours d’études de l’expression des gènes chez ces mêmes organismes (Sharma & Vogel, 2009). Ces sRNAs, observés au niveau de l’ensemble des domaines du vivant, sont notamment retrouvés au sein d’un grand nombre d’espèces bactériennes (Morris & Mattick, 2014). Ils constituent un système de régulation majeur de l’expression des gènes de part la grande variété des voies dans lesquelles ils interviennent, mais également en raison du large panel de mécanismes de régulation qu’ils vont pouvoir présenter. En effet, les sRNAs régulateurs peuvent agir à toutes les étapes de l’expression du gène (Gottesman & Storz, 2011). Ils permettent ainsi une adaptation rapide de la physiologie de la cellule aux variations environnementales, et peuvent jouer des rôles clefs dans de nombreux processus physiologiques (Gottesman & Storz, 2011).

Cependant, si de plus en plus de séquences de sRNAs peuvent être identifiées et si l’impor-tance de leur rôle fait actuellement consensus, la compréhension des fonctions dans lesquelles ils interviennent reste aujourd’hui très parcellaire. C’est notamment le cas pour la connaissance des gènes cibles dont ils vont pouvoir réguler l’expression. Elle n’est actuellement disponible que pour un panel relativement restreint de sRNAs. En effet, si des stratégies de validation expérimentale de l’interaction entre le sRNA et d’éventuels gènes cibles existent (J. Vogel & Wagner, 2007 ; Sharma & Vogel, 2009 ; Papenfort et al., 2006 ; A. A. Rasmussen et al., 2005), ces méthodes sont difficilement déployables à grande échelle, en raison du temps nécessaire à leur mise en œuvre et du coût élevé des expériences de biologie moléculaire à utiliser (J. Vogel et al., 2003). Les approches bioinformatiques in silico visant à prédire des couples sRNA / gènes cibles s’avèrent donc une aide précieuse pour identifier des gènes candidats et guider les expériences de biologie moléculaire. Généralement, les sRNAs régulateurs agissent en effet via la mise en place d’interac-tions (inhibitrices ou stabilisatrices) au niveau de l’ARNm du gène régulé. Ainsi, la plupart des méthodes in silico utilisées sont focalisées sur l’étude de ces interaction (s)RNA-(m)RNA au travers de l’information de séquence primaire et / ou de structure secondaire ainsi qu’au travers de leur conservation. Néanmoins, la prédiction des cibles constitue toujours, à l’heure actuelle, une tâche difficile et non résolue en raison du taux élevé de faux positifs que ces approches génèrent (Peer & Margalit, 2011 ; Richter & Backofen, 2012 ; Beisel, Updegrove, Janson, & Storz, 2012 ; Tjaden, 2008). Il semble donc utile de rechercher des critères permettant de réduire le panel de candidats proposé.

En supposant que les interactions entre les sRNAs et leurs cibles associées présentent une importance fonctionnelle pour les organismes au sein desquels elles s’exercent, nous pouvons faire l’hypothèse que des pressions de sélection visant à maintenir voire renforcer cette interaction, vont s’exercer au cours de l’évolution. L’existence de profils de coévolution entre un sRNA et des ARNm cibles liés fonctionnellement à ce sRNA constituent l’hypothèse principale de mon travail de thèse. Selon cette hypothèse, l’identification de relations de coévolution entre un sRNA et un ARNm pourrait permettre : (1) de prédire un lien fonctionnel direct ou indirect entre ce sRNA et cet ARNm, et dans certains cas (2) de prédire une interaction physique entre le sRNA et l’ARNm.

1. non-coding RNAs 2. small RNAs

Cette thèse a pour objectif de proposer une méthodologie permettant d’étudier la dynamique évolutive des ARN non-codants régulateurs (sRNAs) ainsi que les relations de coévolution qu’ils peuvent établir avec certains ARNm cibles au sein d’un ensemble de génomes bactériens. Cette méthodologie a été appliquée sur un ensemble d’organismes d’intérêt, le genre bactérien Gram+ Listeria. Le présent manuscrit est organisé comme suit :

La première partie correspond à un état de l’art sur les aspects biologiques et bioinformatiques de mes travaux de thèse.

— Au sein du chapitre 1 de cette première partie, je présenterai l’objet principal de notre étude, les sRNAs bactériens. Je détaillerai tout d’abord leurs principales caractéristiques biologiques, les différentes catégories connues, ainsi que leur mode d’action dans le cadre de la régulation de l’expression des gènes. Je décrirai ensuite les méthodes in silico dédiées à leur identification, ainsi qu’à la prédiction de leurs cibles associées.

— Le chapitre 2 de l’état de l’art sera quant à lui consacré aux principales méthodes d’analyse de l’évolution des génomes et des éléments génomiques. Ainsi, je décrirai tout d’abord les techniques d’inférence phylogénétique, puis les principales stratégies de reconstruction des états ancestraux, ainsi que l’analyse de la coévolution de deux traits. Enfin je conclurai cette partie par la présentation des approches de phylogénomique.

— Finalement, le chapitre 3 conclura l’état de l’art par une présentation de notre organisme d’étude, le genre bactérien Listeria, en le resituant dans un premier temps au sein des bacté-ries. Je présenterai en particulier les caractéristiques de ce genre en termes de diversité, de pouvoir pathogène ainsi que les sRNAs connus pour leur implication dans la virulence.

La deuxième partie sera dédiée à la présentation des principaux travaux et résultats de ma thèse.

— Je m’attacherai à présenter au niveau du chapitre 1, mon implication dans le cadre du déve-loppement de la ressource web intégrée Listeriomics (Becavin et al., 2017).

— Par la suite, le chapitre 2 présentera le cœur de mon travail de thèse (F. Cerutti et al., 2017) : (1) la méthologie que j’ai conçue et développée afin d’étudier l’évolution et la coévolution entre sRNAs et ARNm au cours de l’histoire évolutive d’un ensemble de génomes et (2) les résultats que nous avons obtenus sur notre cas d’étude, le genre bactérien Gram+ Listeria.

— Enfin je présenterai au sein du chapitre 3 , ma contribution au développement d’un outil dédié à l’exploration et à la recherche de contaminants au sein de données d’assemblage, le logiciel PhylOligo (Mallet, Bitard-Feildel, Cerutti, & Chiapello, 2017).

Pour conclure, la dernière partie de mon manuscrit présentera une discussion sur les résultats obtenus ainsi que quelques perspectives ouvertes par mes travaux de thèse.

II

4

Les ARNnc bactériens régulateurs . . . . 33

Documents relatifs