• Aucun résultat trouvé

Chapitre 7 : Discussion et perspectives

7.2. Potentiels et limites de l‟analyse d‟association chez la tomate, une espèce cultivée

7.2.1. Taille de l’échantillon.

Toutes les associations identifiées durant ce travail sont une nouvelle source de cibles intéressantes en vue de caractérisations futures de QTL. Cependant, il est important de noter que dans ces études d‟associations, les « core collections » restent des échantillons de taille restreinte et qu‟il est nécessaire de valider les résultats obtenus en testant un plus grand nombre d‟accessions. Nous n‟avons réalisé cette vérification que sur les SNP associés très significativement avec un caractère. Il semble que les 201 accessions présentent une taille d‟échantillon encore trop faible pour identifier des polymorphismes ayant un effet faible sur les caractères étudiés. En effet, une étude utilisant des simulations de jeux de données a montré qu‟un échantillon de 500 accessions permet de détecter avec suffisamment de puissance, des polymorphismes avec des effets relativement faibles sur le phénotype (Long and Langley 1999). Cette étude montre aussi qu‟un gain de puissance supérieur est obtenu en augmentant la taille de l‟échantillon plutôt qu‟en augmentant le nombre de polymorphismes testés.

Pour cela, il est nécessaire que les 340 accessions de départ soient génotypées avec un grand nombre de marqueurs afin d‟identifier la structure la plus vraisemblable de l‟échantillon et qu‟elles soient phénotypées pour les caractères étudiés de façon récurrente au laboratoire (poids du fruit, acidité titrable, teneur en solide soluble, colorimétrie, fermeté, etc.). Une fois que ces informations seront disponibles, il sera plus efficace de tester rapidement l‟association entre un polymorphisme et un caractère. Par la suite, ces 340 accessions pourront être génotypées pour un grand nombre de SNP grâce aux méthodes haut-débit (ex : génotypage de 1536 SNP sur un millier d‟échantillon par technologie Golden Gate, Illumina) afin de détecter directement des associations. Cet échantillon pourra être complété avec d‟autres accessions, présentes dans la collection de ressources génétiques de l‟unité GAFL, ainsi qu‟avec des accessions provenant d‟autres collections. Une collaboration a notamment été engagée avec le laboratoire de Dani Zamir, qui nous a fait parvenir plus de 300 accessions de type cerise, déjà caractérisées en Israël.

7.2.2. Structure du déséquilibre de liaison.

Les analyses préliminaires sur la structuration du DL chez la tomate ont été focalisées uniquement sur le chromosome 2. Le patron d‟étendue du DL n‟est pas homogène le long du chromosome. Nous avons identifié une zone ou même des polymorphismes distants montrent des corrélations entre eux relativement fortes. Cette zone est adjacente à une région où le DL est très faible, dans la région mais aussi avec la région précédente. Ce patron de DL peut être du à la sélection de certaines régions génomiques qui seraient brusquement contrebalancée par de la recombinaison. En effet, de nombreuses associations, pour le poids du fruit et la teneur en solides solubles, sont retrouvées dans la région présentant un fort DL. Le principal paramètre qui semble influer sur la distribution du DL est la différence de fréquences alléliques entre les marqueurs. La plupart du temps, lorsqu‟on s‟intéresse à deux polymorphismes, seulement trois haplotypes sont retrouvés, sur les quatre attendus en cas de recombinaison. Cette observation peut être due à des effets de « lineage » des mutations qui s‟accumulent sans qu‟il y ait recombinaison pour ré-équilibrer les allèles entre les locus (Figure 7-1). Elle peut aussi être expliquée par un effectif trop faible d‟accessions qui empêche de retrouver le quatrième haplotype.

Figure 7-1. Scenario expliquant le DL entre deux locus polymorphes liés sans recombinaison. Modifié à partir de Flint-Garcia, Thornsberry et al. (2003)

Le DL est dû à deux évènements de mutation successifs ayant eu lieu sur deux branches différentes sans recombinaison entre les locus. Le r² et D’ sont ici très différents

7.2.3. Inférence à partir d’une étude focalisée sur le chromosome 2.

Nous avons vu que l‟étude du chromosome 2 permettait d‟inférer un nombre d‟environs 50 000 polymorphismes nécessaires pour réaliser une étude d‟association avec une résolution relativement fine sur l‟échantillon de 90 accessions. Cette information n‟est donnée qu‟à titre indicatif car il est nécessaire d‟étudier l‟étendue du DL sur d‟autres régions chromosomiques. En effet, il a été reporté des différences dans l‟étendue du DL sur deux

chromosomes différents chez le blé, une autre espèce fortement autogame (étendue du DL inférieure à 1 cM sur le chromosome 2D et jusqu‟à 5cM sur le chromosome 5A) (Breseghello and Sorrells 2006). De plus le chromosome 2 porte de nombreux QTL, liés à la qualité du fruit, potentiellement sélectionnés lors de la domestication. Il est donc tout à fait possible que ce chromosome reflète une étendue du DL différente des autres chromosomes. Cette hypothèse pourra notamment être vérifiée en utilisant l‟information de génotypage des quatre panels SNPlex sur les 340 accessions.

7.2.4. Validation des associations identifiées sur 90 accessions.

Les associations les plus fortes, identifiées sur la collection de 90 accessions, ont pu être validées sur 201 accessions. Pratiquement toutes les associations testées sont retrouvées (sauf celle entre le fragment TD047 et la teneur en glucose), ce qui révèle bien que la « core collection » a été échantillonnée avec succès. Ici, l‟échantillon utilisé implique juste une augmentation du nombre d‟accessions testées car il est majoritairement composé d‟accessions. S. l. cerasiforme (144 accessions de type cerise sur 201 accessions au total). Des échantillons indépendants peuvent être utilisés mais il est possible que les différences de fréquences alléliques ne permettent pas de retrouver les associations. Par exemple, en travaillant uniquement sur les accessions de type cerise, on perd l‟association entre le TD387 et le poids du fruit ainsi que toutes les associations relatives à la teneur en solides solubles.

De plus, les polymorphismes associés ne sont pas forcément les polymorphismes causaux expliquant la variation des phénotypes. Il est donc important de se concentrer sur ces régions en densifiant en marqueurs la région autour de ces gènes. La définition de nouveaux marqueurs pourra se concentrer sur une région de 50 Kb autour du polymorphisme associé. Une autre possibilité serait d‟analyser uniquement le polymorphisme des gènes candidats dans la région d‟intérêt. Cette stratégie pose cependant un problème. Cardon et Bell (2001) précisent qu‟une source d‟erreur dans les études d‟association chez l‟homme, est la déclaration qu‟un gène est „candidat‟ d‟après sa fonction, lorsqu‟on retrouve une association dans une région génétique arbitraire. L‟exemple de lcn2.1 avec Wuschel montre bien le danger d‟utiliser une telle approche en génétique.

Les gènes potentiellement candidats, peuvent également être étudiés en modifiant leurs expressions. Ceci peut être réalisé en créant des lignées RNAi (RNA interference) ou en créant des lignées de surexpression. Il est aussi possible d‟utiliser des approches de TILLING

pour identifier des mutations au niveau des gènes candidats liées à une modification du phénotype.

La seule façon de valider définitivement une région génomique est la construction de lignées quasi-isogéniques différentes uniquement pour la région en question et pour le phénotype d‟intérêt.

7.2.5. Les limites de l’étude.

Cette étude d‟association est la première réalisée chez la tomate (hormis l‟étude de Mazzucato, Papa et al. (2008) qui s‟intéresse à un panel de 61 accessions génotypées uniquement avec 20 SSR). C‟est pour cela que nous nous sommes intéressés à un échantillon relativement limité mais représentant la diversité d‟une collection beaucoup plus grande. La taille de cet échantillon ne permet pas de détecter des polymorphismes à effets faibles. Cet échantillon présente par conséquent une faiblesse statistique pour l‟estimation des paramètres associés à chaque polymorphisme associé avec un phénotype : effet allélique, variance génétique, etc.

L‟échantillonnage est aussi limitant car nous nous sommes focalisés sur les accessions de type cerise (S. l. cerasiforme). Cet échantillon semble être efficace pour identifier des locus sélectionnés pendant la domestication. Par contre, aucune information ne sera apportée par la « core collection » sur les locus sélectionné par la suite dans l‟amélioration moderne, le nombre d‟accessions cultivées modernes étant trop faible. L‟utilisation des nouvelles technologies de re-séquençage (Next Generation Sequencing ou NGS) permettra de capturer le faible taux de polymorphisme moléculaire présent dans ce groupe. La structuration devra être prise en compte dès l‟échantillonnage, en fonction de l‟importance des gènes ciblés, dans l‟histoire de la sélection (domestication vs. sélection pour le marché de frais vs. sélection pour l‟industrie). Cette information n‟est presque jamais connue à l‟avance.

Le génotypage s‟est fait directement par séquençage avec la technologie Sanger ce qui n‟est pas envisageable sur un échantillon de taille plus grande. Ces fragments étaient de petite taille (300-700 bp) à cause de la technique utilisée. Il a donc fallu se concentrer sur les régions non codantes afin d‟augmenter la probabilité d‟identifier du polymorphisme chez une espèce très peu diversifiée génétiquement. Dans les régions codantes séquencées, peu de polymorphismes ont pu être identifiés. Il y a donc peu de chance que les polymorphismes

identifiés par association soient directement responsables de la variation du phénotype. Ces polymorphismes sont donc en DL avec les polymorphismes causaux. Il va être nécessaire de caractériser le déséquilibre de liaison avec les polymorphismes adjacents afin de rechercher les mutations causales. Des fragments plus longs vont devoir être étudiés autour des régions d‟intérêt.

7.2.6. L’héritabilité disparue.

Malgré tous les résultats concluants obtenus en génétique humaine par les approches de génétique d‟association et d‟analyse de liaison, les effets cumulés des locus identifiés n‟expliquent qu‟une part infime de la variation du caractère, observée dans les populations (Maher 2008). Cette « héritabilité disparue » peut avoir plusieurs causes. Tout d‟abord, une modification de structure du génome, qui n‟est pas toujours prise en compte dans la recherche de polymorphismes causaux, peut expliquer une part de la variation. Par exemple, des variations du nombre de copies de certaines régions (Copy Number Variant ou CNV) expliquent le phénotype (Isaksson, Stenberg et al. 2007). Pour l‟instant très peu d‟études prennent en compte ce type de variation chez les plantes. Les technologies NGS permettront d‟avoir accès rapidement à ce type de polymorphisme.

D‟autre part, les gènes fonctionnent souvent en interaction avec d‟autres partenaires et il est possible que l‟effet d‟un de ces gènes ne puisse être identifié sans connaître les effets des autres. La prise en compte des phénomènes épistatiques est donc nécessaire si on veut pouvoir expliquer la totalité de la variation d‟un caractère.

Enfin, la modification d‟un phénotype peut être due à des variations, non pas de la séquence en nucléotides d‟une région, mais de la nature chimique des bases. Ainsi des modifications épigénétiques peuvent être transmises aux générations futures sans qu‟il y ait eu mutation. De plus en plus d‟exemples de phénotypes liés à des variations épigénétiques sont identifiés chez les plantes (Manning, Tor et al. 2006; Martin, Troadec et al. 2009). Toutes ces modifications ne sont pas prises en compte lors d‟études d‟association où seules les modifications de séquences nucléotidiques sont observées. Il est donc important de garder à l‟esprit l‟existence de tels phénomènes lors de la dissection du déterminisme génétique de caractères d‟intérêt.