• Aucun résultat trouvé

2   Matériels et méthodes

2.6   Analyse des données

2.6.5  Analyse des données expérimentales sur les variétés

Pour chaque accession, et chaque variable observée, la moyenne des observations sur les 5 plantes individuelles ont été calculées. Ces moyennes ont été soumises à une analyse de variance pour tester l’effet des sous-blocs. En absence d’effet sous-bloc significatif, pour chaque accession et chaque variable, une moyenne générale a été calculée à partir des moyennes des 2 répétitions. Par la suite, ces moyennes ont été utilisées pour analyser la diversité agro-morphologique dans 3 directions :

- Analyses visant la structuration de la diversité des variables agro-morphologiques : une ACP sur la matrice des 13 variables quantitatives, selon la procédure décrite en 2.2.5.1, suivi d’une CAH sur les coordonnées des individus sur les 5 premiers axes de l’ACP totalisant plus de 75% de l’inertie totale.

- Estimation de la diversité de chaque caractère agro-morphologique au niveau de différentes entités géographiques ou de gestion des variétés. Pour ce faire, les valeurs quantitatives des variables ont été transformées en 3 classes phénotypiques de même effectifs (Tableau 2-2) et l’indice H’ de diversité de Shannon-Weaver (Jain et al., 1975) a

été calculé à partir des fréquences des 3 classes phénotypiques selon la formule

Où S est le nombre de classes phénotypiques du caractère et Pi, le pourcentage de l’effectif total (dans notre cas des 305) dans chacune des 3 classes phénotypiques définies pour chaque variable (Tableau 2-3).

- Analyse de la répartition écogéographique de la diversité agro-morphologique par l’Analyse hiérarchique de la variance multivariée (Nested Manova) en utilisant les variables quantitatives. Cette analyse, réalisée avec le logiciel R version 2.10.1, est l’équivalent de l’analyse de la variance moléculaire (AMOVA) avec les données moléculaires. La distance utilisée est euclidienne.

43

2.6.5.2 Analyse des données moléculaires

2.6.5.2.1 Statistiques descriptives

Les statistiques descriptives : nombre d’allèles par locus (Na), l’hétérozygotie (Ho), la fréquence allélique majeure, le « Polymorphism Information Content » (PIC), la diversité de gènes (GD), le nombre de génotypes multilocus (Ng) et l’indice de fixation FST, ont été calculées à l’aide du logiciel PowerMarker version 3.23 (Liu and Muse, 2005).

Considérons n individus et m loci polymorphes et admettons que le symbole A est utilisé pour représenter les locus avec une série d’allèles Au. Pour un individu donné, un génotype par locus ou un allèle par locus est observé pour chaque locus. Un allèle Au a une fréquence Pu au niveau de la population des n individus (ou Plu, pour indiquer le locus l) et un génotype AuAv a une fréquence de Puv (ou Pluv) au niveau des n individu. Les valeurs observées peuvent être utilisées pour estimer les fréquences alléliques au niveau de la population. Dans un échantillon les comptes des allèles et génotypes seront écrites comme nu et nuv ou nlu et n luv. Dans ces conditions :

- La diversité de gènes « Gene Diversity » (GD) est définie comme la probabilité pour que deux individus choisis au hasard dans la population aient des allèles différents. Il est calculé par la formule suivante :

Si l’on considère que nous avons n individus et k loci polymorphiques. Plu, est la fréquence de l’allèle u au locus l

- Le « Polymorphism Information Content » (PIC) est un estimateur de la diversité au sein d’une population (Botstein et al., 1980). Il est calculé à partir de la formule suivante :

- « Heterozygosity» (Ho) est la proportion d’individus hétérozygotes dans la population.

Les relations entre ces paramètres descriptifs de diversité génétique des accessions de riz et la diversité agroécologique, la diversité des systèmes de production et celle des exploitations ont été analysées au moyen de coefficients de corrélation ou de détermination. Le lien entre 2 variables quantitatives est évalué par le coefficient de corrélation (r²); celui entre une variable quantitative (X) et une variable qualitative (Y) est évalué par le coefficient de détermination R² qui peut être interprété comme la proportion de la variance de Y imputable à la variance de X.

2.6.5.2.2 Structuration de la diversité génétique

La structuration de la diversité génétique a été analysée par 2 approches.

1. Classification basée sur un model d’appartenance à des populations caractérisées par leur fréquences alléliques. Cette approche a été mise en œuvre à l’aide du logiciel Structure version 2.2, Pritchard et al. (2000) qui s’appuie sur une des méthodes Bayésiennes de regroupement pour traduire les données génotypiques multilocus en structure de population et pour assigner, les individus aux sous-populations, sur des bases probabilistes. La méthode consiste à considérer l’existence de K populations caractérisée chacune par les fréquences alléliques à chaque locus, et d’assigner les individus aux

44 populations tout en estimant, simultanément, les fréquences alléliques au sein des populations. Les regroupements ne sont pas réalisés sur la base de distances entre individus mais considèrent que les observations tirées de chaque population sont des tirages au hasard d’un model paramétrique. Le model paramétrique peut considérer ou non l’existence d’individus mélangés (admixtes) dont les allèles proviendraient non pas d’une des populations identifiées mais de plusieurs. C’est ce dernier model, avec admixture, que nous avons utilisé. Une fois les sous-populations caractérisés par leurs fréquences alléliques les individus sont assignés aux sous population en fonction de la proportion de leurs allèles issue de chacune des sous-populations retenues. Les résultats sont exprimés sous forme de coefficient d’appartenance à chaque sous-population. Dix essais indépendants de 20 000 « burning » et 100 000 itérations de la Chaine de Monte Carlo de Markov (MCMC) ont été réalisés avec des valeurs de K allant de 2 à 20. Le nombre optimum de populations (K) a été déterminé en utilisant la statistique ad hoc ∆K (Evanno et al. 2005) basé le taux de changement dans le log de probabilité des données entre valeurs successives de K.

2. Classification basée sur les distances entre individus. La matrice contenant la taille des allèles par locus et par individu a été utilisée sous le logiciel Darwin 5.01 (Perrier and Jacquemoud-Collet, 2006) pour calculer des distances "simple matching" (Sokal and Michener, 1958) entre individus. La dissimilarité dij est :

1 1

Avec L: nombre de locus; mi: nombre d’allèles pour le locus i et π: la ploïdie de l’espèce, dans notre cas, π=2.

Les distances ainsi calculées ont été ensuite utilisées pour une analyse en coordonnées principales et pour la construction de l’arbre non enraciné (Perrier et al., 2003).

2.6.5.2.3 Distribution éco-géographique de la diversité génétique

La distribution éco-géographique de la diversité génotypique a été analysée en considérant 4 entités géographiques ou de gestion de la diversité qui s’emboîtent de manière hiérarchique:

- Position géographique définie par l’altitude, en distinguant 4 intervalles altitudinaux :

inférieure à 1250m, 1250-1500m, 1500-1750m et supérieure à 1750m.

- Le village, en le considérant comme détenteur d’un exemplaire de chacune des accessions

qui y ont été recensées.

- L’exploitation agricole, hébergeant une « copie » de quelques-unes (en général inférieur à

¼) des accessions recensées dans le village. En considérant ces « copies », les 1049 exploitations enquêtées maintiennent au total 2345 accessions.

- La parcelle rizicultivée qui porte une « copie » d’une des accessions de l’exploitation.

La distribution et la répartition de la diversité dans les 3 premières entités peuvent être analysées de manière intégrée dans la mesure où il s’agit d’un même échantillonnage et où nous pouvons estimer la diversité détenue par chacune des 1049 exploitations enquêtées à partir des données génotypiques et phénotypiques des 349 accessions collectées et étudiées. Cette analyse a été réalisée avec la procédure AMOVA du logiciel ARLEQUIN version 3.1 (Excoffier et al., 1992).

La diversité au niveau de la parcelle cultivée a été estimée à travers un échantillonnage indépendant. Les accessions utilisées pour cette analyse ont été collectées, spécifiquement,

45 dans 9 champs appartenant à 9 exploitations réparties, à parts égales, dans trois villages ayant fait l’objet de « l’enquête exploitation » approfondie (EE-18-3).

Le dendrogramme de différenciation génétique des 32 villages d’étude a été construit à partir des FST par paires de villages, par la méthode de l'agrégation totale, en utilisant le logiciel R version 2.4.1.

2.6.5.3 Analyse des noms des variétés de riz

Les noms des accessions collectées ont été d’une part regroupés en grandes familles vernaculaires sur la base de la première composante des noms composés (Tsipala, Rojo, Botra, Manga et Fotsy, …), d’autre part comparés 2 à 2 pour inventorier les homonymies. Le logiciel XL STAT 2007 a été utilisé pour l’analyse des éventuelles relations entre les caractères mesurés phénotypiquement et les noms. Le logiciel Darwin 5.01 (Perrier and Jacquemoud-Collet, 2006) a été utilisé pour l’identification des éventuelles relations entre les données génotypiques et les noms. La distance « simple matching » a été utilisée pour évaluer les distances génétiques entre les accessions (Sokal and Michener, 1958). Ces distances ont été également utilisées pour l'analyse factorielle et la construction de l'arbre non enraciné (Perrier et al., 2003).

2.7 Références

Brown, A.H.D., Brubaker, C.L., 2002. Indicators for Sustainable Management of Plant Genetic Resources: How Well are we Doing? In: Engels, J.M.M., Ramanatha Rao, V., Brown, A.H.D., Jackson, M.T. (Eds.), Managing Plant Genetic Diversity. IPGRI - Cabi Publishing, London, UK, pp. 249-262.

Botstein, D., White, R.L., Skolnick, M., Davis, R.W., 1980. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. American Journal of Human Genetics 32, 314-331.

Excoffier, L., Smouse, P.E., Quattro, J.M., 1992. Analysis of Molecular Variance Inferred from Metric Distances among DNA Haplotypes: Application to Human Mitochondrial DNA Restriction Data. Genetics 131, 479-491.

Jain, S.K., Qualset, C.O., Bhatt, G.M., Wu, K.K., 1975. Geographical Patterns of Phenotypic Diversity in a World Collection of Durum Wheats. Crop Science 15, 700-704.

Liu, K., Muse, S.V., 2005. PowerMarker: an integrated analysis environment for genetic marker analysis. Bioinformatics 21, 2128-2129.

Louette, D., 1994. Gestion Traditionnelle de variétés de maïs dans la reserve de la Biosphere Sierra de Manantlan (RBSM, états de Jalisco et Colima, Mexique) et conservation in situ des ressources génétiques de plantes cultivées. Thèse de doctorat. Ecole Nationale Supérieure Agronomique de Montpellier, Montpellier, France.

Perrier, X., Flori, A., Bonnot, F., 2003. Data analysis methods. In: Hamon, P., Seguin, M., Perrier, X., Glaszmann, J.C. (Eds.), Genetic diversity of cultivated tropical plants. Science Publishers, Montpellier, pp. 43 - 76.

Perrier, X., Jacquemoud-Collet, J.P., 2006. DARwin software http://darwin.cirad.fr/darwin.

Pritchard, J.K., Stephens, M., Donnelly, P., 2000. Inference of Population Structure Using Multilocus Genotype Data. Genetics 155, 945-959.

Razafimandimby, S., 2005. Caractérisation des unités climatiques et pédo-morphologique de la région de Vakinakaratra. URP SCRID, Cirad, FOFIFA, Université d’Antananarivo, Antananarivo, pp. 1-3.

Risterucci, A.M., Grivet, L., N’Goran, J.A.K., Pieretti, I., Flament, M.H., Lanaud, C., 2000. A high-density linkage map of Theobroma cacao L. Theor Appl Genet 101, 948-955.

Sokal, R.R., Michener, C.D., 1958. A statistical method for evaluating systematic relationships. Univ Kans Sci Bull 38, 1409-1438.

46

3 La région de Vakinankaratra, diversité agro-écologique,