R EVUE DE STATISTIQUE APPLIQUÉE
E. M ATHIEU
M. A UTEM
M. R OUX
F. B ONHOMME
Épreuves de validation dans l’analyse de structures génétiques multivariées : comment tester l’équilibre panmictique ?
Revue de statistique appliquée, tome 38, n
o1 (1990), p. 47-66
<http://www.numdam.org/item?id=RSA_1990__38_1_47_0>
© Société française de statistique, 1990, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ÉPREUVES DE VALIDATION DANS L’ANALYSE DE STRUCTURES
GÉNÉTIQUES MULTIVARIÉES :
COMMENT TESTER L’ÉQUILIBRE PANMICTIQUE ?
E.
MATHIEU*,
M.AUTEM*,
M. ROUX** et F. BONHOMME** : Institut des Sciences de l’Evolution, C.N.R.S. U.A. 327, Université de
Montpelliet;
Place E. Bataillon - F. 34060** : C.E.F.E., C.N.R.S. Route de Mende, B.P. 5051 - F. MONTPELLIER
RÉSUMÉ
Cet article a trait aux méthodes
employées
engénétique
despopulations
pouranalyser
les données dupolymorphisme
interindividuel multilocus.Après
unedescription
de la structure des données et une
présentation
desproblèmes
designificativité posés
parl’interprétation
des sorties desanalyses
factorielles lesplus
courammentemployées,
nousexplorons plusieurs techniques
de validationstatistique.
Grâce à une
hypothèse
nulle réaliste(l’équilibre panmictique),
nous proposons uneprocédure
derééchantillonnage
assortie de tests de validation obtenus par l’étude des distributions deplusieurs
indices decomparaison
inter-tableaux.Après
un testcomparatif
sur cas réels des diverses
approches proposées,
nous retiendrons cellesqui
nous semblentdonner les meilleurs résultats et concluons sur les limitations de ces démarches.
Mots
clefs : Génétique, Analyse
Multivariée, Validation, Panmixie.ABSTRACT
This article deals with the methods used in
population genetics
forthestudy
ofmultilocus interindividual
polymorphism.
After a shortdescription
of the data structure and of theproblems
ofsignificance
linked with theinterpretation
of the outputsyielded by
the most
commonly
used multivariatetechniques,
weexplore
several validationprocedures.
Affording
a realistic nulhypothesis
(thepanmictic equilibrium),
we proprose asample
reuse-method
coupled
with validation tests based on thestudy
of statistical distribution of various inter-table indexes.Following
acomparaison
of the variousapproaches
on a realcases, we evaluate their merits and conclude on their limits.
48 E. MATHIEU, M. AUTEM, M. ROUX. F. BONHOMME 1. Introduction
Dans de nombreuses
disciplines,
les donnéesdisponibles
pourl’analyse
seprésentent
sous la forme de tableaux bruts(matrices rectangulaires) Objets
XDescripteurs.
Lagénétique
despopulations
ne fait pasexception
à cetterègle puisque
sonobjet
estl’analyse
de la diversité existant entre individus décrits par leursgènes.
Aussi a-t-onlargement
recours à destechniques
multivariées pour extraire l’information contenue dans les données dupolymorphisme
inter-individuelou
inter-populationnel.
L’objet
de ce travail est d’établir de manièreempirique
desprocédures
de validation
statistique proposées
comme aides àl’interprétation objectives
desrésultats
d’analyses
factorielles.Avant de
préciser
les différentesapproches abordées,
il est tout d’abordnécessaire de faire
quelques rappels
sur la nature et lacomposition
de l’informationgénétique.
1.1.
L’information génétique
La continuité à travers les
générations
des caractèresspécifiquesd’une espèce
est
régie
par la transmission d’uneinformation,
dont Mendel a démontré la naturequantique.
Chaque
unité informationnelle ougène
estimpliquée
dansl’expression
d’uncaractère par l’intermédiaire d’une fonction cellulaire. Ces
gènes disposés
lelong
des
chromosomes,
occupent chacun uneposition déterminée,
ou locus dugène.
Du fait de l’action des
mutations,
cesgènes
peuvent être modifiés cequi entraîne,
dans une certaineproportion
des cas, unchangement
du caractèrequ’ils
contrôlent.Ces nouveaux états
possibles
d’un mêmegène
sontappelés
allèles. S’il existeplusieurs
allèles à un locus donné, il y a alorspolymorphisme
et cepolymorphisme
constitue la base des observations en
génétique
despopulations.
Il y a engénéral plusieurs
chromosomes dans uneespèce,
etplusieurs
dizaines de milliers degènes répartis
sur ces chromosomes. Sichaque gène peut
exister sousplusieurs
formesallèliques,
celareprésente
donc un nombre trèsgrand
de combinaisonspossibles
d’allèles. On
appelle génotype
d’un individu la combinaison d’allèlesportée
par celui-ci sur l’ensemble des locusanalysés.
Chez laplupart
desespèces évoluées,
les individus
disposent
d’un doublejeu
dechromosomes,
l’und’origine paternelle,
l’autre
d’origine
maternelle. Ils sont ditsdiploïdes,
c’est-à-dire quechaque gène
est
présent
en doublecopie.
Dans unindividu,
si ces allèlespaternels
et maternelssont
identiques
pour un locusdonné, l’organisme
est dithomozygote
à ce locus.Dans le cas
contraire, l’organisme
est dithétérozygote
pour le locus concerné etchaque copie peut
êtrelégèrement
différente de l’autre.La
génétique
sait maintenant caractérisertoujours plus
finement le contenu informationnel desgènes,
soit indirectement paranalyse
duproduit
de leur activité(les protéines),
soit directement paranalyse
du supportlui-même, l’ADN,
au niveau de l’enchaînement de nucléotidesqui
le composent. Lesanalyses populationnelles
de routine permettent de caractériser l’état
allèlique
dequelques
dizaines de locus chezplusieurs centaines,
voire milliers d’individus.1.2. Les données 1.2.1. Leur structure
Dans la nature, une
espèce biologique
constitue rarement un continuum ho-mogène.
Si on étudie larépartition
desgènes
sur l’ensemble de l’airegéographi-
que de
l’espèce,
des variations localesapparaissent.
Ces variations constituent leplus
souvent des unitésgéographiques
naturelles au seindesquelles
les individus ont tendance à se croiser defaçon préférentielle.
Parhypothèse,
les communautésreproductrices
d’individuspartageant
le même"pool" génique
ont reçu le nom depopulation (DOBZHANSKY 1955).
L’existence depopulations conspécifiques implique
un certaindegré
d’isolementreproducteur
mais aussi deséchanges
avecles
populations
voisinesempêchant
ainsi le morcellement del’espèce
enplusieurs espèces
nouvelles. Dans le cadre que se fixe lagénétique
despopulations,
l’ana-lyse
dupolymorphisme
est un bon moyen pour aborder les structuresd’échanges
et de
reproduction
à l’intérieur despopulations.
Lepolymorphisme génétique,
no-tamment celui détectable par
électrophorèse
desprotéines,
recèle des informationspertinentes quant
à la structuregénétique
del’espèce
ouplus précisément
de seséchanges interpopulationnels.
Unepopulation
est dite àl’équilibre panmictique
si,
lors de lareproduction sexuée,
l’union desgamètes
formant les oeufs(ou
zy-gotes)
estcomplètement aléatoire, chaque gamète emportant
un allèle donné enfonction de sa seule
fréquence
dans lapopulation,
et aucun allèle n’étantparti-
culièrement associé à aucun autre. Ceci se traduit non seulement par
l’indépendance
des allèles d’un même
gène (loi
deHardy-Weinberg)
mais aussi par l’absence d’as- sociations entregènes
situés à différents locus du chromosome. Ces associations constitueraient cequ’il
est convenud’appeler
desdéséquilibres gamétiques.
Lanotion
d’équilibre panmictique
constituel’hypothèse
nulle desgénéticiens.
Elle setraduit par une matrice des données brutes où les allèles sont distribués de manière aléatoire dans les individus. Mais est-on
capable
de mesurer des écarts à cette situation(structuration génétique).
Notons ici
qu’il
existe de nombreux travauxayant
pourobjet
de testerl’équilibre panmictique
pour un seul locus à la fois(écart
à la loi deHardy- Weinberg).
On consultera parexemple
le travail récent de HERNANDEZ et WEIR(1989). Cependant
notre propos est deprendre
encompte
simultanément l’information contenue dans l’ensemble des locuspolymorphes. L’approche
nonparamétrique
parrééchantillonnages
successifs que nousdéveloppons
nous asemblé bien
adaptée.
Que
sepasse-t-il
dans les cas concrets? On ne connaît engénéral
de lapopulation qu’un
échantillon et leproblème posé
est de détecter deshétérogénéités
à l’intérieur de cet échantillon.
Or,
si une collection d’individus est"homogène"
(tirée
d’une unité àl’équilibre panmictique
parexemple),
on s’attend à obtenirun ensemble de données brutes
(matrice
Individus XGènes)
"aléatoire". Si aucontraire elle recèle des
immigrants
de groupesgénétiquement
différenciés(en
50 E. MATHIEU. M. AUTEM. M. ROUX. F. BONHOMME
termes de
fréquences alléliques),
on s’attend alors à des distorsions entre la distribution observée des données brutes et l’attendustochastique,
et finalementà des
correspondances partielles
entre les allèles desgènes impliqués
dans lesdifférenciations des groupes concernés
("déficits d’hétérozygotes"
et"déséquilibres gamétiques").
D’autres causes ayantégalement
pour effet de structurer la massedes données brutes peuvent intervenir au niveau des
descripteurs (gènes)
dans lamesure où des associations entre ces marqueurs peuvent être le reflet de l’histoire naturelle d’une
population
modelée au fil desgénérations
par tous lesparamètres
de son évolution
(régime
dereproduction,
sélection différentielle des individus due aux conditions dumilieu,
dérive aléatoire desfréquences génotypiques
dueà des effectifs
reproducteurs
faibles...).
Ces structurations sont-elles détectables et identifiables sur une basestatistique
sûre ?. Notreobjectif
étantprécisément
de décrire
l’hétérogénéité
éventuelle de la collection d’individus extraite d’unepopulation,
il n’est pas souhaitable de décrirel’organisation populationnelle
àpartir
des seules
fréquences alléliques
aurisque
deperdre
toute l’information que recèle la combinatoire desgènes.
1.2.2. Leur
analyse
Le
problème
que nous venonsd’esquisser
est d’abord du ressort del’analyse exploratoire,
c’est-à-dire de la mise en évidence de structures dans la masse de données brutes. Dans notre cas, nous avons utilisé essentiellementl’Analyse
Fac-torielle des
Correspondances Multiples (AFCM).
Cettetechnique
multivariée estparticulièrement
bienadaptée
aux données dupolymorphisme génétique (AUTEM
et Coll.
1987,
SHE et Coll.1987)
car elleappréhende
directement les corréla- tions entredescripteurs,
c’est-à-dire lesdéséquilibres gamétiques,
etqu’elle
permet"ipso
facto" de s’affranchir desépineux problèmes
depondération (BENZECRI
etColl.
1973). L’approche factorielle, qui
vise àdégager
sous forme "d’associations"partielles
lesprincipales
structures des matrices dedonnées, permet l’exploitation
simultanée de l’information contenue dans les
correspondances allèliques
intralocus(écarts
àl’équilibre
deHardy Weinberg)
et celle recélée dans lescorrespondances allèliques
interlocus(déséquilibres gamétiques).
Les données brutes d’une collec- tion d’individus constituent un tableau oùchaque
individu(en ligne)
est décrit par lesgénotypes (en colonnes)
des N locuspolymorphes
retenus. Il est à noter quele passage du
phénotype
augénotype
est facilité dans notreapproche grâce
à latechnique
de caractérisationemployée (électrophorèse enzymatique) qui
révèle desallèles codominants. Un
exemple
de tableau réel est donné dans le Tableau la. Ce corpus de données brutes est ensuiterecodé,
pour les besoins de l’AFC, sous la forme d’un tableaucomportant
autant de colonnes que d’allèles.Chaque
individuest
représenté
par une suite de0,
1 ou 2. La valeur 2indique
si l’individu est homo-zygote
pour l’allèleconcerné,
la valeur 1 s’il lepossède
en conditionhétérozygote
et la valeur 0 s’il ne le
possède
pas.(Tableau Ib).
Nos
premiers
résultats(c.f. exemples
détaillésen § 2.4.) permettent
d’entre- voir pour certains échantillons une structuration de leur variabilité(Exemples
desfigures
la etIb).
Nous pensons que la mise enévidence,
paranalyse multivariée,
d’associations entredescripteurs (allèles)
ou entreobjets (individus) permettra
d’at- tribuer ces dernières à desphénomènes précis
de cesorganismes (migrations,
sélec-tion, dérive...)
que nous avonsdéjà évoqués.
1.3. Le
problème posé :
lerétrodiagnostic
enanalyse
multivariée Lesquestions
mentionnéesplus
haut débouchentnaturellement,
pour legénéticien
sur desproblèmes
de validationstatistique,
cequi
constituel’objet
de notre article :
- Les structures observées sont-elles
significatives
et stables ?- Peut-on s’affranchir des fluctuations
d’échantillonnage?
- Comment déterminer la validité d’un
résultat,
et améliorer les estimations de fiabilité de nos conclusions?L’analyse exploratoire,
purementdescriptive, qu’est
l’AFC doit s’accom- pagnerd’analyses
confirmatoires destabilité,
c’est-à-dire d’un"rétrodiagnostic"
comme
l’appellent
TUCKEY et MALLOWS(1982).
L’application
du"rétrodiagnostic"
permetd’employer,
selon le butpoursuivi,
un ou
plusieurs
critères dequalité
pour déciderqu’une
structure est satisfaisante.GREENACRE
(1983) distingue
deux types de critères dequalité
concernant la stabilité d’uneanalyse
multivariée.La stabilité interne : Le nuage de
points projeté
sur leplan
ne doit pas être déterminé par des aspects isolés de la collection des données(tel
unpoint
aberrantisolé
qui
tirerait defaçon
excessive leplan principal
dans sadirection).
La stabilité externe : L’orientation du
plan
doit être peu affectée par la considération de nouveaux échantillons de la mêmepopulation;
un échantillon insuffisamment étendu pourpouvoir
caractériser avec peu de variabilité les struc-tures de la
population
est unexemple
d’instabilité externe, d’autres échantillons de même taille menant à desplans principaux
différents. La notion de stabilité externe couvre donc celle de larépétitivité
des structures décrites.Plusieurs outils ont été
proposés
à des finsd’analyses
confirmatoires(HOLMES
JUNCA1985) :
- La "validation croisée"
(STONE 1974) qui
consiste àanalyser
la stabilité des résultats obtenus sur despartitions
d’un très gros fichier de données.- Le
"bootstrap" (EFRON 1979, 1982)
ou méthode dite "à laCyrano" qui opère
sur desrééchantillonnages
avec remise àpartir
des données réelles.- Le
"jackknife" (MILLER 1974)
ou méthode dite"passe-partout"
où l’ondécide d’omettre une variable ou un individu de la matrice de données
originelles;
on
fabrique
ainsi autant de sous échantillonsqu’il
y ad’individus,
ou de variables.Cependant,
nous n’utiliserons aucun de ces outils car nous avons la chance dedisposer
d’unehypothèse
nulle réalistequi
peut êtreapprochée
de manièreanalytique,
cequi
est suffisamment rare pour mériter d’êtresouligné. Plaçons-
nous dans notre situation
hypothétique
d’unepopulation
àl’équilibre panmictique (c.f.§ 1.2.1.).
L’outilrétrodiagnostique
que nous nous proposons d’utiliser repose sur cettehypothèse
nulled’homogénéité génétique
de lapopulation
dont sont issusnos échantillons. Nous
engendrons,
sous cettehypothèse,
des échantillons simulésqui
serviront au"rétrodiagnostic".
Plusieurs niveaux de discussion sont àprendre
52 E. MATHIEU. M. AUTEM. M. ROUX. F. BONHOMME
en considération : Le
premier
serapporte
à lafaçon d’engendrer
nos échantillons simulés. Le second concerne lestechniques
decomparaison
des résultats obtenus àpartir
des données simulées aux résultats fournis par les données réelles. Enfinnous discuterons de l’évaluation des
risques
d’erreurs liés aux tests ainsi créés.2. Matériel et méthodes 2.1. Construction d’échantillons simulés
La
première
solutionenvisagée
aconsisté,
àpartir
des donnéesréelles,
à estimer lesfréquences alléliques
en chacun des locus étudiés. Nousdisposons
ainsid’une urne
gamétique
àpartir
delaquelle,
et selon un modèle d’union aléatoire desgamètes,
on tire aléatoirement autant d’échantillonsqu’on
ledésire;
les effectifssont
égaux
à celui de l’échantillon réel. Les conditions dutirage
aléatoire sont lessuivantes :
-
Chaque
allèle esttiré
avec uneprobabilité égale
à safréquence
dansl’échantillon réel.
- Les
tirages
en deux locus différents sontindépendants.
- Les
tirages
de deux individus différents sontindépendants.
Les résultats de ces
tirages,
ousimulons, présentent
deux facteurs de varia- bilité :- Le
premier
est constitué par la variance sur lesfréquences
des modalités et est cequ’on pourrait appeler
la varianced’échantillonnage
sur lesfréquences
de
l’urne; puisqu’une
"urne réduite" s’écarteplus
ou moins de "l’urne vraie"de la
population (variance d’échantillonnage
sensitstricto).
- Le second constitue la variance sur la combinatoire multilocus
engendrée
sous
l’hypothèse
nulled’homogénéité génétique
de nos échantillons.Ce que nous pouvons
reprocher
à unsimulon,
c’est sa faibleaptitude
àpouvoir représenter
convenablementl’homologue stochastique
de l’échantillon réel. Cela est du à lapetitesse
des effectifs des échantillons(de
l’ordre de lacentaine)
relativement auxfréquences
de certains allèles rares(quelques %) :
Si un allèle estprésent
à faiblefréquence
dans l’échantillonréel,
ilpeut
fort bien ne pas êtrereprésenté
du tout dans letirage gamétique
aléatoire. Lesfréquences
rares étant favorisées dans desanalyses
de type AFC(GAUCH 1982),
les simulons
apparaissent
engénéral
aussi différents entre eux que de l’échantillon réel. C’est ce que nous avons constaté dans unpremier
temps en comparant visuellement(décompte
depoints
horsenveloppe)
dessuperpositions d’images
factorielles
(résultats
nonprésentés).
Cestechniques n’ayant
pas donné de résultatsinformatifs,
nous avons dans lapratique préféré engendrer
des tableaux de données simulées eneffectuant,
pourchaque locus,
unepermutation
aléatoire des allèlesprésents
dans l’échantillon réel. En outre lespermutations
relatives à deux locusdifférents sont distinctes et
indépendantes.
En d’autres termes, onpratique
untirage gamètique
sansremise,
dans l’échantillonréel, jusqu’à épuisement
de l’ume. A ceséchantillons
permutés
nous avons donné le nom de"permutons"
aveclesquels
nousavons réalisé la
plupart
des testsdéveloppés
ci-dessous. Les associations résiduelles visibles dans les permutons, ne résultent que de combinaisons aléatoires de variablespuisque
la variabilité liée auxfréquences
estidentique
à celle de l’échantillon réel.2.2. Validation
statistique
Pour ce
faire,
nous avonsessayé plusieurs approches "rétrodiagnostiques"
empiriques qui
nous ont fourni des résultatsplus
ou moinssignificatifs
selon lesmétriques employées
et le choix des échantillons réels de référence.Ayant
décidé d’abandonner lesprocédures
de validationstatistique
basées surl’interprétation d’images
multivariées obtenues àpartir
d’échantillons simulés pour les raisons donnéesplus haut,
nous nous sommes orientés vers d’autrestechniques
non
factorielles,
basées sur lacomparaison
d’indicesglobaux
obtenus àpartir
despermutons.
Cespermutons
sont considérés comme des réalisationsparticulières
de
populations
àl’équilibre panmictique auxquelles
estcomparée
la collection réelle d’individus. Cettecomparaison
s’effectue par l’étude de lois destatistiques d’homogénéité
sur ces tableauxperturbés.
Parmi ces
approches,
les méthodes STATIS(LAVIT 1988) permet
uneanalyse
simultanée deplusieurs
tableaux de donnéesquantitatives
Individus XVariables à
partir
des coefficients "RV"(ESCOUFIER 1973).
Les tableaux surlesquels
nous avonstravaillé,
issus des permutons et de l’échantillonréel,
sontceux des coordonnées de tous les allèles fournies par
analyses
factorielles descorrespondances.
Cettetechnique qui
essaie de comparer, à travers les coordonnéesfactorielles,
les informations multidimensionnelles des nuages n’a pas nonplus
donné les résultats
escomptés (les
échantillons réels sonttoujours
dans la fourchette des échantillonspermutés -
résultats nonprésentés).
L’autre
approche,
celle que nousdévelopperons
dans le cadre decetarticle,
consiste à établir la loi de distribution des moyennes, et des variances d’indicesparticuliers,
calculées àpartir
de tous les individus surchaque permuton
et pour l’échantillon réel. Les valeurs de la moyenne et de la variance du cas réel serontplacées
sur les loisrespectives
des permutons et permettront de situer cet échantillonparmi
seshomologues stochastiques.
Trois indices ont été
employés,
les deuxpremiers (Degré d’homologie
etidentité
génétique)
ayant lespropriétés
d’unedistance,
il nous a été difficile de comparer leurs moyennes et variances obtenues sur permutons à celles du cas réel à l’aide des testsparamétriques usuels;
les lois de distribution des moyennes et variances de ces indices sont inconnues et les différentes distances entre individus dans un tableau n’étant pasindépendantes
les unes des autres, la connaissance dudegré
de liberté dusystème
est loin d’être évidente.Quant
au troisièmeindice,
nousverrons
plus
loinqu’il
est de natureprobabiliste.
Nous avons choisid’engendrer
pour
chaque
test 100permutons
servant à la construction des différenteslois,
ce chiffre semble nécessaire et suffisant pour ce genre de travaux. Pourexemple,
la loi54 E. MATHIEU. M. AUTEM, M. ROUX, F. BONHOMME
de distribution des moyennes du troisième indice est donnée
figure
3. La difficultéprincipale
réside dansl’interprétation
de laposition
dupoint
réel sur laloi,
notionappréciative
relevant durisque
de deuxièmeespèce.
Afin dévaluer etd’appréhender
l’efficacité du test, nous avons réalisé
plusieurs expériences
sur des échantillons réelsprésentant
apriori
desdegrés
divers de structurationgénétique.
2.3.
Algorithme
et programmes de simulationTous les programmes utilisés ont été écrits en FORTRAN 77 sur IBM
PC/AT2
et
compilés
à l’aide ducompilateur
MICROSOFT Version 3.31 ou ducompilateur
FORTRAN IBM Version 1.0
(Mac FARLAND).
-
Programme générateur
d’échantillonspermutés
Ce programme fonctionne de la manière suivante : En
entrée,
ondispose
d’un tableau de données réelles Individus X
Génotypes.
Afind’engendrer
deséchantillons simulés par
permutations alléliques,
il nous faut ungénérateur
denombres
"pseudo-aléatoires"
uniformément distribués sur l’intervalle[0,1].
Leprocessus choisi comme
générateur
de nombres aléatoires(distribués
selon une loicontinue uniforme sur
[0,1])
repose sur la méthode ditecongruentielle multiplicative (LEHMER 1951).
Notre souci étant d’obtenir une bonnequalité statistique
denotre suite
"pseudo-aléatoire"
nous avons utilisé la méthode dubrassage
dedeux
générateurs.
L’intérêt de cettetechnique
tient à laqualité
dugénérateur résultant, qui
esttoujours bonne,
même si les deuxgénérateurs
de base sontrelativement
médiocres,
et à lapériode
obtenuequi
est leproduit
des deuxpériodes (Dans
notre cas, pour une machine à mots de 16 bits lapériode
résultante est :T = Tl.T2 =
2 16 .2 16
=232).
-
Programmes
de calcul d’indicesCes programmes utilisent en entrée les différents tableaux
permutés engendrés précédemment
et le tableauréel,
soit dans leur formebrute,
soit dans leur forme codéedisjonctive.
Ces programmes travaillent en doubleprécision
et sont conçus pour traiterplus
de 100 tableaux d’affilée.-
Programmes d’analyses factorielles
descorrespondances
Les tableaux obtenus et
préalablement
codéspeuvent
être soumis sur micro- ordinateur au programmed’Analyse
Factorielle desCorrespondances
élaboré par Maurice ROUX(1988)
et inclus dans leprogiciel
BIOMECO(C.E.P.E., Montpel- lier).
2.4. Echantillons tests
Ce sont ceux
présentés
enfigure la,
1 b et enfigure
2.La
figure
1représente
lesprojections
despoints-lignes (individus)
et despoints
colonnes(allèles)
de deuxespèces
voisines de rongeurs, décrites par les mêmes locus(gènes)
etanalysées
par A.F.C.. Nous avonssuperposé
à cesprojections
lesenveloppes
convexesreprésentant
les provenancesgéographiques
des individus
(d’après
J.M.DUPLANTIER,
Thèse1988).
De manière trèsclaire,
l’échantillon "B"(deuxième espèce) présente
unallongement significatif
sur l’axe1 et un début de différenciation
géographique
alors que cephénomène
n’est pas du tout apparent dans l’échantillon "A"(première espèce).
Dans cetarticle,
nousconsidérons "A"
(116
individus décrits à 13 locus soit 32modalités)
comme unexemple
moyen de groupe neprésentant
pas de structurationgénétique
évidente(c’est
à dire pouvant être issu d’une seule et même unitépanmictique
recouvrantdans ce cas l’ensemble de l’aire de
l’échantillonnage)
alors que "B"(66
individusdécrits à 13 locus soit 35
modalités)
seraitl’archétype
d’un groupe structurédéjà hétérogène
au niveau de la mailled’échantillonnage
choisi. Lafigure
2représente
la
projection
despoints-lignes (individus)
d’une autreespèce
de rongeursanalyése
par A.F.C. sur un groupe de 81 individus décrits à 14 locus soit 25 modalités
(C.
MONGELARD, 1985).
A laprojection
de ce groupe, que nousappelerons "C",
nous avons
superposé
lesenveloppes
convexesreprésentant
les deuxpopulations
étudiées
(Cl
etC2).
Nous considérons ce groupe commegénétiquement
structuréde part ses
particularités chromosomiques.
Dans cet échantillon"C",
nous savons apriori
que letirage
n’a pas été réalisé dans une seule et même ume,puisque
"C1" et "C2" ont des formules
chromosomiques
différentes.3. Résultats
3.1. Essai de
comparaison
de tableauxd’homologies alléliques
Partant d’un tableau Individus X
Génotypes,
l’idée consiste à calculerl’homologie allélique
cumulée pourchaque paire
d’individus. Ils’agit
du nombred’allèles
identiques
rencontrés chez deux individus(contrairement
àl’analyse
factorielle des
correspondances
cet indice n’introduit aucunepondération
liée auxfréquences
différentes desallèles).
Locus 1 locus 2 locus 3 locus 4 locus 5 ... Locus N Individu i
Individu j Homologie
Cumul
La valeur du cumul des
homologies alléliques
fournit un indice(ou degré
deressemblance pour
chaque paire
d’individuscomparés.
Sur un tableau contenantX
individus,
nous construisons la loi de distribution des(X*(X-1))/2)
indicesd’homologie
et en calculons la moyenne et la variance. Apartir
de 100permutons,
nous établissons la loi de distribution de la moyenne et de la variance du
degré
56 E. MATHIEU. M. AUTEM, M. ROUX. F. BONHOMME
d’homologie allélique.
La moyenne et la variance dudegré d’homologie
del’échantillon réel seront
respectivement placées
sur ces différentes distributions cequi
nous permettra de situer cet échantillonparmi
seshomologues stochastiques.
Voici les résultats obtenus sur, d’une part, l’échantillon A
supposé
nonstructuré et l’échantillon B
supposé structuré,
et d’autre part sur l’échantillons structuré C.Dans les trois
échantillons,
la valeur del’homologie
moyenne du cas réel resteinférieure à celles
qui
ont pu être calculées sur les permutons, les individus réels(en moyenne)
se ressemblent moins entre eux que les individus d’unpermuton.
Cetest ne permet
cependant
pas de différencier les trois groupes.3.2. Essai de
comparaison
de tableaux par identitégénétique Définition :
. Soit une
population
de Nindividus,
soit aij leième
allèle(i=1,..., A)
aujème
locus0= 1 ,..., L).
. Soit dans cette
population
deux individus X et Y . SoitPijk, la probabilité
de tirer l’allèle i au
locus j
chez l’individu k.. Soit
Faij
lafréquence
de cet allèle dans l’échantillon.Nous définissons entre deux individus différents X et Y l’identité
génétique I(X,Y) :
qui représente
laprobabilité
moyenne de tirer deux allèlesidentiques
chez l’un etl’autre
individu, probabilité pondérée
parl’homozygotie
rencontrée àchaque
locus.Comme
précédemment,
l’identitégénétique
moyenne du cas réel reste inférieure à celles calculées sur les permutons pour les trois échantillons et la variance demeureplus importante
pour les collections réelles.3.3. Essais de
comparaison
de tableaux par étude desprobabilités
individuellesDéfinition:
. Soit une
population
de Nindividus,
soit aij leième
allèle(i=1
àA)
aujème
locus
(j=1
àL).
6. Soit
Faij
lafréquence
de cet allèle dans l’échantillon.. Soit dans cette
population
un individu X .La
probabilité
detirage
d’un individu X issu de l’umedéduite,
sousl’hy- pothèse
depanmixie
etd’indépendance
descaractères,
s’énonce ainsi :. :
Faij 2
si lelocus j
est à l’étathomozygote,
2 *Fai j
*Fai’j
si lelocus j
està l’état
hétérozygote
pour les allèles i eti.
Considérons les
probabilités
moyennes individuelles dans un échantillon : unéchantillon dit structuré aurait une
probabilité
moyenneplus
faible que celle deses
homologues stochastiques,
c’est le cas du groupe B. A l’inverse un échantillon peustructuré,
doncplus proche
d’un sous ensemble d’idéalpanmictique,
verrait58 E. MATHIEU, M. AUTEM, M. ROUX, F. BONHOMME
sa
probabilité
moyenne incluse dans l’intervalle de confiance desprobabilités
deses
homologues stochastiques,
c’est le cas du groupe Aqui apparaît
à 7 % de la valeur minimale des permutons, c’est-à-dire que 93 des 100 permutons lui sontsupérieurs. Quant
au groupe C, ilapparaît
comme un peuplus
structuré queA,
à 1 % de sa valeur minimale.3.4. Contre
épreuve
Il
apparaît
que nousdisposons
maintenant de trois indices bienplus
sensiblesque ce
qui
estproposé
par la méthode STATIS avec l’utilisation des coefficients RV parexemple, peut-être
mêmetrop
sensiblespuisqu’ils rejettent l’hypothèse
nulledans tous les cas, sauf le dernier où nos échantillons sont classés dans l’ordre B,
C,
A. A
apparaît
comme le moins structurépuisque
le dernier test leplace
au dessus duseuil de
significativité,
dans le7’
111(percentile
de la distribution et C est lui voisin de la borne des 1 % . On peut donc se poserlégitimement
laquestion
de savoir si l’on peut sur ces bases définir un testqui
nerejette
pas trop facilementl’hypothèse
nulle. La
contre-réponse
consiste à montrer pour un test donnéqu’il
existe bien des situations où des échantillons naturels se trouventprès
du centre degravité
dela distribution. Avec l’échantillon C. nous avons la chance de
disposer
d’un casoù les deux sous échantillons C 1 et C2
(suffisamment nombreux) correspondent
àdes
populations
bienprécises.
Nous leur avons doncappliqué séparément
les testsbasés sur les trois indices et obtenus les résultats suivants :
Il
apparaît
sur ces tableaux que Cl et C2 sont nettementplus homogènes
que leur somme. La valeur del’homologie
moyenne de chacun des cas réels se situe mainteant dans l’intervalle délimité par la valeur minimale et la valeur maximale.Nous pouvons même calculer que le cas réel CI est à 14 % de sa valeur
minimale,
c’est-à-dire que 86 des 100permutons
lui sontsupérieurs
et que le cas réel C2 est à8 % de sa valeur minimale. Pour la distance
génétique
la situation est la même queprécédemment
dans la mesure où le cas réel CI est à 8 % de sa valeur minimale estque le cas réel C2 est à 3 % de sa valeur minimale.
Quant
à l’indiceprobabiliste,
les cas réels sont à environ 50 % de leur valeur
minimale ;
ces résultats sont doncen conformité avec
l’idée
que lesgénéticiens
se font de l’absence de structuration.Discussion et conclusion
Le recours à la simulation d’échantillons aléatoires a semblé utile à la ca-
ractérisation des structures
spatio-temporelles
del’espèce grâce
aux correspon- dancespartielles
entre les allèles desgènes polymorphes.
Nous avonsessayé
d’es-timer les distorsions affectant les données brutes par rapport à leurs
homologues stochastiques.
L’hypothèse
réaliste depanmixie
nous a amenés àengendrer
des corpus de données aléatoires lesplus proches possibles,
d’unpoint
de vueinformationnel,
de nos échantillonsréels ;
nous avonspréféré
le"permuton"
au "simulon" car cedernier ne
représentait
quepartiellement l’homologue stochastique
de la collection réelle. Ce choix étantréalisé,
nous avons testéplusieurs
méthodesrétrodiagnosti-
ques
qui
ontprésenté
divers niveaux de sensibilité. Nous avons, dans cesessais,
décidé de nous munir de trois groupes d’individus : l’unsupposé
non structuré(groupe A)
et deux autressupposés
structurés(groupes
B etC).
On peut alors sedemander,
sachantdéjà
définir apriori
cette notion destructuration,
s’il est bien nécessaire de chercher à mettre aupoint
des testscompliqués
de validation. Laréponse
estpositive,
car nos critères de structurationétaient,
dans ce casprécis,
confortés par
quelques
observations d’ordreécologique
oucytologique
nous per-mettant de considérer le groupe B comme un ensemble
hétérogène
d’unités àrépar-
tition
géographique
morcelée et le groupe C comme constitué de deux unités pan-mictiques (C
etC2).
Le groupe A quant à lui montrait unehomogénéité
certaine.Il est malheureusement assez rare dans notre domaine de
disposer
d’informations60 E. MATHIEU. M. AUTEM. M. ROUX. F. BONHOMME
complémentaires
permettant de supposer apriori
del’hétérogénéité
d’un groupe;il est donc
important
de se doter d’outilsadaptés
de validationstatistique.
Nous avons utilisé différents indices
(homologie allélique,
identitégénétique
et
probabilité)
à travers lacomparaison
de loisstatistiques;
seulel’approche probabiliste
semble donner les résultats conformes à l’idée que lesgénéticiens
sefont de la structuation et se trouve être
rapide
d’utilisation. Notrehypothèse
nulleHo
étant : l’échantillon observé esthomogène
et doncsupposé
tiré d’une unitépanmictique,
ceci nous amène à discuter de la sensibilité des testsprécedemment employés :
Le test sur les indices
d’homologie
ainsi que le test basé sur l’identitégénétique
nous poussent à
rejeter l’hypothèse Ho quel
que soit l’échantillonA,
B ou C considéré et donnent de très mauvais scores pour les sous-échantillons Cl et C2.Ces deux tests semblent donc trop sensibles dans la mesure où il nous font
rejeter l’hypothèse
nulle pour l’échantillon A alors que cette dernière est dans ce casvraisemblable.
Le dernier test
enfin,
utilisant un indiceprobabiliste,
permet derejeter l’hypothèse
nulle dans le cas du groupe
B,
del’accepter
dejustesse
dans le cas du groupe A et depouvoir
larejeter
au seul de 1 % pour le groupeC,
alors que lacontre-épreuve
réalisée sur Cl et C2
désigne
ceux-ci commehomogènes.
Dans l’élaboration de tests, le
problème
délicat est de savoir avecquel degré
de sensibilité veut-on comparer les échantillons réels avec lesprédictions
attendues sous
l’hypothèse
nulle. Iln’y
a pas apriori
deréponse unique préétablie
à cette
question.
Pourprendre
uneanalogie physique,
si l’on s’intéresse à l’écart depièces
sorties d’usine par rapport à un modèle circulaireidéal,
il est clair que l’on pourratoujours
prouver l’existence depetites
déformations si l’on peut raffiner indéfinimment laprécision
de l’outil de mesure. Dans le casqui
nouspréoccupe,
ceci est clairement mis en évidence :
parmi
lesapproches employées,
certainesse sont avérées
beaucoup
trop peu sensibles(par exemple
la méthodeSTATIS,
c.f.§ 2.2)
alors que d’autres(indices
des§
3.1 et3.2)
révèlent que les trois échantillons naturels testés montrent despetites singularités
par rapport à un idéalpanmictique.
Seul le troisième indice(§ 3.3)
tend à ramener un échantillonréputé
non
structuré,
comme A parexemple,
dans la fourchette des cassimulés,
assez loin du centre de la distributioncependant,
et subit unecontre-épreuve
avec succèsdans le cas de Cl et C2.
A ce
stade,
il convientcependant
des’interroger
sur lessignifications
deces écarts et de se demander
jusqu’à quel point
nous devons en tenir compte.Cette discussion nécessite de revenir à la réalité
biologique
del’échantillonnage :
il existe de nombreux facteurs
qui peuvent modifier,
ne serait-ce que de manièreinfime,
la structure de cetéchantillonnage
parrapport
à un idéalpanmictique.
Dans le cas des
espèces
que nous avons considéréici,
nous pouvons penser enpremier
lieu àl’uppureyztement possible
des individusanalysés :
dans la nature, lesaccouplements
ne se font pas au hasard et au cours del’échantillonnage,
desindividus
apparentés peuvent
avoir étécapturés.
Dans unpetit échantillon,
cecipeut
être suffisant pour créer desdéséquilibres
d’associationsqui
seront détectables parnos
coefficients,
coefficients sûrement assez sensibles au fait que deux modalitésse retrouvent par