Diversit´es g´en´etiques et tests d’hypoth`eses
A.B. Dufour, J.R. Lobry & D. Chessel 31 mars 2008
Approche de la d´ ecision en statistique. Tests statistiques et loi de Mendel.
Exergue. Un papa statisticien, ` a la psychologie rugueuse, veut apprendre les rudiments ` a son fils. Il place 99 pi` eces de 0.1 e et 1 pi` ece de 2 e sur une table et dit ” Prend une pi` ece au hasard. Si tu l’as prise au hasard tu la gardes, sinon je te donne une claque ”.
Le petit prend la pi` ece de 2 e et une claque. ” Bon, tu n’as pas tout compris. Je te bande les yeux. Prend une pi` ece au hasard. Si tu l’as prise au hasard tu la gardes, sinon je te donne une claque ”. Le petit, qui se m´ efie, tire un peu sur le bandeau, voit la pi` ece de 2 e et en prend une autre. ” Tr` es bien, tu vois que quand tu ne vois pas, tu tires au hasard ”.
Comme quoi, il y a plusieurs fa¸ cons de se faire avoir.
1 Approche de la d´ ecision en statistique
1.1 Une petite introduction
Les fondateurs de la th´ eorie des tests d’hypoth` eses sont Jerzy Nyman et Ergon Pearson, fils de Karl. Neyman mentionne cependant qu’` a sa connais- sance, la premi` ere approche d’un test d’hypoth` ese est due ` a Laplace en 1812.
La construction de la th´ eorie des tests a eu lieu entre 1926 et 1933. Neyman et Pearson pr´ esentent leur point de vue du probl` eme comme ´ etant le choix entre deux d´ ecisions : accepter ou refuser une hypoth` ese privil´ egi´ ee. Bien que cette approche a tendance ` a disparaˆıtre au profit des interpr´ etations sur les intervalles de confiance et les probabilit´ es p, c’est celle que nous pr´ esenterons dans ce do- cument.
Notons ´ egalement que l’id´ ee de la significativit´ e d’un test a tout d’abord
´
et´ e propos´ e par Fisher qui vit dans la valeur p un indice de la mesure de l’´ ecart entre les donn´ ees et l’hypoth` ese nulle : plus la valeur de p est petite, plus grand est l’´ ecart. Il d´ efendit p = 0.05 comme un seuil standard.
’If P is between 0.1 and 0.9 there is certainly no reason to suspect
the hypothesis tested. If it is below .02 it is strongly indicated that
the hypothesis fails to account for the whole of the facts. We shall
not often be astray if we draw a conventional line at 0.05 . . .’
Neyman et Pearson se sont oppos´ es ` a cette approche subjective et ont propos´ e une approche de d´ ecision th´ eorique li´ ee aux r´ esultats d’une exp´ erimentation.
Une fois d´ efinies un certain nombre de r` egles de d´ ecision, le r´ esultat de l’analyse consiste simplement ` a accepter ou rejeter l’hypoth` ese nulle.
1.2 Le paradigme de la d´ ecision
Les tests ont pour but de v´ erifier, ` a partir de donn´ ees observ´ ees dans un ou plusieurs ´ echantillons, la validit´ e d’hypoth` eses relatives ` a une ou plusieurs populations. Pour ce faire, il est n´ ecessaire d’avoir une proc´ edure ”objective” de rejet ou d’acceptation d’une hypoth` ese.
Afin de bien comprendre la nature d’un test, nous allons r´ ealiser une analogie avec le syst` eme judiciaire. Un pr´ evenu est pr´ esent´ e devant un tribunal parce qu’il est soup¸ conn´ e de meurtre. Deux hypoth` eses peuvent ˆ etre ´ emises : l’individu est innocent, l’individu est coupable. La premi` ere est appel´ ee hypoth` ese nulle et not´ ee H 0 , la seconde hypoth` ese alternative et not´ ee H 1 . Nous avons d’une part la r´ ealit´ e : l’individu est innocent ou l’individu est coupable. Mais cette r´ ealit´ e est inconnue pour les membres du jury. Nous avons d’autre part, la d´ ecision que va prendre ce mˆ eme jury. La situation devient alors la suivante.
r´ ealit´ e inconnue
H 0 H 1
d´ ecision H 0 erreur II H 1 erreur I
Il y a quatre possibilit´ es : deux sont favorables et deux sont d´ efavorables. Les deux possibilit´ es favorables sont les d´ ecisions du jury en accord avec la r´ ealit´ e : d´ eclarer le pr´ evenu innocent alors que dans la r´ ealit´ e, il est effectivement inno- cent : d´ eclarer l’individu coupable alors que dans la r´ ealit´ e, il est effectivement coupable. Les deux possibilit´ es d´ efavorables sont deux erreurs judiciaires : d´ e- clarer l’individu innocent alors qu’il est coupable ; d´ eclarer l’individu coupable alors qu’il est innocent. Si l’hypoth` ese H 1 est choisie quand l’hypoth` ese H 0 est vraie, alors on dit qu’une erreur de premi` ere esp` ece a ´ et´ e commise. Si l’hy- poth` ese H 0 est choisie quand en fait l’hypoth` ese H 1 est vraie, alors on dit qu’une erreur de deuxi` eme esp` ece a ´ et´ e commise.
Bien sˆ ur, nous voudrions pouvoir prendre une d´ ecision en minimisant les probabilit´ es de commettre des erreurs. Malheureusement, il y a un compromis entre les erreurs de premi` ere et de deuxi` eme esp` eces qui empˆ eche de minimiser en mˆ eme temps les deux probabilit´ es. La formulation selon Neyman-Pearson accordant une place privil´ egi´ ee ` a l’hypoth` ese nulle H 0 revient ` a dire que le risque de premi` ere esp` ece est plus flagrant que le risque de deuxi` eme esp` ece.
Cette formulation impose une limite sup´ erieure, tol´ erance associ´ ee ` a ce risque
de premi` ere esp` ece, appel´ e le niveau de signification. Dans la description des
r´ esultats d’un test, beaucoup de statisticiens pr´ ef` erent la phrase ”on a ´ echou´ e ` a
rejeter l’hypoth` ese nulle” plutˆ ot que dire ”on accepte l’hypoth` ese nulle”. Pour-
quoi ? parce que choisir l’hypoth` ese H 0 ne signifie pas que H 0 est correcte mais
seulement que le niveau d’´ evidence contre H 0 n’est pas suffisant pour garantir
son rejet au risque α. Dans notre analogie avec le syst` eme judiciaire, le jury rend un verdict de ”non culpabilit´ e” et non d’”innocence”. L’acquittement ne signifie pas que le pr´ evenu n’a pas commis le crime mais qu’il subsiste un doute raisonnable pour ne pas aller ` a l’encontre de l’innocence.
1.3 Le test du Chi-Deux
Construire une urne contenant 50 boules vertes, 50 rouges, 50 noires et 50 bleues. Puis r´ ealiser un tirage al´ eatoire sans remise de 50 boules et compter la r´ epartition des couleurs.
urne <- rep(x = c("V", "R", "N", "B"), times = c(50, 50, 50, 50)) echan <- sample(x = urne, size = 50, replace = FALSE)
table(factor(echan, levels = c("V", "R", "N", "B"))) V R N B
14 11 13 12
Recommencer l’exp´ erience 1000 fois et stocker l’information dans la matrice tableau. Pour cela, cr´ eer la fonction comptage() ci-dessous :
comptage <- function(x) {
echan <- sample(urne, 50, rep = F)
comptes <- table(factor(echan, levels = c("V", "R", "N", "B"))) }
tableau <- t(apply(as.data.frame(1:1000), 1, comptage)) tableau[1:5, ]
V R N B [1,] 13 14 12 11 [2,] 12 11 12 15 [3,] 16 10 15 9 [4,] 7 10 15 18 [5,] 15 12 8 15
Comme dans l’urne, le nombre de boules est le mˆ eme quelle que soit la couleur, on a une distribution uniforme discr` ete o` u la probabilit´ e d’apparition d’une couleur est 1 4 . Dans un ´ echantillon de 50 boules, on attend donc en moyenne 12.5 boules vertes, 12.5 boules rouges, 12.5 boules noires et 12.5 boules bleues.
Chaque exp´ erience ´ el´ ementaire donne un r´ esultat autour de la moyenne. On attend (12.5, 12.5, 12.5, 12.5). On parle d’effectif th´ eorique T i . Le r´ esultat obtenu dans un ´ echantillon est par exemple (15, 9, 18, 8). On parle d’effectif observ´ e O i . On peut mesurer l’´ ecart entre un effectif observ´ e et le th´ eorique par :
χ 2 =
4
X
i=1
(O i − T i ) 2 T i Dans notre exemple, nous avons donc
χ 2 = (15 − 12.5) 2
12.5 + (9 − 12.5) 2
12.5 + (18 − 12.5) 2
12.5 + (8 − 12.5) 2 12.5 soit χ 2 = 6.16.
Calculons les valeurs du chi-deux pour les 1000 ´ echantillons r´ ealis´ es.
result <- apply(tableau, 1, function(x) sum((x - rep(12.5, 4))^2/rep(12.5,
4)))
Mesurer les ´ ecarts de cette mani` ere, c’est utiliser la m´ etrique du χ 2 . Cette ex- p´ erience montre que la distribution Chi-deux est une approximation (plus ou moins bonne) de la loi de la statistique χ 2 . On a un th´ eor` eme math´ ematique dit asymptotique (quand n le nombre de boules tir´ ees tend vers l’infini on tend vers une loi Chi-deux). Regardons cette loi du Chi-deux, densit´ e de probabilit´ e
`
a un param` etre : le degr´ e de libert´ e (en anglais, degree of freedom df).
hist(result, nclass = 20, proba = TRUE, col = grey(0.8), main = "Distribution observee et lois asymptotiques", ylim = c(0, 0.4), xlab = expression(paste("Valeur du ", chi^2)))
x0 <- seq(0, 15, le = 100)
lines(x0, dchisq(x = x0, df = 2), lwd = 2)
lines(x0, dchisq(x = x0, df = 3), lwd = 2, col = "red") lines(x0, dchisq(x = x0, df = 4), lwd = 2, col = "blue")
legend("topright", inset = 0.01, legend = paste("ddl =", 2:4), col = c("black",
"red", "blue"), lwd = 2)
Distribution observee et lois asymptotiques
Valeur du χχ
2Density
0 5 10 15
0.0 0.1 0.2 0.3 0.4 ddl = 2
ddl = 3 ddl = 4
Tout ceci nous conduit donc ` a construire le test d’ajustement du Chi-Deux d’une distribution observ´ ee ` a une distribution th´ eorique. Les hypoth` eses sont les sui- vantes :
H 0 La distribution observ´ ee suit la distribution th´ eorique.
H 1 La distribution observ´ ee ne suit pas la distribution th´ eorique.
result repr´ esente l’ensemble des valeurs possibles. On l’appelle statistique du test. Le r´ esultat obtenu sur notre ´ echantillon, χ 2 calcul´ e, est une r´ ealisation de la statistique du test. Sous l’hypoth` ese H 0 , la statistique du test suit un Chi-deux
`
a ν = k − c degr´ es de libert´ e o` u k est le nombre de modalit´ es ou de classes et
c la taille de l’´ echantillon et le nombre de param` etres estim´ es. Dans l’exemple,
nous avons quatre couleurs. Le calcul de la probabilit´ e associ´ e ` a une classe se
fait sans aucune autre information. Les degr´ es de libert´ e sont donc ν = 4 − 1 soit ν = 3.
Lire attentivement la documentation de chisq.test.
chisq.test(x = c(15, 9, 18, 8), p = rep(0.25, 4)) Chi-squared test for given probabilities data: c(15, 9, 18, 8)
X-squared = 5.52, df = 3, p-value = 0.1374
2 Entrons en g´ en´ etique
2.1 Un peu d’histoire
Fig. 1 – G. Mendel
Il revient ` a Gregor Mendel (1822-1884), un moine tch` eque, d’avoir ´ etabli les
bases scientifiques de la g´ en´ etique. Il a ´ et´ e pr´ ec´ ed´ e dans ses recherches par Joseph
Gottlieb Koelreuter (1733-1806) et Carl Friedrich von Gaertner (1772-1850). Les
combinaisons hybrides ont ´ et´ e formul´ ees par Francis Galton, en 1875, et aupara-
vant par Charles Naudin en 1860. Mais c’est Mendel qui en donne la formulation
et la signification fondamentales et d´ efinitives. Une question le pr´ eoccupait pro-
fond´ ement : comment les plantes h´ eritent-elles de leurs traits distinctifs ? D` es
1856, il entreprend de faire pousser diff´ erents types de pois ensemble pour voir
quels traits sont transmis ` a leurs successeurs. Les pois de Mendel proviennent
g´ en´ eralement de semences de deux formes : rondes et pliss´ ees. Dans ses notes, il
d´ ecrit les semences rondes comme ayant une cellule de type ” A ” et un pollen de
type ” A ” et les semences pliss´ ees comme ayant une cellule de type ” a ” et un
pollen de type ” a ”. Lorsqu’une cellule de type ” A ” est f´ econd´ ee avec un pollen
de type ” a ”, il en r´ esulte une forme ronde. Cela est ´ egalement vrai d’une cellule
de type ” a ” f´ econd´ ee avec un pollen de type ” A ”. La forme ronde est donc
consid´ er´ ee comme dominante. La seule fa¸ con de produire une semence pliss´ ee
est de f´ econder une cellule de type ” a ” avec un pollen de type ” a ”. L’article
de Mendel a re¸cu peu d’attention et son travail est demeur´ e sur les tablettes pendant presqu’un demi si` ecle avant d’ˆ etre ” red´ ecouvert ” en 1900.
Selon la croyance, Hugo de Vries (en 1907), Carl Correns et Eric Von Tscher- nak auraient, chacun de leur cˆ ot´ e, ” d´ ecouvert ” le rapport d’hybridit´ e 3 :1 et ce ne fut qu’apr` es la publication de leurs r´ esultats que les trois ont ” re-d´ ecouvert ” le travail ant´ erieur de Mendel sur l’hybridation des plantes. Toutefois, on trouve des indices comme quoi les trois scientifiques auraient lu l’article de Mendel da- tant de 1865, que ce soit avant ou pendant leurs exp´ eriences. Peu importe qui a d´ ecouvert quoi et quand, la ” loi de Mendel ” ´ etait la cl´ e pour comprendre l’h´ er´ edit´ e.
En 1908, ` a l’occasion d’un dˆıner, on demande ` a G.H. Hardy, professeur de math´ ematiques ` a Cambridge, s’il est possible d’´ enoncer une formule math´ e- matique d´ ecrivant la proportion de g` enes all´ elomorphes dominants ` a r´ ecessifs n´ ecessaires pour permettre l’´ evolution. On pr´ etend que le professeur aurait ´ ecrit la formule sur la manchette de sa chemise. Hardy consid` ere son ´ equation si
´
el´ ementaire qu’il refuse de la publier dans une revue que pourraient lire ses col- l` egues. Il ne la publie que dans une revue de biologie. Simultan´ ement, mais sans le savoir, Wilheim Weinberg, un m´ edecin allemand, publie la mˆ eme solution au mˆ eme probl` eme. Cela donna naissance ` a la loi de Hardy-Weinberg.
2.2 Quelques d´ efinitions
Un g` ene est un ´ el´ ement du patrimoine g´ en´ etique. Il occupe un emplacement bien pr´ ecis sur un chromosome. Cet emplacement est appel´ e locus. Un g` ene se pr´ esente sous plusieurs ´ etats ou all` eles. Le nombre d’all` eles pour un g` ene varie de deux ` a plusieurs dizaines. Un organisme poss´ edant un seul g` ene ` a chaque locus est dit haplo¨ıde. Un organisme poss´ edant deux g` enes ` a chaque locus est dit diplo¨ıde.
Un organisme diplo¨ıde ayant un seul all` ele en un locus donn´ e est dit homozy- gote. Un organisme diplo¨ıde ayant deux all` eles diff´ erents en un locus donn´ e est dit h´ et´ erozygote.
Le g´ enotype est la constitution g´ en´ etique d’un organisme ` a un ou des locus sp´ ecifi´ es. Le ph´ enotype est d´ efini par l’ensemble des caract` eres ext´ erieurs d’un organisme de g´ enotype sp´ ecifi´ e.
Les cellules humaines poss` edent, en principe, le mˆ eme potentiel g´ en´ etique : elles sont diplo¨ıdes. Elles poss` edent deux fois un nombre de base de chromosomes ` a savoir 23.
La fr´ equence all´ elique est la fr´ equence d’un all` ele dans une population. Pre- nons par exemple un syst` eme AB, compos´ e de deux all` eles A et B. Un ´ echantillon est compos´ e de :
- 135 individus du groupe [A]
- 244 individus du groupe [AB]
- 111 individus du groupe [B].
On peut s’interroger sur la fr´ equence de l’all` ele A dans cet ´ echantillon.
Ph´ enotypes [A] [AB] [B]
G´ enotypes AA AB BB
Fr´ equences g´ enotypiques n AA n AB n BB
La taille de l’´ echantillon est n = 490 soit 2n = 980 g` enes. En effet, par conven- tion, on note n le nombre d’individus. Donc dans le cas d’organismes diplo¨ıdes, cela fait 2n g` enes. La fr´ equence de l’all` ele A dans cet ´ echantillon est :
p = 2n AA + n AB
2n ; p = 514 980 .
p est l’estimation ponctuelle de la proportion d’individus poss´ edant l’all` ele A dans la population d’o` u a ´ et´ e extrait l’´ echantillon.
Nous pouvons ´ egalement introduire la notion de diversit´ e all´ elique. C’est la pro- babilit´ e de tirer au hasard deux all` eles diff´ erents ` a un locus dans une population.
La probabilit´ e de tirer deux fois le g` ene A est p 2 . Si on note q = 1 − p, la pro- babilit´ e de tirer deux fois le g` ene B est q 2 . La probabilit´ e de tirer deux fois le mˆ eme g` ene est p 2 + q 2 .
Dans le cas d’un g` ene poss´ edant par exemple K all` eles. La probabilit´ e devient P K
k=1 p 2 k . La probabilit´ e de tirer deux g` enes diff´ erents est alors 1 − P K k=1 p 2 k . Dans le cas de deux all` eles cette fr´ equence est 1 − (p 2 + q 2 ) soit 2pq (que l’on retrouve facilement en rempla¸ cant q par 1 − p). La diversit´ e all´ elique est 2 514 980 466 980 = 0.4988 C’est la fr´ equence attendue des h´ et´ erozygotes appel´ ee h´ et´ e- rozygotie.
2.3 Les lois de Mendel
Les travaux de Mendel ont permis d’´ etablir les lois statistiques de la transmis- sion des caract` eres h´ er´ editaires ` a partir de lign´ ees pures pour le(s) caract` ere(s) consid´ er´ e(s).
Les lois de Mendel reposent sur les principes suivants :
1. Les caract` eres sont ind´ ependants les uns des autres dans leur transmission ; 2. Mˆ ale et femelle sont ´ equivalents dans l’hybridation, ils d´ eterminent, ´ ega-
lement malgr´ e les faits de dominance, chaque caract` ere ;
3. Dans les cellules sexuelles, les deux composantes d’origine mˆ ale et d’ori- gine femelle, de chaque caract` ere, se dissocient et, dans la f´ econdation, les composantes de chaque origine s’unissent au hasard, pour chaque carac- t` ere.
1. Loi d’uniformit´ e
La premi` ere g´ en´ eration est homog` ene (mˆ emes ph´ enotype et g´ enotype) pour un caract` ere donn´ e. Si les individus pr´ esentent le ph´ enotype de l’un des parents, on dit que le caract` ere transmis est dominant ; celui de l’autre parent ´ etant r´ ecessif.
Si les h´ et´ erozygotes ont un ph´ enotype interm´ ediaire, on dit qu’il y a absence de dominance.
2. Loi de disjonction
Les deux all` eles d’un g` ene se s´ eparent lors de la formation des gam` etes. Chaque
gam` ete, qui contient l’un ou l’autre des all` eles, est pur. Les deux cat´ egories de gam` etes sont d’apparition ´ equiprobable.
3. Loi d’ind´ ependance
Les couples d’all` eles suivent le processus ind´ ependamment les uns des autres ; les individus de la premi` ere g´ en´ eration produisent des gam` etes qui se r´ epartissent en quatre cat´ egories g´ enotypiques ´ equiprobables.
Pour ses exp´ eriences, Mendel choisit le pois comestible et s’int´ eressa ` a sept ca- ract` eres dont la couleur (jaune ou verte) et la forme des graines (ronde ou rid´ ee).
Exp´ erience 1. Commen¸ cons par ´ etudier un seul caract` ere : la forme du pois (ronde ou rid´ ee). En croisant des lign´ ees pures de pois ayant des graines rondes avec des lign´ ees pures de pois ayant des graines pliss´ ees, il constata que les pois hybrides ainsi cr´ e´ es avaient des graines rondes. Il en conclut que la forme ronde
´
etait dominante sur la forme rid´ ee tandis que la forme rid´ ee ´ etait un caract` ere r´ ecessif. Cependant, en croisant les hybrides entre eux, il observa de nouveau le caract` ere r´ ecessif,forme rid´ ee, chez une fraction des pois de la descendance.
Fig. 2 – Premi` ere exp´ erience de Mendel
Exp´ erience 2. En croisant des lign´ ees pures de pois ayant des graines jaunes
et rondes (obtenues par autof´ econdation r´ ep´ et´ ee) avec des lign´ ees pures de pois
ayant des graines vertes et rid´ ees, il constata que les pois hybrides ainsi cr´ e´ ees avaient des graines jaunes et rondes. Il en conclut que la couleur jaune devait ˆ
etre dominante sur la couleur verte et la forme ronde dominante sur la forme rid´ ee tandis que la couleur verte et la forme rid´ ee ´ etaient des caract` eres r´ eces- sifs. Cependant, en croisant les hybrides entre eux, il observa de nouveau les caract` eres r´ ecessifs, graines de couleur verte et de forme rid´ ee, chez une fraction des pois de la descendance.
Les r´ esultats observ´ es de Mendel sont dans le tableau ci-dessous.
Graines Jaunes Jaunes Vertes Vertes Rondes Rid´ ees Rondes Rid´ ees
Effectifs observ´ es 315 101 108 32
Le caract` ere couleur est cod´ e par un g` ene pr´ esentant deux formes all` eles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert r´ ecessif. La forme, rond ou rid´ e, est port´ ee par un autre g` ene ` a deux all` eles R (dominant) et r (r´ ecessif). Le rond est dominant, le rid´ e est r´ ecessif. Si on croise deux individus dont le g´ enotype est CcRr, on peut obtenir 16 g´ enotypes
´
equiprobables. Les descendants seront jaunes et ronds dans 9 cas sur 16, jaunes et rid´ es dans 3 cas sur 16, verts et ronds dans 3 cas sur 16, verts et rid´ es dans 1 cas sur 16. Si Mendel a raison, les effectifs th´ eoriques devraient ˆ etre pour le croisement des 556 pois.
Fig. 3 – Deuxi` eme exp´ erience de Mendel
Graines Jaunes Jaunes Vertes Vertes Rondes Rid´ ees Rondes Rid´ ees Effectifs th´ eoriques 312.75 104.25 104.25 34.75
La proc´ edure permettant de confronter les donn´ ees observ´ ees avec les don- n´ ees th´ eoriques conformes ` a Mendel est le test d’ajustement du Chi-deux que nous avons vu pr´ ec´ edemment.
2.4 La loi de Hardy-Weinberg
Selon la loi de Hardy-Weinberg, les fr´ equences all´ eliques restent stables de g´ en´ eration en g´ en´ eration dans une population diplo¨ıde id´ eale et ne d´ ependent que des fr´ equences de la g´ en´ eration initiale. De plus, les fr´ equences g´ enotypiques ne d´ ependent que des fr´ equences all´ eliques.
Une population id´ eale est une population fictive qui poss` ede les propri´ et´ es sui- vantes :
1. Population de grande taille, id´ ealement de taille infinie.
2. Les individus s’y unissent al´ eatoirement, impliquant l’union al´ eatoire des gam` etes. Il n’y a donc pas de choix du conjoint en fonction de son g´ enotype.
On dit alors que la population est panmictique.
3. Pas de migration. Aucune copie all´ elique n’est apport´ ee de l’ext´ erieur.
4. Pas de mutation.
5. Pas de s´ election.
6. Les g´ en´ erations sont s´ epar´ ees.
Cette population n’est d´ efinie ainsi que pour assurer la rigueur math´ ematique de la d´ emonstration suivante.
Supposons que la taille de la population soit ´ egale ` a N et consid´ erons un locus ` a deux all` eles A et a poss´ edant respectivement des fr´ equences p et q = 1−p
`
a la g´ en´ eration t. Quelles vont ˆ etre les fr´ equences des diff´ erents g´ enotypes AA, Aa, aa ` a la g´ en´ eration t+1 ?
Pour qu’un individu soit AA, il faut qu’il ait re¸ cu un all` ele A de ses deux parents.
Cet ´ ev´ enement se r´ ealise avec la probabilit´ e P (AA) = p 2 . Le raisonnement est identique pour le g´ enotype aa soit P (aa) = q 2 . Enfin, pour le g´ enotype Aa, deux cas sont possibles : P(Aa) = pq + qp; P (Aa) = 2pq. Ainsi dans une population id´ eale, les proportions de Hardy-Weinberg sont donn´ ees par :
AA Aa aa
p 2 2pq q 2
Cette situation est g´ en´ eralisable ` a un locus avec plusieurs all` eles A 1 , A 2 , . . ., A K . Les fr´ equences des homozygotes A k A k sont ´ egales ` a p 2 k , celles des h´ et´ ero- zygotes A i A j ` a 2p i p j .
La fr´ equence p 0 de l’all` ele A ` a la g´ en´ eration t + 1 est obtenue par simple comptage :
p 0 = 2p 2 N + 2pqN
2N soit p 0 = p 2 + pq
soit respectivement la proportion des all` eles A port´ es par les homozygotes et les h´ et´ erozygotes, et donc :
p 0 = p(p + q) soit p 0 = p.
La fr´ equence de l’all` ele A ` a la g´ en´ eration t + 1 est donc identique ` a celle de la g´ en´ eration pr´ ec´ edente et donc aussi ` a la g´ en´ eration initiale.
En cons´ equence, les relations de dominance entre all` eles n’ont aucun effet sur l’´ evolution des fr´ equences all´ eliques. L’´ evolution ´ etant d´ efinie par un chan- gement de fr´ equences all´ eliques, une population diplo¨ıde id´ eale n’´ evolue pas.
Pour plus d’information, allez sur le site de Laurent Excoffier http://anthro.
unige.ch/evolution/GeneticDrift.html 1 d’o` u est extrait en partie ce para- graphe et quelques exercices de la derni` ere partie.
3 Lien entre tests et g´ en´ etique
3.1 Exercice Mendel
A partir des donn´ ees des pois de Mendel, peut-on dire que les effectifs ob- serv´ es diff` erent des effectifs issus du mod` ele de Mendel 16 9 , 16 3 , 16 3 , 16 1
?
effobs <- c(315, 101, 108, 32) probtheo <- c(9/16, 3/16, 3/16, 1/16)
Chi-squared test for given probabilities data: effobs
X-squared = 0.47, df = 3, p-value = 0.9254
3.2 Exercice balsamines
On a effectu´ e le croisement de balsamines blanches avec des balsamines pourpres [1]. En premi` ere g´ en´ eration, les fleurs sont toutes pourpres. On ob-
source : wikipedia
tient en deuxi` eme g´ en´ eration quatre cat´ egories avec les effectifs suivants : Couleurs pourpre rose blanc lavande blanc
Effectifs 1790 547 548 213
Peut-on accepter l’hypoth` ese de r´ epartition mend´ elienne ?
effobs <- c(1790, 547, 548, 213) probtheo <- c(9/16, 3/16, 3/16, 1/16)
Chi-squared test for given probabilities data: effobs
X-squared = 7.0628, df = 3, p-value = 0.06992
1
cette adresse est obsol` ete, ` a corriger
3.3 Exercice est´ erase
L’est´ erase Est 1 du lapin est une prot´ eine monom´ erique cod´ ee par un seul g` ene ` a trois all` eles E1, E2 et E3. Dans une population, on a trouv´ e [4] 72 homo- zygotes E1E1, 24 homozygotes E2E2, 15 homozygotes E3E3, 99 h´ et´ erozygotes E1E2, 57 h´ et´ erozygotes E1E3 et 33 h´ et´ erozygotes E2E3. Cette population suit- elle la loi de Hardy-Weinberg ?
Les effectifs observ´ es sont : 72, 24,15, 99, 57, 33.
sum(c(72, 24, 15, 99, 57, 33)) [1] 300
(2 * 72 + 99 + 57)/600 [1] 0.5
(2 * 24 + 99 + 33)/600 [1] 0.3
(2 * 15 + 57 + 33)/600 [1] 0.2
Les probabilit´ es sont donc :
f (E 1 E 1 ) 0.50 ∗ 0.50 = 0.25 f (E 2 E 2 ) 0.3 ∗ 0.3 = 0.09 f (E 3 E 3 ) 0.2 ∗ 0.2 = 0.04 f (E 1 E 2 ) 2 ∗ (0.5 ∗ 0.3) = 0.30 f (E 1 E 3 ) 2 ∗ (0.5 ∗ 0.2) = 0.2 f (E 2 E 3 ) 2 ∗ (0.3 ∗ 0.2) = 0.12
chisq.test(c(72, 24, 15, 99, 57, 33), p = c(0.25, 0.09, 0.04, 0.3, 0.2, 0.12))
Chi-squared test for given probabilities data: c(72, 24, 15, 99, 57, 33)
X-squared = 2.5033, df = 5, p-value = 0.776
Ce r´ esultat n’est pas correct et c’est important de comprendre pourquoi. On suppose en effet que les fr´ equences all´ eliques sont exactement connues, ce qui est faux.
Quand les probabilit´ es th´ eoriques sont inconnues le nombre de degr´ e de libert´ e est ´ egal aux nombres de classes moins le nombre de param` etres ` a estimer (ici 2 car la somme des trois fr´ equences all´ eliques vaut 1) moins 1. La p-value de l’exercice est donc :
1 - pchisq(2.503, df = 3) [1] 0.4747492
A propos de . . .
Depuis les ann´ ees 1960, la variabilit´ e des prot´ eines est ´ etudi´ ee par ´ electrophor` ese.
Les prot´ eines sont des mol´ ecules charg´ ees qui se d´ eplacent dans un support po- reux (gel d’agarose, d’amidon, de polyacrylamide, d’ac´ etate de celllulose) lorsque celui-ci est soumis ` a un champ ´ electrique. La vitesse de migration d´ epend de la charge globale de la prot´ eine, de sa taille et de sa conformation. La mise en ´ evi- dence de diff´ erents all` eles d’un mˆ eme g` ene est possible pour les enzymes grˆ ace ` a la sp´ ecificit´ e de la r´ eaction enzyme-substrat visualis´ ee par une r´ eaction color´ ee.
Si vous voulez en savoir plus, connectez vous au site de F. Fleury, Rubrique
Cours, chapitre 2 : la variabilit´ e g´ en´ etique dans les populations naturelles, po-
lymorphisme des prot´ eines : http://gen-net-pop.univ-lyon1.fr/.
Fig. 4 – Gel de prot´ eine
3.4 Exercice escargot
En 1951, le g´ en´ eticien fran¸ cais Maxime Lamotte ´ echantillonne [5] deux formes g´ en´ etiques de l’escargot des haies Cepaea nemoralis (Linnaeus, 1758) dans plu- sieurs populations d’Europe. Il trouve les proportions suivantes :
source : wikipedia