• Aucun résultat trouvé

ΦPr(D|Φ) Pr(Φ) (A.1)

où l’on reconnait aisément le théorème de Bayes.

Le cadre alternatif d’inférence statistique classiquement utilisé, appelée

infé-rence fréquentiste, inclu la méthode du Maximum de Vraisemblance.

Contrai-rement à l’approche bayésienne, l’inférence fréquentiste fait l’hypothèse que les paramètres Φ sont des quantités inconnues mais ayant une valeur fixée (i.e. ne sont pas des variables aléatoires) que l’on doit estimer à partir des données observées. En conséquence, il n’y a pas de distribution a priori pour Φ et l’inference se base entièrement sur la fonction de vraisemblance, que l’on cherche à maximiser. Cela permet d’identifier les valeurs des paramètres qui maximisent la probabilité des données. L’approche bayésienne peut donc être vue comme une généralisation de l’approche fréquentiste dans laquelle les paramètres ne sont plus des valeurs fixes inconnus mais des variables aléatoires dont il faut spécifier la distribution.

Historiquement, il y a eu de nombreux arguments pour et contre l’utili-sation de tel ou tel cadre d’inférence. Une critique ancienne de l’approche bayésienne est qu’il y a quelque chose de non satisfaisant à choisir de ma-nière subjective une distribution a priori des paramètres. Cependant, comme le fait remarquer Shoemaker et al. (1999), il n’y a pas de différence fonda-mentale avec le choix d’une fonction de vraisemblance par la méthode du

Maximum de Vraisemblance. En réalité, la particularité fondamentale de

l’approche bayésienne est la balance de l’influence des a priori par rapport aux données. Dans l’approche bayésienne, si la distribution des paramètres a priori est très « pointue » (i.e. la variance est très faible), alors les données n’interviendront quasiment pas : la distribution a posteriori sera pratique-ment identique à la distribution a priori. En fonction de la question posée, il est possible d’utiliser des distributions a priori dites non informatives, même s’il existe des situations où la connaissance a priori doit être beaucoup plus pesante que celle apportée par les données (par exemple, l’actualisation des résultats d’une méta-analyse existante aux données d’une nouvelle étude). Nous renvoyons le lecteur intéressé par l’utilisation des méthodes bayésiennes à la statistique en génétique vers l’ouvrage de Balding et al. (2007).

A.2 Modèles mendéliens : exemple numérique pour un

modèle à un locus biallélique

Prenons l’exemple d’un pedigree minimaliste constitué de deux parents ex-primant tous les deux le phénotype d’intérêt (i.e. qui sont tous les deux atteints de la maladie) et d’un enfant unique ne présentant pas ce phéno-type mais pour lequel on souhaite effectuer un conseil génétique. On suppose pour cet exemple que le phénotype d’intérêt a une prévalence de 5% dans la population générale.

On suppose également que le modèle maladie est constitué d’un seul locus biallélique dont la fréquence populationnelle de l’allèle à risque A, notée fA

sont respectivement 2 et 4. Sous l’équilibre d’Hardy-Weinberg, on peut cal-culer les fréquences des génotypes et déduire à partir de la prévalence du phénotype la probabilité absolue de développer le phénotype en fonction du génotype (tableau A.1).

génotype gi Pr(gi) Pr(yi = 1|gi)

aa fa2 = 0.9604 0.0479

Aa 2fafA= 0.0392 0.1

AA fA2 = 4e − 04 0.2

Table A.1 – Exemple numérique pour un modèle maladie à un seul locus

biallélique.

Calculons maintenant la probabilité que l’enfant soit porteur de l’allèle à risque A en prenant en compte son histoire familiale : ses deux parents expriment le phénotype d’intérêt. Pour cela, il est nécessaire d’évaluer les 27 configurations génotypiques énumérées dans le tableau A.2. Pour chaque configuration génotypique g

k, on calcule d’abord la probabilité a priori Pr(g

k) par la formule 2.9 page 34. Les configurations dont la probabilité est nulle sont incompatibles avec la structure du pedigree, et peuvent être igno-rées. La distribution de probabilité conjointe des phénotypes et génotypes est TableA.2 – Exemple numérique pour une famille constituée de deux parents

exprimant tous les deux le phénotype d’intérêt, et ayant un enfant.

k gmi gf i gi Pr(g k) Pr(Y |g k) Pr(Y, g k) Pr(g k|Y ) 1 aa aa aa 0.9224 0.002184 0.002015 0.8503 2 aa aa aA 0 0.002065 0 0 3 aa aa AA 0 0.001835 0 0 4 aa aA aa 0.01882 0.00456 8.584e − 05 0.03623 5 aa aA aA 0.01882 0.004311 8.114e − 05 0.03425 6 aa aA AA 0 0.003832 0 0 7 aa AA aa 0 0.009121 0 0 8 aa AA aA 0.0003842 0.008621 3.312e − 06 0.001398 9 aa AA AA 0 0.007663 0 0 10 aA aa aa 0.01882 0.00456 8.584e − 05 0.03623 11 aA aa aA 0.01882 0.004311 8.114e − 05 0.03425 12 aA aa AA 0 0.003832 0 0 13 aA aA aa 0.0003842 0.009521 3.658e − 06 0.001544 14 aA aA aA 0.0007683 0.009 6.915e − 06 0.002918 15 aA aA AA 0.0003842 0.008 3.073e − 06 0.001297 16 aA AA aa 0 0.01904 0 0

17 aA AA aA 7.84e − 06 0.018 1.411e − 07 5.956e − 05 18 aA AA AA 7.84e − 06 0.016 1.254e − 07 5.294e − 05

19 AA aa aa 0 0.009121 0 0

20 AA aa aA 0.0003842 0.008621 3.312e − 06 0.001398

21 AA aa AA 0 0.007663 0 0

22 AA aA aa 0 0.01904 0 0

23 AA aA aA 7.84e − 06 0.018 1.411e − 07 5.956e − 05 24 AA aA AA 7.84e − 06 0.016 1.254e − 07 5.294e − 05

25 AA AA aa 0 0.03808 0 0

26 AA AA aA 0 0.036 0 0

27 AA AA AA 1.6e − 07 0.032 5.12e − 09 2.161e − 06

Note. - Les paramètres utilisés sont : fA = 0.02, OR(g = AA : g = aa) = 4 et OR(g =

ensuite calculée en faisant le produit des probabilités des configurations gé-notypiques et des probabilités des phénotypes observés sachant les génotypes

P r(Y |g

k). La vraisemblance du pedigree est alors donnée par la somme pour toutes les configurations génotypiques possibles de P r(Y, g

k) ce qui donne pour cet exemple 0.0024, laquelle permet de calculer les probabilités d’ob-server les génotypes sachant les phénotypes (probabilités des configurations génotypiques a posteriori) par le théorème de Bayes. Des quantités utiles au conseil génétique peuvent alors être calculées, comme par exemple la proba-bilité que le proposant soit porteur de l’allèle à risque A (cf formule 2.6 page 33) : Pr(gi= aA ou AA|Y ) = 1 − Pr(gi= aa|Y ) = 1 −  j∈(1,4,7,10,13,16,19,22,25)Pr(Y, g j)  kPr(Y, g k) = 0.076

ou encore la probabilité que le proposant exprime le phénotype d’intérêt (i.e. son risque absolu) étant donnée son histoire familiale :

Pr(yi= 1|Y ) =

gi

Pr(gi|Y ) Pr(yi = 1|gi) = 0.05198

Incluons maintenant des informations complémentaires pour rendre cet exemple plus réaliste. Par exemple, on peut supposer que la fréquence de l’allèle hypothétique A n’est pas connue de manière certaine, mais a été es-timée par une analyse de ségrégation qui a été publiée. On dispose ainsi d’un intervalle de confiance pour fA, que l’on souhaite naturellement inté-grer à l’analyse du risque. Pour ce faire, il suffit de reprendre les calculs précédents en prenant dans un premier temps la borne inférieure de l’inter-valle de confiance pour fA, puis la bonne supérieure. Le risque pourra ainsi être encadré par un intervalle dit de crédibilité. Ainsi, dans notre exemple, si l’on dispose de l’intervalle suivant pour fA : IC95% = 1% − 3% ; l’inter-valle de crédibilité correspondant pour le risque absolu du proposant sera 0.05094−0.05313. Cela revient à considérer que le vrai risque absolu du pro-posant n’est pas une valeur fixée (principe de l’approche fréquentiste) mais une variable aléatoire (principe de l’approche bayésienne) dont la distribu-tion pourra être approchée par l’étude de différents scénarios constitués à partir de la connaissance disponible sur les données. Ainsi, dans cet exemple simple, trois scénarios ont été étudiés fA = 1%, 2%, et 3% pour estimer la distribution du vrai risque absolu du proposant. Dans une situation plus complexe (plus réaliste) où chaque donnée est connue avec un certain de-gré d’incertitude, on pourra sur ce principe formuler une liste de scénarios (possiblement pondérés) afin d’encadrer finement la valeur que l’on cherche à estimer (cf. section 2.2.2 page 36).

A.3 Exemple de factorisation par l’algorithme