• Aucun résultat trouvé

Chapitre 2. Méthodologie de la génétique des maladies complexes

II.2. Analyses de liaison génétique

II.2.1 Analyses de liaison paramétriques

Les analyses de liaison paramétriques sont basées sur le calcul d’un score de liaison, le logarithm of odds score (LOD score). Initialement destinées à l’identification de gènes de

32

susceptibilité impliqués dans les maladies mendéliennes, elles ont été secondairement adaptées pour une utilisation dans les maladies complexes.

II.2.1.1 Calcul du LOD score

En génotypant des marqueurs répartis sur l’ensemble du génome et en étudiant la co- transmission de ces marqueurs avec un trait phénotypique, il est possible de localiser une région génétique, ou locus, spécifique à la maladie. Les analyses de liaison paramétriques se basent sur l’estimation de la fraction de recombinaison θ, c'est-à-dire la proportion de recombinaison entre deux locus lors de la méiose (Figure 5).

Figure 5 – Liaison génétique et fraction de recombinaison M : marqueur ; D : Disease = locus-maladie

En 1947, Haldane et Smith ont proposé de calculer un rapport de vraisemblance (likelihood ratio) pour estimer la liaison entre deux locus117. Ce rapport de vraisemblance est calculé en prenant en compte la fraction θ, la fréquence de l’allèle morbide et les taux de pénétrance de la maladie en fonction du génotype testé (Figure 6A). Il est ensuite maximisé (maximum likelihood ratio ou MLR) : on conserve la valeur la plus élevée obtenue en faisant varier θ de 0 à ½ (Figure 6B)117,118. Pour simplifier son utilisation, Morton a proposé en 1955 d’utiliser le logarithme décimal du MLR119 (Figure 6C). Le LOD score ainsi obtenu facilite la prise en compte de l’information de plusieurs familles, puisqu’il suffit de faire la somme de leurs LOD scores respectifs pour obtenir un LOD score global.

33

Si au départ, le calcul du LOD score n’était possible que pour des structures familiales simples, des algorithmes ont secondairement été développés afin de permettre sa généralisation à tous types de structure120–123. Ces différents algorithmes sont à la base de plusieurs programmes informatiques comme Linkage124, GeneHunter125 ou Merlin126.

Figure 6 – Définition des principaux scores de liaison

La méthode décrite précédemment est dite bi-point, c'est-à-dire que la fraction de recombinaison est calculée entre un seul marqueur génétique et le locus morbide. Pour une plus grande précision, des méthodes multi-points ont été développées permettant de localiser le locus morbide par rapport à une carte fixe de marqueurs génétiques dont la position est connue127. L’analyse multi-point est donc plus puissante, car elle prend en compte simultanément les informations données par un grand nombre de marqueurs. Elle nécessite toutefois de connaître la distance entre chacun des marqueurs utilisés et requiert des capacités informatiques beaucoup plus importantes que l’analyse bi-point.

II.2.1.2 Prise en compte de l’hétérogénéité de locus : LOD score d’hétérogénéité

Un des principaux facteurs pouvant affecter la puissance des analyses de liaison est la présence d’une hétérogénéité de locus. Cette hétérogénéité existe quand des allèles morbides situés sur plusieurs locus indépendants sont à l’origine du même phénotype. Dans ces cas, si une analyse de liaison est réalisée avec un marqueur situé à proximité d’un de ces locus, la fraction de recombinaison varie selon les familles. L’analyse combinée de ces deux types de familles risque alors d’empêcher la détection du signal de liaison alors que celui-ci existe bien128.

Un des moyens de détecter la liaison en cas d’hétérogénéité de locus consiste en l’introduction d’un paramètre supplémentaire pris en compte lors de l’analyse : le coefficient α,

34

correspondant à la proportion de familles qui possède la forme génétique de la maladie liée au marqueur d’intérêt129. Ce test, appelé « admixture test », permet de calculer le LOD score d’hétérogénéité ou HLOD130,131 (Figure 6D).

II.2.1.3 Interprétation des résultats

Classiquement, l’interprétation du LOD score se fait selon les règles suivantes116 : - LOD score ≥ 3 : liaison entre le marqueur testé et le locus maladie,

- LOD score < -2 : absence de liaison,

- LOD entre -2 et 3 : impossible de conclure à la présence ou non d’une liaison.

Afin de prendre en compte le caractère imprécis de l’estimation de la fraction de recombinaison, il est possible de déterminer, en cas de liaison significative, l’intervalle de support. Cet intervalle correspond à la région située de part et d’autre du pic de liaison pour laquelle le LOD score dépasse un seuil correspondant au LOD score maximum moins une unité132.

Les seuils de significativité ci-dessus ont été déterminés pour des analyses n’utilisant qu’un faible nombre de marqueurs. Avec l’avènement des études génome-entier et l’augmentation du nombre de marqueurs, il est apparu indispensable de prendre en compte la multiplicité des tests. En effet, une même hypothèse nulle d’absence de liaison avec la maladie est testée pour chaque marqueur. Le risque de faux-positif augmente donc, ce qui doit être pris en compte lors de la détermination du seuil de significativité (seuil α de l’erreur de type I). Lander & Kruglyak ont ainsi montré qu’en cas d’analyse de liaison génome-entier, un LOD score de 3 correspond à un risque alpha de seulement 0,09. Pour ramener ce risque au seuil couramment utilisé de 0,05, le seuil de LOD score doit être fixé à 3,3133.

II.2.1.4 Analyses paramétriques et maladies complexes

Bien que la nécessité de spécifier un modèle de transmission limite a priori l’utilisation des analyses paramétriques aux maladies mendéliennes, certains auteurs ont suggéré qu’elles pouvaient également être utilisées pour l’étude des maladies complexes, sous réserve de quelques précautions. Effectivement, même si une erreur de modèle risque d’entraîner une perte de puissance pour détecter une liaison existante134, plusieurs méthodes basées sur la maximisation du LOD score en fonction des paramètres du modèle ont été développées134,135. La puissance de ces méthodes est similaire à celle obtenue par une spécification correcte du mode de transmission136.

Toutefois, le fait de considérer plusieurs modèles génétiques différents multiplie le risque de fausse positivité et doit donc conduire à corriger les seuils de significativité137. Afin de limiter l’augmentation de ce seuil, Greenberg et al. ont proposé l’approche MMLS-C (corrected maximized maximum LOD score)138. Cette approche consiste à calculer les LOD scores sous deux modèles

35

simples, dominant et récessif, chacun avec une pénétrance arbitraire de 50%, puis de sélectionner le modèle avec lequel on obtient le LOD score le plus élevé et d’utiliser un seuil de significativité corrigé de 3,3.

Si l’analyse de liaison paramétrique est donc une option possible pour les maladies complexes, la méthode de référence dans ce type de maladie reste tout de même l’analyse de liaison non paramétrique.