• Aucun résultat trouvé

I.4 Conclusion

I.4.2 Problématique générale

Cette problématique d’estimation des performances diagnostiques de plusieurs nouveaux tests en l’absence de gold standard, avec plus ou moins une dépendance conditionnelle entre les tests est finalement une problématique très commune en recherche clinique et plus généralement en médecine.

TABLEAUI.5 – Profils de réponse aux quatre techniques de RT-PCR (N = 147) Profils PCR « Maison » PCR BioEvolution® PCR AmpliSens® PCR MycAssay® Effectif 0000 64 1000 + – – – 0 0100 – + – – 0 0010 – – + – 5 0001 – – – + 0 1100 + + – – 0 1010 + – + – 5 1001 + – – + 1 0110 – + + – 0 0101 – + – + 0 0011 – – + + 0 1110 + + + – 0 1101 + + – + 0 1011 + – + + 17 0111 – + + + 0 1111 + + + + 55

(PCR : Polymerase chain reaction)

Dans le diagnostic microbiologique des maladies infectieuses par exemple, les gold stan-dards sont soit l’examen direct avec la recherche immédiate du micro-organisme concerné, soit la culture sur milieu adapté avec la recherche à distance du micro-organisme concerné. Cepen-dant ce sont des « gold standard » théoriques qui présentent tous les mêmes problèmes de défaut de sensibilité.

Le développement, le perfectionnement et la généralisation de méthodes adaptées à de telles situations est donc un enjeu méthodologique majeur.

Chapitre II

Méthodes bayésiennes dans le domaine des

études cliniques diagnostiques : historique

et revue systématique

II.1 Introduction

L’inférence statistique est le fondement des statistiques. Elle consiste à induire les carac-téristiques inconnues d’une population à partir de celles estimées sur un échantillon issu de cette population. Les caractéristiques de l’échantillon, une fois connues, reflètent avec une cer-taine marge d’erreur celles de la population. Ces caractéristiques d’intérêt sont ce qu’on appelle les paramètres (notés θ ). Deux grands types d’inférence s’opposent : l’inférence fréquentiste qui est celle classiquement utilisée en statistique et tout particulièrement en biostatistique, et l’inférence bayésienne. L’inférence bayésienne [35] est un concept qui dérive du théorème de Bayes [36] et de la théorie des probabilités. Elle se fonde sur la combinaison de deux types d’information pour estimer la valeur des paramètres considérés : l’information issue de l’étude réalisée, autrement dit contenue dans les données, c’est-à-dire la vraisemblance P(x|θ ), mais aussi l’opinion a priori sur les différentes valeurs plausibles des paramètres avant l’étude P(θ) ; le résultat de l’estimation étant appelé l’opinion a posteriori P(θ |x). À l’inverse, dans l’in-férence fréquentiste, les seules probabilités considérées sont la vraisemblance interprétée en probabilités d’échantillonnage P(x|θ) conditionnelles aux paramètres, qui peuvent s’interpréter comme des proportions (ou fréquences), d’où l’appellation d’inférence fréquentiste. Le

cipe général du passage du théorème de Bayes à l’inférence bayésienne peut être présenté de la manière suivante :

P (A|B) = P (B|A) × P(A)

P (B) (II.1)

P (θ|x) ∝ P(x|θ ) × P(θ) (II.2)

Les méthodes d’inférence bayésienne sont des méthodes relativement anciennes théorique-ment mais qui ont, pendant longtemps, été très peu utilisées du fait de leur complexité d’im-plémentation en pratique. La combinaison de loi de probabilité n’est en effet possible analyti-quement que pour des lois conjuguées, ce qui est relativement rare. L’alternative est le calcul par simulations numériques par méthodes MCMC (simulations de Monte-Carlo par chaînes de Markov) qui était pendant longtemps non accessible en pratique. Ce n’est qu’à partir de 1992 que ces méthodes ont connu un essor grâce à l’apparition de nouveaux logiciels d’utilisation fa-cilitant la mise en œuvre des simulations numériques (projet BUGS – Bayesian inference Using Gibbs Sampling) [37], et grâce à l’augmentation rapide de la performance matérielle et des possibilités calculatoires. Ainsi, le nombre d’études référencées dans MedLine dans le domaine des sciences biologiques qui contenait dans leur titre ou leur abstract le terme « bayesian » est passé de 74 en 1990, à 321 en 2000, à 2 020 en 2010, à plus de 3 244 en 2016.

L’inférence bayésienne présente en fait différents grands intérêts, motivant son utilisa-tion [38–40]. Premièrement, elle permet, par définiutilisa-tion, l’utilisautilisa-tion de l’informautilisa-tion a priori disponible sur un sujet donné ; et en pratique, on dispose souvent d’une information a priori. Dans un certain nombre de situations cliniques, de l’information sur les paramètres d’intérêt est disponible à partir d’études antérieures dans le domaine. Sinon, la plupart du temps, il existe une connaissance biologique ou physiopathologique, ou des avis d’experts, ou simplement un bon sens clinique. Prenons, par exemple, le cas du paramètre « prévalence » dans une étude diag-nostique. La prévalence d’une maladie est une proportion, donc un paramètre qui varie théori-quement entre 0 et 1. Toutefois, s’il est connu que cette maladie est rare, l’étendue des valeurs crédibles pour ce paramètre n’est donc pas 0 – 1, mais un intervalle beaucoup plus restreint. On dispose donc d’une « forme » d’information a priori. À noter que l’apport d’information complémentaire par l’a priori est tout particulièrement intéressant lorsque, dans l’étude, peu de données sont disponibles. L’inférence bayésienne présente deuxièmement l’intérêt d’avoir une

II.1. Introduction

interprétation très intuitive, que ce soit pour les intervalles de variabilité ou les comparaisons statistiques. Les intervalles de crédibilité, le plus souvent à 95% (ICr 95%), représentent di-rectement l’intervalle de probabilité à 95% (au sens de croyance) du paramètre θ aléatoire, par opposition aux intervalles de confiance fréquentistes (IC 95%) qui représentent l’intervalle pour lequel on a 95% de probabilité (au sens de fréquence) de contenir la vraie valeur du paramètre θ fixe mais inconnu si on pouvait répéter l’échantillonnage. Les comparaisons statistiques s’in-terprètent également directement, comme la probabilité d’avoir une valeur définie du ou des paramètres sachant les données, et non pas en termes d’hypothèse nulle, d’hypothèse alterna-tive, de p-value et de risque d’erreur. Troisièmement, l’inférence bayésienne est une approche très flexible qui permet de s’adapter à de très nombreuses problématiques statistiques et donc de situations de modélisation. Elle est notamment très intéressante dans le cas de modèles com-plexes qui sont inextricables en inférence fréquentiste mais qui deviennent possibles grâce à l’inférence bayésienne. Nous pouvons citer par exemple les modèles surparamétrés donc non identifiables sans information supplémentaire, les modèles avec variables latentes ou données manquantes, les modèles avec variables observées multiples, ou les modèles avec effets aléa-toires complexes. Enfin, par la forme de ses résultats (distributions a posteriori complètes des paramètres d’intérêt) et son interprétation intuitive, l’inférence bayésienne présente l’intérêt d’être directement un outil d’aide à la décision médicale.

Dans le domaine diagnostique, l’inférence bayésienne a été développée initialement pour répondre à la difficulté méthodologique d’absence de gold standard [16, 17]. Comme évoqué précédemment, différentes méthodes ont été développées pour répondre à cette problématique dont notamment les intéressants modèles à classe(s) latente(s). Cependant en inférence fré-quentiste, ces méthodes imposent le plus souvent l’ajout de contraintes et/ou l’augmentation du nombre de degrés de liberté (en appliquant les tests à plusieurs populations, en multipliant le nombre de tests appliqués à la même population) et restent donc limitées. Dans ce contexte, les méthodes d’inférence bayésienne avec l’utilisation de l’a priori disponible et leur flexibilité paraissaient d’autant plus intéressantes.

Le but de ce chapitre II est donc de faire un état des lieux des méthodes bayésiennes dis-ponibles dans le domaine des études cliniques diagnostiques. Il est composé de deux grandes sections. La première section présente tout d’abord un rappel historique de l’apparition et le développement de ces méthodes. Ensuite, la deuxième section présente la revue méthodolo-gique systématique que nous avons réalisée pour évaluer l’ensemble des méthodes bayésiennes

utilisées dans les études diagnostiques et faire un point sur les solutions apportées par ces mé-thodes aux différentes difficultés méthodologiques des études diagnostiques (pas seulement le problème d’absence de gold standard). Cette revue méthodologique fait l’objet d’un article ori-ginal qui est en cours de reviewing dans PLoS ONE.

II.2 Historique de l’apparition et de l’évolution des méthodes

Documents relatifs