• Aucun résultat trouvé

Chapitre 4. Méthodologie 108

4.5   Méthodes d’analyse des données 143

4.5.3   Théorie de Bayes 145

L’objectif de cette section est de situer le développement et surtout la pertinence de l’analyse bayésienne dans un cadre de recherche moderne. Historiquement, la théorie de Bayes fut développée au cours du 18e siècle par le père Thomas Bayes (Bayes et Price, 1763). Il

développa une attirance pour l’étude des statistiques lors de son passage à l’Université d’Édimbourg. C’est dans cette université que Thomas Bayes combina l’étude de la logique mathématique avec celle de la théologie. Il se forge une réputation d’érudit auprès de ses pairs et il devient rapidement un membre de la prestigieuse Royal Society of London pour l’amélioration des connaissances naturelles. Selon leur site web (www.royalsociety.org), à l’origine, cette société cherchait à établir la vérité dans le domaine scientifique sans recourir à l’autorité ecclésiastique, mais plutôt en se fondant exclusivement sur l’expérience scientifique. La contribution de Thomas Bayes dans cette société s’effectua notamment par l’entremise de sa formation en logique mathématique (Bijak et Bryant, 2016).

Les approches bayésiennes et fréquentistes sont des approches de type probabilistes. La première adopte une perspective subjective des probabilités au moment d’analyser les données obtenues alors que la seconde adopte plutôt une perspective objective des probabilités. L’analyse bayésienne fait partie de la statistique moderne et selon Bayes, ce type d’analyse permet d’utiliser les probabilités conditionnelles et ainsi inclure des lois « a priori » lors d’analyses. Cette approche permet de régulariser nos inférences au moment d’observer des estimations trop optimistes ou encore trop pessimistes (Bijak et Bryant, 2016; Parent et Bernier, 2007). Les résultats sont alors pondérés à partir de l’a priori (les inférences statistiques), ce qui fausse moins l’analyse et en améliore la prédiction (Parent et Bernier, 2007). À l’aide de l’approche bayésienne, l’hypothèse classique d’accepter (H1) ou de rejeter (H0) n’existe pas. Cette approche est remplacée par une probabilité que les résultats soient en accord avec les résultats antérieurs sur le sujet. Dans une approche statistique classique, une valeur sera véridique si elle se situe à l’intérieur d’un intervalle de confiance. Dans une approche bayésienne, cet intervalle de confiance s’exprime plutôt sous la forme d’un intervalle de crédibilité. Ce type d’intervalle est formulé à partir d’une distribution de probabilité, établie à partir de la littérature sur le sujet. Un test bayésien désire de cette manière indiquer quelles valeurs sont plausibles, compte tenu de ce que l’on savait avant d’observer les données. Cette nouvelle distribution de probabilité est appelée « probabilité a posteriori ». Les approches bayésiennes peuvent ainsi déterminer leur incertitude en donnant une plage de valeurs sur la distribution de probabilité postérieure qui inclut 95 % de la probabilité (Parent et Bernier, 2007). Les intervalles crédibles capturent pour ainsi dire notre incertitude actuelle quant à l’emplacement des valeurs vraies. Selon Cleophas et Zwinderman (2018), les intervalles ainsi calculés sont légèrement plus larges, augmentant la probabilité de retrouver une différence significative, mais pour lequel la pertinence clinique est discutable.

Plusieurs domaines scientifiques utilisent la théorie de Bayes, dont celui de la finance, de la météorologie, de l’intelligence artificielle ou encore celui des sciences de la santé (D. Kaplan, 2014; Kruse et al., 2013; Miller, 2013; Zhang et al., 2002). La théorie de Bayes est utilisée plus largement seulement depuis la dernière décennie. Depuis sa publication (Bayes et Price, 1763), il y a de cela plus de 200 ans, cette approche statistique est demeurée plutôt théorique puisqu’elle n’était pas en mesure d’offrir d’instruments permettant son utilisation.

Aujourd’hui, cette théorie comporte un vaste éventail d’instruments d’analyse statistique permettant de répondre à une multitude de situations (Lesaffre et Lawson, 2012). Étant donné que l’utilisation de cette théorie nécessite un grand nombre de calculs, il était plus difficile d’utiliser ce type d’approche statistique avant le support de l’informatique contemporaine. La démocratisation de son utilisation est donc liée à l’augmentation des capacités de calcul et de traitement des ordinateurs et des logiciels de statistiques.

Selon Stanton (2017), la méthode de Bayes repose sur l’affirmation qu’il est raisonnable d’observer une situation ou des données à partir de ce qui est connu actuellement dans ce domaine. Toujours selon cet auteur, elle donne une base permettant le transfert de l’information connue jusqu’à maintenant tout en y ajoutant les nouvelles données empiriques recueillies. Stanton (2017) mentionne que pendant l’étude d’un sujet donné, le chercheur recueille de nouvelles informations qui modifient ou confirment les connaissances actuellement connues. Toujours selon Stanton (2017), ce faisant, il reconsidère et réévalue ses informations actuelles à partir des informations antérieures. Au stade initial de cette étude, on dispose de certaines informations sur les impacts d’une intervention éducative en regard du rehaussement de l’efficacité personnelle, de la diminution de la consommation de sodium et pareillement sur la réduction de la pression artérielle lorsqu’il y a une réduction de la consommation de ce nutriment. La Figure 7 représente la place de chacune des connaissances dans une approche bayésienne.

Figure 7. Représentation de la démarche d’inférence de Bayes (Westbury, 2010)

L’ensemble des auteurs s’accordent sur un point; la phase la plus sensible dans la théorie de Bayes repose sur la détermination des a priori (Hayes et Heit, 2018). Ceux-ci sont établis à partir de la littérature dans le domaine ou des affirmations que l’on connaît sur un sujet précis

Ensemble des  informations connues  sur un sujet Détermination des  a priori Nouvelles  informations Détermination  d'hypothèses à partir  de ces informations Théorème de Bayes  processus d'inférence  bayésienne Distribution a  posteriori, probabilité  de vraisemblance

(a priori informé). Selon Hayes et Heit (2018), plus la documentation scientifique est précise en regard de l’impact d’une intervention, plus les a priori ainsi que le degré de véracité des hypothèses sont forts. L’idée de base de la méthode bayésienne repose sur la façon de pouvoir généraliser des connaissances a priori dans un contexte différent. Plus la connaissance sur un sujet donné est précise et vaste, plus le degré de certitude en regard de nouvelles données est probable (Lesaffre et Lawson, 2012). La matrice des probabilités est établie à partir des connaissances connues sur les impacts de l’intervention. Dans la situation où un a priori est faiblement informé, la matrice des probabilités sera générée par le logiciel statistique. Dans cette recherche, des a priori informés et non informés ont été formulés sur les impacts d’une intervention éducative. Afin d’obtenir le degré de vraisemblance de l’observation, la distribution a posteriori a été établie à partir d’un algorithme de chaînes de Markov de type monté carliste (MCMC) à partir d’une série de valeurs (Lesaffre et Lawson, 2012). Cette façon de faire simule un a posteriori en tirant des échantillons aléatoires de la distribution préalablement établie à partir de la littérature. Nous n’entrerons pas dans les détails ici, mais il suffit de dire que plus il y a d’échantillons, plus le résultat est précis. Le cerveau humain fonctionne exactement de la même façon. Lorsqu’il est confronté à une nouvelle information, il cherche dans ces différents scripts d’apprentissage les informations qui sont similaires avec la nouvelle situation et il agit en fonction de cette analyse. Par la suite, il ajoute ces informations à la somme de celles qu’il connaît déjà sur le sujet. La force de l’approche bayésienne réside dans l’obligation de considérer l’ensemble des données connues à propos d’un sujet donné. Stanton (2017) rappelle l’importance de respecter certaines règles au moment d’utiliser la méthode bayésienne en recherche. Toutes les hypothèses émises doivent être clairement énoncées. Les conclusions de l’étude doivent découler uniquement de ces hypothèses. La théorie inductive oblige donc le chercheur à considérer l’ensemble des données et il ne doit rejeter aucune observation empirique déjà connue scientifiquement.

Le résultat d’une inférence bayésienne produit une valeur sous forme de probabilité. Ce produit s’interprète comme le degré de confiance qu’il est possible d’accorder à une hypothèse. Le résultat obtenu découle donc d’une opération mathématique consistant à déterminer la véracité d’une hypothèse en fonction de vérités déjà admises sur le sujet. Cette inférence permet d’obtenir une valeur comprise à l’intérieur d’un intervalle ouvert allant de

0 (très fortement improbable) à 1 (très fortement probable). Cette vraisemblance en regard d’une hypothèse donnée est révisée à chaque nouvelle observation et s’affine de plus en plus.

P (A/B) = P (B/A) x P (A)

P (B)

Figure 8. Formule du théorème de Bayes

Dans le théorème de Bayes présenté à la Figure 8, « A » représente l’ensemble des connaissances connues entourant le sujet qui est au centre d’une hypothèse, tandis que « P (A) » correspond à la probabilité (caractère de ce qui est probable) a priori de « A » avant l’ajout de nouvelles connaissances. La lettre « B » renvoie à l’hypothèse à évaluer et « P (B) » est la probabilité a priori de « B ». Le degré de probabilité a posteriori de l’hypothèse soulevée, en fonction de l’ensemble des informations connues en incluant celles de « A » et de « B », est représenté par l’équation mathématique « P (A/B) ». Quant à lui, le terme « P (B/A) » pour un A connu, est appelé la fonction de vraisemblance (caractère de ce qui paraît vrai) de B. Tous les paramètres de probabilités ou de vraisemblances ont été calculés mathématiquement par l’entremise du logiciel statistique libre d’accès R de l’université d’Auckland (Nouvelle-Zélande). Les créateurs de ce logiciel sont Ross Ihaka et Robert Gentleman, et il est possible de se le procurer sur le site Internet (www.r-project.org).