• Aucun résultat trouvé

Modèles à équations structurelles 

Dans le document en fr (Page 65-69)

Les modèles à équations structurelles ont été développés initialement dans le domaine des sciences  sociales  et  comportementales  à  partir  des  années  1970  [221],  afin  d’étudier,  par  exemple,  les  déterminants  causaux  de  l’anxiété,  l’intelligence,  ou  du  stress  au  travail.  Ils  s’inscrivent  dans  une  démarche confirmatoire : on pose d’abord des hypothèses sur les relations entre les variables et on  regarde  ensuite  si  elles  sont  infirmées  ou  confirmées  par  le  modèle.  Les  modèles  à  équations  structurelles  associent  un  système  d’équations  à  un  diagramme  appelé  « diagramme  en  chemins »  (« path diagrams »), représentant un ensemble de relations causales possibles qu’on souhaite tester  [239].  Un  exemple  d’un  tel  diagramme  est  donné  dans  la  figure  7.  Les  diagrammes  des  chemins  présentent des points communs avec les DAG ; par exemple, une flèche unidirectionnelle entre deux  variables représente une relation de causalité directe possible. En revanche, les modèles à équations  structurelles  associent  à  chaque  flèche  un  paramètre  appelé  « coefficient  du  chemin »  quantifiant  l’effet  causal  direct  représenté  par  la  flèche.  Ces  modèles  permettent  également  de  mettre  des  flèches  bidirectionnelles  entre  deux  variables,  représentant  une  corrélation  statistique  sans  hypothèse  sur  le  sens  de  la  relation  causale.  Enfin,  en  plus  des  variables  observées  (variables  manifestes), les modèles à équations structurelles permettent d’introduire des variables latentes. Les  variables latentes sont des variables non mesurées, existant au travers de variables manifestes avec  lesquelles elles sont en relation. 

Par  exemple,  dans  la  figure  7,  le  niveau  de  diplôme  maternel  était  associé  négativement  et  significativement avec la présence d’allergène au domicile (coefficient du chemin égal à ‐0.55) [240].  La présence d’allergène au domicile était une variable latente synthétisant des variables mesurées :  la présence de blattes ou de souris, et le niveau de détérioration du logement. 

   

  Figure  7.  Exemple  de  modèle  à  équations  structurelles,  pour  l’étude  des  effets  directs  et  indirects  des  conditions  socio‐économiques  maternelles  dans  l’enfance  sur  les  sifflements  chez  l’enfant  ‐  reproduit  de  Sternthal  et  al.  [240].  Les  ovales  représentent  les  variables  latentes  non  mesurées,  et  les  rectangles  représentent les variables mesurées. Les éléments grisés représentent les variables d’environnement physique  et social considérés comme d’intérêt dans l’analyse. Les lignes en gras représentent les chemins significatifs, et  les lignes pointillées les chemins non significatifs. 

   

D’un  point  de  vue  statistique,  ces  modèles  ont  été  présentés  comme  une  extension  à  la  fois  des  régressions linéaires multiples et de l’analyse factorielle (variables latentes), dans un modèle global  où plusieurs relations peuvent être testées simultanément, où des effets directs et indirects peuvent  être quantifiés, et où des variables peuvent être à la fois « variable explicative » pour une relation, et  « variable  à  expliquer »  pour  une  autre.  D’un  point  de  vue  théorique,  l’écriture  d’un  tel  modèle 

(équations structurelles et diagramme en chemin) implique un schéma causal sous‐jacent, alors que  les  équations  de  régressions  ordinaires  ne  représentent  que  des  associations.  Ces  modèles  permettent  de  tester  des  hypothèses  de  recherche  reflétant  (ou  approchant)  la  complexité  des  situations réelles (grand nombre de variables, avec réseaux d’interactions complexes).    

Modèles développés dans le cadre contrefactuel 

La causalité définie dans le cadre contrefactuel 

L’approche contrefactuelle est une manière particulière de définir la causalité, qui se place dans un  cadre où on cherche à estimer l’effet causal d’une action (exposition, traitement) sur un évènement  d’intérêt.  Cette  approche  a  été  développée  parallèlement  en  philosophie  des  sciences  comme  un  cadre pour définir la notion de causalité, et en statistique, où elle a donné lieu au développement à  la fois de théories et de méthodes statistiques pratiques pour l’analyse « causale » [241]. 

Selon  l’approche  contrefactuelle,  évaluer  le  lien  de  causalité  consiste  à  comparer  l’évènement  d’intérêt dans le cas où l’exposition est présente, à l’évènement d’intérêt dans le cas où l’exposition  est absente, « toutes choses égales par ailleurs ». Au sens strict, la condition « toutes choses égales  par ailleurs » nécessiterait d’observer les mêmes sujets dans deux vies parallèles, l’une dans laquelle  ils  sont  exposés,  et  l’autre  dans  laquelle  ils  sont  non  exposés  (ce  qui  bien  sûr  est  impossible  en  pratique).  En  ce  sens,  l’approche  contrefactuelle  traite  la  causalité  par  une  question  de  type  « et  si ? » [222]. Prenons l’exemple d’un individu A ayant reçu un traitement, à la suite de quoi sa maladie  a été guérie. Pour estimer l’effet causal, au niveau individuel, du traitement sur la guérison, on va se  demander :  « et  si,  contrairement  aux  faits,  cet  individu  n’avait  pas  reçu  le  traitement,  aurait‐il  guéri ? ».  La  réponse  (inobservable)  à  cette  question  est  appelée  l’évènement  contrefactuel (« counterfactual »  =  « counter  to  the  fact »  en  anglais)  :  l’évènement  qui  aurait  été  observé si, contrairement aux faits, l’individu A avait eu une exposition différente de celle qu’il a eu  [241, 242]. On parle aussi d’« évènement potentiel » (« potential outcome ») [221]. 

 

Cette approche conceptuelle de la causalité a été utilisée, depuis les années 1990, pour développer  une  théorie  statistique  de  l’inférence  causale  [243],  puis  traduite  sous  forme  d’équations  mathématiques. 

Si  on  note  Y  l’évènement  d’intérêt  (ex :  une  maladie),  et  E  l’exposition  dont  on  souhaite  évaluer  l’effet causal, on peut définir, pour chaque sujet, Ye=0 l’évènement qui serait observé si le sujet n’avait 

pas été exposé, et Ye=1 l’évènement qui serait observé si le sujet avait été exposé. Pour chaque sujet, 

un seul de ces deux évènements est effectivement observé, et l’autre est l’évènement contrefactuel. 

Au niveau individuel, il y a un  effet causal si Ye=0 ≠ Ye=1 [242]. L’effet causal de cette exposition sur 

cette  maladie  peut  être  différent  d’un  individu  à  un  autre,  compte  tenu  de  la  présence  d’autres  facteurs individuels. 

Au‐delà de l’effet causal individuel, l’épidémiologiste va chercher à évaluer un effet causal au niveau 

de la population, qui correspond à un effet causal moyen. Pour définir l’effet causal au niveau de la 

population, il faut introduire P(Ye=0 = 1), la proportion de sujets qui auraient été malades si toute la 

population avait été non exposée, et P(Ye=1 = 1) la proportion de sujets qui auraient été malades si 

toute la population avait été exposée. Au niveau de la population, il y a un effet causal si P(Ye=0 = 1) ≠ 

P(Ye=1 = 1). 

 

Des  mesures  de  l’effet  causal  de  E  sur  Y  au  niveau  de  la  population  sont  par  exemple  l’excès  de  risque, le risque relatif, ou l’odds‐ratio (OR) causal. Par exemple, l’OR causal peut s’écrire, à partir de  ces probabilités contrefactuelles [244], comme :      1 / 1 0 / 0     On peut aussi exprimer l’OR causal à partir d’un modèle logistique [244]:      1    

Où       si    0, et     si    1 

et où     exp   

 

Rappelons  que  dans  ces  formules,  les  variables  sont  des  variables  contrefactuelles :  la  condition  « toutes choses égales par ailleurs » est strictement vérifiée, et la relation entre E et Y n’est donc pas  soumise à confusion ; l’OR causal s’écrit donc en fonction des variables contrefactuelles comme un  OR non ajusté. 

Dans le document en fr (Page 65-69)