Les modèles à équations structurelles ont été développés initialement dans le domaine des sciences sociales et comportementales à partir des années 1970 [221], afin d’étudier, par exemple, les déterminants causaux de l’anxiété, l’intelligence, ou du stress au travail. Ils s’inscrivent dans une démarche confirmatoire : on pose d’abord des hypothèses sur les relations entre les variables et on regarde ensuite si elles sont infirmées ou confirmées par le modèle. Les modèles à équations structurelles associent un système d’équations à un diagramme appelé « diagramme en chemins » (« path diagrams »), représentant un ensemble de relations causales possibles qu’on souhaite tester [239]. Un exemple d’un tel diagramme est donné dans la figure 7. Les diagrammes des chemins présentent des points communs avec les DAG ; par exemple, une flèche unidirectionnelle entre deux variables représente une relation de causalité directe possible. En revanche, les modèles à équations structurelles associent à chaque flèche un paramètre appelé « coefficient du chemin » quantifiant l’effet causal direct représenté par la flèche. Ces modèles permettent également de mettre des flèches bidirectionnelles entre deux variables, représentant une corrélation statistique sans hypothèse sur le sens de la relation causale. Enfin, en plus des variables observées (variables manifestes), les modèles à équations structurelles permettent d’introduire des variables latentes. Les variables latentes sont des variables non mesurées, existant au travers de variables manifestes avec lesquelles elles sont en relation.
Par exemple, dans la figure 7, le niveau de diplôme maternel était associé négativement et significativement avec la présence d’allergène au domicile (coefficient du chemin égal à ‐0.55) [240]. La présence d’allergène au domicile était une variable latente synthétisant des variables mesurées : la présence de blattes ou de souris, et le niveau de détérioration du logement.
Figure 7. Exemple de modèle à équations structurelles, pour l’étude des effets directs et indirects des conditions socio‐économiques maternelles dans l’enfance sur les sifflements chez l’enfant ‐ reproduit de Sternthal et al. [240]. Les ovales représentent les variables latentes non mesurées, et les rectangles représentent les variables mesurées. Les éléments grisés représentent les variables d’environnement physique et social considérés comme d’intérêt dans l’analyse. Les lignes en gras représentent les chemins significatifs, et les lignes pointillées les chemins non significatifs.
D’un point de vue statistique, ces modèles ont été présentés comme une extension à la fois des régressions linéaires multiples et de l’analyse factorielle (variables latentes), dans un modèle global où plusieurs relations peuvent être testées simultanément, où des effets directs et indirects peuvent être quantifiés, et où des variables peuvent être à la fois « variable explicative » pour une relation, et « variable à expliquer » pour une autre. D’un point de vue théorique, l’écriture d’un tel modèle
(équations structurelles et diagramme en chemin) implique un schéma causal sous‐jacent, alors que les équations de régressions ordinaires ne représentent que des associations. Ces modèles permettent de tester des hypothèses de recherche reflétant (ou approchant) la complexité des situations réelles (grand nombre de variables, avec réseaux d’interactions complexes).
Modèles développés dans le cadre contrefactuel
La causalité définie dans le cadre contrefactuel
L’approche contrefactuelle est une manière particulière de définir la causalité, qui se place dans un cadre où on cherche à estimer l’effet causal d’une action (exposition, traitement) sur un évènement d’intérêt. Cette approche a été développée parallèlement en philosophie des sciences comme un cadre pour définir la notion de causalité, et en statistique, où elle a donné lieu au développement à la fois de théories et de méthodes statistiques pratiques pour l’analyse « causale » [241].Selon l’approche contrefactuelle, évaluer le lien de causalité consiste à comparer l’évènement d’intérêt dans le cas où l’exposition est présente, à l’évènement d’intérêt dans le cas où l’exposition est absente, « toutes choses égales par ailleurs ». Au sens strict, la condition « toutes choses égales par ailleurs » nécessiterait d’observer les mêmes sujets dans deux vies parallèles, l’une dans laquelle ils sont exposés, et l’autre dans laquelle ils sont non exposés (ce qui bien sûr est impossible en pratique). En ce sens, l’approche contrefactuelle traite la causalité par une question de type « et si ? » [222]. Prenons l’exemple d’un individu A ayant reçu un traitement, à la suite de quoi sa maladie a été guérie. Pour estimer l’effet causal, au niveau individuel, du traitement sur la guérison, on va se demander : « et si, contrairement aux faits, cet individu n’avait pas reçu le traitement, aurait‐il guéri ? ». La réponse (inobservable) à cette question est appelée l’évènement contrefactuel (« counterfactual » = « counter to the fact » en anglais) : l’évènement qui aurait été observé si, contrairement aux faits, l’individu A avait eu une exposition différente de celle qu’il a eu [241, 242]. On parle aussi d’« évènement potentiel » (« potential outcome ») [221].
Cette approche conceptuelle de la causalité a été utilisée, depuis les années 1990, pour développer une théorie statistique de l’inférence causale [243], puis traduite sous forme d’équations mathématiques.
Si on note Y l’évènement d’intérêt (ex : une maladie), et E l’exposition dont on souhaite évaluer l’effet causal, on peut définir, pour chaque sujet, Ye=0 l’évènement qui serait observé si le sujet n’avait
pas été exposé, et Ye=1 l’évènement qui serait observé si le sujet avait été exposé. Pour chaque sujet,
un seul de ces deux évènements est effectivement observé, et l’autre est l’évènement contrefactuel.
Au niveau individuel, il y a un effet causal si Ye=0 ≠ Ye=1 [242]. L’effet causal de cette exposition sur
cette maladie peut être différent d’un individu à un autre, compte tenu de la présence d’autres facteurs individuels.
Au‐delà de l’effet causal individuel, l’épidémiologiste va chercher à évaluer un effet causal au niveau
de la population, qui correspond à un effet causal moyen. Pour définir l’effet causal au niveau de la
population, il faut introduire P(Ye=0 = 1), la proportion de sujets qui auraient été malades si toute la
population avait été non exposée, et P(Ye=1 = 1) la proportion de sujets qui auraient été malades si
toute la population avait été exposée. Au niveau de la population, il y a un effet causal si P(Ye=0 = 1) ≠
P(Ye=1 = 1).
Des mesures de l’effet causal de E sur Y au niveau de la population sont par exemple l’excès de risque, le risque relatif, ou l’odds‐ratio (OR) causal. Par exemple, l’OR causal peut s’écrire, à partir de ces probabilités contrefactuelles [244], comme : 1 / 1 0 / 0 On peut aussi exprimer l’OR causal à partir d’un modèle logistique [244]: 1
Où si 0, et si 1
et où exp
Rappelons que dans ces formules, les variables sont des variables contrefactuelles : la condition « toutes choses égales par ailleurs » est strictement vérifiée, et la relation entre E et Y n’est donc pas soumise à confusion ; l’OR causal s’écrit donc en fonction des variables contrefactuelles comme un OR non ajusté.