• Aucun résultat trouvé

Partie I Problématique et état de l'art

2.6 Relations complexes et causalité en sciences humaines

A part les liaisons classiques entre variables que nous venons de voir, qui s'appuient toutes sur une modélisation de type linéaire, parmi lesquelles l'interaction peut être considérée comme complexe, il en existe, en sciences humaines, de plus complexes encore qui échappent à cette modélisation, et font actuellement l'objet de peu de recherches et d'applications en fouille de données. Parmi elles la plus connue est le paradoxe de Simpson,

2.6.1 Un exemple historique de liaison complexe : le paradoxe de Simpson

Le "paradoxe de Simpson" rend compte du changement de sens d'une relation entre 2 variables lors de l'intervention d'une troisième variable. Simpson a détaillé le problème en 1951 [217], mais il était déjà connu précédemment des statisticiens, Yule [239] notamment, comme le signale Pearl [192]. L'exemple le plus courant met en jeu les 2 variables "sexe" et "réussite à un examen" d'un ensemble d'étudiants issus d'une zone géographique donnée, par exemple d'une ville. On s'aperçoit que les étudiants d'un sexe réussissent mieux l'examen que ceux du sexe opposé. Puis on détaille les résultats par sous-zones homogènes, par exemple par établissement d'enseignement, et on constate que pour chacune de ces sous-zones, c'est l'autre sexe qui réussit le mieux à l'examen. L'intervention d'une troisième variable, ici "établissement", contredit donc la conclusion tirée précédemment sur la relation entre sexe et réussite. D'où le paradoxe, développé formellement en annexe B. Les chercheurs en sciences humaines connaissent bien ce problème qui fait que toute

49Le coecient tétrachorique des données binaires, vu précédemment dans la section 2.4.3, se teste aussi de la

même façon

50Il fait l'objet d'une description détaillée dans la section du chapitre suivant portant sur les nouveaux tests de

2.6. Relations complexes et causalité en sciences humaines conclusion sur des relations entre variables peut être remise en cause par l'intervention d'une variable "oubliée" (Howell [126]).

2.6.2 Les liaisons complexes

Nous venons d'exposer un exemple mettant en jeu le paradoxe de Simpson pour montrer en quoi il peut gêner l'interprétation de règles. Nous allons maintenant décrire le cadre plus général des liaisons complexes en le remettant dans le contexte de "l'analyse multivariée causale" de J. Herman qui expose dans son ouvrage [118] comment établir une "preuve" quand on dispose de données binaires.

Établir une preuve est pour lui est une procédure qui consiste à introduire une variable-test pour examiner son eet sur l'hypothèse de départ. Par exemple si l'hypothèse est la règle tabac →

cancer, on prend la variable-test "alcool" an de vérier si cette règle est valable indépendemment de la consommation d'alcool. Pour cela on partitionne l'ensemble de sujets en diérents groupes à raison d'un groupe par modalité de cette variable, et on examine si la règle est valable sur chaque groupe. Cela peut se faire en décomposant l'association entre "tabac" et "cancer" en deux parties : l'association "partielle" intra-groupes, et l'association "diérentielle" inter-groupe, pondérées par des coecients liés aux diérences d'eectifs des groupes. Les calculs dièrent selon le coecient d'association choisi. Appelons cette hypothèse A→B, et en reprenant les notations de J. Herman, T la variable test, s un seuil d'intensité signicative de l'association, Z l'association totale "d'ordre zéro", P la partielle, et D la diérentielle selon T. L'auteur propose alors une classication en quatre issues de l'intervention de la variable test qui sont :

 La corroboration quand Z,P>s et Z ≈ P . La prise en compte de la variable test n'a pas modié l'association entre A et B.

 L'explication quand Z>s et P ≈ 0. L'association entre A et B en prenant en compte la variable test est nulle. Ce qui fait que l'association qu'on avait repérée entre A et B n'était due qu'à la présence de T. Cela peut se passer de deux façons diérentes :

1. La relation entre A et B est fallacieuse (falsication de Popper [197]). Ce qui signie qu'une modication de A n'a aucune raison d'entraîner une modication de B. On peut même avoir un cas d'"hyper-falsication" quand au lieu d'être nulle, l'association partielle est de signe contraire à l'association globale.

2. La relation entre A et B est indirecte. A→T→B. Bien que A ne soit pas la cause de B, une modication A entraîne une modication de T, qui lui-même entraîne une modication de B.

 La contribution quand Z,P>s et P<Z. Quand on examine l'association entre A et B en prenant en compte la variable T, elle est moins forte que quand on ne la prend pas en compte.

 L'atténuation quand Z,P>s et P>Z. Quand on examine l'association entre A et B en prenant en compte la variable T, elle est plus forte que quand on ne la prend pas en compte.

A tout cela vient se rajouter une possible interaction51, qui exprime le fait que l'association

entre A et B n'est pas la même selon les diérentes valeurs de T. Ainsi une même valeur de P, qui est une combinaison de ces associations partielles peut provenir de cas bien diérents, par exemple de deux associations de même grandeur, de même sens mais de grandeurs diérentes, l'une pouvant être négligeable, ou même de sens contraires. Ainsi d'après Herman, "une association bivariée globalement corroborée peut être localement hyper-spéciée... Dans l'un des sous-groupes

il y aura un eet local de contribution et dans l'autre un eet local d'atténuation de l'association- clé".

Fig. 2.19  La corrélation entre A et B est de -0.41 pour l'ensemble, et elle varie de 0,58 à 0,83 à Ci xé.

Parmi tous ces cas, les plus gênants pour le sens commun sont la relation fallacieuse et les interactions. Notons qu'ils n'apparaissent pas seulement dans les tableaux de données binaires, les interactions étant susceptibles de se présenter dans tous les modèles traitant de la liaison de plus de deux variables et la relation fallacieuse apparaissant également dans les modèles de corrélation/régression, comme on peut le voir dans le graphique de la gure 2.19, qui illustre l'hyper-falsication également appelée paradoxe de Simpson.

Dans ce graphique, A et B sont deux variables quantitatives, et C est une variable prenant 5 modalités de C1 à C5. Chaque point est la représentation d'un sujet, son abscisse étant sa valeur pour la variable A, son ordonnée celle pour B, et sa valeur pour C est représentée par sa couleur et sa forme, par exemple le sujet représenté par un losange bleu foncé a la modalité C1 de la variable C. On a représenté les droites de régression de B selon A pour chacun des nuages partiels, an de montrer que leurs pentes sont positives et de valeurs proches, ce qui indique que si on xe la valeur de C, quelle que soit sa valeur, quand A croît B croît également de façon similaire. Si on regarde maintenant le nuage de points dans son ensemble, on voit qu'il suit la direction indiquée par la droite noire en pointillés, qui est la direction inverse de celle à C xé. C'est-à-dire que cette fois quand A croît B décroît. En économie, ce phénomène est bien connu, qui fait qu'on ne peut pas généraliser des lois de la micro-économie à celles de la macro-économie sans risquer de "contresens".

Cet eet dière de l'interaction dont les bases ont été exposées précédemment au moyen d'un exemple basique. Nous rappelons ce qu'est cette liaison au moyen d'un exemple présentant un niveau supérieur de complexité. Le graphique de la gure 2.20 représente une interaction croisée entre deux variables, selon un modèle d'analyse de la variance52, pour lequel B est une

52Comme dans la représentation de la gure 1, on ne parlera pas des tests associés, car c'est une simple

2.6. Relations complexes et causalité en sciences humaines variable quantitative à expliquer, et A et C sont des variables qualitatives explicatives l'une à trois modalités A1, A2 et A3, et l'autre à deux modalités, C1 et C2.

Fig. 2.20  Les moyennes de B selon A sont 3,48, 5,61 et 2,82 pour C1, 5,61, 3,98 et 7,32 pour C2 et 4,64, 4,87 et 5,07 pour C1 et C2.

Chaque point représente un sujet, il a pour abscisse sa valeur selon A, pour ordonnée sa valeur selon B et sa forme et sa couleur indiquent sa valeur selon C. Les moyennes partielles de B selon les 6 cas A1C1, A1C2, ..., A3C2 sont jointes par des lignes de couleur. Les sujets ayant la valeur 1 de C ont des valeurs en moyenne plus petites pour A1 que pour A2 alors que c'est l'inverse pour les sujets ayant la valeur 2 de C. L'eet de A sur B est modié par la valeur de C, c'est en cela qu'on l'appelle une interaction. Cette interaction est "croisée" car les lignes de couleur correspondant à ces 6 moyennes se croisent. C'est l'eet le plus marquant, car on voit que la ligne noire qui joint les moyennes de B selon A1 et A2 est pratiquement horizontale, les moyennes étant très proches. Si bien qu'en ne considérant pas l'eet de C on peut arriver à la conclusion que A n'a pas d'eet sur B, alors que son eet est important quand on xe C. Cette interaction oppose les eets de A1 et A3 (qui vont dans le même sens) à ceux de A2, en sens contraire. L'opposition entre ces eets au sein d'une même variable (ici A) fait partie des contrastes qui permettent de décrire encore plus nement la complexité des relation entre variables (pour plus de détails sur ces décompositions, voir [1, 236, 126, 120]).

D'autres liaisons causales plus complexes ont été mises à jour en systémique, comme par exemple la rétroaction [6]. Pour mettre ces eets en évidence, il est mieux de disposer de ta- bleaux de données sur plusieurs instants. Dans notre thèse, nous en restons à un seul tableau de données, collectées à un seul moment, dans lequel la variable temps, si elle est présente, n'est pas diérenciée des autres variables. Mais cela peut en être un prolongement intéressant, compte tenu de l'essor que ces modèles ont depuis plus d'une dizaine d'années en sciences humaines [127] grâce à la diusion de logiciels qui permettent de tester aisément des modèles à base de systèmes

en trois parties, celle correspondant à l'interaction A*C est signicative alors que dans le modèle B=A, où C ne gure pas, l'eet de A n'est pas signicatif

d'équations structurelles [213]. Un exposé très détaillé de tous ces liens complexes entre variables, de leurs dénitions et de leurs applications aux phénomènes sociaux est fait dans le livre de R. Boudon [26].

3

Possibilités liées à l'augmentation de

puissance des ordinateurs pour

l'extraction de liaisons entre variables

Dans ce chapitre nous faisons le tour des méthodes qui se sont développées avec l'avène- ment de l'informatique. On y trouve à la fois des versions améliorées des méthodes classiques des statistiques décrites dans le chapitre précédent, mais également de nouvelles méthodes qui sont apparues depuis. Parmi celles-ci des méthodes d'investigation "locales" dont l'extraction de règles d'association, qui sera décrite sommairement ici, le chapitre suivant lui étant entièrement consacré.

Par contre les méthodes du type STATIS [90], ARIMA [67], les modèles de Markov [178], ou les méthodes de traitement du signal (ondelettes,..) ne seront pas examinées dans ce chapitre car cette thèse est centrée sur les liaisons causales et non temporelles ou séquentielles.

Sommaire

3.1 Les nouvelles approches descriptives . . . 72