• Aucun résultat trouvé

Partie I Problématique et état de l'art

2.5 La liaison entre variables en statistiques inférentielles

2.5.2 L'indépendance entre deux variables

La dénition de l'indépendance.

On dit que deux variables aléatoires X et Y sont indépendantes si pour tout couple de valeurs x et y, la probabilité conjointe P(X=x et Y=y) est égale au produit des probabilités P(X=x) et P(Y=y). Ces deux dernières probabilités sont appelées probabilités marginales car on ne xe qu'une des deux variables, l'autre pouvant prendre toutes les valeurs possibles. Cela revient à la condition que les distributions de probabilité d'une variable "conditionnellement" aux diérentes valeurs de l'autre sont identiques. Si on reprend l'exemple du sondage, où A est l'intention d'aller voter et B le nombre de candidats attendu, l'indépendance entre A et B signie que la distribution du nombre de candidats attendu B est la même pour les personnes qui ont répondu "oui" à la question A, que pour celles qui ont répondu "non", et celles qui ont répondu "ne sait pas", ces trois distributions de B "conditionnelles" à A sont identiques entre elles, et à la distribution marginale de B. Et inversement la distribution de probabilité marginale de la variable A, c'est-à- dire l'ensemble des 3 valeurs des probabilités de répondre "oui", "non", et "ne sait pas" sans tenir compte des réponses à la question B est identique aux lois de probabilité de A conditionnellement aux valeurs des réponses à la question B, c'est-à-dire à l'ensemble des 3 valeurs des probabilités de répondre "oui", "non", et "ne sait pas" pour ceux qui pensent qu'il y aura 2 candidats, ceux qui pensent qu'il y en aura 3, et ainsi pour chaque nombre de candidats envisagé.

Si on reprend l'exemple de la liaison parabolique, dans la gure 2.18, on voit qu'elle dière de l'indépendance.

Comment doit-on établir l'indépendance.

D'après la dénition, pour établir l'indépendance entre 2 variables X et Y, il faudrait calculer pour toutes les valeurs (x,y) du couple (X,Y) les diérences entre la probabilité conjointe et

2.5. La liaison entre variables en statistiques inférentielles

Fig. 2.18  A gauche une liaison parabolique, à droite indépendance, à distributions marginales égales

le produit des probabilités marginales. Dans notre exemple, A n'a que 3 valeurs, mais B en a beaucoup plus, et même un nombre indéterminé. A est en eet une variable catégorielle bien déterminée, alors que B est une variable quantitative qui peut prendre a priori toute valeur entières positives. De plus, les probabilités sont théoriques donc inconnues. Il faut donc faire des hypothèses an de déterminer la loi suivie par les écarts entre les diérences calculées et la valeur. En eet ceux-ci ont très peu de chances d'être nuls, mais on désire savoir à partir de quelle valeur on peut estimer qu'ils s'éloignent trop de 0 pour qu'on puisse continuer à accepter l'indépendance. Les deux tests les plus utilisés sont le test du Chi2 et le test du coecient de corrélation linéaire nul.

Le test d'indépendance du Chi2.

On rappelle qu'il se fait à partir d'un tableau d'eectifs observés, croisant les valeurs des deux variables catégorielles. Ce tableau est appelé tableau de contingence. Puis on ajoute les eectifs des lignes et des colonnes et on met les résultats en marge, ce qui donne les eectifs marginaux de chaque variable, c'est-à-dire sans considérer l'autre. Les probabilités des loi théoriques marginales s'obtiennent en divisant ces eectifs par l'eectif total, et leurs produits donnent une estimation des probabilités de la loi conjointe en cas d'indépendance. On calcule alors les écarts entre les probabilités en cas d'indépendance et les probabilités de la loi conjointe, estimées à partir des eectifs dans le tableau. Par exemple, si on a un eectif total de 100, et que 70 personnes ont répondu "oui", on estime la probabilité marginale P(A="oui") par 0.7. Si 30 personnes ont déclaré qu'il y aurait 8 candidats, on estime P(B=8) par 0.3. et si 3 personnes ont répondu "oui" et déclaré qu'il y aurait 8 candidats, on estime la probabilité conjointe P(A="oui" et B=8) par 0.03. Comme le produit P(A="oui")P(B=8) est 0.21, la valeur de 0.03 présente un écart de 0.18 avec celle attendue de 0.21 en cas d'indépendance. On calcule ainsi les écarts pour toutes les cases du tableau, qui sont au nombre de n × p s'il y a n catégories pour A et p pour B. Et le

coecient du Chi2 est la somme des carrés de ces écarts. Si tous les écarts étaient nuls, cette somme serait nulle. Bien sûr, cela n'arrive que dans des cas d'école.

L'utilisation du test nécessite le vérication d'hypothèses : si A et B suivent chacun une loi multinomiale (c'est ce qui a permis notamment d'estimer les probabilités marginales), si les eectifs théoriques (obtenus en multipliant la probabilité conjointe par l'eectif total, soit ici 21 pour A="oui" et B=8) ne sont pas trop petits (ils doivent tous dépasser 1, et en majorité dépasser 3, voire 5 selon les auteurs), alors ce coecient suit la loi du Chi2 à (n-1)(p-1) degrés de libertés. On peut alors voir si la valeur qu'on a obtenue pour ce coecient est excessive ou non par rapport aux valeurs de la loi (lue sur une table, ou donnée par un tableur) et si elle l'est, on rejette l'hypothèse H0 d'indépendance.

Mais ces hypothèses sont parfois diciles à vérier. Pour retourner à notre exemple, il est tout à fait vraisemblable que A soit une loi multinomiale, car elle correspond à 3 catégories. Mais il faudrait que B soit aussi une loi multinomiale, ce qui signie que ses valeurs devraient être des catégories en nombre p ni, sans aucune relation d'ordre entre elles. De plus s'il n'y a que 100 personnes interrogées, cela signie que les eectifs vont se répartir en 3p cases, et si p vaut 11, il sera dicile d'obtenir que la plupart des 33 cases aient un eectif théorique supérieur à 3, surtout s'il y en a déjà une avec un eectif de 21. Tous ces problèmes d'application du test du Chi2 sont bien connus, et des corrections sont proposées pour remédier à chacun. Par exemple pour les eectifs trop petits, il sut de regrouper des valeurs consécutives de B et de recommencer les calculs. Mais on s'éloigne alors de la nature de B. Et il reste encore d'autres dicultés. Par exemple en cas d'eectif total important ce test a tendance à conclure systématiquement à une dépendance entre les variables.

La nullité du coecient de corrélation linéaire.

L'indépendance théorique des deux variables aléatoires s'établit en calculant un coecient de liaison adapté à leur type (quantitatif, ordinal, catégoriel) sur les valeurs observées, et en le comparant à sa valeur théorique en cas d'indépendance (en général nulle). Les écarts entre les valeurs observées et les valeurs théoriques sont aléatoires. On peut faire un certain nombre de suppositions sur les distributions de ces écarts, la plus courante étant qu'ils suivent une loi normale et qu'ils ne dépendent pas les uns des autres (ils sont i.i.d. c'est-à-dire identiquement et indépendamment distribués). Quand ces conditions sont remplies alors le coecient de liaison est une variable aléatoire dont on connaît la distribution de probabilités, et une fois choisi le niveau de risque (appelé risque α, ou risque de première espèce), on peut obtenir un intervalle de valeurs du coecient autour de sa valeur à l'indépendance, appelé zone d'acceptation. Si la valeur empirique appartient à cette zone, alors on décide qu'elle est approximativement égale à sa valeur à l'indépendance (on dit qu'on accepte l'hypothèse nulle H0), l'écart à la valeur attendue étant dû au hasard. Sinon, on rejette H0, et on décide que les variables ne sont pas indépendantes, avec l'assurance que le risque de se tromper dans cette conclusion est inférieur au seuil α, si toutes les hypothèses qu'on a faites par ailleurs sont vériées. Le fait de rejeter H0 correspond à accepter une hypothèse alternative, notée H1 qui peut avoir des formes variées. Par exemple, les plus courantes pour H0 : ρ = 0, où ρ est le coecient théorique de corrélation linéaire entre les deux variables, sont l'hypothèse bilatère H1 : ρ 6= 0 et les deux hypothèses unilatères H1 : ρ > 0, et H1 : ρ < 0.

Reprenons le coecient de corrélation linéaire qui a déjà été exposé dans la partie précédente et dont les valeurs ont été calculées pour le petit exemple de la gure 2.16. On a déni 5 variables A, B, C D et E, et on a observé leurs valeurs sur 10 objets. On suppose que la distribution des 5 variables suit la loi normale. Si on se place dans le cadre d'un échantillon représentatif, on

2.5. La liaison entre variables en statistiques inférentielles suppose que les objets ont été tirés indépendamment et au hasard dans la population, chacun ayant la même probabilité d'être choisi, et si on se place dans le cadre d'un échantillon exhaustif, on suppose qu'ils ne sont pas liés entre eux par des relations de dépendance (hiérarchique, spatiale ou temporelle). En cas d'indépendance entre deux de ces cinq variables le coecient de corrélation théorique ρ est nul et la statistique Fν12= r

2ν 2

(1−r)2ν1 calculée à partir du coecient de corrélation

empirique r suit alors une loi de Fisher-Snedecor dont les paramètres sont ν1 = 1et ν2 = 8. En

prenant H0 : ρ = 0 et H1 : ρ 6= 0 et un niveau de signicativité de 0.05 (c'est-à-dire en acceptant un risque α inférieur à 5% de se tromper en rejetant à tort H0), la zone d'acceptation de H0 est [0; 5.32[, comme nous l'apprend la table statistique de la loi F , et la zone de rejet de H0 est [5.32; +∞[. En remplaçant F par sa valeur en fonction de r, on trouve que pour rejeter H0, il faut que r soit supérieur en valeur absolue à 0.632. Les coecients de corrélation empiriques respectifs de A avec B, C, D et E étant respectivement de 0.445, 0, -0.053, et -0.806, on décide que A est linéairement indépendant de B, de C et de D, mais pas de E, et comme on vient d'établir que le coecient de corrélation entre A et E n'est pas nul, on peut alors interpréter sa valeur négative en terme d'opposition ou de répulsion selon le domaine de provenance des données, ou tout simplement que la liaison est négative si on reste dans une interprétation purement statistique. Ainsi, la valeur de 0.445 qui semblait indiquer un lien positif assez fort entre A et B, a été jugée "non signicative", c'est-à-dire due au hasard. Cela ne signie pas que A et B ne sont pas liés linéairement, mais seulement qu'il a été impossible de conclure que la valeur de leur coecient de corrélation linéaire était diérente de zéro. La même valeur de 0.445 avec un échantillon de plus de 17 objets aurait abouti au rejet de H0. On voit ainsi l'importance du choix de la taille d'échantillon, comme en atteste la présence dans certains manuels de statistiques appliquées ([210, 182]) de formules permettant de la calculer dans divers cas courants. Une expérimentation sur l'évolution de personnes ou plus généralement d'être vivants menée sur plusieurs années avec les mêmes sujets peut en eet aboutir à des résultats inexploitables car non signicatifs si la taille de l'échantillon a été sous-évaluée au départ.

Coecient de corrélation et indépendance

Dans la partie précédente, à l'aide du coecient de corrélation linéaire, nous avons établi une liaison linéaire positive importante entre A et B, négative encore plus importante entre A et D, nulle entre A et C et quasi-nulle entre A et D, tout en remarquant toutefois la présence d'une liaison parabolique qu'on pourrait quantier. Dans cette partie, en utilisant ce même coecient de corrélation linéaire, nous avons conclu à l'existence d'une relation signicative entre A et D, et à une indépendance entre A et B, A et C, et A et D, sous la condition toutefois que ces variables suivent une loi normale. Nous n'avons pas vérié le bien-fondé de cette assertion de normalité, car elle a peu de chances d'être réfutée pour un si petit nombre de valeurs. Le fait d'exiger des lois normales a permis de se contenter de contrôler la nullité d'une seule valeur (qui se ramène ici à la diérence entre le produit des moyennes et la moyenne des produits), au lieu de contrôler la nullité de la diérence entre le produit de probabilités et la probabilité produit pour chaque valeur, comme spécié dans la dénition de l'indépendance. La simplication obtenue dans le cadre de la normalité n'est pas surprenante car on a déjà vu qu'une distribution normale ne dépendait que de deux paramètres, au lieu des 10 que sont les objets de cet exemple. Ici, il ne s'agit plus d'une loi normale simple, dénie sur une seule variable, mais d'une loi normale double dénie sur 2 variables, et elle est caractérisée par 5 paramètres qui sont les deux espérances des variables, leurs deux variances, et leur corrélation. Notons toutefois que dans ce cadre, une fois l'indépendance entre A et C décidée, on ne va pas examiner une liaison parabolique du genre

permet une telle simplication des calculs. Pour conclure sur les tests d'indépendance

Nous avons vu les deux tests les plus utilisés pour établir l'indépendance de deux variables aléatoires. Le premier se fait sur les variables catégorielles suivant la loi multinomiale et le second sur des variables quantitatives suivant la loi normale. Nous avons vu également qu'ils nécessitent tous deux que soient vériées des conditions d'application assez contraignantes. Quand ces condi- tions ne sont pas vériées, il y a toujours la possibilité d'utiliser d'autres tests en remplacement de ceux-ci. Si les distributions ne sont pas normales, ou même si elles sont ordinales, on peut utiliser des tests issus des statistiques non paramétriques [220]. Ce sont par exemple les tests de rangs (on peut notamment tester la nullité du coecient de rangs de Spearman ou de Kendall49).

Toutefois elles devront également vérier des conditions d'application (par exemple, les tests ba- sés sur les rangs acceptent mal les ex-aequo) Et le test du Chi2 admet des variantes comme le test de la médiane, de McNemar.

Mentionnons aussi le test exact de Fisher en cas de petits eectifs. Historiquement c'est le premier test de permutation50, qui ne se faisait qu'en cas de tous petits échantillons, sans

supposer de lois particulières, en acceptant des cases d'eectifs nuls, mais qui entraînait trop de calculs vu les possibilités informatiques de l'époque. Il a été remplacé par les tests asymptotiques qui sont basés sur des hypothèses théoriques permettant des résolutions analytiques donnant des formules simples à appliquer, assorties de tables de lois simples à utiliser, et de conditions d'applications simples à oublier.