Cours n°7
Analyse d’un tableau de contingence
Test du khi-deux
Ce cours clôture l’analyse bivariée en s’intéressant au croisement de deux variables qualitatives. Il s’agit d’un tableau d’effectifs (ou de comptage) croisant les modalités de la première variable avec les modalités de la seconde variable qualitative impliquée. Dans ce cas les totaux en lignes et en colonnes ont du sens. Et c’est pour cette raison qu’on les nomme des tableaux de contingence.
Dans un premier temps on s’attachera à analyser l’information contenue dans un tableau de contingence : profils-lignes, profils-colonnes et profil global. Puis dans un second temps on examinera les étapes pour calculer le khi-deux et conduire le test statistique afin d’accepter ou de rejeter la dépendance statistique. L’intensité du lien entre les deux variables qualitatives est appréciée par le V de Cramér.
1. Problème à résoudre
Le croisement de deux variables qualitatives revient à construire un tableau d’effectifs où chacune des cases du tableau correspond à un comptage associant la modalité de l’une des deux variables avec la modalité de la seconde variable qualitative. La caractéristique majeure de ce type de tableau se situe aux niveaux des marges (ou totaux en lignes et en colonnes) qu’il est possible de calculer et leur donner du sens. C’est pour cette raison que ce type de tableau est appelé TABLEAU DE CONTINGENCE.
Ces deux exemples de tableaux permettent de préciser ce qu’on entend par tableau de contingence :
- Le premier tableau croise en X la variable AGE que l’on décline en trois modalités (appelées ici classes d’âge) : les jeunes (Moins de 25 ans), les adultes (25-59 ans) et personnes âgées (60 ans et plus) et en Y la variable Catégorie Socio-Professionnelle (CSP) que l’on décompose en plusieurs modalités selon une nomenclature déterminée.
Sans rentrer dans le détail des subdivisions, on peut proposer les 10 grandes catégories adoptées par l’ONS (Office National des Statistiques, Algérie) : Employeurs, Indépendants, Cadres Supérieurs et Professions libérales, Cadres Moyens, Ouvriers, Employés, Manœuvres et Saisonniers, Personnel de Transit, Inactifs – Inoccupés et Non Déclarés.
o Le total en ligne donne le nombre total de personnes d’une catégorie donnée de la CSP
o Le total en colonne fournit le total d’un groupe d’âge (Jeunes, Adultes ou Personnes âgées), quelle que soit la CSP de rattachement.
o Le total général (ici TG) est l’ensemble de la population active observée.
- Le second tableau croise en X les classes d’âge quinquennal (O-4 ans, 5-9 ans, 10-14 ans, ………80 et plus) et en Y des unités géographiques qui peuvent être les 48 wilayat d’Algérie.
o Le total en ligne donne la population totale d’une wilaya déterminée.
o Le total en colonne fournit le total d’une classe d’âge quinquennal pour l’ensemble de l’Algérie
o Le total général (ici TG) est la population totale de l’Algérie Nous remarquons qu’un tableau de contingence peut être de deux types : - Croisement des modalités de 2 variables qualitatives
- Croisement d’une variable qualitative avec une variable géographique correspondant à des unités localisées et délimitées spatialement, qui elle aussi est une variable qualitative dont les modalités sont des unités administratives de niveau supérieur.
Dans ce chapitre nous portons notre intérêt à l’analyse d’un tableau de contingence à travers ses différents profils (profil-ligne, profil-colonne et profil global). A l’aide du Test du Khi-deux nous examinerons la dépendance ou l’indépendance des variables qualitatives retenues. Un complément d’analyse est fourni par le calcul du Phi2, les test V de Cramér et le coefficient d’association.
2 Analyse d’un tableau de contingence à partir des profils (ligne, colonne et global) Considérons deux variables qualitatives X les 8 semaines d’observation (du 15 mars au 7 mai 2020) des nouveaux cas de contamination du virus Covid-19 et Y sont des unités géopolitiques correspondants à 13 pays européens.
Le tableau de données est le suivant :
Nom 15-19 ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Tota l
Al l ema gne 10735 28618 40856 33387 19517 15431 9880 6421 164845
Bel gi que 1106 4440 9113 9635 9826 7988 5722 2901 50731
Bos ni e 45 128 342 325 309 246 344 270 2009
Croa ti e 67 390 516 396 384 190 95 49 2087
Da nema rk 326 730 1513 2250 1244 1194 1085 925 9267
Es pa gne 11686 39609 54279 41157 31726 28076 26316 17515 250364
Fra nce 6496 18160 29950 48591 33076 17411 8995 7613 170292
Ita l i e 19878 39554 34653 28384 25315 21032 15490 10395 194701
Pa ys -Ba s 1501 4971 7266 7065 7453 6515 3588 2458 40817
Portuga l 617 2758 5490 4922 4885 3512 2321 2041 26546
Roya ume-Uni 2129 8389 22060 31359 38016 34985 33175 35462 205575
Rus s i e 140 641 2708 6583 17807 34835 43725 70662 177101
Ukra i ne 13 180 701 995 2269 3009 3236 3285 13688
Tota l 54739 148568 209447 215049 191827 174424 153972 159997 1308023
Faisons une première analyse selon les profils : a- Les profils-lignes :
Cette méthode permet de comparer l’évolution de la pandémie durant ces 8 semaines d’observations (Du 15 mars au 7 mai 2020) dans 13 pays européens. Pour cela il faut passer à des fréquences par ligne afin d’assurer la comparabilité entre les pays. Ainsi chacun des 13 pays est ramené à un total égal à 100.
𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛𝑖.
Cette transformation se fait conformément à la notation retenue pour l’ensemble du tableau de départ (situation observée) :
Ce qui donne le tableau des profils-lignes suivant :
( )
( )
( )
nnI.ni.
n1.
n.J n.j
n.1
nIJ nIj
nI1
niJ nij
ni1
n1I n1j
n11
J j
1
colonne Variable
I i 1 ligne variable N
=
Nom
15-19 ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07
ma i Tota l
Al l ema gne 6,51 17,36 24,78 20,25 11,84 9,36 5,99 3,90 100
Bel gi que 2,18 8,75 17,96 18,99 19,37 15,75 11,28 5,72 100
Bos ni e 2,24 6,37 17,02 16,18 15,38 12,24 17,12 13,44 100
Croa ti e 3,21 18,69 24,72 18,97 18,40 9,10 4,55 2,35 100
Da nema rk 3,52 7,88 16,33 24,28 13,42 12,88 11,71 9,98 100
Es pa gne 4,67 15,82 21,68 16,44 12,67 11,21 10,51 7,00 100
Fra nce 3,81 10,66 17,59 28,53 19,42 10,22 5,28 4,47 100
Ita l i e 10,21 20,32 17,80 14,58 13,00 10,80 7,96 5,34 100
Pa ys -Ba s 3,68 12,18 17,80 17,31 18,26 15,96 8,79 6,02 100
Portuga l 2,32 10,39 20,68 18,54 18,40 13,23 8,74 7,69 100
Roya ume-Uni 1,04 4,08 10,73 15,25 18,49 17,02 16,14 17,25 100
Rus s i e 0,08 0,36 1,53 3,72 10,05 19,67 24,69 39,90 100
Ukra i ne 0,09 1,32 5,12 7,27 16,58 21,98 23,64 24,00 100
Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100
Le calcul se fait ainsi :
Pour l’Allemagne et la semaine du 15 au 19 mars on a : 6,51 = 10735
164845× 100 Tableau des profils-lignes reclassés :
Nom
15-19 ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i Tota l
Ita l i e 10,21 20,32 17,80 14,58 13,00 10,80 7,96 5,34 100,00
Al l ema gne 6,51 17,36 24,78 20,25 11,84 9,36 5,99 3,90 100,00
Es pa gne 4,67 15,82 21,68 16,44 12,67 11,21 10,51 7,00 100,00
Da nema rk 3,52 7,88 16,33 24,28 13,42 12,88 11,71 9,98 100,00
Croa ti e 3,21 18,69 24,72 18,97 18,40 9,10 4,55 2,35 100,00
Bos ni e 2,24 6,37 17,02 16,18 15,38 12,24 17,12 13,44 100,00
Bel gi que 2,18 8,75 17,96 18,99 19,37 15,75 11,28 5,72 100,00
Fra nce 3,81 10,66 17,59 28,53 19,42 10,22 5,28 4,47 100,00
Pa ys -Ba s 3,68 12,18 17,80 17,31 18,26 15,96 8,79 6,02 100,00
Portuga l 2,32 10,39 20,68 18,54 18,40 13,23 8,74 7,69 100,00
Roya ume-Uni 1,04 4,08 10,73 15,25 18,49 17,02 16,14 17,25 100,00
Ukra i ne 0,09 1,32 5,12 7,27 16,58 21,98 23,64 24,00 100,00
Rus s i e 0,08 0,36 1,53 3,72 10,05 19,67 24,69 39,90 100,00
Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100,00
Ce tableau indique une évolution différenciée selon les 8 semaines d’observation des contaminations affectant les 13 pays européens retenus. Le premier groupe, constitué par des pays comme l’Italie, l’Allemagne et l’Espagne a connu des pics fin mars et début avril 2020.
Ce sont les premiers pays les plus fortement touchés en Europe par la pandémie du Covid-19 à cette période. Les unités de soins intensifs sont restées sous tensions. L’Italie a connu des pics importants durant deux semaines suivies (du 20 mars au 2 avril 2020) totalisant plus de 38%
des contaminations enregistrées sur les 8 semaines.
Des pays comme le Danemark, la Belgique, la France, les Pays-Bas et le Portugal ont connu quant à eux des pics une semaine plus tard que le premier groupe. La France occupe le haut de l’échelle avec des régions fortement impactées (Nord Est et Ile de France).
Le troisième groupe formé par le Royaume-Uni, la Russie et l’Ukraine connait un regain de contaminations les 3 dernières semaines des 8 semaines d’observations (du 17 avril au 7 mai).
Ces premières constatations indiquent que les 8 semaines dégagent au moins trois groupes de pays selon l’intensité des contaminations. Les profils-lignes font ressortir des groupes de pays bien identifiés.
b- Les profils-colonnes :
Dans ce cas les fréquences calculées par colonnes afin de permettre la comparaison entre semaines pour les 13 pays européens retenus.
𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛.𝑗 On obtient le tableau suivant :
Les profils-colonnes
Nom
15-19 ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i Tota l
Al l ema gne 19,61 19,26 19,51 15,53 10,17 8,85 6,42 4,01 12,60
Bel gi que 2,02 2,99 4,35 4,48 5,12 4,58 3,72 1,81 3,88
Bos ni e 0,08 0,09 0,16 0,15 0,16 0,14 0,22 0,17 0,15
Croa ti e 0,12 0,26 0,25 0,18 0,20 0,11 0,06 0,03 0,16
Da nema rk 0,60 0,49 0,72 1,05 0,65 0,68 0,70 0,58 0,71
Es pa gne 21,35 26,66 25,92 19,14 16,54 16,10 17,09 10,95 19,14
Fra nce 11,87 12,22 14,30 22,60 17,24 9,98 5,84 4,76 13,02
Ita l i e 36,31 26,62 16,54 13,20 13,20 12,06 10,06 6,50 14,89
Pa ys -Ba s 2,74 3,35 3,47 3,29 3,89 3,74 2,33 1,54 3,12
Portuga l 1,13 1,86 2,62 2,29 2,55 2,01 1,51 1,28 2,03
Roya ume-Uni 3,89 5,65 10,53 14,58 19,82 20,06 21,55 22,16 15,72
Rus s i e 0,26 0,43 1,29 3,06 9,28 19,97 28,40 44,16 13,54
Ukra i ne 0,02 0,12 0,33 0,46 1,18 1,73 2,10 2,05 1,05
Tota l 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Le calcul se fait ainsi :
Pour l’Allemagne et la semaine du 15 au 19 mars on a : 19,51 =10735
54739× 100
Les quatre premières semaines (du 15 mars au 9 avril) montrent un regain des contaminations dans 4 pays (Allemagne, Espagne, France et Italie) avec cependant quelques différences. Pour l’Allemagne, une baisse s’amorce dès la 5ème semaine, alors qu’il faut une 6ème semaine pour la France, une 7ème semaine pour l’Italie et une 8ème semaine pour l’Espagne.
Si l’Allemagne a su maîtriser la diffusion du virus en l’espace d’un mois, il en fallu beaucoup plus pour l’Italie et l’Espagne qui apparaissent dans une situation plus difficile du fait de leurs structures sanitaires.
Profils-colonnes reclassés
Nom
15-19 ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i Total Al l ema gne 19,61 19,26 19,51 15,53 10,17 8,85 6,42 4,01 12,60
Fra nce 11,87 12,22 14,30 22,60 17,24 9,98 5,84 4,76 13,02
Ital i e 36,31 26,62 16,54 13,20 13,20 12,06 10,06 6,50 14,89 Es pa gne 21,35 26,66 25,92 19,14 16,54 16,10 17,09 10,95 19,14 Roya ume-Uni 3,89 5,65 10,53 14,58 19,82 20,06 21,55 22,16 15,72
Rus s i e 0,26 0,43 1,29 3,06 9,28 19,97 28,40 44,16 13,54
Bel gi que 2,02 2,99 4,35 4,48 5,12 4,58 3,72 1,81 3,88
Bos ni e 0,08 0,09 0,16 0,15 0,16 0,14 0,22 0,17 0,15
Croa tie 0,12 0,26 0,25 0,18 0,20 0,11 0,06 0,03 0,16
Da nema rk 0,60 0,49 0,72 1,05 0,65 0,68 0,70 0,58 0,71
Pa ys -Ba s 2,74 3,35 3,47 3,29 3,89 3,74 2,33 1,54 3,12
Portuga l 1,13 1,86 2,62 2,29 2,55 2,01 1,51 1,28 2,03
Ukra i ne 0,02 0,12 0,33 0,46 1,18 1,73 2,10 2,05 1,05
Total 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00
Royaume-Uni et Russie sont plus fortement caractérisés par les trois dernières semaines (6ème, 7ème et 8ème) avec un démarrage plus précoce pour le Royaume-Uni (dès le 27 mars 2020, correspondant à la 3ème semaine).
c- Le profil global :
Ici, la fréquence est calculée par case par rapport à un total général n..
𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛..
Profil global
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Tota l
Al l ema gne 0,82 2,19 3,12 2,55 1,49 1,18 0,76 0,49 12,60
Bel gi que 0,08 0,34 0,70 0,74 0,75 0,61 0,44 0,22 3,88
Bos ni e 0,00 0,01 0,03 0,02 0,02 0,02 0,03 0,02 0,15
Croa ti e 0,01 0,03 0,04 0,03 0,03 0,01 0,01 0,00 0,16
Da nema rk 0,02 0,06 0,12 0,17 0,10 0,09 0,08 0,07 0,71
Es pa gne 0,89 3,03 4,15 3,15 2,43 2,15 2,01 1,34 19,14
Fra nce 0,50 1,39 2,29 3,71 2,53 1,33 0,69 0,58 13,02
Ita l i e 1,52 3,02 2,65 2,17 1,94 1,61 1,18 0,79 14,89
Pa ys -Ba s 0,11 0,38 0,56 0,54 0,57 0,50 0,27 0,19 3,12
Portuga l 0,05 0,21 0,42 0,38 0,37 0,27 0,18 0,16 2,03
Roya ume-Uni 0,16 0,64 1,69 2,40 2,91 2,67 2,54 2,71 15,72
Rus s i e 0,01 0,05 0,21 0,50 1,36 2,66 3,34 5,40 13,54
Ukra i ne 0,00 0,01 0,05 0,08 0,17 0,23 0,25 0,25 1,05
Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100,00
Le calcul se fait ainsi :
Pour l’Allemagne et la semaine du 15 au 19 mars on a : 0,82 = 10735
1308023× 100
Six pays sur les 13 retenus se distinguent de manière incontestable : Allemagne, Espagne, France, Italie, Royaume-Uni et Russie. Leurs plus forts pourcentages totalisent près de 45% des contaminations totales observées pendant 8 semaines dans les 13 pays.
Ce sont les foyers principaux de l’espace européen.
3 Analyse d’un tableau de contingence : la statistique du Phi-deux (𝝓²)
La statistique du Phi-deux a l’avantage de mesurer la distance entre les fréquences conjointes et les fréquences produits. Les fréquences conjointes s’apparentent aux fréquences relatives du tableau du profil global précédemment vu avec la seule différence que le total général est égal à 1 au lieu de 100. Par contre les fréquences-produits sont calculées de telle manière à avoir un tableau théorique de situation d’indépendance entre les deux variables qualitatives impliquées.
Les fréquences conjointes :
𝑓𝑐𝑖𝑗 =𝑛𝑖𝑗 𝑛..
Les fréquences conjointes :
𝑓𝑝𝑖𝑗 = 𝑓𝑐.𝑗× 𝑓𝑐𝑖.
Cela donne les tableaux suivants :
Fréquences conjointes
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Tota l
Al l ema gne 0,008 0,022 0,031 0,026 0,015 0,012 0,008 0,005 0,126
Bel gi que 0,001 0,003 0,007 0,007 0,008 0,006 0,004 0,002 0,039
Bos ni e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002
Croa ti e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002
Da nema rk 0,000 0,001 0,001 0,002 0,001 0,001 0,001 0,001 0,007
Es pa gne 0,009 0,030 0,041 0,031 0,024 0,021 0,020 0,013 0,191
Fra nce 0,005 0,014 0,023 0,037 0,025 0,013 0,007 0,006 0,130
Ita l i e 0,015 0,030 0,026 0,022 0,019 0,016 0,012 0,008 0,149
Pa ys -Ba s 0,001 0,004 0,006 0,005 0,006 0,005 0,003 0,002 0,031
Portuga l 0,000 0,002 0,004 0,004 0,004 0,003 0,002 0,002 0,020
Roya ume-Uni 0,002 0,006 0,017 0,024 0,029 0,027 0,025 0,027 0,157
Rus s i e 0,000 0,000 0,002 0,005 0,014 0,027 0,033 0,054 0,135
Ukra i ne 0,000 0,000 0,001 0,001 0,002 0,002 0,002 0,003 0,010
Tota l 0,042 0,114 0,160 0,164 0,147 0,133 0,118 0,122 1,000
Les fréquences situées au niveau des marges du tableau se nomment les fréquences marginales.
La fréquence conjointe de l’Allemagne (15-19 mars) est égale 0,008 = 10735
1308023
La fréquence-produit de l’Allemagne (15-19 mars) est égale à 𝟎, 𝟎𝟎𝟓 = 𝟎, 𝟎𝟒𝟐 × 𝟎, 𝟏𝟐𝟔
Les fréquences-produits :
Nom 15-19 mars
20-26 mars
27 mars- 02 Avril
03-09 Avril
10-16 Avril
17-23 Avril
24-30 Avril
01-07 mai
Total Allemagne 0,005 0,014 0,020 0,021 0,018 0,017 0,015 0,015 0,126 Belgique 0,002 0,004 0,006 0,006 0,006 0,005 0,005 0,005 0,039 Bosnie 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002 Croatie 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002 Danemark 0,000 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,007 Espagne 0,008 0,022 0,031 0,031 0,028 0,026 0,023 0,023 0,191 France 0,005 0,015 0,021 0,021 0,019 0,017 0,015 0,016 0,130 Italie 0,006 0,017 0,024 0,024 0,022 0,020 0,018 0,018 0,149 Pays-Bas 0,001 0,004 0,005 0,005 0,005 0,004 0,004 0,004 0,031 Portugal 0,001 0,002 0,003 0,003 0,003 0,003 0,002 0,002 0,020 Royaume-Uni0,007 0,018 0,025 0,026 0,023 0,021 0,019 0,019 0,157 Russie 0,006 0,015 0,022 0,022 0,020 0,018 0,016 0,017 0,135 Ukraine 0,000 0,001 0,002 0,002 0,002 0,001 0,001 0,001 0,010 Total 0,042 0,114 0,160 0,164 0,147 0,133 0,118 0,122 1,000
A partir de ces deux tableaux (fréquences conjointes et fréquences-produits) il est possible de calculer le taux de liaison, un indicateur qui renseigne sur l’attraction (en positif) et la répulsion (en négatif) entre les modalités de chacune des variables.
Sa formule est :
𝑇𝑎𝑢𝑥 𝑑𝑒 𝑙𝑖𝑎𝑖𝑠𝑜𝑛 =(𝑓𝑐𝑖𝑗 − 𝑓𝑝𝑖𝑗) 𝑓𝑝𝑖𝑗
Le tableau des taux de liaison :
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i Al l ema gne 0,556 0,528 0,548 0,232 -0,193 -0,298 -0,491 -0,682 Bel gi que -0,479 -0,229 0,122 0,155 0,321 0,181 -0,042 -0,533 Bos ni e -0,465 -0,439 0,063 -0,016 0,049 -0,082 0,455 0,099 Croa ti e -0,233 0,645 0,544 0,154 0,255 -0,317 -0,613 -0,808 Da nema rk -0,159 -0,306 0,020 0,477 -0,085 -0,034 -0,005 -0,184 Es pa gne 0,115 0,393 0,354 0,000 -0,136 -0,159 -0,107 -0,428 Fra nce -0,088 -0,061 0,098 0,736 0,324 -0,233 -0,551 -0,635 Ita l i e 1,440 0,789 0,112 -0,113 -0,113 -0,190 -0,324 -0,564 Pa ys -Ba s -0,121 0,072 0,112 0,053 0,245 0,197 -0,253 -0,508 Portuga l -0,445 -0,085 0,292 0,128 0,255 -0,008 -0,257 -0,371 Roya ume-Uni -0,753 -0,641 -0,330 -0,072 0,261 0,276 0,371 0,410 Rus s i e -0,981 -0,968 -0,905 -0,774 -0,314 0,475 1,097 2,262 Ukra i ne -0,977 -0,884 -0,680 -0,558 0,130 0,649 1,008 0,962
Si nous prenons les cas de l’Allemagne et du Royaume-Uni, on remarque que l’Allemagne se distingue par de fortes contaminations les 4 premières semaines de la période retenue, alors que le Royaume-Uni est plutôt caractérisé par les quatre dernières semaines de la même période.
Calcul du Phi-deux : Sa formule :
𝑃ℎ𝑖 − 𝑑𝑒𝑢𝑥 = ∑(𝑓𝑐𝑖𝑗− 𝑓𝑝𝑖𝑗) 𝑓𝑝𝑖𝑗
2
Tableau du Phi-deux :
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Tota l
Al l ema gne 0,002 0,004 0,006 0,001 0,001 0,001 0,004 0,007 0,026
Bel gi que 0,000 0,000 0,000 0,000 0,001 0,000 0,000 0,001 0,003
Bos ni e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Croa ti e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Da nema rk 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000
Es pa gne 0,000 0,003 0,004 0,000 0,001 0,001 0,000 0,004 0,013
Fra nce 0,000 0,000 0,000 0,012 0,002 0,001 0,005 0,006 0,026
Ita l i e 0,013 0,011 0,000 0,000 0,000 0,001 0,002 0,006 0,033
Pa ys -Ba s 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,002
Portuga l 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001
Roya ume-Uni 0,004 0,007 0,003 0,000 0,002 0,002 0,003 0,003 0,023
Rus s i e 0,005 0,014 0,018 0,013 0,002 0,004 0,019 0,085 0,161
Ukra i ne 0,000 0,001 0,001 0,001 0,000 0,001 0,001 0,001 0,006
Tota l 0,025 0,041 0,032 0,028 0,008 0,010 0,034 0,116 0,294
Donc le Phi-deux = 0,294
II.3 Analyse d’un tableau de contingence : le test statistique du khi-deux (𝝌²)
A partir des tableaux des effectifs observés et des effectifs théoriques on peut calculer le 𝝌² :
Effectifs observés
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Tota l
Al l ema gne 10735 28618 40856 33387 19517 15431 9880 6421 164845
Bel gi que 1106 4440 9113 9635 9826 7988 5722 2901 50731
Bos ni e 45 128 342 325 309 246 344 270 2009
Croa ti e 67 390 516 396 384 190 95 49 2087
Da nema rk 326 730 1513 2250 1244 1194 1085 925 9267
Es pa gne 11686 39609 54279 41157 31726 28076 26316 17515 250364
Fra nce 6496 18160 29950 48591 33076 17411 8995 7613 170292
Ita l i e 19878 39554 34653 28384 25315 21032 15490 10395 194701
Pa ys -Ba s 1501 4971 7266 7065 7453 6515 3588 2458 40817
Portuga l 617 2758 5490 4922 4885 3512 2321 2041 26546
Roya ume-Uni 2129 8389 22060 31359 38016 34985 33175 35462 205575
Rus s i e 140 641 2708 6583 17807 34835 43725 70662 177101
Ukra i ne 13 180 701 995 2269 3009 3236 3285 13688
Tota l 54739 148568 209447 215049 191827 174424 153972 159997 1308023
Effectifs théoriques
Nom
15-19 mars
20-26 mars
27 mars- 02 Avril
03-09 Avril
10-16 Avril
17-23 Avril
24-30 Avril
01-07 mai Total Allemagne 6899 18723 26396 27102 24175 21982 19404 20164 164845
Belgique 2123 5762 8123 8341 7440 6765 5972 6205 50731
Bosnie 84 228 322 330 295 268 236 246 2009
Croatie 87 237 334 343 306 278 246 255 2087
Danemark 388 1053 1484 1524 1359 1236 1091 1134 9267
Espagne 10477 28437 40090 41162 36717 33386 29471 30624 250364 France 7126 19342 27268 27997 24974 22708 20046 20830 170292 Italie 8148 22115 31176 32010 28554 25963 22919 23816 194701
Pays-Bas 1708 4636 6536 6711 5986 5443 4805 4993 40817
Portugal 1111 3015 4251 4364 3893 3540 3125 3247 26546
Royaume-Uni 8603 23350 32918 33798 30148 27413 24199 25146 205575 Russie 7411 20116 28358 29117 25973 23616 20847 21663 177101
Ukraine 573 1555 2192 2250 2007 1825 1611 1674 13688
Total 54739 148568 209447 215049 191827 174424 153972 159997 1308023
Pour l’Allemagne, l’effectif théorique est calculé ainsi : 6899 = 54739×164845 1308023
Le tableau des effectifs théoriques reflète une situation d’indépendance statistique entre les deux variables qualitatives.
Le 𝝌² va mesurer l’écart ou la distance entre les valeurs observées 𝑂𝑖𝑗 et les valeurs théoriques 𝑇𝑖𝑗 (ou attendues en situation d’indépendance) selon la formule suivante :
𝝌𝟐= ∑(𝑶𝒊𝒋− 𝑻𝒊𝒋)𝟐 𝑻𝒊𝒋
𝒊,𝒋
Ce qui donne le tableau du 𝝌² suivant :
Nom 15-19
ma rs
20-26 ma rs
27 ma rs - 02 Avri l
03-09 Avri l
10-16 Avri l
17-23 Avri l
24-30 Avri l
01-07 ma i
Total
Al l ema gne 2134 5229 7922 1458 898 1952 4675 9367 33633
Bel gi que 487 303 121 201 765 221 10 1760 3868
Bos ni e 18 44 1 0 1 2 49 2 117
Croa tie 5 99 99 8 20 28 92 167 517
Da nema rk 10 99 1 346 10 1 0 38 505
Es pa gne 139 4389 5022 0 678 845 338 5612 17023
Fra nce 56 72 264 15148 2628 1236 6092 8386 33882
Ital i e 16887 13753 388 411 367 937 2408 7563 42713
Pa ys -Ba s 25 24 82 19 360 211 308 1287 2315
Portuga l 220 22 361 71 253 0 207 448 1582
Roya ume-Uni 4872 9586 3581 176 2053 2091 3329 4232 29921 Rus s i e 7134 18854 23201 17439 2567 5329 25106 110830 210461
Ukra i ne 547 1216 1014 700 34 768 1638 1549 7467
Total 32533 53689 42056 35977 10634 13621 44253 151241 384006 Si n= 1308023, Phi-deux = O,294 et Khi-deux = 384006
Il y a donc une relation directe entre le Phi-deux et le Khi-deux : 𝜒2 = 𝑛 × 𝜙²
Donc 𝜒2 = 1308023 × 0,294 Conduite du test du Khi-deux
H0 : C’est l’hypothèse nulle qui permet de conclure à une indépendance entre les deux variables qualitatives retenues (pays européens et semaines de contamination)
H1 : C’est l’hypothèse alternative qui indique qu’une dépendance significative existe entre les deux variables.
Pour un degré de liberté (ddl) = (L-1) x (C-1) = 12 x 7 = 84 et un risque de 5% la valeur du Khi-deux lue sur la table est :
ddl= 80 𝜒2 de la table = 101,9 ddl= 90 𝜒2 de la table = 113,1 Par interpolation on a
Pour 10, l’écart est de 113,1 – 101,9 Pour 4, l’écart est de X=4,48
Donc pour ddl=84, le khi-deux de table est égal à 106,38
Ainsi pour un ddl = 84 et un risque de 5%, 𝜒2 calculé > au 𝜒2 de la table. Nous rejetons l’hypothèse nulle et il y a effectivement une dépendance significative entre les deux variables qualitatives du tableau de contingence. Il y a bien un décalage dans le temps du processus de contamination au covid-19 pour les 13 pays européens retenus.
4- Mesure de l’intensité du lien entre deux variables qualitatives : le V de Cramér.
Le V de Cramér découle du test du khi-deux de Pearson. Sa formule est la suivante :
𝑉 = √ 𝜒2
𝑁 × 𝑀𝑖𝑛 (𝐶 − 1, 𝐿 − 1)
La valeur du dénominateur est égale au 𝜒2 maximum théorique
N est le nombre total d’observations (N=1308023), C le nombre de colonnes (8 semaines) et L le nombre de lignes (13 pays européens)
Le V de Cramér est égal à : 𝑉 = √ 384006
1308023×7 = 0,205
Selon le tableau d’interprétation du V de Cramér on a là une intensité du lien qui est modérée.
Valeur du V de Cramér Intensité du lien statistique
0 Absence de relation
Entre 0,05 et 0,10 Très faible Entre 0,10 et 0,20 Faible Entre 0,20 et 0,40 Modérée
Entre 0,40 et 0,80 Forte
Entre 0,80 et 1 Douteuse