• Aucun résultat trouvé

Analyse d un tableau de contingence

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse d un tableau de contingence"

Copied!
12
0
0

Texte intégral

(1)

Cours n°7

Analyse d’un tableau de contingence

Test du khi-deux

Ce cours clôture l’analyse bivariée en s’intéressant au croisement de deux variables qualitatives. Il s’agit d’un tableau d’effectifs (ou de comptage) croisant les modalités de la première variable avec les modalités de la seconde variable qualitative impliquée. Dans ce cas les totaux en lignes et en colonnes ont du sens. Et c’est pour cette raison qu’on les nomme des tableaux de contingence.

Dans un premier temps on s’attachera à analyser l’information contenue dans un tableau de contingence : profils-lignes, profils-colonnes et profil global. Puis dans un second temps on examinera les étapes pour calculer le khi-deux et conduire le test statistique afin d’accepter ou de rejeter la dépendance statistique. L’intensité du lien entre les deux variables qualitatives est appréciée par le V de Cramér.

1. Problème à résoudre

Le croisement de deux variables qualitatives revient à construire un tableau d’effectifs où chacune des cases du tableau correspond à un comptage associant la modalité de l’une des deux variables avec la modalité de la seconde variable qualitative. La caractéristique majeure de ce type de tableau se situe aux niveaux des marges (ou totaux en lignes et en colonnes) qu’il est possible de calculer et leur donner du sens. C’est pour cette raison que ce type de tableau est appelé TABLEAU DE CONTINGENCE.

Ces deux exemples de tableaux permettent de préciser ce qu’on entend par tableau de contingence :

(2)

- Le premier tableau croise en X la variable AGE que l’on décline en trois modalités (appelées ici classes d’âge) : les jeunes (Moins de 25 ans), les adultes (25-59 ans) et personnes âgées (60 ans et plus) et en Y la variable Catégorie Socio-Professionnelle (CSP) que l’on décompose en plusieurs modalités selon une nomenclature déterminée.

Sans rentrer dans le détail des subdivisions, on peut proposer les 10 grandes catégories adoptées par l’ONS (Office National des Statistiques, Algérie) : Employeurs, Indépendants, Cadres Supérieurs et Professions libérales, Cadres Moyens, Ouvriers, Employés, Manœuvres et Saisonniers, Personnel de Transit, Inactifs – Inoccupés et Non Déclarés.

o Le total en ligne donne le nombre total de personnes d’une catégorie donnée de la CSP

o Le total en colonne fournit le total d’un groupe d’âge (Jeunes, Adultes ou Personnes âgées), quelle que soit la CSP de rattachement.

o Le total général (ici TG) est l’ensemble de la population active observée.

- Le second tableau croise en X les classes d’âge quinquennal (O-4 ans, 5-9 ans, 10-14 ans, ………80 et plus) et en Y des unités géographiques qui peuvent être les 48 wilayat d’Algérie.

o Le total en ligne donne la population totale d’une wilaya déterminée.

o Le total en colonne fournit le total d’une classe d’âge quinquennal pour l’ensemble de l’Algérie

o Le total général (ici TG) est la population totale de l’Algérie Nous remarquons qu’un tableau de contingence peut être de deux types : - Croisement des modalités de 2 variables qualitatives

- Croisement d’une variable qualitative avec une variable géographique correspondant à des unités localisées et délimitées spatialement, qui elle aussi est une variable qualitative dont les modalités sont des unités administratives de niveau supérieur.

Dans ce chapitre nous portons notre intérêt à l’analyse d’un tableau de contingence à travers ses différents profils (profil-ligne, profil-colonne et profil global). A l’aide du Test du Khi-deux nous examinerons la dépendance ou l’indépendance des variables qualitatives retenues. Un complément d’analyse est fourni par le calcul du Phi2, les test V de Cramér et le coefficient d’association.

2 Analyse d’un tableau de contingence à partir des profils (ligne, colonne et global) Considérons deux variables qualitatives X les 8 semaines d’observation (du 15 mars au 7 mai 2020) des nouveaux cas de contamination du virus Covid-19 et Y sont des unités géopolitiques correspondants à 13 pays européens.

Le tableau de données est le suivant :

(3)

Nom 15-19 ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Tota l

Al l ema gne 10735 28618 40856 33387 19517 15431 9880 6421 164845

Bel gi que 1106 4440 9113 9635 9826 7988 5722 2901 50731

Bos ni e 45 128 342 325 309 246 344 270 2009

Croa ti e 67 390 516 396 384 190 95 49 2087

Da nema rk 326 730 1513 2250 1244 1194 1085 925 9267

Es pa gne 11686 39609 54279 41157 31726 28076 26316 17515 250364

Fra nce 6496 18160 29950 48591 33076 17411 8995 7613 170292

Ita l i e 19878 39554 34653 28384 25315 21032 15490 10395 194701

Pa ys -Ba s 1501 4971 7266 7065 7453 6515 3588 2458 40817

Portuga l 617 2758 5490 4922 4885 3512 2321 2041 26546

Roya ume-Uni 2129 8389 22060 31359 38016 34985 33175 35462 205575

Rus s i e 140 641 2708 6583 17807 34835 43725 70662 177101

Ukra i ne 13 180 701 995 2269 3009 3236 3285 13688

Tota l 54739 148568 209447 215049 191827 174424 153972 159997 1308023

Faisons une première analyse selon les profils : a- Les profils-lignes :

Cette méthode permet de comparer l’évolution de la pandémie durant ces 8 semaines d’observations (Du 15 mars au 7 mai 2020) dans 13 pays européens. Pour cela il faut passer à des fréquences par ligne afin d’assurer la comparabilité entre les pays. Ainsi chacun des 13 pays est ramené à un total égal à 100.

𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛𝑖.

Cette transformation se fait conformément à la notation retenue pour l’ensemble du tableau de départ (situation observée) :

Ce qui donne le tableau des profils-lignes suivant :

( )

( )

( )

nnI.

ni.

n1.

n.J n.j

n.1

nIJ nIj

nI1

niJ nij

ni1

n1I n1j

n11

J j

1

colonne Variable

I i 1 ligne variable N













=

(4)

Nom

15-19 ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07

ma i Tota l

Al l ema gne 6,51 17,36 24,78 20,25 11,84 9,36 5,99 3,90 100

Bel gi que 2,18 8,75 17,96 18,99 19,37 15,75 11,28 5,72 100

Bos ni e 2,24 6,37 17,02 16,18 15,38 12,24 17,12 13,44 100

Croa ti e 3,21 18,69 24,72 18,97 18,40 9,10 4,55 2,35 100

Da nema rk 3,52 7,88 16,33 24,28 13,42 12,88 11,71 9,98 100

Es pa gne 4,67 15,82 21,68 16,44 12,67 11,21 10,51 7,00 100

Fra nce 3,81 10,66 17,59 28,53 19,42 10,22 5,28 4,47 100

Ita l i e 10,21 20,32 17,80 14,58 13,00 10,80 7,96 5,34 100

Pa ys -Ba s 3,68 12,18 17,80 17,31 18,26 15,96 8,79 6,02 100

Portuga l 2,32 10,39 20,68 18,54 18,40 13,23 8,74 7,69 100

Roya ume-Uni 1,04 4,08 10,73 15,25 18,49 17,02 16,14 17,25 100

Rus s i e 0,08 0,36 1,53 3,72 10,05 19,67 24,69 39,90 100

Ukra i ne 0,09 1,32 5,12 7,27 16,58 21,98 23,64 24,00 100

Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100

Le calcul se fait ainsi :

Pour l’Allemagne et la semaine du 15 au 19 mars on a : 6,51 = 10735

164845× 100 Tableau des profils-lignes reclassés :

Nom

15-19 ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i Tota l

Ita l i e 10,21 20,32 17,80 14,58 13,00 10,80 7,96 5,34 100,00

Al l ema gne 6,51 17,36 24,78 20,25 11,84 9,36 5,99 3,90 100,00

Es pa gne 4,67 15,82 21,68 16,44 12,67 11,21 10,51 7,00 100,00

Da nema rk 3,52 7,88 16,33 24,28 13,42 12,88 11,71 9,98 100,00

Croa ti e 3,21 18,69 24,72 18,97 18,40 9,10 4,55 2,35 100,00

Bos ni e 2,24 6,37 17,02 16,18 15,38 12,24 17,12 13,44 100,00

Bel gi que 2,18 8,75 17,96 18,99 19,37 15,75 11,28 5,72 100,00

Fra nce 3,81 10,66 17,59 28,53 19,42 10,22 5,28 4,47 100,00

Pa ys -Ba s 3,68 12,18 17,80 17,31 18,26 15,96 8,79 6,02 100,00

Portuga l 2,32 10,39 20,68 18,54 18,40 13,23 8,74 7,69 100,00

Roya ume-Uni 1,04 4,08 10,73 15,25 18,49 17,02 16,14 17,25 100,00

Ukra i ne 0,09 1,32 5,12 7,27 16,58 21,98 23,64 24,00 100,00

Rus s i e 0,08 0,36 1,53 3,72 10,05 19,67 24,69 39,90 100,00

Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100,00

Ce tableau indique une évolution différenciée selon les 8 semaines d’observation des contaminations affectant les 13 pays européens retenus. Le premier groupe, constitué par des pays comme l’Italie, l’Allemagne et l’Espagne a connu des pics fin mars et début avril 2020.

Ce sont les premiers pays les plus fortement touchés en Europe par la pandémie du Covid-19 à cette période. Les unités de soins intensifs sont restées sous tensions. L’Italie a connu des pics importants durant deux semaines suivies (du 20 mars au 2 avril 2020) totalisant plus de 38%

des contaminations enregistrées sur les 8 semaines.

Des pays comme le Danemark, la Belgique, la France, les Pays-Bas et le Portugal ont connu quant à eux des pics une semaine plus tard que le premier groupe. La France occupe le haut de l’échelle avec des régions fortement impactées (Nord Est et Ile de France).

Le troisième groupe formé par le Royaume-Uni, la Russie et l’Ukraine connait un regain de contaminations les 3 dernières semaines des 8 semaines d’observations (du 17 avril au 7 mai).

(5)

Ces premières constatations indiquent que les 8 semaines dégagent au moins trois groupes de pays selon l’intensité des contaminations. Les profils-lignes font ressortir des groupes de pays bien identifiés.

b- Les profils-colonnes :

Dans ce cas les fréquences calculées par colonnes afin de permettre la comparaison entre semaines pour les 13 pays européens retenus.

𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛.𝑗 On obtient le tableau suivant :

Les profils-colonnes

Nom

15-19 ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i Tota l

Al l ema gne 19,61 19,26 19,51 15,53 10,17 8,85 6,42 4,01 12,60

Bel gi que 2,02 2,99 4,35 4,48 5,12 4,58 3,72 1,81 3,88

Bos ni e 0,08 0,09 0,16 0,15 0,16 0,14 0,22 0,17 0,15

Croa ti e 0,12 0,26 0,25 0,18 0,20 0,11 0,06 0,03 0,16

Da nema rk 0,60 0,49 0,72 1,05 0,65 0,68 0,70 0,58 0,71

Es pa gne 21,35 26,66 25,92 19,14 16,54 16,10 17,09 10,95 19,14

Fra nce 11,87 12,22 14,30 22,60 17,24 9,98 5,84 4,76 13,02

Ita l i e 36,31 26,62 16,54 13,20 13,20 12,06 10,06 6,50 14,89

Pa ys -Ba s 2,74 3,35 3,47 3,29 3,89 3,74 2,33 1,54 3,12

Portuga l 1,13 1,86 2,62 2,29 2,55 2,01 1,51 1,28 2,03

Roya ume-Uni 3,89 5,65 10,53 14,58 19,82 20,06 21,55 22,16 15,72

Rus s i e 0,26 0,43 1,29 3,06 9,28 19,97 28,40 44,16 13,54

Ukra i ne 0,02 0,12 0,33 0,46 1,18 1,73 2,10 2,05 1,05

Tota l 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

Le calcul se fait ainsi :

Pour l’Allemagne et la semaine du 15 au 19 mars on a : 19,51 =10735

54739× 100

Les quatre premières semaines (du 15 mars au 9 avril) montrent un regain des contaminations dans 4 pays (Allemagne, Espagne, France et Italie) avec cependant quelques différences. Pour l’Allemagne, une baisse s’amorce dès la 5ème semaine, alors qu’il faut une 6ème semaine pour la France, une 7ème semaine pour l’Italie et une 8ème semaine pour l’Espagne.

Si l’Allemagne a su maîtriser la diffusion du virus en l’espace d’un mois, il en fallu beaucoup plus pour l’Italie et l’Espagne qui apparaissent dans une situation plus difficile du fait de leurs structures sanitaires.

(6)

Profils-colonnes reclassés

Nom

15-19 ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i Total Al l ema gne 19,61 19,26 19,51 15,53 10,17 8,85 6,42 4,01 12,60

Fra nce 11,87 12,22 14,30 22,60 17,24 9,98 5,84 4,76 13,02

Ital i e 36,31 26,62 16,54 13,20 13,20 12,06 10,06 6,50 14,89 Es pa gne 21,35 26,66 25,92 19,14 16,54 16,10 17,09 10,95 19,14 Roya ume-Uni 3,89 5,65 10,53 14,58 19,82 20,06 21,55 22,16 15,72

Rus s i e 0,26 0,43 1,29 3,06 9,28 19,97 28,40 44,16 13,54

Bel gi que 2,02 2,99 4,35 4,48 5,12 4,58 3,72 1,81 3,88

Bos ni e 0,08 0,09 0,16 0,15 0,16 0,14 0,22 0,17 0,15

Croa tie 0,12 0,26 0,25 0,18 0,20 0,11 0,06 0,03 0,16

Da nema rk 0,60 0,49 0,72 1,05 0,65 0,68 0,70 0,58 0,71

Pa ys -Ba s 2,74 3,35 3,47 3,29 3,89 3,74 2,33 1,54 3,12

Portuga l 1,13 1,86 2,62 2,29 2,55 2,01 1,51 1,28 2,03

Ukra i ne 0,02 0,12 0,33 0,46 1,18 1,73 2,10 2,05 1,05

Total 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00 100,00

Royaume-Uni et Russie sont plus fortement caractérisés par les trois dernières semaines (6ème, 7ème et 8ème) avec un démarrage plus précoce pour le Royaume-Uni (dès le 27 mars 2020, correspondant à la 3ème semaine).

c- Le profil global :

Ici, la fréquence est calculée par case par rapport à un total général n..

𝑓𝑖𝑗 =𝑛𝑖𝑗× 100 𝑛..

(7)

Profil global

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Tota l

Al l ema gne 0,82 2,19 3,12 2,55 1,49 1,18 0,76 0,49 12,60

Bel gi que 0,08 0,34 0,70 0,74 0,75 0,61 0,44 0,22 3,88

Bos ni e 0,00 0,01 0,03 0,02 0,02 0,02 0,03 0,02 0,15

Croa ti e 0,01 0,03 0,04 0,03 0,03 0,01 0,01 0,00 0,16

Da nema rk 0,02 0,06 0,12 0,17 0,10 0,09 0,08 0,07 0,71

Es pa gne 0,89 3,03 4,15 3,15 2,43 2,15 2,01 1,34 19,14

Fra nce 0,50 1,39 2,29 3,71 2,53 1,33 0,69 0,58 13,02

Ita l i e 1,52 3,02 2,65 2,17 1,94 1,61 1,18 0,79 14,89

Pa ys -Ba s 0,11 0,38 0,56 0,54 0,57 0,50 0,27 0,19 3,12

Portuga l 0,05 0,21 0,42 0,38 0,37 0,27 0,18 0,16 2,03

Roya ume-Uni 0,16 0,64 1,69 2,40 2,91 2,67 2,54 2,71 15,72

Rus s i e 0,01 0,05 0,21 0,50 1,36 2,66 3,34 5,40 13,54

Ukra i ne 0,00 0,01 0,05 0,08 0,17 0,23 0,25 0,25 1,05

Tota l 4,18 11,36 16,01 16,44 14,67 13,33 11,77 12,23 100,00

Le calcul se fait ainsi :

Pour l’Allemagne et la semaine du 15 au 19 mars on a : 0,82 = 10735

1308023× 100

Six pays sur les 13 retenus se distinguent de manière incontestable : Allemagne, Espagne, France, Italie, Royaume-Uni et Russie. Leurs plus forts pourcentages totalisent près de 45% des contaminations totales observées pendant 8 semaines dans les 13 pays.

Ce sont les foyers principaux de l’espace européen.

3 Analyse d’un tableau de contingence : la statistique du Phi-deux (𝝓²)

La statistique du Phi-deux a l’avantage de mesurer la distance entre les fréquences conjointes et les fréquences produits. Les fréquences conjointes s’apparentent aux fréquences relatives du tableau du profil global précédemment vu avec la seule différence que le total général est égal à 1 au lieu de 100. Par contre les fréquences-produits sont calculées de telle manière à avoir un tableau théorique de situation d’indépendance entre les deux variables qualitatives impliquées.

Les fréquences conjointes :

𝑓𝑐𝑖𝑗 =𝑛𝑖𝑗 𝑛..

Les fréquences conjointes :

𝑓𝑝𝑖𝑗 = 𝑓𝑐.𝑗× 𝑓𝑐𝑖.

Cela donne les tableaux suivants :

(8)

Fréquences conjointes

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Tota l

Al l ema gne 0,008 0,022 0,031 0,026 0,015 0,012 0,008 0,005 0,126

Bel gi que 0,001 0,003 0,007 0,007 0,008 0,006 0,004 0,002 0,039

Bos ni e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002

Croa ti e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002

Da nema rk 0,000 0,001 0,001 0,002 0,001 0,001 0,001 0,001 0,007

Es pa gne 0,009 0,030 0,041 0,031 0,024 0,021 0,020 0,013 0,191

Fra nce 0,005 0,014 0,023 0,037 0,025 0,013 0,007 0,006 0,130

Ita l i e 0,015 0,030 0,026 0,022 0,019 0,016 0,012 0,008 0,149

Pa ys -Ba s 0,001 0,004 0,006 0,005 0,006 0,005 0,003 0,002 0,031

Portuga l 0,000 0,002 0,004 0,004 0,004 0,003 0,002 0,002 0,020

Roya ume-Uni 0,002 0,006 0,017 0,024 0,029 0,027 0,025 0,027 0,157

Rus s i e 0,000 0,000 0,002 0,005 0,014 0,027 0,033 0,054 0,135

Ukra i ne 0,000 0,000 0,001 0,001 0,002 0,002 0,002 0,003 0,010

Tota l 0,042 0,114 0,160 0,164 0,147 0,133 0,118 0,122 1,000

Les fréquences situées au niveau des marges du tableau se nomment les fréquences marginales.

La fréquence conjointe de l’Allemagne (15-19 mars) est égale 0,008 = 10735

1308023

La fréquence-produit de l’Allemagne (15-19 mars) est égale à 𝟎, 𝟎𝟎𝟓 = 𝟎, 𝟎𝟒𝟐 × 𝟎, 𝟏𝟐𝟔

Les fréquences-produits :

Nom 15-19 mars

20-26 mars

27 mars- 02 Avril

03-09 Avril

10-16 Avril

17-23 Avril

24-30 Avril

01-07 mai

Total Allemagne 0,005 0,014 0,020 0,021 0,018 0,017 0,015 0,015 0,126 Belgique 0,002 0,004 0,006 0,006 0,006 0,005 0,005 0,005 0,039 Bosnie 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002 Croatie 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,002 Danemark 0,000 0,001 0,001 0,001 0,001 0,001 0,001 0,001 0,007 Espagne 0,008 0,022 0,031 0,031 0,028 0,026 0,023 0,023 0,191 France 0,005 0,015 0,021 0,021 0,019 0,017 0,015 0,016 0,130 Italie 0,006 0,017 0,024 0,024 0,022 0,020 0,018 0,018 0,149 Pays-Bas 0,001 0,004 0,005 0,005 0,005 0,004 0,004 0,004 0,031 Portugal 0,001 0,002 0,003 0,003 0,003 0,003 0,002 0,002 0,020 Royaume-Uni0,007 0,018 0,025 0,026 0,023 0,021 0,019 0,019 0,157 Russie 0,006 0,015 0,022 0,022 0,020 0,018 0,016 0,017 0,135 Ukraine 0,000 0,001 0,002 0,002 0,002 0,001 0,001 0,001 0,010 Total 0,042 0,114 0,160 0,164 0,147 0,133 0,118 0,122 1,000

A partir de ces deux tableaux (fréquences conjointes et fréquences-produits) il est possible de calculer le taux de liaison, un indicateur qui renseigne sur l’attraction (en positif) et la répulsion (en négatif) entre les modalités de chacune des variables.

(9)

Sa formule est :

𝑇𝑎𝑢𝑥 𝑑𝑒 𝑙𝑖𝑎𝑖𝑠𝑜𝑛 =(𝑓𝑐𝑖𝑗 − 𝑓𝑝𝑖𝑗) 𝑓𝑝𝑖𝑗

Le tableau des taux de liaison :

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i Al l ema gne 0,556 0,528 0,548 0,232 -0,193 -0,298 -0,491 -0,682 Bel gi que -0,479 -0,229 0,122 0,155 0,321 0,181 -0,042 -0,533 Bos ni e -0,465 -0,439 0,063 -0,016 0,049 -0,082 0,455 0,099 Croa ti e -0,233 0,645 0,544 0,154 0,255 -0,317 -0,613 -0,808 Da nema rk -0,159 -0,306 0,020 0,477 -0,085 -0,034 -0,005 -0,184 Es pa gne 0,115 0,393 0,354 0,000 -0,136 -0,159 -0,107 -0,428 Fra nce -0,088 -0,061 0,098 0,736 0,324 -0,233 -0,551 -0,635 Ita l i e 1,440 0,789 0,112 -0,113 -0,113 -0,190 -0,324 -0,564 Pa ys -Ba s -0,121 0,072 0,112 0,053 0,245 0,197 -0,253 -0,508 Portuga l -0,445 -0,085 0,292 0,128 0,255 -0,008 -0,257 -0,371 Roya ume-Uni -0,753 -0,641 -0,330 -0,072 0,261 0,276 0,371 0,410 Rus s i e -0,981 -0,968 -0,905 -0,774 -0,314 0,475 1,097 2,262 Ukra i ne -0,977 -0,884 -0,680 -0,558 0,130 0,649 1,008 0,962

Si nous prenons les cas de l’Allemagne et du Royaume-Uni, on remarque que l’Allemagne se distingue par de fortes contaminations les 4 premières semaines de la période retenue, alors que le Royaume-Uni est plutôt caractérisé par les quatre dernières semaines de la même période.

Calcul du Phi-deux : Sa formule :

𝑃ℎ𝑖 − 𝑑𝑒𝑢𝑥 = ∑(𝑓𝑐𝑖𝑗− 𝑓𝑝𝑖𝑗) 𝑓𝑝𝑖𝑗

2

Tableau du Phi-deux :

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Tota l

Al l ema gne 0,002 0,004 0,006 0,001 0,001 0,001 0,004 0,007 0,026

Bel gi que 0,000 0,000 0,000 0,000 0,001 0,000 0,000 0,001 0,003

Bos ni e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Croa ti e 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Da nema rk 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

Es pa gne 0,000 0,003 0,004 0,000 0,001 0,001 0,000 0,004 0,013

Fra nce 0,000 0,000 0,000 0,012 0,002 0,001 0,005 0,006 0,026

Ita l i e 0,013 0,011 0,000 0,000 0,000 0,001 0,002 0,006 0,033

Pa ys -Ba s 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,002

Portuga l 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001

Roya ume-Uni 0,004 0,007 0,003 0,000 0,002 0,002 0,003 0,003 0,023

Rus s i e 0,005 0,014 0,018 0,013 0,002 0,004 0,019 0,085 0,161

Ukra i ne 0,000 0,001 0,001 0,001 0,000 0,001 0,001 0,001 0,006

Tota l 0,025 0,041 0,032 0,028 0,008 0,010 0,034 0,116 0,294

(10)

Donc le Phi-deux = 0,294

II.3 Analyse d’un tableau de contingence : le test statistique du khi-deux (𝝌²)

A partir des tableaux des effectifs observés et des effectifs théoriques on peut calculer le 𝝌² :

Effectifs observés

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Tota l

Al l ema gne 10735 28618 40856 33387 19517 15431 9880 6421 164845

Bel gi que 1106 4440 9113 9635 9826 7988 5722 2901 50731

Bos ni e 45 128 342 325 309 246 344 270 2009

Croa ti e 67 390 516 396 384 190 95 49 2087

Da nema rk 326 730 1513 2250 1244 1194 1085 925 9267

Es pa gne 11686 39609 54279 41157 31726 28076 26316 17515 250364

Fra nce 6496 18160 29950 48591 33076 17411 8995 7613 170292

Ita l i e 19878 39554 34653 28384 25315 21032 15490 10395 194701

Pa ys -Ba s 1501 4971 7266 7065 7453 6515 3588 2458 40817

Portuga l 617 2758 5490 4922 4885 3512 2321 2041 26546

Roya ume-Uni 2129 8389 22060 31359 38016 34985 33175 35462 205575

Rus s i e 140 641 2708 6583 17807 34835 43725 70662 177101

Ukra i ne 13 180 701 995 2269 3009 3236 3285 13688

Tota l 54739 148568 209447 215049 191827 174424 153972 159997 1308023

Effectifs théoriques

Nom

15-19 mars

20-26 mars

27 mars- 02 Avril

03-09 Avril

10-16 Avril

17-23 Avril

24-30 Avril

01-07 mai Total Allemagne 6899 18723 26396 27102 24175 21982 19404 20164 164845

Belgique 2123 5762 8123 8341 7440 6765 5972 6205 50731

Bosnie 84 228 322 330 295 268 236 246 2009

Croatie 87 237 334 343 306 278 246 255 2087

Danemark 388 1053 1484 1524 1359 1236 1091 1134 9267

Espagne 10477 28437 40090 41162 36717 33386 29471 30624 250364 France 7126 19342 27268 27997 24974 22708 20046 20830 170292 Italie 8148 22115 31176 32010 28554 25963 22919 23816 194701

Pays-Bas 1708 4636 6536 6711 5986 5443 4805 4993 40817

Portugal 1111 3015 4251 4364 3893 3540 3125 3247 26546

Royaume-Uni 8603 23350 32918 33798 30148 27413 24199 25146 205575 Russie 7411 20116 28358 29117 25973 23616 20847 21663 177101

Ukraine 573 1555 2192 2250 2007 1825 1611 1674 13688

Total 54739 148568 209447 215049 191827 174424 153972 159997 1308023

Pour l’Allemagne, l’effectif théorique est calculé ainsi : 6899 = 54739×164845 1308023

(11)

Le tableau des effectifs théoriques reflète une situation d’indépendance statistique entre les deux variables qualitatives.

Le 𝝌² va mesurer l’écart ou la distance entre les valeurs observées 𝑂𝑖𝑗 et les valeurs théoriques 𝑇𝑖𝑗 (ou attendues en situation d’indépendance) selon la formule suivante :

𝝌𝟐= ∑(𝑶𝒊𝒋− 𝑻𝒊𝒋)𝟐 𝑻𝒊𝒋

𝒊,𝒋

Ce qui donne le tableau du 𝝌² suivant :

Nom 15-19

ma rs

20-26 ma rs

27 ma rs - 02 Avri l

03-09 Avri l

10-16 Avri l

17-23 Avri l

24-30 Avri l

01-07 ma i

Total

Al l ema gne 2134 5229 7922 1458 898 1952 4675 9367 33633

Bel gi que 487 303 121 201 765 221 10 1760 3868

Bos ni e 18 44 1 0 1 2 49 2 117

Croa tie 5 99 99 8 20 28 92 167 517

Da nema rk 10 99 1 346 10 1 0 38 505

Es pa gne 139 4389 5022 0 678 845 338 5612 17023

Fra nce 56 72 264 15148 2628 1236 6092 8386 33882

Ital i e 16887 13753 388 411 367 937 2408 7563 42713

Pa ys -Ba s 25 24 82 19 360 211 308 1287 2315

Portuga l 220 22 361 71 253 0 207 448 1582

Roya ume-Uni 4872 9586 3581 176 2053 2091 3329 4232 29921 Rus s i e 7134 18854 23201 17439 2567 5329 25106 110830 210461

Ukra i ne 547 1216 1014 700 34 768 1638 1549 7467

Total 32533 53689 42056 35977 10634 13621 44253 151241 384006 Si n= 1308023, Phi-deux = O,294 et Khi-deux = 384006

Il y a donc une relation directe entre le Phi-deux et le Khi-deux : 𝜒2 = 𝑛 × 𝜙²

Donc 𝜒2 = 1308023 × 0,294 Conduite du test du Khi-deux

H0 : C’est l’hypothèse nulle qui permet de conclure à une indépendance entre les deux variables qualitatives retenues (pays européens et semaines de contamination)

H1 : C’est l’hypothèse alternative qui indique qu’une dépendance significative existe entre les deux variables.

(12)

Pour un degré de liberté (ddl) = (L-1) x (C-1) = 12 x 7 = 84 et un risque de 5% la valeur du Khi-deux lue sur la table est :

ddl= 80 𝜒2 de la table = 101,9 ddl= 90 𝜒2 de la table = 113,1 Par interpolation on a

Pour 10, l’écart est de 113,1 – 101,9 Pour 4, l’écart est de X=4,48

Donc pour ddl=84, le khi-deux de table est égal à 106,38

Ainsi pour un ddl = 84 et un risque de 5%, 𝜒2 calculé > au 𝜒2 de la table. Nous rejetons l’hypothèse nulle et il y a effectivement une dépendance significative entre les deux variables qualitatives du tableau de contingence. Il y a bien un décalage dans le temps du processus de contamination au covid-19 pour les 13 pays européens retenus.

4- Mesure de l’intensité du lien entre deux variables qualitatives : le V de Cramér.

Le V de Cramér découle du test du khi-deux de Pearson. Sa formule est la suivante :

𝑉 = √ 𝜒2

𝑁 × 𝑀𝑖𝑛 (𝐶 − 1, 𝐿 − 1)

La valeur du dénominateur est égale au 𝜒2 maximum théorique

N est le nombre total d’observations (N=1308023), C le nombre de colonnes (8 semaines) et L le nombre de lignes (13 pays européens)

Le V de Cramér est égal à : 𝑉 = √ 384006

1308023×7 = 0,205

Selon le tableau d’interprétation du V de Cramér on a là une intensité du lien qui est modérée.

Valeur du V de Cramér Intensité du lien statistique

0 Absence de relation

Entre 0,05 et 0,10 Très faible Entre 0,10 et 0,20 Faible Entre 0,20 et 0,40 Modérée

Entre 0,40 et 0,80 Forte

Entre 0,80 et 1 Douteuse

Références

Documents relatifs

, → Preuve... On montre alors que le profil colonne moyen, centre de gravité de ce nuage, est r le vecteur des poids des lignes.. On peut alors centrer C et le terme général de

Si un tableau d’incidence admet une forme 7c pour laquelle , / oc 4n / 9, pour cette forme, la variance des écarts de la ligne médiane est supérieure à celle

Le modèle d’association U (uniforme) de Goodman tout comme le modèle de Plackett sont d’habitude utilisés pour analyser des tableaux de contingence dont les variables

décrivent (en particulier à l’aide de l’indice dnIG) pour l’un les noeuds supérieurs de HI et pour l’autre les classes de la partition PI associée à c (HI) .Un

Pour cela, on définit une analyse factorielle qui décrit la «forme de l’association», mesurée par un coefficient choisi dans une famille infinie de

Il s’agit d’un tableau disjonctif complet croisant un ensemble I de 20000 individus et les 3 variables suivantes : sexe, acide urique, consommation d’alcool, chacune

L’objet de la m´ ethode propos´ ee est d’unifier dans une mˆ eme approche, l’ana- lyse des correspondances d’un tableau de contingence et les deux classifications

Nous étendons ici cette méthode au cas d’un tableau de contingence A B quelconque avec le problème de la mesure du degré de quasi-adéquation des données à un