Projet en statistiques

(1)

Florian FELICE ; Tiara MASBOU Binôme n°7

L3 – Economie 02/05/2016

Projet en statistiques

(2)

SOMMAIRE

SOMMAIRE ... 1

1) Faire une introduction en décrivant la population concernée par l’étude et préciser les variables étudiées et le but de l’étude ... 3

1. Les variables qualitatives ... 3

2. Les variables quantitatives ... 3

2) Création de nouvelle variables et recodage de variables ... 3

a) Créer la variable 𝑖𝑚𝑐 quantitative ... 3

b) Créer la variable 𝑖𝑚𝑐𝑐 (IMC en 4 classes) ... 3

c) Recoder les variables 𝑐𝑜 et ℎ𝑡𝑎 ... 4

d) Recoder la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 ... 4

e) Recoder la variable 𝑡𝑎𝑏𝑎𝑐 avec ses intitulés ... 4

3) Etude descriptive ... 4

1. Les variables qualitatives ... 4

2. Les variables quantitatives ... 6

3. Tests de normalité ... 6

4) Comparaison de la population avec une population de référence ... 8

a) Peut-on considérer que l’échantillon est représentatif en termes de taille ?... 8

b) Même question en ce qui concerne le poids. ... 8

c) Peut-on considérer que l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003 ? ... 9

5) Liaison entre contraceptifs oraux et les autres variables ... 10

a) Les femmes avec contraceptifs ont elles le même comportement vis-à-vis du tabac ? ... 10

b) La prescription de contraceptifs oraux a-t-elle évoluée dans le temps ?... 11

6) Liaison entre corpulence et les autres variables... 12

a) Devient-on plus corpulent quand on vieillit ? ... 12

b) Même question mais avec la corpulence en classes. ... 13

c) Y a-t-il un lien entre la corpulence et le statut tabagique ? Si oui, pousser plus loin ... 13

d) La corpulence favorise-t-elle l’hypertension artérielle ? ... 14

7) Liaison entre les autres variables ... 14

a) Le comportement tabagique dépend-il de l’âge ? Si oui, pousser plus loin ... 14

b) L’hypertension artérielle est-elle une pathologie qui augmente avec l’âge ? ... 17

c) Quelle relation peut-on mettre en évidence entre l’hypertension artérielle et le tabac ? ... 18

8) Effet des variables sur le risque d’infarctus du myocarde ... 19

a) La prise de contraceptif oraux augmente-t-elle le risque d’infarctus ? ... 19

b) Quel lien peut-on mettre en évidence entre le tabac et la survenue d’un infarctus ? ... 20

c) La corpulence (variable 𝑖𝑚𝑐) augmente-t-elle le risque d’infarctus ? ... 21

d) Les femmes qui ont eu de l’hypertension sont-elles plus à risque pour un infarctus ? ... 21

e) Reprise des deux dernières questions avec les femmes avec un échantillon réduit ... 22

9) Conclusion de l’étude ... 24

Annexes ... 26

Représentations graphiques... 26

(3)

3. Etude descriptive ... 26

5. Liaison entre 𝒄𝒐𝒏𝒕 et les autres variables ... 30

6. Liaison entre la corpulence et les autres variables ... 30

7. Liaisons entre les autres variables ... 32

8. Effet de variables sur le risque d’infarctus du myocarde ... 32

Code ... 34 N.B. : Pour faciliter la navigation dans le document, des liens hypertextes sont mis en place entre les différents paragraphes et les annexes : il n’y a qu’à cliquer sur le numéro de la page en question.

(4)

1) Faire une introduction en décrivant la population concernée par l’étude et préciser les variables étudiées et le but de l’étude

En recherche clinique, des études d’observations sont effectuées pour étudier en quoi le risque d’exposition est un facteur de risque pour une maladie. Parmi ces études d’observation, il y a l’étude cas – témoins.

Dans notre projet, nous sommes en présence d’une étude cas – témoins dont l’objectif principal est de savoir si l’utilisation de contraceptifs oraux est un facteur de risque de survenue d’un infarctus du myocarde chez les femmes. Nous essaierons de voir si d’autres facteurs (tels que l’âge, la corpulence, etc…) jouent un rôle dans la survenue d’un infarctus du myocarde.

Pour cela, nous allons étudier un fichier de données composé de deux sous-échantillons indépendants : un sous-échantillon de 100 femmes ayant eu un infarctus du myocarde (les cas) et un deuxième sous- échantillon de 100 femmes n’ayant pas eu d’infarctus (les témoins).

Dans ces deux sous-échantillons nous distinguons deux types de variables : les variables qualitatives et les variables quantitatives.

1. Les variables qualitatives

- 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 0 si la personne fait partie des témoins et la valeur 1 si elle fait partie des cas.

- 𝑐𝑜 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 1 si la personne prend ou a pris des contraceptifs oraux et la valeur 0 si elle n’en a jamais pris.

- 𝑡𝑎𝑏𝑎𝑐 : C’est une variable qualitative nominale à 3 modalités. Elle prend la valeur 0 si la personne est non fumeuse, la valeur 1 si c’est une fumeuse actuelle et la valeur 2 si c’est une ancienne fumeuse.

- ℎ𝑡𝑎 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 1 si la personne souffre ou a souffert d’hypertension artérielle et la valeur 0 sinon.

2. Les variables quantitatives

- 𝑎𝑔𝑒 : C’est une variable quantitative discrète, mesurée en années.

- 𝑝𝑜𝑖𝑑𝑠 : C’est une variable quantitative continue, mesurée en kilogrammes.

- 𝑡𝑎𝑖𝑙𝑙𝑒 : C’est une variable quantitative continue, mesurée en centimètres.

2) Création de nouvelle variables et recodage de variables

a) Créer la variable 𝑖𝑚𝑐 quantitative

Pour créer la variable 𝑖𝑚𝑐 quantitative, nous devons créer la variable 𝑡𝑎𝑖𝑙𝑙𝑒𝑚 qui est une variable quantitative continue mesurée en mètre et qui est égale à 𝑡𝑎𝑖𝑙𝑙𝑒𝑚 = 𝑡𝑎𝑖𝑙𝑙𝑒 × 100

A parti de cette nouvelle variable, nous pouvons créer la variable 𝑖𝑚𝑐 à partir de la formule suivante : 𝑖𝑚𝑐 = 𝑝𝑜𝑖𝑑𝑠

𝑡𝑎𝑖𝑙𝑙𝑒𝑚² b) Créer la variable 𝑖𝑚𝑐𝑐 (IMC en 4 classes)

Pour créer cette nouvelle variable, nous utilisons les intervalles donnés suivants :

 𝑖𝑚𝑐 < 18,5 ⟹ maigreur

 18,5 ≤ 𝑖𝑚𝑐 < 25 ⟹ corpulence normale

 25 ≤ 𝑖𝑚𝑐 < 30 ⟹ surpoids

(5)

 𝑖𝑚𝑐 ≥ 30 ⟹ obésité

Cette nouvelle variable 𝑖𝑚𝑐𝑐 est donc une variable qualitative ordinale à 4 modalités (maigreur, corpulence normale, surpoids et obésité).

c) Recoder les variables 𝑐𝑜 et ℎ𝑡𝑎

Une fois recodées, ces variables sont des variables qualitatives nominales booléennes à deux modalités

‘oui’ et ‘non’.

d) Recoder la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡

La variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 est une variable qualitative nominale à 2 modalités ‘Cas’ et ‘Temoin’.

e) Recoder la variable 𝑡𝑎𝑏𝑎𝑐 avec ses intitulés

La nouvelle variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 est une variable qualitative nominale à trois modalités ‘Non fumeuse’,

‘Fumeuse’ et ‘Ex fumeuse’.

3) Etude descriptive

Dans ces deux sous-échantillons nous distinguons deux types de variables : les variables qualitatives et les variables quantitatives.

1. Les variables qualitatives

Remarque : Les diagrammes en barres de ces variables seront placés en annexe page 26.

a. La variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠

Cette variable est une variable qualitative booléenne, elle correspond à la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 recodée avec ses intitulés. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur ‘Tem’ n’a jamais eu d’infarctus du myocarde et la valeur ‘Cas’ si elle a déjà un infarctus du myocarde.

A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 Fréquence Pourcentage Fréquence

cumulée

Pctage cumulé

Cas 100 50.00 100 50.00

Tem 100 50.00 200 100.00

Comme signalé dans l’énoncé du sujet, 100 femmes interrogées (soit 50%) ont été victimes d’un infarctus du myocarde, les cas, et 100 femmes (soit 50%) n’en ont jamais eu : les témoins.

b. La variable 𝑐𝑜𝑛𝑡

Cette variable est une variable qualitative nominale booléenne à 2 modalités : ‘Oui’ et ‘Non’

A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante :

(6)

𝒄𝒐𝒏𝒕 Fréquence Pourcentage Fréquence cumulée

Non 94 47.00 94 47.00

Oui 106 53.00 200 100.00

Dans notre échantillon, 47% des femmes interrogées n’ont jamais pris de contraceptifs oraux et 53% en prennent ou en ont déjà pris.

c. La variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜

Cette variable est une variable qualitative nominale à 3 modalités : ‘Fumeuse’, ‘Ex fumeuse’ et ‘Non fumeuse’

A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 Fréquence Pourcentage Fréquence

cumulée

Ex fumeuse 54 27.00 54 27.00

Fumeuse 64 32.00 118 59.00

Non fumeuse 82 41.00 200 100.00

Dans notre échantillon, 27% des femmes sont des anciennes fumeuses, 32% sont des fumeuses actuelles et 41% n’ont jamais fumé.

d. La variable ℎ𝑡𝑎𝑏

Cette variable est une variable qualitative nominale booléenne avec les modalités ‘Oui’ et ‘Non’.

A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒉𝒕𝒂𝒃 Fréquence Pourcentage Fréquence

cumulée

Non 118 59.00 118 59.00

Oui 82 41.00 200 100.00

Dans l’échantillon, 59% des femmes interrogées n’ont jamais eu d’hypertension artérielle alors que 41%

en ont déjà eu.

e. La variable 𝑖𝑚𝑐𝑐

Cette variable est une variable qualitative nominale à 4 modalités : ‘Corpno’, ‘Maigre’, ‘Obesit’ et ‘Surpoi’.

A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒊𝒎𝒄𝒄 Fréquence Pourcentage Fréquence

cumulée

Corpno 61 30.50 61 30.50

Maigre 43 21.50 104 52.00

Obesit 49 24.50 153 76.50

Surpoi 47 23.50 200 100.00

Dans notre échantillon, 30,5% des femmes interrogés sont de corpulence normale, 21,5% sont classées comme ‘maigres’, 24,5% sont en ‘surpoids’ et 23,5% sont classées comme ‘obèses’.

(7)

2. Les variables quantitatives

Remarque : Les représentations graphiques de ces variables seront placées en annexe page 28.

Grâce à la procédure proc means de SAS, on obtient le tableau suivant pour les variables quantitatives : Variable 𝑵 Moyenne Ecart-type Minimum Maximum

𝑎𝑔𝑒 𝑝𝑜𝑖𝑑𝑠 𝑡𝑎𝑖𝑙𝑙𝑒 𝑖𝑚𝑐

200 200 200 200

44.8050000 67.8350000 164.5500000

25.2241361

16.4034245 17.8496731 8.3988214 7.0664379

15.0000000 33.0000000 142.0000000

14.4730494

90.0000000 118.0000000 184.0000000 44.8888889 a. La variable 𝑎𝑔𝑒

L’âge moyen des 200 femmes de notre échantillon est de 44,8 ans ; la femme la plus jeune a 15 ans et la femme la plus âgée en à 90.

Le coefficient de variation, que l’on calcule par 𝑐_𝑣=^𝜎

µ, vaut pour cette variable ^16,403

44,805= 0,366. Ce coefficient étant inférieur à 0,5 il est donc faible, ce qui signifie que la dispersion des valeurs autour de l’âge moyen est faible.

b. La variable 𝑝𝑜𝑖𝑑𝑠

Le poids moyen des individus de l’échantillon est de 67,835kg. La femme ayant le poids le plus faible pèse 33 kilogrammes contre 118 kilos pour la femme ayant le poids le plus important.

Le coefficient de variation vaut ^17,85

67,835= 0,263 < 0,5 et est faible.

c. La variable 𝑡𝑎𝑖𝑙𝑙𝑒

La taille de la femme moyenne de notre échantillon est de 164,55 cm. La femme la plus petite mesure 142 cm et la femme la plus grande mesure 18 cm. Le coefficient de variation est extrêmement faible et vaut

8,399

164,55= 0,051 ce qui signifie que la dispersion des valeurs autour de la taille moyenne est très faible, les valeurs sont très concentrées autour de la moyenne.

d. La variable 𝑖𝑚𝑐

L’IMC moyen des femmes de notre échantillon est de 25,224 (légèrement en surpoids si l’on considère les intervalles donnés pour recoder la variable dans la question 2). La femme ayant le plus faible IMC a un IMC de 14,473 et la femme ayant le plus élevé a un IMC de 44,889.

Le coefficient de variation vaut ^7,066

25,224= 0,28 et est faible.

Donc dans l’ensemble, les valeurs prises pour chaque variable de notre échantillon sont globalement faiblement dispersées autour de leurs moyennes respectives.

3. Tests de normalité

Pour l’ensemble des points suivants, nous allons effectuer un test de Kolmogorov-Smirnov à l’aide d’une procédure proc univariate.

Nous poserons l’hypothèse nulle 𝐻₀ : la variable 𝑋 suit une loi normale (𝑋~𝒩(µ; 𝜎²)) contre l’hypothèse alternative 𝐻₁ : la variable 𝑋 ne suit pas une loi normale.

a. La variable 𝑎𝑔𝑒

A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑎𝑔𝑒 :

(8)

Tests de normalité

Test Statistique P-value

Shapiro-Wilk 𝑾 0.971061 𝑷𝒓 < 𝑾 0.0004

Kolmogorov-Smirnov 𝑫 0.084076 𝑷𝒓 > 𝑫 <0.0100 Cramer-von Mises 𝑾 − 𝑺𝒒 0.215476 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050 Anderson-Darling 𝑨 − 𝑺𝒒 1.37985 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050

La statistique 𝐷 observée vaut 0,084076 et la p-valeur est inférieure à 1%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑎𝑔𝑒 ne suit pas une loi normale.

b. La variable 𝑝𝑜𝑖𝑑𝑠

A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑝𝑜𝑖𝑑𝑠 : Tests de normalité

Shapiro-Wilk 𝑾 0.970808 𝑷𝒓 < 𝑾 0.0004 Kolmogorov-Smirnov 𝑫 0.068097 𝑷𝒓 > 𝑫 0.0229 Cramer-von Mises 𝑾 − 𝑺𝒒 0.213106 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050

Anderson-Darling 𝑨 − 𝑺𝒒 1.487702 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050

La statistique 𝐷 observée vaut 0,068097 et la p-valeur est de 2,29%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑝𝑜𝑖𝑑𝑠 ne suit pas une loi normale.

c. La variable 𝑡𝑎𝑖𝑙𝑙𝑒

A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑡𝑎𝑖𝑙𝑙𝑒 : Tests de normalité

Shapiro-Wilk 𝑾 0.984131 𝑷𝒓 < 𝑾 0.0237 Kolmogorov-Smirnov 𝑫 0.071791 𝑷𝒓 > 𝑫 0.0130 Cramer-von Mises 𝑾 − 𝑺𝒒 0.1464 𝑷𝒓 > 𝑾 − 𝑺𝒒 0.0264 Anderson-Darling 𝑨 − 𝑺𝒒 0.900879 𝑷𝒓 > 𝑨 − 𝑺𝒒 0.0221

La statistique 𝐷 observée vaut 0,071791 et la p-valeur est de 1,3%. Donc d’après ce test nous rejetons 𝐻₀ avec un risque de 5% ce qui signifie que la variable 𝑡𝑎𝑖𝑙𝑙𝑒 ne suit pas une loi normale.

d. La variable 𝑖𝑚𝑐

A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑡𝑎𝑖𝑙𝑙𝑒 : Tests de normalité

Shapiro-Wilk 𝑾 0.958982 𝑷𝒓 < 𝑾 <0.0001 Kolmogorov-Smirnov 𝑫 0.082624 𝑷𝒓 > 𝑫 <0.0100 Cramer-von Mises 𝑾 − 𝑺𝒒 0.316993 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050 Anderson-Darling 𝑨 − 𝑺𝒒 2.13298 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050

La statistique 𝐷 observée vaut 0,082624 et la p-valeur est inférieure à 1%. Donc d’après ce test nous rejetons 𝐻₀ avec un risque de 5% ce qui signifie que la variable 𝑖𝑚𝑐 ne suit pas une loi normale.

(9)

Donc d’après ces tests, les variables 𝑎𝑔𝑒, 𝑝𝑜𝑖𝑑𝑠, 𝑡𝑎𝑖𝑙𝑙𝑒 et 𝑖𝑚𝑐 ne suivent pas une loi normale. Cependant, la taille de notre échantillon est suffisamment grande (𝑁 = 200 > 30) donc grâce au Théorème Central Limite nous pouvons tout de même approximer les lois de ces variables par une loi normale.

4) Comparaison de la population avec une population de référence

a) Peut-on considérer que l’échantillon est représentatif en termes de taille ?

Nous allons effectuer un test de Student de comparaison de moyenne à une valeur de référence à l’aide de la procédure proc ttest de SAS.

Nous posons les hypothèses suivantes :

{𝐻₀: 𝑥̅̅̅̅̅̅̅̅ = 163_{𝑡𝑎𝑖𝑙𝑙𝑒} 𝐻1: 𝑥̅̅̅̅̅̅̅̅ ≠ 163𝑡𝑎𝑖𝑙𝑙𝑒

La statistique de test 𝑡 est :

𝑡 =𝑥̅̅̅̅̅̅̅̅ − 163_{𝑡𝑎𝑖𝑙𝑙𝑒}

√𝑠² 𝑛

𝐻~₀𝒯₍₁₉₉₎

Grâce à la procédure proc ttest, nous obtenons la sortie suivante :

𝑵 Moyenne Ecart-type Err. type Minimum Maximum

200 164.6 8.3988 0.5939 142.0 184.0

Moyenne 95% Moyenne IC Ecart-type 95% Ec.-type IC

164.6 163.4 165.7 8.3988 7.6485 9.3137

DDL Valeur du test t 𝑷𝒓 > |𝒕|

199 2.61 0.0097

La valeur de la statistique de test 𝑡 vaut 2,61. Nous comparons cette valeur avec une valeur table 𝑡_{(199 ;}^𝛼

2)

ou nous utilisons la p-valeur. Ici, la p-valeur est inférieure à 𝛼 = 5% donc nous rejetons 𝐻₀ avec un risque de 5%. Nous pouvons donc dire que la taille moyenne de l’échantillon est significativement différente de la taille moyenne de la population française de 2003. L’échantillon n’est donc pas représentatif avec un risque d’erreur de 5%.

b) Même question en ce qui concerne le poids.

Comme pour la question précédente, nous allons effectuer un test de Student de comparaison de moyenne à une valeur de référence à l’aide de la proc ttest de SAS.

{𝐻₀: 𝑥̅̅̅̅̅̅̅̅ = 63_{𝑝𝑜𝑖𝑑𝑠} 𝐻₁: 𝑥̅̅̅̅̅̅̅̅ ≠ 63_{𝑝𝑜𝑖𝑑𝑠} La statistique de test 𝑡 est :

𝑡 =𝑥̅̅̅̅̅̅̅̅ − 63𝑝𝑜𝑖𝑑𝑠

√𝑠² 𝑛

𝐻~₀𝒯(199)

Grâce à la procédure proc ttest, nous obtenons la sortie suivante :

𝑵 Moyenne Ecart-type Err. type Minimum Maximum

200 67.8350 17.8497 1.2622 33.0000 118.0

(10)

Moyenne 95% Moyenne IC Ecart-type 95% Ec.-type IC 67.8350 65.3461 70.3239 17.8497 16.2550 19.7939

DDL Valeur du test t 𝑷𝒓 > |𝒕|

199 3.83 0.0002

La valeur statistique de test est de 3,83 et la p-valeur de 0,0002 qui est inférieure à 𝛼 = 5%. Nous rejetons donc 𝐻₀ ce qui signifie que le poids moyen de l’échantillon est significativement différent du poids moyen de la population française en 2003. L’échantillon n’est donc pas représentatif de la population française de 2003 avec un risque de 5%.

c) Peut-on considérer que l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003 ?

Nous allons effectuer un test d’ajustement du 𝜒² de Pearson à l’aide de la proc freq de SAS.

{ 𝐻₀: ||

𝑝_{𝑚𝑎𝑖𝑔𝑟𝑒} = 6,7%

𝑝𝑐𝑜𝑟𝑝𝑛𝑜𝑟= 65,9%

𝑝_{𝑠𝑢𝑟𝑝𝑜𝑖} = 21,1%

𝑝𝑜𝑏𝑒𝑠𝑖𝑡 = 6,2%

𝐻₁: ∃𝑖 tel que 𝑝_𝑖 ≠ 𝜋_𝑖 La statistique de test est :

𝜒²= ∑(𝑛_𝑖− 200𝜋_𝑖)² 200𝜋_𝑖

4

𝑖=1

𝐻~₀𝜒₃²

A l’aide de la proc freq option chisq testp de SAS, nous obtenons la sortie suivante : 𝒊𝒎𝒄𝒄 Fréquence Pourcentage Test

Pourcentage

Fréquence cumulée

Corpno 61 30.50 65.90 61 30.50

Maigre 43 21.50 6.70 104 52.00

Obesit 49 24.50 6.20 153 76.50

Surpoi 47 23.50 21.20 200 100.00

Test du Khi-2 pour proportions spécifiées

Khi-2 211.9453

DDL 3

𝑷𝒓 > 𝝌^𝟐 <.0001

Nous constatons que les conditions de validité sont vérifiées (les effectifs théoriques sont supérieurs à 5).

La valeur de la statistique de test observée est 211,9453 et la p-valeur est inférieure à 0,01% donc inférieure à 𝛼 = 5% donc nous rejetons l’hypothèse nulle 𝐻0 que les l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003.

De plus, on remarque que dans notre échantillon, les obèses sont 24,5% (contre 6,2% dans l’hypothèse), les maigres sont 21,5% (contre 6,7) et enfin les personnes à corpulences normales sont représentées à 30,5% de notre échantillon contre 65,9% dans la population française en 2003. On peut donc conclure que dans notre échantillon les ‘obèses’ et les ‘maigres’ sont « surreprésentés » au détriment des personnes à corpulence normale.

(11)

5) Liaison entre contraceptifs oraux et les autres variables

a) Les femmes avec contraceptifs ont elles le même comportement vis-à-vis du tabac ?

Nous allons effectuer un test du 𝜒² d’indépendance entre les deux variables qualitatives à l’aide de la proc freq de SAS.

Nous posons l’hypothèse nulle qui est que les femmes qui ont pris des contraceptifs oraux ont le même comportement que les autres vis-à-vis du tabac contre l’alternative, c’est-à-dire :

{ 𝐻₀: |

Table de 𝒄𝒐𝒏𝒕 par 𝒕𝒂𝒃𝒂𝒄𝒄𝒐

𝒄𝒐𝒏𝒕 𝒕𝒂𝒃𝒂𝒄𝒄𝒐

Fréquence Pourcentage Pctage en ligne

Pctage en col.

Ex

fumeuse Fumeuse Non

fumeuse Total

Non

16 8.00 17.02 29.63

24 12.00 25.53 37.50

54 27.00 57.45 65.85

94 47.00

Oui

38 19.00 35.85 70.37

40 20.00 37.74 62.50

28 14.00 26.42 34.15

106 53.00

Total 54

27.00

64 32.00

82 41.00

200 100.00 Statistique DDL Valeur Prob Khi-2 2 20.5609 <.0001 Test du rapport de vraisemblance 2 20.9392 <.0001 Khi-2 de Mantel-Haenszel 1 18.6602 <.0001

Coefficient Phi 0.3206

Coefficient de contingence 0.3053

V de Cramer 0.3206

La valeur du 𝜒² observé est 20,5609 et la p-valeur est inférieure à 0,01% donc inférieur à 𝛼 = 5% d’où le rejet de l’hypothèse nulle 𝐻₀ avec un risque d’erreur de 5%. On peut alors affirmer que les femmes qui ont pris des contraceptifs oraux n’ont pas le même comportement vis-à-vis du tabac.

En effet, sur 100 femmes ayant pris des contraceptifs oraux, 35,85% sont des ex-fumeuses, 37,74% sont des fumeuses et 26,42% sont des non fumeuses.

Par contre, sur 100 femmes qui ne prennent pas de contraceptifs oraux, 17,02% sont des ex-fumeuses, 25,53% sont des fumeuses et 57,45% sont des non fumeuses alors que dans l’échantillon il y a 27% d’ex- fumeuses, 32% de fumeuses et 41 de non fumeuses.

(12)

Il y a donc une « surreprésentation » des non fumeuses dans le sous-échantillon des femmes n’ayant jamais pris de contraceptifs oraux par contre, dans le sous-échantillon des femmes ayant déjà pris des contraceptifs oraux les fumeuses et les ex-fumeuses sont plus représentées que les non fumeuses.

Autrement dit, les femmes qui ont déjà pris des contraceptifs oraux ont tendance à être plus facilement des fumeuses qui les femmes qui n’en ont jamais pris.

b) La prescription de contraceptifs oraux a-t-elle évoluée dans le temps ?

Nous utilisons la procédure proc glm plutôt qu’une procédure anova car celle-ci, en plus d’être plus récente, c’est un modèle plus généralisé que la procédure anova. Nous utiliserons cette procédure glm pour la suite de ce projet.

Nous posons le modèle 𝑎𝑔𝑒 = 𝑐𝑜𝑛𝑡 pour tirer une évolution de la prescription de contraceptifs oraux au cours du temps.

{𝐻₀∶ 𝛽_𝑜𝑢𝑖 = 𝛽_𝑛𝑜𝑛 𝐻₁∶ 𝛽_𝑜𝑢𝑖 ≠ 𝛽_𝑛𝑜𝑛

L’hypothèse nulle est telle que dans le modèle, le coefficient des personne prenant des contraceptifs oraux est le même que les personnes n’en ayant jamais pris, c'est-à-dire que la prescription des contraceptifs n’a pas évolué dans le temps contre l’alternative où le coefficient n’est pas le même.

La procédure proc glm de SAS nous donne les sorties suivantes : Source DDL Somme des

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 5289.19488 5289.19488 21.70 <.0001

Error 198 48256.20012 243.71818 Corrected Total 199 53545.39500

Source DDL Type III SS Carré moyen Valeur F 𝑷𝒓 > 𝑭 𝒄𝒐𝒏𝒕 1 5289.194880 5289.194880 21.70 <.0001

La statistique de test observée est égale à 21,70 et la p-valeur associée est inférieure 0,01% donc on rejette l’hypothèse 𝐻0 avec un risque de 5%.

La prescription de contraceptifs oraux a significativement évolué dans le temps. Regardons alors les boîtes à moustaches données par les sorties SAS afin d’en tirer plus de liens.

(13)

Nous pouvons comparer les moyennes des personnes ayant répondu « Oui » et les personnes ayant

« Non » à la question de la prise de contraceptifs oraux. Nous constatons que les femmes ayant déjà pris des contraceptifs oraux sont en moyenne plus jeunes que les femmes n’en ayant jamais pris.

Nous pouvons donc en déduire que la prescription de contraceptifs oraux a augmenté au cours du temps, les femmes sont plus nombreuses à prendre des contraceptifs oraux en 2003 qu’auparavant.

6) Liaison entre corpulence et les autres variables

a) Devient-on plus corpulent quand on vieillit ?

L’étude entre les deux variables quantitatives (𝑎𝑔𝑒 et 𝑖𝑚𝑐) nous conduit à effectuer un test sur le coefficient de corrélation linéaire. Nous utilisons la procédure proc corr de SAS.

Nous posons l’hypothèse nulle où le coefficient de corrélation linéaire entre la variable 𝑖𝑚𝑐 et 𝑎𝑔𝑒 est nul (il n’y a pas de corrélation linéaire) contre l’alternative où il y a une corrélation significativement non nulle.

{𝐻0∶ 𝜌(𝑖𝑚𝑐 , 𝑎𝑔𝑒) = 0 𝐻₁∶ 𝜌(𝑖𝑚𝑐 , 𝑎𝑔𝑒) ≠ 0

Le coefficient de corrélation linéaire se trouve à l’aide du calcul suivant : 𝜌 = cov(𝑖𝑚𝑐 , 𝑎𝑔𝑒)

√𝑉(𝑖𝑚𝑐)𝑉(𝑎𝑔𝑒)

A l’aide de la procédure proc corr de SAS nous obtenons les sorties suivantes : Statistiques simples

Variable 𝑵 Moyenne Ecart-type Somme Minimum Maximum 𝒊𝒎𝒄 200 25.22414 7.06644 5045 14.47305 44.88889 𝒂𝒈𝒆 200 44.80500 16.40342 8961 15.00000 90.00000

20 40 60 80

age

Non Oui

cont Distribution de age

20 40 60 80

age

Non Oui

cont

<.0001 Prob > F

21.70 F

Distribution de age

(14)

Coefficients de corrélation de Pearson, 𝑵 = 𝟐𝟎𝟎 Proba > |𝒓| sous 𝑯_𝟎: 𝝆 = 𝟎

𝒊𝒎𝒄 𝒂𝒈𝒆

𝒊𝒎𝒄 1.00000 0.15855

0.0249

𝒂𝒈𝒆 0.15855

0.0249

1.00000

Nous obtenons un coefficient de corrélation linéaire égal à 0,15855 et une p-valeur égale à 0,0249 < 𝛼 = 0,05. Nous rejetons par conséquent 𝐻₀ au risque 5%.

Cela signifie qu’il y a une corrélation entre 𝑖𝑚𝑐 et 𝑎𝑔𝑒 avec un risque d’erreur de 5%. De plus, le coefficient 𝜌 est positif on peut donc conclure que l’on devient plus corpulent quand on vieillit.

b) Même question mais avec la corpulence en classes.

Nous allons utiliser une procédure proc glm de SAS. Nous utilisons le modèle 𝑎𝑔𝑒 = 𝑖𝑚𝑐𝑐 et nous posons l’hypothèse nulle 𝛽_{𝑚𝑎𝑖𝑔𝑟𝑒} = 𝛽_{𝑐𝑜𝑟𝑝𝑛𝑜}= 𝛽_{𝑠𝑢𝑝𝑜𝑖𝑑}= 𝛽_{𝑜𝑏𝑒𝑠𝑖𝑡} où il n’y a pas d’effet des classes contre l’alternative 𝐻₁: ∃𝑖, 𝑗 tels que 𝛽_𝑖 ≠ 𝛽_𝑗.

La statistique de Fisher est donnée par : 𝐹 =

𝑆𝐶𝐸 𝐼 − 1

𝑆𝐶𝑅 𝑁 − 𝐼

= 𝑆𝐶𝐸

3 𝑆𝐶𝑅 196

𝐻~₀ℱ(3 ; 196)

Grâce à la procédure proc glm de SAS, nous obtenons les sorties suivantes : Source DDL Somme des

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭

Model 3 2070.63580 690.21193 2.63 0.0515

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒎𝒄𝒄 3 2070.635804 690.211935 2.63 0.0515

Le Fisher observé vaut 2,63 et la p-valeur est égale à 0,0515 > 𝛼 = 0,05. Nous ne rejetons donc pas 𝐻0

avec un risque de 5%. Nous ne pouvons alors pas conclure d’une différence significative entre des coefficients 𝛽 du modèle.

De plus, en regardant les boites à moustaches données par les sorties SAS (situées page 30) nous constatons que l’âge moyen dans les 4 classes est sensiblement égal.

c) Y a-t-il un lien entre la corpulence et le statut tabagique ? Si oui, pousser plus loin

Nous allons utiliser une procédure proc glm de SAS pour étudier le lien entre la variable quantitative et qualitative. Nous utilisons le modèle 𝑖𝑚𝑐 = 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et nous posons l’hypothèses nulle 𝛽_{𝑓𝑢𝑚𝑒𝑢𝑠𝑒} = 𝛽_{𝑒𝑥 𝑓𝑢𝑚𝑒𝑢𝑠𝑒} = 𝛽𝑛𝑜𝑛 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 contre l’alternative 𝐻₁∶ ∃𝑖, 𝑗 tels que 𝛽_𝑖 ≠ 𝛽_𝑗.

La procédure proc glm de SAS nous donne :

(15)

Source DDL Somme des

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 2 545.806335 272.903168 5.72 0.0038

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 2 545.8063352 272.9031676 5.72 0.0038

La valeur du Fisher observé est égale à 5,72 et la p-valeur à 0,0038 < 𝛼 = 5% donc on rejette 𝐻₀. Il y a un lien significatif entre la corpulence et le statut tabagique.

A l’aide des boîtes à moustaches (situées page 31) nous constatons que l’IMC des ex-fumeuses est supérieur à celui des non fumeuse qui est lui-même sensiblement égal à celui des fumeuses.

On peut donc en déduire que les ex-fumeuses ont un IMC moyen supérieur aux autres femmes.

d) La corpulence favorise-t-elle l’hypertension artérielle ?

Comme pour les questions précédentes, nous allons utiliser une procédure proc glm de SAS. Nous utilisons le modèle 𝑖𝑚𝑐 = ℎ𝑡𝑎𝑏 et nous posons l’hypothèse nulle 𝐻0∶ 𝛽𝑂𝑢𝑖 = 𝛽𝑁𝑜𝑛 pour laquelle il n’y a pas d’effet contre l’alternative 𝐻₁∶ 𝛽_𝑂𝑢𝑖 ≠ 𝛽_𝑁𝑜𝑛.

A l’aide de SAS, nous obtenons les sorties suivantes : Source DDL Somme des

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 366.582576 366.582576 7.58 0.0064

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒉𝒕𝒂𝒃 1 366.5825763 366.5825763 7.58 0.0064

La statistique de Fisher observée est égale à 7,58 et la p-valeur associée à 0,0064. Elle est inférieure à 𝛼 = 5% donc on rejette 𝐻₀ avec un risque d’erreur de 5%. Il y a donc un lien significatif entre la corpulence et l’hypertension artérielle.

Grâce aux boites à moustaches (situées en annexes page 31) nous constatons que les femmes ayant eu de l’hypertension artérielle ont un IMC moyen supérieur aux femmes n’en ayant jamais eu. Ceci se vérifie avec la moyenne mais aussi les différentes quartiles (𝑄1, 𝑄2 et 𝑄3) qui sont supérieurs pour les femmes avec des problèmes d’hypertension.

Ainsi, nous pouvons conclure que la corpulence favorise significativement l’hypertension artérielle.

7) Liaison entre les autres variables

a) Le comportement tabagique dépend-il de l’âge ? Si oui, pousser plus loin

Nous allons effectuer comme précédemment une analyse de la covariance à l’aide de la procédure proc glm de SAS. Nous utilisons le modèle 𝑎𝑔𝑒 = 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et nous posons les hypothèses suivantes :

{𝐻₀∶ 𝛽_{𝐹𝑢𝑚𝑒𝑢𝑠𝑒}= 𝛽𝑁𝑜𝑛 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 = 𝛽_{𝐸𝑥 𝑓𝑢𝑚𝑒𝑢𝑠𝑒} 𝐻1∶ ∃𝑖, 𝑗 tels que 𝛽𝑖 ≠ 𝛽𝑗

(16)

Avec la statistique 𝐹 =

𝑆𝐶𝐹 2 𝑆𝐶𝑅 197

𝐻~₀ℱ(2 , 197) comme définie précédemment, nous obtenons les sorties SAS suivantes :

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 2 5035.87054 2517.93527 10.23 <.0001

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 2 5035.870539 2517.935270 10.23 <.0001

Le Fisher observé est égal à 10,23 et la p-valeur associée est inférieure à 0,0001 donc inférieure à 5%.

Nous rejetons ainsi 𝐻₀ avec un risque de 5%. Nous pouvons alors conclure à une dépendance significative entre l’âge et le comportement tabagique. Poussons cette analyse à l’aide de comparaisons de moyennes entre les différentes classes.

Nous utilisons la procédure proc ttest de SAS pour effectuer une comparaison de moyennes entre les fumeuses et le non fumeuses, les fumeuses et les ex-fumeuses et entre les non fumeuses et les ex- fumeuses.

Pour effectuer la comparaison de moyennes, nous créons 3 nouvelles variables tirées de la variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 qui nous servirons à effectuer ces tests. Nous créons la variable 𝑓𝑢𝑛𝑜𝑛𝑓𝑢 pour tester les moyennes entre les fumeuses et le non fumeuses, la variable 𝑓𝑢𝑒𝑥𝑓𝑢 pour comparer entre les fumeuses et les ex-fumeuses et la variable 𝑛𝑜𝑛𝑓𝑢𝑒𝑥𝑓𝑢 pour la comparaison entre les non fumeuses et les ex- fumeuses.

1. Comparaison entre fumeuses et non fumeuses :

Nous utilisons la procédure proc ttest de SAS et nous formulons les hypothèses : {𝐻₀∶ µ_𝐹= µ_𝑁𝐹

𝐻₁∶ µ_𝐹≠ µ_𝑁𝐹

Pour effectuer une comparaison entre moyennes, nous devons tout d’abord effectuer un test d’égalité des variances. Nous posons alors les hypothèses :

{𝐻₀∶ 𝜎_𝐹² = 𝜎_𝑁𝐹² 𝐻₁∶ 𝜎_𝐹² ≠ 𝜎_𝑁𝐹² La statistique de test est :

𝐹 =𝜎_𝑁𝐹² 𝜎_𝐹² ~

𝐻₀ℱ(81 , 63) La procédure proc ttest de SAS nous donne la sortie de ce test :

𝒇𝒖𝒏𝒐𝒏𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum fu 64 43.4219 14.0800 1.7600 19.0000 83.0000 no 82 50.3049 19.0792 2.1069 16.0000 90.0000 Diff (1-2) -6.8830 17.0732 2.8477

Egalité des variances

Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭

Folded 𝑭 81 63 1.84 0.0128

(17)

Ainsi, le Fisher observé est égal à 1,84 et la p-valeur vaut 0,0128 d’où le rejet de l’hypothèse nulle 𝐻₀ avec un risque de 5%. Les variances sont donc significativement différentes.

Nous utilisons alors le test de Satterthwaite pour la comparaison des moyennes : Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|

Pooled Equal 144 -2.42 0.0169

Satterthwaite Unequal 143.59 -2.51 0.0133

La valeur absolue du test 𝑡 vaut 2,51 et la p-valeur est inférieure à 0,05 donc nous rejetons 𝐻₀, les moyennes d’âge entre les fumeuses et les non fumeuses sont significativement différentes avec un risque de 5%.

D’après les données, nous constatons que les fumeuses ont tendance à être plus jeunes que les non fumeuses.

2. Comparaison entre fumeuses et ex fumeuses :

Pour effectuer ce test, nous formulons les hypothèses suivantes : {𝐻₀∶ µ_𝐹= µ_𝐸𝐹

𝐻₁∶ µ_𝐹 ≠ µ_𝐸𝐹

Comme précédemment, nous devons d’abord effectuer un test d’homogénéité des variances avec les hypothèses :

{𝐻₀∶ 𝜎_𝐹²= 𝜎_𝐸𝐹² 𝐻₁ ∶ 𝜎_𝐹²≠ 𝜎_𝐸𝐹² Les sorties de SAS nous donnent :

𝒇𝒖𝒆𝒙𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum ex 54 38.0926 11.1037 1.5110 15.0000 60.0000 fu 64 43.4219 14.0800 1.7600 19.0000 83.0000 Diff (1-2) -5.3293 12.8063 2.3663

Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭

Folded 𝑭 63 53 1.61 0.0773

Nous obtenons donc une p-valeur égale à 0,0773 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻0 ce qui signifie que nous ne pouvons pas affirmer que les variances sont significativement différentes avec un risque de 5%. Nous utilisons alors la ligne « Pooled » pour effectuer la comparaison de moyennes.

Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|

Pooled Equal 116 -2.25 0.0262

Satterthwaite Unequal 115.51 -2.30 0.0234

Nous voyons alors que la p-valeur associée à ce test est inférieure à 5% donc nous rejetons l’hypothèses d’égalité des moyennes entre les fumeuses et les ex-fumeuses. Nous constatons d’après les données que les ex-fumeuses sont en moyenne plus jeunes que les fumeuses (38 ans contre 43 ans).

3. Comparaison entre non fumeuses et ex fumeuses : Pour effectuer ce test, nous utilisons les hypothèses suivantes :

(18)

{𝐻₀∶ µ_𝑁𝐹= µ_𝐸𝐹 𝐻₁∶ µ_𝑁𝐹≠ µ_𝐸𝐹 Effectuons le test sur la variance avec les hypothèses :

{𝐻₀∶ 𝜎_𝑁𝐹² = 𝜎_𝐸𝐹² 𝐻₁∶ 𝜎_𝑁𝐹² ≠ 𝜎_𝐸𝐹² Le logiciel SAS nous donne :

𝒏𝒐𝒏𝒇𝒖𝒆𝒙𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum exfu 54 38.0926 11.1037 1.5110 15.0000 60.0000 nonfu 82 50.3049 19.0792 2.1069 16.0000 90.0000 Diff (1-2) -12.2123 16.3953 2.8733

Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭

Folded 𝑭 81 53 2.95 <.0001

Avec une p-valeur inférieure à 0,0001 nous trouvons que les variances sont significativement différentes, d’où l’utilisation du test de Satterthwaite :

Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|

Pooled Equal 134 -4.25 <.0001

Satterthwaite Unequal 132.27 -4.71 <.0001

Ainsi, la p-valeur étant à nouveau inférieure à 0,0001, nous rejetons 𝐻₀ où les moyennes sont égales.

L’âge moyen des ex-fumeuses est donc significativement différent (inférieur) à l’âge moyen des non fumeuses.

D’après ces trois tests de comparaisons de moyennes, nous trouvons que les moyennes sont systématiquement significativement différentes. Les non fumeuses sont alors plus âgées que les fumeuses sui sont elles-mêmes plus âgées que les ex-fumeuses.

b) L’hypertension artérielle est-elle une pathologie qui augmente avec l’âge ?

Pour établir un lien entre la variable quantitative 𝑎𝑔𝑒 et la variable qualitative ℎ𝑡𝑎𝑏 nous utilisons la procédure proc glm avec pour modèle 𝑎𝑔𝑒 = ℎ𝑡𝑎𝑏 et pour hypothèses :

{𝐻₀∶ 𝛽_𝑂𝑢𝑖 = 𝛽_𝑁𝑜𝑛 𝐻₁∶ 𝛽_𝑂𝑢𝑖 ≠ 𝛽_𝑁𝑜𝑛 La statistique de test est :

𝐹 = 𝑆𝐶𝐹 𝐼 − 1

𝑆𝐶𝑅 𝑛 − 𝐼

H~₀ℱ(1 , 198)

Nous obtenons les sorties suivantes :

carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 8073.84250 8073.84250 35.16 <.0001

(19)

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒉𝒕𝒂𝒃 1 8073.842499 8073.842499 35.16 <.0001

Le Fisher observé est inférieur à 0,01% donc à 𝛼 = 5%, nous rejetons alors l’hypothèse nulle 𝐻₀.

En observant la box-plot (située en annexe page 32) nous constatons que les personnes ayant eu des problèmes d’hypertension artérielle sont en moyenne plus âgés que les personnes n’en ayant jamais eu.

L’hypertension artérielle est donc une pathologie qui augmente significativement avec l’âge.

c) Quelle relation peut-on mettre en évidence entre l’hypertension artérielle et le tabac ?

Pour mettre en évidence une relation entre ces deux variables qualitatives, nous utilisons un test d’indépendance du 𝜒² à l’aide de la procédure proc freq de SAS.

Nous posons l’hypothèse nulle où les variables 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et ℎ𝑡𝑎𝑏 sont indépendantes contre l’hypothèse alternative où elles sont liées.

La statistique de test est :

𝐷² = ∑ ∑(𝑛_𝑖𝑗−𝑛_𝑖∙× 𝑛_∙𝑗

𝑛 )

2

𝑛_𝑖∙× 𝑛_∙𝑗 𝑛

2

𝑗=1 3

𝑖=1

𝐻~₀𝜒₂² Les tables de sorties sont alors :

Table de 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 par 𝒉𝒕𝒂𝒃

𝒕𝒂𝒃𝒂𝒄𝒄𝒐 𝒉𝒕𝒂𝒃

Fréquence Attendu Pourcentage Pctage en ligne

Pctage en col.

Non Oui Total

Ex fumeuse

36 31.86 18.00 66.67 30.51

18 22.14

9.00 33.33 21.95

54 27.00

Fumeuse

40 37.76 20.00 62.50 33.90

24 26.24 12.00 37.50 29.27

64 32.00

Non fumeuse

42 48.38 21.00 51.22 35.59

40 33.62 20.00 48.78 48.78

82 41.00

Total 118

59.00 82 41.00

200 100.00

Statistique DDL Valeur Prob

Khi-2 2 3.6883 0.1582

Test du rapport de vraisemblance 2 3.6924 0.1578 Khi-2 de Mantel-Haenszel 1 3.4465 0.0634

(20)

Statistique DDL Valeur Prob

Nous voyons d’abord que les conditions de validités sont vérifiées, les effectifs attendus sont tous supérieurs à 5 (en bleu sur la deuxième ligne de chaque cellule du premier tableau), nous pouvons donc effectuer le test.

La valeur du 𝜒² observé est de 0,1582 que l’on compare avec un 𝜒_{2 ;0,05}² , de plus la p-valeur est égale à 0,1582 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻0. Nous ne pouvons alors pas dire qu’il y a une liaison significative entre les deux variables.

8) Effet des variables sur le risque d’infarctus du myocarde

a) La prise de contraceptif oraux augmente-t-elle le risque d’infarctus ?

Pour étudier le lien entre les variables qualitative nous allons effectuer un test d’indépendance du 𝜒² à l’aide de la proc freq de SAS. L’hypothèse nulle associée à ce test est 𝐻₀ : les variables 𝑐𝑜𝑛𝑡 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 sont indépendantes contre l’alternative 𝐻₁ : les variables sont liées.

𝐷² = ∑ ∑(𝑛_𝑖𝑗−𝑛_𝑖∙× 𝑛_∙𝑗

𝑛 )

2

𝑗=1 2

𝑖=1

𝐻~₀𝜒₁²

Nous utilisons la statistique de test définie dans la question précédente. Le logiciel nous donne les sorties suivantes :

Table de 𝒄𝒐𝒏𝒕 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

𝒄𝒐𝒏𝒕 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

Pctage en col.

Cas Tem Total

Non

26 47 13.00 27.66 26.00

68 47 34.00 72.34 68.00

94 47.00

Oui

74 53 37.00 69.81 74.00

32 53 16.00 30.19 32.00

106 53.00

Total 100 50.00

100 50.00

200 100.00

(21)

Statistique DDL Valeur Prob

Khi-2 1 35.4075 <.0001

Test du rapport de vraisemblance 1 36.5532 <.0001 Khi-2 continuité ajustée 1 33.7415 <.0001 Khi-2 de Mantel-Haenszel 1 35.2304 <.0001

Coefficient Phi -0.4208

V de Cramer -0.4208

Les conditions de validités du test sont vérifiées, les effectifs attendus sont tous supérieurs à 5. Nous observons alors une p-valeur associée est inférieure à 0,01% et donc à 𝛼 = 5%, ainsi nous rejetons l’hypothèses 𝐻0 donc les variables 𝑐𝑜𝑛𝑡 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 sont significativement liées.

En poussant notre analyse, nous voyons que parmi les ‘cas’ il y a une « surreprésentation » des femmes ayant déjà pris des contraceptifs oraux et parmi les ‘témoins’ les femmes n’ayant jamais pris de contraceptifs oraux sont « surreprésentées ».

Nous pouvons donc conclure à un lien significatif de la prise de contraceptifs oraux sur la survenue d’un cancer du myocarde.

b) Quel lien peut-on mettre en évidence entre le tabac et la survenue d’un infarctus ?

Comme pour la question précédente, nous effectuons un test du 𝜒² d’indépendance pour les deux variables qualitatives. Les hypothèses sont {𝐻0∶ 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 ⊥ 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠

𝐻₁ ∶elles sont liées La statistique de test est :

𝐷² = ∑ ∑(𝑛_𝑖𝑗−𝑛_𝑖∙× 𝑛_∙𝑗

𝑛 )

2

𝑗=1 3

𝑖=1

𝐻~₀𝜒₂² Nous obtenons les sorties suivantes :

Table de 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 Fréquence

Attendu Pourcentage Pctage en ligne

Ex fumeuse

37 27 18.50 68.52

17 27 8.50 31.48

54 27.00

Fumeuse

42 32 21.00 65.63

22 32 11.00 34.38

64 32.00

Non fumeuse

21 41 10.50 25.61

61 41 30.50 74.39

82 41.00

Total 100

50.00

100 50.00

200 100.00

(22)

Khi-2 2 33.1696 <.0001

Test du rapport de vraisemblance 2 34.3135 <.0001 Khi-2 de Mantel-Haenszel 1 27.1199 <.0001

Les conditions de validités du test sont vérifiées et la valeur du 𝜒² observé est 33,1696 avec une p-valeur inférieure à 5% donc nous rejetons l’hypothèse nulle d’indépendance des variables. De plus, nous remarquons une « surreprésentation » des fumeuses et des ex-fumeuses dans les ’cas’ et des non fumeuses dans les ‘témoins’.

Nous pouvons donc mettre en évidence une augmentation significative de la survenue d’un infarctus du myocarde chez les femmes ayant déjà goûté à la cigarette.

c) La corpulence (variable 𝑖𝑚𝑐) augmente-t-elle le risque d’infarctus ?

Nous utilisons la procédure proc glm pour étudier le lien entre la variable quantitative 𝑖𝑚𝑐 et la variable qualitative 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠. Les hypothèses sont :

{𝐻0∶ 𝛽𝑂𝑢𝑖 = 𝛽𝑁𝑜𝑛

𝐻₁∶ 𝛽_𝑂𝑢𝑖 ≠ 𝛽_𝑁𝑜𝑛 La statistique de test est :

𝐹 = 𝑆𝐶𝐹 𝐼 − 1

H~₀ℱ(1 , 198) Avec la procédure de SAS nous obtenons :

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 1 402.9440831 402.9440831 8.37 0.0042

La p-valeur associée à ce test vaut 0,0042 < 𝛼 = 0,05 alors nous rejetons l’hypothèse nulle 𝐻0. Il y a donc un effet significatif de l’IMC sur la survenue d’un infarctus.

Nous voyons dans les boîtes à moustaches (en annexes page 32) que l’IMC moyen des ‘cas’ est supérieur à celui des ‘témoins’. Nous pouvons donc dire que la corpulence augmente significativement le risque d’infarctus du myocarde.

d) Les femmes qui ont eu de l’hypertension sont-elles plus à risque pour un infarctus ?

Pour étudier ces deux variables qualitatives, nous effectuons un test d’indépendance du 𝜒² à l’aide de la procédure proc freq de SAS. L’hypothèse nulle posée est l’indépendance des variables ℎ𝑡𝑎𝑏 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 contre l’alternative 𝐻₁ d’un lien entre elles.

La statistique de test est donc :

𝐷² = ∑ ∑(𝑛_𝑖𝑗−𝑛_𝑖∙× 𝑛_∙𝑗

𝑛 )

2

𝑗=1 2

𝑖=1

𝐻~₀𝜒₁²

(23)

Table de 𝒉𝒕𝒂𝒃 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

𝒉𝒕𝒂𝒃 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

Pctage en col.

Non

55 59 27.50 46.61 55.00

63 59 31.50 53.39 63.00

118 59.00

Oui

45 41 22.50 54.88 45.00

37 41 18.50 45.12 37.00

82 41.00

Total 100

50.00

100 50.00

200 100.00

Khi-2 1 1.3229 0.2501

Test du rapport de vraisemblance 1 1.3245 0.2498 Khi-2 continuité ajustée 1 1.0128 0.3142 Khi-2 de Mantel-Haenszel 1 1.3162 0.2513

V de Cramer -0.0813

Nous avons les conditions de validités vérifiées ainsi qu’une p-valeur égale à 0,2501 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻₀. L’intuition pouvait être donnée car les effectifs attendus sont sensiblement égaux aux effectifs réels. On ne pas alors pas dire qu’il y a un lien significatif entre les deux variables.

e) Reprise des deux dernières questions avec les femmes avec un échantillon réduit

Pour répondre à cette question, nous devons constituer la nouvelle variable 𝑓𝑢𝑐𝑜 pour laquelle nous gardons les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux. Dans une nouvelle base de données, nous supprimons alors les autres données.

1. Reprise de la question c)

A partir de la nouvelle base de données, nous effectuons une procédure proc glm pour analyser le lien entre la variable 𝑖𝑚𝑐 et la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 pour cette population réduite.

Nous posons alors les hypothèses suivantes :

{𝐻0∶ 𝛾𝑜𝑢𝑖= 𝛾𝑛𝑜𝑛

𝐻₁∶ 𝛾_𝑜𝑢𝑖 ≠ 𝛾_𝑛𝑜𝑛 La statistique de test est alors

𝐹 = 𝑆𝐶𝐹 𝐼 − 1

H~₀ℱ(1 , 76)

(24)

Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 1 356.7780783 356.7780783 6.77 0.0111

Nous obtenons une statistique observée égale à 6,77 et une p-valeur égale à 1,11%. Elle est inférieure à 𝛼 = 5% donc nous rejetons l’hypothèses nulle 𝐻₀.

De plus, sur la représentation graphique (placée en annexes page 33), nous constatons que l’IMC moyen des ‘témoins’ est très inférieur à celui des ‘cas’.

La corpulence augmente donc significativement le risque d’infarctus chez les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux.

2. Reprise de la question d)

Nous effectuons un test du 𝜒² d’indépendance sur ce sous-échantillon à l’aide de la procédure proc freq de SAS. Nous posons l’hypothèse nulle que la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 est indépendante à la variable ℎ𝑡𝑎𝑏 contre l’alternative qu’elles sont liées.

𝐷² = ∑ ∑(𝑛_𝑖𝑗−𝑛_𝑖∙× 𝑛_∙𝑗

𝑛 )

2

𝑗=1 2

𝑖=1

𝐻~₀𝜒₁² Nous obtenons les résultats suivants :

Table de 𝒉𝒕𝒂𝒃 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

𝒉𝒕𝒂𝒃 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔

Pctage en col.

Cas Temoins Total

Non

37 39.577

47.44 75.51 58.73

12 9.4231

15.38 24.49 80.00

49 62.82

Oui

26 23.423

33.33 89.66 41.27

3 5.5769

3.85 10.34 20.00

29 37.18

Total 63

80.77

15 19.23

78 100.00

(25)

Khi-2 1 2.3467 0.1255

Test du rapport de vraisemblance 1 2.5269 0.1119 Khi-2 continuité ajustée 1 1.5244 0.2170 Khi-2 de Mantel-Haenszel 1 2.3166 0.1280

V de Cramer -0.1735

Les conditions de validités du test sont vérifiées. Nous obtenons alors un p-valeur égale à 12,55% qui est supérieure à 𝛼 = 5%. Nous ne rejetons donc pas 𝐻0 ce qui signifie que nous ne pouvons pas dire qu’il y a un lien significatif entre l’hypertension artérielle et le risque d’infarctus chez les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux.

9) Conclusion de l’étude

Résumons nos résultats à l’aide du tableau suivant :

* Si l’on compare l’année de l’étude avec les années antérieures, on peut constater que les contraceptifs oraux se prennent de plus en plus tôt. On peut donc conclure à un lien indirect entre l’âge et la prise de contraceptifs oraux.

** On peut dire que l’âge est lié indirectement au risque d’avoir un infarctus du myocarde car plus l’âge augmente, plus la corpulence augmente et il se trouve qu’une forte corpulence augmente le risque d’infarctus.

Nous avons donc trouvé les liens entre les variables explicatives.

En effet, nous avons pu voir que les femmes ayant déjà pris des contraceptifs oraux ont plus facilement tendance à être fumeuses, sans pour autant qu’elles aient le même comportement vis-à-vis de l’un ou de l’autre. De plus, nous avons appris que la prise de contraceptif était une pratique plus courante en 2003 qu’auparavant.

𝑐𝑜𝑛𝑡 Fumeuses Ex-fumeuses Non fumeuses IMC 𝑎𝑔𝑒 ℎ𝑡𝑎𝑏 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠

𝑐𝑜𝑛𝑡 + 0 0 0 * 0 +

Fumeuses + 0 0 0 + 0 +

Ex-fumeuses 0 0 0 + + 0 +

Non fumeuses 0 0 0 0 + 0 0

IMC 0 0 + 0 + + +

𝑎𝑔𝑒 * + + + + + **

ℎ𝑡𝑎𝑏 0 0 0 0 + + 0

𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 + + + 0 + ** 0

(26)

En ce qui concerne la corpulence, nous avons constaté qu’elle augmente avec l’âge ainsi qu’avec le fait d’arrêter de fumer. De plus, plus la corpulence est grande, plus le risque d’hypertension artérielle est important.

L’hypertension augmente elle aussi avec l’âge, mais elle ne semble pas être liée directement au tabagisme.

Nous avons pu remarquer également que les ex-fumeuses sont plus jeunes que les fumeuses, qui sont elles-mêmes plus jeunes que les non-fumeuses.

Tout ceci nous montre que nos variables explicatives ont toutes des liens plus ou moins explicites entre elles, ce qui signifie que certaines pratiques peuvent avoir un impact indirect sur la santé.

Mais rappelons que notre but premier était ici d’identifier les facteurs qui augmentent le risque de survenue d’un infarctus parmi ceux présents dans nos données.

Nous avons pu constater que la prise de contraceptifs oraux, le tabagisme (qu’il soit présent ou passé) ainsi que la corpulence augmentent significativement le risque d’infarctus du myocarde. Nous avons également pu remarquer que, en revanche, il n’y avait pas de lien significatif entre l’hypertension et ce risque.

(27)

Annexes

Représentations graphiques

3. Etude descriptive 1. Variables qualitatives

Graphiques des variables qualitatives

FREQUENCY

0 10 20 30 40 50 60 70 80 90 100

infarctus Cas Tem

FREQUENCY

0 10 20 30 40 50 60 70 80 90 100 110

cont Non Oui

(28)

FREQUENCY

0 10 20 30 40 50 60 70 80 90

tabacco

Ex fumeuse Fumeuse Non fumeuse

FREQUENCY

0 10 20 30 40 50 60 70 80 90 100 110 120

htab Non Oui

(29)

Florian FELICE ; Tiara MASBOU 28/38 Retour page 4

2. Variables quantitatives

FREQUENCY

0 10 20 30 40 50 60 70

imcc

Corpno Maigre Obesit Surpoi

Distribution et Courbe de probabilité pour age

20 40 60 80

age

0 10 20 30 40

Count 16

24 32 40 48 56 64 72 80 88

age