Florian FELICE ; Tiara MASBOU Binôme n°7
L3 – Economie 02/05/2016
Projet en statistiques
SOMMAIRE
SOMMAIRE ... 1
1) Faire une introduction en décrivant la population concernée par l’étude et préciser les variables étudiées et le but de l’étude ... 3
1. Les variables qualitatives ... 3
2. Les variables quantitatives ... 3
2) Création de nouvelle variables et recodage de variables ... 3
a) Créer la variable 𝑖𝑚𝑐 quantitative ... 3
b) Créer la variable 𝑖𝑚𝑐𝑐 (IMC en 4 classes) ... 3
c) Recoder les variables 𝑐𝑜 et ℎ𝑡𝑎 ... 4
d) Recoder la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 ... 4
e) Recoder la variable 𝑡𝑎𝑏𝑎𝑐 avec ses intitulés ... 4
3) Etude descriptive ... 4
1. Les variables qualitatives ... 4
2. Les variables quantitatives ... 6
3. Tests de normalité ... 6
4) Comparaison de la population avec une population de référence ... 8
a) Peut-on considérer que l’échantillon est représentatif en termes de taille ?... 8
b) Même question en ce qui concerne le poids. ... 8
c) Peut-on considérer que l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003 ? ... 9
5) Liaison entre contraceptifs oraux et les autres variables ... 10
a) Les femmes avec contraceptifs ont elles le même comportement vis-à-vis du tabac ? ... 10
b) La prescription de contraceptifs oraux a-t-elle évoluée dans le temps ?... 11
6) Liaison entre corpulence et les autres variables... 12
a) Devient-on plus corpulent quand on vieillit ? ... 12
b) Même question mais avec la corpulence en classes. ... 13
c) Y a-t-il un lien entre la corpulence et le statut tabagique ? Si oui, pousser plus loin ... 13
d) La corpulence favorise-t-elle l’hypertension artérielle ? ... 14
7) Liaison entre les autres variables ... 14
a) Le comportement tabagique dépend-il de l’âge ? Si oui, pousser plus loin ... 14
b) L’hypertension artérielle est-elle une pathologie qui augmente avec l’âge ? ... 17
c) Quelle relation peut-on mettre en évidence entre l’hypertension artérielle et le tabac ? ... 18
8) Effet des variables sur le risque d’infarctus du myocarde ... 19
a) La prise de contraceptif oraux augmente-t-elle le risque d’infarctus ? ... 19
b) Quel lien peut-on mettre en évidence entre le tabac et la survenue d’un infarctus ? ... 20
c) La corpulence (variable 𝑖𝑚𝑐) augmente-t-elle le risque d’infarctus ? ... 21
d) Les femmes qui ont eu de l’hypertension sont-elles plus à risque pour un infarctus ? ... 21
e) Reprise des deux dernières questions avec les femmes avec un échantillon réduit ... 22
9) Conclusion de l’étude ... 24
Annexes ... 26
Représentations graphiques... 26
3. Etude descriptive ... 26
5. Liaison entre 𝒄𝒐𝒏𝒕 et les autres variables ... 30
6. Liaison entre la corpulence et les autres variables ... 30
7. Liaisons entre les autres variables ... 32
8. Effet de variables sur le risque d’infarctus du myocarde ... 32
Code ... 34 N.B. : Pour faciliter la navigation dans le document, des liens hypertextes sont mis en place entre les différents paragraphes et les annexes : il n’y a qu’à cliquer sur le numéro de la page en question.
1) Faire une introduction en décrivant la population concernée par l’étude et préciser les variables étudiées et le but de l’étude
En recherche clinique, des études d’observations sont effectuées pour étudier en quoi le risque d’exposition est un facteur de risque pour une maladie. Parmi ces études d’observation, il y a l’étude cas – témoins.
Dans notre projet, nous sommes en présence d’une étude cas – témoins dont l’objectif principal est de savoir si l’utilisation de contraceptifs oraux est un facteur de risque de survenue d’un infarctus du myocarde chez les femmes. Nous essaierons de voir si d’autres facteurs (tels que l’âge, la corpulence, etc…) jouent un rôle dans la survenue d’un infarctus du myocarde.
Pour cela, nous allons étudier un fichier de données composé de deux sous-échantillons indépendants : un sous-échantillon de 100 femmes ayant eu un infarctus du myocarde (les cas) et un deuxième sous- échantillon de 100 femmes n’ayant pas eu d’infarctus (les témoins).
Dans ces deux sous-échantillons nous distinguons deux types de variables : les variables qualitatives et les variables quantitatives.
1. Les variables qualitatives
- 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 0 si la personne fait partie des témoins et la valeur 1 si elle fait partie des cas.
- 𝑐𝑜 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 1 si la personne prend ou a pris des contraceptifs oraux et la valeur 0 si elle n’en a jamais pris.
- 𝑡𝑎𝑏𝑎𝑐 : C’est une variable qualitative nominale à 3 modalités. Elle prend la valeur 0 si la personne est non fumeuse, la valeur 1 si c’est une fumeuse actuelle et la valeur 2 si c’est une ancienne fumeuse.
- ℎ𝑡𝑎 : C’est une variable qualitative nominale booléenne. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur 1 si la personne souffre ou a souffert d’hypertension artérielle et la valeur 0 sinon.
2. Les variables quantitatives
- 𝑎𝑔𝑒 : C’est une variable quantitative discrète, mesurée en années.
- 𝑝𝑜𝑖𝑑𝑠 : C’est une variable quantitative continue, mesurée en kilogrammes.
- 𝑡𝑎𝑖𝑙𝑙𝑒 : C’est une variable quantitative continue, mesurée en centimètres.
2) Création de nouvelle variables et recodage de variables
a) Créer la variable 𝑖𝑚𝑐 quantitative
Pour créer la variable 𝑖𝑚𝑐 quantitative, nous devons créer la variable 𝑡𝑎𝑖𝑙𝑙𝑒𝑚 qui est une variable quantitative continue mesurée en mètre et qui est égale à 𝑡𝑎𝑖𝑙𝑙𝑒𝑚 = 𝑡𝑎𝑖𝑙𝑙𝑒 × 100
A parti de cette nouvelle variable, nous pouvons créer la variable 𝑖𝑚𝑐 à partir de la formule suivante : 𝑖𝑚𝑐 = 𝑝𝑜𝑖𝑑𝑠
𝑡𝑎𝑖𝑙𝑙𝑒𝑚2 b) Créer la variable 𝑖𝑚𝑐𝑐 (IMC en 4 classes)
Pour créer cette nouvelle variable, nous utilisons les intervalles donnés suivants :
𝑖𝑚𝑐 < 18,5 ⟹ maigreur
18,5 ≤ 𝑖𝑚𝑐 < 25 ⟹ corpulence normale
25 ≤ 𝑖𝑚𝑐 < 30 ⟹ surpoids
𝑖𝑚𝑐 ≥ 30 ⟹ obésité
Cette nouvelle variable 𝑖𝑚𝑐𝑐 est donc une variable qualitative ordinale à 4 modalités (maigreur, corpulence normale, surpoids et obésité).
c) Recoder les variables 𝑐𝑜 et ℎ𝑡𝑎
Une fois recodées, ces variables sont des variables qualitatives nominales booléennes à deux modalités
‘oui’ et ‘non’.
d) Recoder la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡
La variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 est une variable qualitative nominale à 2 modalités ‘Cas’ et ‘Temoin’.
e) Recoder la variable 𝑡𝑎𝑏𝑎𝑐 avec ses intitulés
La nouvelle variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 est une variable qualitative nominale à trois modalités ‘Non fumeuse’,
‘Fumeuse’ et ‘Ex fumeuse’.
3) Etude descriptive
Dans ces deux sous-échantillons nous distinguons deux types de variables : les variables qualitatives et les variables quantitatives.
1. Les variables qualitatives
Remarque : Les diagrammes en barres de ces variables seront placés en annexe page 26.
a. La variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠
Cette variable est une variable qualitative booléenne, elle correspond à la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡 recodée avec ses intitulés. C’est une variable indicatrice (dummy variable en anglais) prenant la valeur ‘Tem’ n’a jamais eu d’infarctus du myocarde et la valeur ‘Cas’ si elle a déjà un infarctus du myocarde.
A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 Fréquence Pourcentage Fréquence
cumulée
Pctage cumulé
Cas 100 50.00 100 50.00
Tem 100 50.00 200 100.00
Comme signalé dans l’énoncé du sujet, 100 femmes interrogées (soit 50%) ont été victimes d’un infarctus du myocarde, les cas, et 100 femmes (soit 50%) n’en ont jamais eu : les témoins.
b. La variable 𝑐𝑜𝑛𝑡
Cette variable est une variable qualitative nominale booléenne à 2 modalités : ‘Oui’ et ‘Non’
A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante :
𝒄𝒐𝒏𝒕 Fréquence Pourcentage Fréquence cumulée
Pctage cumulé
Non 94 47.00 94 47.00
Oui 106 53.00 200 100.00
Dans notre échantillon, 47% des femmes interrogées n’ont jamais pris de contraceptifs oraux et 53% en prennent ou en ont déjà pris.
c. La variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜
Cette variable est une variable qualitative nominale à 3 modalités : ‘Fumeuse’, ‘Ex fumeuse’ et ‘Non fumeuse’
A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 Fréquence Pourcentage Fréquence
cumulée
Pctage cumulé
Ex fumeuse 54 27.00 54 27.00
Fumeuse 64 32.00 118 59.00
Non fumeuse 82 41.00 200 100.00
Dans notre échantillon, 27% des femmes sont des anciennes fumeuses, 32% sont des fumeuses actuelles et 41% n’ont jamais fumé.
d. La variable ℎ𝑡𝑎𝑏
Cette variable est une variable qualitative nominale booléenne avec les modalités ‘Oui’ et ‘Non’.
A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒉𝒕𝒂𝒃 Fréquence Pourcentage Fréquence
cumulée
Pctage cumulé
Non 118 59.00 118 59.00
Oui 82 41.00 200 100.00
Dans l’échantillon, 59% des femmes interrogées n’ont jamais eu d’hypertension artérielle alors que 41%
en ont déjà eu.
e. La variable 𝑖𝑚𝑐𝑐
Cette variable est une variable qualitative nominale à 4 modalités : ‘Corpno’, ‘Maigre’, ‘Obesit’ et ‘Surpoi’.
A l’aide de la procédure proc freq de SAS, nous pouvons effectuer l’analyse de la distribution suivante : 𝒊𝒎𝒄𝒄 Fréquence Pourcentage Fréquence
cumulée
Pctage cumulé
Corpno 61 30.50 61 30.50
Maigre 43 21.50 104 52.00
Obesit 49 24.50 153 76.50
Surpoi 47 23.50 200 100.00
Dans notre échantillon, 30,5% des femmes interrogés sont de corpulence normale, 21,5% sont classées comme ‘maigres’, 24,5% sont en ‘surpoids’ et 23,5% sont classées comme ‘obèses’.
2. Les variables quantitatives
Remarque : Les représentations graphiques de ces variables seront placées en annexe page 28.
Grâce à la procédure proc means de SAS, on obtient le tableau suivant pour les variables quantitatives : Variable 𝑵 Moyenne Ecart-type Minimum Maximum
𝑎𝑔𝑒 𝑝𝑜𝑖𝑑𝑠 𝑡𝑎𝑖𝑙𝑙𝑒 𝑖𝑚𝑐
200 200 200 200
44.8050000 67.8350000 164.5500000
25.2241361
16.4034245 17.8496731 8.3988214 7.0664379
15.0000000 33.0000000 142.0000000
14.4730494
90.0000000 118.0000000 184.0000000 44.8888889 a. La variable 𝑎𝑔𝑒
L’âge moyen des 200 femmes de notre échantillon est de 44,8 ans ; la femme la plus jeune a 15 ans et la femme la plus âgée en à 90.
Le coefficient de variation, que l’on calcule par 𝑐𝑣=𝜎
µ, vaut pour cette variable 16,403
44,805= 0,366. Ce coefficient étant inférieur à 0,5 il est donc faible, ce qui signifie que la dispersion des valeurs autour de l’âge moyen est faible.
b. La variable 𝑝𝑜𝑖𝑑𝑠
Le poids moyen des individus de l’échantillon est de 67,835kg. La femme ayant le poids le plus faible pèse 33 kilogrammes contre 118 kilos pour la femme ayant le poids le plus important.
Le coefficient de variation vaut 17,85
67,835= 0,263 < 0,5 et est faible.
c. La variable 𝑡𝑎𝑖𝑙𝑙𝑒
La taille de la femme moyenne de notre échantillon est de 164,55 cm. La femme la plus petite mesure 142 cm et la femme la plus grande mesure 18 cm. Le coefficient de variation est extrêmement faible et vaut
8,399
164,55= 0,051 ce qui signifie que la dispersion des valeurs autour de la taille moyenne est très faible, les valeurs sont très concentrées autour de la moyenne.
d. La variable 𝑖𝑚𝑐
L’IMC moyen des femmes de notre échantillon est de 25,224 (légèrement en surpoids si l’on considère les intervalles donnés pour recoder la variable dans la question 2). La femme ayant le plus faible IMC a un IMC de 14,473 et la femme ayant le plus élevé a un IMC de 44,889.
Le coefficient de variation vaut 7,066
25,224= 0,28 et est faible.
Donc dans l’ensemble, les valeurs prises pour chaque variable de notre échantillon sont globalement faiblement dispersées autour de leurs moyennes respectives.
3. Tests de normalité
Pour l’ensemble des points suivants, nous allons effectuer un test de Kolmogorov-Smirnov à l’aide d’une procédure proc univariate.
Nous poserons l’hypothèse nulle 𝐻0 : la variable 𝑋 suit une loi normale (𝑋~𝒩(µ; 𝜎2)) contre l’hypothèse alternative 𝐻1 : la variable 𝑋 ne suit pas une loi normale.
a. La variable 𝑎𝑔𝑒
A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑎𝑔𝑒 :
Tests de normalité
Test Statistique P-value
Shapiro-Wilk 𝑾 0.971061 𝑷𝒓 < 𝑾 0.0004
Kolmogorov-Smirnov 𝑫 0.084076 𝑷𝒓 > 𝑫 <0.0100 Cramer-von Mises 𝑾 − 𝑺𝒒 0.215476 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050 Anderson-Darling 𝑨 − 𝑺𝒒 1.37985 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050
La statistique 𝐷 observée vaut 0,084076 et la p-valeur est inférieure à 1%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑎𝑔𝑒 ne suit pas une loi normale.
b. La variable 𝑝𝑜𝑖𝑑𝑠
A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑝𝑜𝑖𝑑𝑠 : Tests de normalité
Test Statistique P-value
Shapiro-Wilk 𝑾 0.970808 𝑷𝒓 < 𝑾 0.0004 Kolmogorov-Smirnov 𝑫 0.068097 𝑷𝒓 > 𝑫 0.0229 Cramer-von Mises 𝑾 − 𝑺𝒒 0.213106 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050
Anderson-Darling 𝑨 − 𝑺𝒒 1.487702 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050
La statistique 𝐷 observée vaut 0,068097 et la p-valeur est de 2,29%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑝𝑜𝑖𝑑𝑠 ne suit pas une loi normale.
c. La variable 𝑡𝑎𝑖𝑙𝑙𝑒
A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑡𝑎𝑖𝑙𝑙𝑒 : Tests de normalité
Test Statistique P-value
Shapiro-Wilk 𝑾 0.984131 𝑷𝒓 < 𝑾 0.0237 Kolmogorov-Smirnov 𝑫 0.071791 𝑷𝒓 > 𝑫 0.0130 Cramer-von Mises 𝑾 − 𝑺𝒒 0.1464 𝑷𝒓 > 𝑾 − 𝑺𝒒 0.0264 Anderson-Darling 𝑨 − 𝑺𝒒 0.900879 𝑷𝒓 > 𝑨 − 𝑺𝒒 0.0221
La statistique 𝐷 observée vaut 0,071791 et la p-valeur est de 1,3%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑡𝑎𝑖𝑙𝑙𝑒 ne suit pas une loi normale.
d. La variable 𝑖𝑚𝑐
A l’aide de la procédure proc univariate, nous obtenons le tableau suivant pour la variable 𝑡𝑎𝑖𝑙𝑙𝑒 : Tests de normalité
Test Statistique P-value
Shapiro-Wilk 𝑾 0.958982 𝑷𝒓 < 𝑾 <0.0001 Kolmogorov-Smirnov 𝑫 0.082624 𝑷𝒓 > 𝑫 <0.0100 Cramer-von Mises 𝑾 − 𝑺𝒒 0.316993 𝑷𝒓 > 𝑾 − 𝑺𝒒 <0.0050 Anderson-Darling 𝑨 − 𝑺𝒒 2.13298 𝑷𝒓 > 𝑨 − 𝑺𝒒 <0.0050
La statistique 𝐷 observée vaut 0,082624 et la p-valeur est inférieure à 1%. Donc d’après ce test nous rejetons 𝐻0 avec un risque de 5% ce qui signifie que la variable 𝑖𝑚𝑐 ne suit pas une loi normale.
Donc d’après ces tests, les variables 𝑎𝑔𝑒, 𝑝𝑜𝑖𝑑𝑠, 𝑡𝑎𝑖𝑙𝑙𝑒 et 𝑖𝑚𝑐 ne suivent pas une loi normale. Cependant, la taille de notre échantillon est suffisamment grande (𝑁 = 200 > 30) donc grâce au Théorème Central Limite nous pouvons tout de même approximer les lois de ces variables par une loi normale.
4) Comparaison de la population avec une population de référence
a) Peut-on considérer que l’échantillon est représentatif en termes de taille ?
Nous allons effectuer un test de Student de comparaison de moyenne à une valeur de référence à l’aide de la procédure proc ttest de SAS.
Nous posons les hypothèses suivantes :
{𝐻0: 𝑥̅̅̅̅̅̅̅̅ = 163𝑡𝑎𝑖𝑙𝑙𝑒 𝐻1: 𝑥̅̅̅̅̅̅̅̅ ≠ 163𝑡𝑎𝑖𝑙𝑙𝑒
La statistique de test 𝑡 est :
𝑡 =𝑥̅̅̅̅̅̅̅̅ − 163𝑡𝑎𝑖𝑙𝑙𝑒
√𝑠2 𝑛
𝐻~0𝒯(199)
Grâce à la procédure proc ttest, nous obtenons la sortie suivante :
𝑵 Moyenne Ecart-type Err. type Minimum Maximum
200 164.6 8.3988 0.5939 142.0 184.0
Moyenne 95% Moyenne IC Ecart-type 95% Ec.-type IC
164.6 163.4 165.7 8.3988 7.6485 9.3137
DDL Valeur du test t 𝑷𝒓 > |𝒕|
199 2.61 0.0097
La valeur de la statistique de test 𝑡 vaut 2,61. Nous comparons cette valeur avec une valeur table 𝑡(199 ;𝛼
2)
ou nous utilisons la p-valeur. Ici, la p-valeur est inférieure à 𝛼 = 5% donc nous rejetons 𝐻0 avec un risque de 5%. Nous pouvons donc dire que la taille moyenne de l’échantillon est significativement différente de la taille moyenne de la population française de 2003. L’échantillon n’est donc pas représentatif avec un risque d’erreur de 5%.
b) Même question en ce qui concerne le poids.
Comme pour la question précédente, nous allons effectuer un test de Student de comparaison de moyenne à une valeur de référence à l’aide de la proc ttest de SAS.
Nous posons les hypothèses suivantes :
{𝐻0: 𝑥̅̅̅̅̅̅̅̅ = 63𝑝𝑜𝑖𝑑𝑠 𝐻1: 𝑥̅̅̅̅̅̅̅̅ ≠ 63𝑝𝑜𝑖𝑑𝑠 La statistique de test 𝑡 est :
𝑡 =𝑥̅̅̅̅̅̅̅̅ − 63𝑝𝑜𝑖𝑑𝑠
√𝑠2 𝑛
𝐻~0𝒯(199)
Grâce à la procédure proc ttest, nous obtenons la sortie suivante :
𝑵 Moyenne Ecart-type Err. type Minimum Maximum
200 67.8350 17.8497 1.2622 33.0000 118.0
Moyenne 95% Moyenne IC Ecart-type 95% Ec.-type IC 67.8350 65.3461 70.3239 17.8497 16.2550 19.7939
DDL Valeur du test t 𝑷𝒓 > |𝒕|
199 3.83 0.0002
La valeur statistique de test est de 3,83 et la p-valeur de 0,0002 qui est inférieure à 𝛼 = 5%. Nous rejetons donc 𝐻0 ce qui signifie que le poids moyen de l’échantillon est significativement différent du poids moyen de la population française en 2003. L’échantillon n’est donc pas représentatif de la population française de 2003 avec un risque de 5%.
c) Peut-on considérer que l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003 ?
Nous allons effectuer un test d’ajustement du 𝜒2 de Pearson à l’aide de la proc freq de SAS.
Nous posons les hypothèses suivantes :
{ 𝐻0: ||
𝑝𝑚𝑎𝑖𝑔𝑟𝑒 = 6,7%
𝑝𝑐𝑜𝑟𝑝𝑛𝑜𝑟= 65,9%
𝑝𝑠𝑢𝑟𝑝𝑜𝑖 = 21,1%
𝑝𝑜𝑏𝑒𝑠𝑖𝑡 = 6,2%
𝐻1: ∃𝑖 tel que 𝑝𝑖 ≠ 𝜋𝑖 La statistique de test est :
𝜒2= ∑(𝑛𝑖− 200𝜋𝑖)2 200𝜋𝑖
4
𝑖=1
𝐻~0𝜒32
A l’aide de la proc freq option chisq testp de SAS, nous obtenons la sortie suivante : 𝒊𝒎𝒄𝒄 Fréquence Pourcentage Test
Pourcentage
Fréquence cumulée
Pctage cumulé
Corpno 61 30.50 65.90 61 30.50
Maigre 43 21.50 6.70 104 52.00
Obesit 49 24.50 6.20 153 76.50
Surpoi 47 23.50 21.20 200 100.00
Test du Khi-2 pour proportions spécifiées
Khi-2 211.9453
DDL 3
𝑷𝒓 > 𝝌𝟐 <.0001
Nous constatons que les conditions de validité sont vérifiées (les effectifs théoriques sont supérieurs à 5).
La valeur de la statistique de test observée est 211,9453 et la p-valeur est inférieure à 0,01% donc inférieure à 𝛼 = 5% donc nous rejetons l’hypothèse nulle 𝐻0 que les l’échantillon dispose de la même répartition de l’IMC en classe que la population française en 2003.
De plus, on remarque que dans notre échantillon, les obèses sont 24,5% (contre 6,2% dans l’hypothèse), les maigres sont 21,5% (contre 6,7) et enfin les personnes à corpulences normales sont représentées à 30,5% de notre échantillon contre 65,9% dans la population française en 2003. On peut donc conclure que dans notre échantillon les ‘obèses’ et les ‘maigres’ sont « surreprésentés » au détriment des personnes à corpulence normale.
5) Liaison entre contraceptifs oraux et les autres variables
a) Les femmes avec contraceptifs ont elles le même comportement vis-à-vis du tabac ?
Nous allons effectuer un test du 𝜒2 d’indépendance entre les deux variables qualitatives à l’aide de la proc freq de SAS.
Nous posons l’hypothèse nulle qui est que les femmes qui ont pris des contraceptifs oraux ont le même comportement que les autres vis-à-vis du tabac contre l’alternative, c’est-à-dire :
{ 𝐻0: |
ℙ(Non|Ex fumeuse) = ℙ(Oui|Ex fumeuse) ℙ(Non|Fumeuse) = ℙ(Oui|Fumeuse) ℙ(Non|Non fumeuse) = ℙ(Oui|Non fumeuse) 𝐻1: ∃𝑖 tel que ℙ(Non|𝑖) ≠ ℙ(Oui|𝑖) Grâce à la proc freq option chisq de SAS nous obtenons les sorties suivantes :
Table de 𝒄𝒐𝒏𝒕 par 𝒕𝒂𝒃𝒂𝒄𝒄𝒐
𝒄𝒐𝒏𝒕 𝒕𝒂𝒃𝒂𝒄𝒄𝒐
Fréquence Pourcentage Pctage en ligne
Pctage en col.
Ex
fumeuse Fumeuse Non
fumeuse Total
Non
16 8.00 17.02 29.63
24 12.00 25.53 37.50
54 27.00 57.45 65.85
94 47.00
Oui
38 19.00 35.85 70.37
40 20.00 37.74 62.50
28 14.00 26.42 34.15
106 53.00
Total 54
27.00
64 32.00
82 41.00
200 100.00 Statistique DDL Valeur Prob Khi-2 2 20.5609 <.0001 Test du rapport de vraisemblance 2 20.9392 <.0001 Khi-2 de Mantel-Haenszel 1 18.6602 <.0001
Coefficient Phi 0.3206
Coefficient de contingence 0.3053
V de Cramer 0.3206
La valeur du 𝜒2 observé est 20,5609 et la p-valeur est inférieure à 0,01% donc inférieur à 𝛼 = 5% d’où le rejet de l’hypothèse nulle 𝐻0 avec un risque d’erreur de 5%. On peut alors affirmer que les femmes qui ont pris des contraceptifs oraux n’ont pas le même comportement vis-à-vis du tabac.
En effet, sur 100 femmes ayant pris des contraceptifs oraux, 35,85% sont des ex-fumeuses, 37,74% sont des fumeuses et 26,42% sont des non fumeuses.
Par contre, sur 100 femmes qui ne prennent pas de contraceptifs oraux, 17,02% sont des ex-fumeuses, 25,53% sont des fumeuses et 57,45% sont des non fumeuses alors que dans l’échantillon il y a 27% d’ex- fumeuses, 32% de fumeuses et 41 de non fumeuses.
Il y a donc une « surreprésentation » des non fumeuses dans le sous-échantillon des femmes n’ayant jamais pris de contraceptifs oraux par contre, dans le sous-échantillon des femmes ayant déjà pris des contraceptifs oraux les fumeuses et les ex-fumeuses sont plus représentées que les non fumeuses.
Autrement dit, les femmes qui ont déjà pris des contraceptifs oraux ont tendance à être plus facilement des fumeuses qui les femmes qui n’en ont jamais pris.
b) La prescription de contraceptifs oraux a-t-elle évoluée dans le temps ?
Nous utilisons la procédure proc glm plutôt qu’une procédure anova car celle-ci, en plus d’être plus récente, c’est un modèle plus généralisé que la procédure anova. Nous utiliserons cette procédure glm pour la suite de ce projet.
Nous posons le modèle 𝑎𝑔𝑒 = 𝑐𝑜𝑛𝑡 pour tirer une évolution de la prescription de contraceptifs oraux au cours du temps.
Nous posons les hypothèses suivantes :
{𝐻0∶ 𝛽𝑜𝑢𝑖 = 𝛽𝑛𝑜𝑛 𝐻1∶ 𝛽𝑜𝑢𝑖 ≠ 𝛽𝑛𝑜𝑛
L’hypothèse nulle est telle que dans le modèle, le coefficient des personne prenant des contraceptifs oraux est le même que les personnes n’en ayant jamais pris, c'est-à-dire que la prescription des contraceptifs n’a pas évolué dans le temps contre l’alternative où le coefficient n’est pas le même.
La procédure proc glm de SAS nous donne les sorties suivantes : Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 5289.19488 5289.19488 21.70 <.0001
Error 198 48256.20012 243.71818 Corrected Total 199 53545.39500
Source DDL Type III SS Carré moyen Valeur F 𝑷𝒓 > 𝑭 𝒄𝒐𝒏𝒕 1 5289.194880 5289.194880 21.70 <.0001
La statistique de test observée est égale à 21,70 et la p-valeur associée est inférieure 0,01% donc on rejette l’hypothèse 𝐻0 avec un risque de 5%.
La prescription de contraceptifs oraux a significativement évolué dans le temps. Regardons alors les boîtes à moustaches données par les sorties SAS afin d’en tirer plus de liens.
Nous pouvons comparer les moyennes des personnes ayant répondu « Oui » et les personnes ayant
« Non » à la question de la prise de contraceptifs oraux. Nous constatons que les femmes ayant déjà pris des contraceptifs oraux sont en moyenne plus jeunes que les femmes n’en ayant jamais pris.
Nous pouvons donc en déduire que la prescription de contraceptifs oraux a augmenté au cours du temps, les femmes sont plus nombreuses à prendre des contraceptifs oraux en 2003 qu’auparavant.
6) Liaison entre corpulence et les autres variables
a) Devient-on plus corpulent quand on vieillit ?
L’étude entre les deux variables quantitatives (𝑎𝑔𝑒 et 𝑖𝑚𝑐) nous conduit à effectuer un test sur le coefficient de corrélation linéaire. Nous utilisons la procédure proc corr de SAS.
Nous posons l’hypothèse nulle où le coefficient de corrélation linéaire entre la variable 𝑖𝑚𝑐 et 𝑎𝑔𝑒 est nul (il n’y a pas de corrélation linéaire) contre l’alternative où il y a une corrélation significativement non nulle.
{𝐻0∶ 𝜌(𝑖𝑚𝑐 , 𝑎𝑔𝑒) = 0 𝐻1∶ 𝜌(𝑖𝑚𝑐 , 𝑎𝑔𝑒) ≠ 0
Le coefficient de corrélation linéaire se trouve à l’aide du calcul suivant : 𝜌 = cov(𝑖𝑚𝑐 , 𝑎𝑔𝑒)
√𝑉(𝑖𝑚𝑐)𝑉(𝑎𝑔𝑒)
A l’aide de la procédure proc corr de SAS nous obtenons les sorties suivantes : Statistiques simples
Variable 𝑵 Moyenne Ecart-type Somme Minimum Maximum 𝒊𝒎𝒄 200 25.22414 7.06644 5045 14.47305 44.88889 𝒂𝒈𝒆 200 44.80500 16.40342 8961 15.00000 90.00000
20 40 60 80
age
Non Oui
cont Distribution de age
20 40 60 80
age
Non Oui
cont
<.0001 Prob > F
21.70 F
Distribution de age
Coefficients de corrélation de Pearson, 𝑵 = 𝟐𝟎𝟎 Proba > |𝒓| sous 𝑯𝟎: 𝝆 = 𝟎
𝒊𝒎𝒄 𝒂𝒈𝒆
𝒊𝒎𝒄 1.00000 0.15855
0.0249
𝒂𝒈𝒆 0.15855
0.0249
1.00000
Nous obtenons un coefficient de corrélation linéaire égal à 0,15855 et une p-valeur égale à 0,0249 < 𝛼 = 0,05. Nous rejetons par conséquent 𝐻0 au risque 5%.
Cela signifie qu’il y a une corrélation entre 𝑖𝑚𝑐 et 𝑎𝑔𝑒 avec un risque d’erreur de 5%. De plus, le coefficient 𝜌 est positif on peut donc conclure que l’on devient plus corpulent quand on vieillit.
b) Même question mais avec la corpulence en classes.
Nous allons utiliser une procédure proc glm de SAS. Nous utilisons le modèle 𝑎𝑔𝑒 = 𝑖𝑚𝑐𝑐 et nous posons l’hypothèse nulle 𝛽𝑚𝑎𝑖𝑔𝑟𝑒 = 𝛽𝑐𝑜𝑟𝑝𝑛𝑜= 𝛽𝑠𝑢𝑝𝑜𝑖𝑑= 𝛽𝑜𝑏𝑒𝑠𝑖𝑡 où il n’y a pas d’effet des classes contre l’alternative 𝐻1: ∃𝑖, 𝑗 tels que 𝛽𝑖 ≠ 𝛽𝑗.
La statistique de Fisher est donnée par : 𝐹 =
𝑆𝐶𝐸 𝐼 − 1
𝑆𝐶𝑅 𝑁 − 𝐼
= 𝑆𝐶𝐸
3 𝑆𝐶𝑅 196
𝐻~0ℱ(3 ; 196)
Grâce à la procédure proc glm de SAS, nous obtenons les sorties suivantes : Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭
Model 3 2070.63580 690.21193 2.63 0.0515
Error 196 51474.75920 262.62632 Corrected Total 199 53545.39500
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒎𝒄𝒄 3 2070.635804 690.211935 2.63 0.0515
Le Fisher observé vaut 2,63 et la p-valeur est égale à 0,0515 > 𝛼 = 0,05. Nous ne rejetons donc pas 𝐻0
avec un risque de 5%. Nous ne pouvons alors pas conclure d’une différence significative entre des coefficients 𝛽 du modèle.
De plus, en regardant les boites à moustaches données par les sorties SAS (situées page 30) nous constatons que l’âge moyen dans les 4 classes est sensiblement égal.
c) Y a-t-il un lien entre la corpulence et le statut tabagique ? Si oui, pousser plus loin
Nous allons utiliser une procédure proc glm de SAS pour étudier le lien entre la variable quantitative et qualitative. Nous utilisons le modèle 𝑖𝑚𝑐 = 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et nous posons l’hypothèses nulle 𝛽𝑓𝑢𝑚𝑒𝑢𝑠𝑒 = 𝛽𝑒𝑥 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 = 𝛽𝑛𝑜𝑛 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 contre l’alternative 𝐻1∶ ∃𝑖, 𝑗 tels que 𝛽𝑖 ≠ 𝛽𝑗.
La procédure proc glm de SAS nous donne :
Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 2 545.806335 272.903168 5.72 0.0038
Error 197 9391.168043 47.670904 Corrected Total 199 9936.974378
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 2 545.8063352 272.9031676 5.72 0.0038
La valeur du Fisher observé est égale à 5,72 et la p-valeur à 0,0038 < 𝛼 = 5% donc on rejette 𝐻0. Il y a un lien significatif entre la corpulence et le statut tabagique.
A l’aide des boîtes à moustaches (situées page 31) nous constatons que l’IMC des ex-fumeuses est supérieur à celui des non fumeuse qui est lui-même sensiblement égal à celui des fumeuses.
On peut donc en déduire que les ex-fumeuses ont un IMC moyen supérieur aux autres femmes.
d) La corpulence favorise-t-elle l’hypertension artérielle ?
Comme pour les questions précédentes, nous allons utiliser une procédure proc glm de SAS. Nous utilisons le modèle 𝑖𝑚𝑐 = ℎ𝑡𝑎𝑏 et nous posons l’hypothèse nulle 𝐻0∶ 𝛽𝑂𝑢𝑖 = 𝛽𝑁𝑜𝑛 pour laquelle il n’y a pas d’effet contre l’alternative 𝐻1∶ 𝛽𝑂𝑢𝑖 ≠ 𝛽𝑁𝑜𝑛.
A l’aide de SAS, nous obtenons les sorties suivantes : Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 366.582576 366.582576 7.58 0.0064
Error 198 9570.391802 48.335312 Corrected Total 199 9936.974378
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒉𝒕𝒂𝒃 1 366.5825763 366.5825763 7.58 0.0064
La statistique de Fisher observée est égale à 7,58 et la p-valeur associée à 0,0064. Elle est inférieure à 𝛼 = 5% donc on rejette 𝐻0 avec un risque d’erreur de 5%. Il y a donc un lien significatif entre la corpulence et l’hypertension artérielle.
Grâce aux boites à moustaches (situées en annexes page 31) nous constatons que les femmes ayant eu de l’hypertension artérielle ont un IMC moyen supérieur aux femmes n’en ayant jamais eu. Ceci se vérifie avec la moyenne mais aussi les différentes quartiles (𝑄1, 𝑄2 et 𝑄3) qui sont supérieurs pour les femmes avec des problèmes d’hypertension.
Ainsi, nous pouvons conclure que la corpulence favorise significativement l’hypertension artérielle.
7) Liaison entre les autres variables
a) Le comportement tabagique dépend-il de l’âge ? Si oui, pousser plus loin
Nous allons effectuer comme précédemment une analyse de la covariance à l’aide de la procédure proc glm de SAS. Nous utilisons le modèle 𝑎𝑔𝑒 = 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et nous posons les hypothèses suivantes :
{𝐻0∶ 𝛽𝐹𝑢𝑚𝑒𝑢𝑠𝑒= 𝛽𝑁𝑜𝑛 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 = 𝛽𝐸𝑥 𝑓𝑢𝑚𝑒𝑢𝑠𝑒 𝐻1∶ ∃𝑖, 𝑗 tels que 𝛽𝑖 ≠ 𝛽𝑗
Avec la statistique 𝐹 =
𝑆𝐶𝐹 2 𝑆𝐶𝑅 197
𝐻~0ℱ(2 , 197) comme définie précédemment, nous obtenons les sorties SAS suivantes :
Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 2 5035.87054 2517.93527 10.23 <.0001
Error 197 48509.52446 246.24124 Corrected Total 199 53545.39500
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 2 5035.870539 2517.935270 10.23 <.0001
Le Fisher observé est égal à 10,23 et la p-valeur associée est inférieure à 0,0001 donc inférieure à 5%.
Nous rejetons ainsi 𝐻0 avec un risque de 5%. Nous pouvons alors conclure à une dépendance significative entre l’âge et le comportement tabagique. Poussons cette analyse à l’aide de comparaisons de moyennes entre les différentes classes.
Nous utilisons la procédure proc ttest de SAS pour effectuer une comparaison de moyennes entre les fumeuses et le non fumeuses, les fumeuses et les ex-fumeuses et entre les non fumeuses et les ex- fumeuses.
Pour effectuer la comparaison de moyennes, nous créons 3 nouvelles variables tirées de la variable 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 qui nous servirons à effectuer ces tests. Nous créons la variable 𝑓𝑢𝑛𝑜𝑛𝑓𝑢 pour tester les moyennes entre les fumeuses et le non fumeuses, la variable 𝑓𝑢𝑒𝑥𝑓𝑢 pour comparer entre les fumeuses et les ex-fumeuses et la variable 𝑛𝑜𝑛𝑓𝑢𝑒𝑥𝑓𝑢 pour la comparaison entre les non fumeuses et les ex- fumeuses.
1. Comparaison entre fumeuses et non fumeuses :
Nous utilisons la procédure proc ttest de SAS et nous formulons les hypothèses : {𝐻0∶ µ𝐹= µ𝑁𝐹
𝐻1∶ µ𝐹≠ µ𝑁𝐹
Pour effectuer une comparaison entre moyennes, nous devons tout d’abord effectuer un test d’égalité des variances. Nous posons alors les hypothèses :
{𝐻0∶ 𝜎𝐹2 = 𝜎𝑁𝐹2 𝐻1∶ 𝜎𝐹2 ≠ 𝜎𝑁𝐹2 La statistique de test est :
𝐹 =𝜎𝑁𝐹2 𝜎𝐹2 ~
𝐻0ℱ(81 , 63) La procédure proc ttest de SAS nous donne la sortie de ce test :
𝒇𝒖𝒏𝒐𝒏𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum fu 64 43.4219 14.0800 1.7600 19.0000 83.0000 no 82 50.3049 19.0792 2.1069 16.0000 90.0000 Diff (1-2) -6.8830 17.0732 2.8477
Egalité des variances
Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭
Folded 𝑭 81 63 1.84 0.0128
Ainsi, le Fisher observé est égal à 1,84 et la p-valeur vaut 0,0128 d’où le rejet de l’hypothèse nulle 𝐻0 avec un risque de 5%. Les variances sont donc significativement différentes.
Nous utilisons alors le test de Satterthwaite pour la comparaison des moyennes : Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|
Pooled Equal 144 -2.42 0.0169
Satterthwaite Unequal 143.59 -2.51 0.0133
La valeur absolue du test 𝑡 vaut 2,51 et la p-valeur est inférieure à 0,05 donc nous rejetons 𝐻0, les moyennes d’âge entre les fumeuses et les non fumeuses sont significativement différentes avec un risque de 5%.
D’après les données, nous constatons que les fumeuses ont tendance à être plus jeunes que les non fumeuses.
2. Comparaison entre fumeuses et ex fumeuses :
Pour effectuer ce test, nous formulons les hypothèses suivantes : {𝐻0∶ µ𝐹= µ𝐸𝐹
𝐻1∶ µ𝐹 ≠ µ𝐸𝐹
Comme précédemment, nous devons d’abord effectuer un test d’homogénéité des variances avec les hypothèses :
{𝐻0∶ 𝜎𝐹2= 𝜎𝐸𝐹2 𝐻1 ∶ 𝜎𝐹2≠ 𝜎𝐸𝐹2 Les sorties de SAS nous donnent :
𝒇𝒖𝒆𝒙𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum ex 54 38.0926 11.1037 1.5110 15.0000 60.0000 fu 64 43.4219 14.0800 1.7600 19.0000 83.0000 Diff (1-2) -5.3293 12.8063 2.3663
Egalité des variances
Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭
Folded 𝑭 63 53 1.61 0.0773
Nous obtenons donc une p-valeur égale à 0,0773 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻0 ce qui signifie que nous ne pouvons pas affirmer que les variances sont significativement différentes avec un risque de 5%. Nous utilisons alors la ligne « Pooled » pour effectuer la comparaison de moyennes.
Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|
Pooled Equal 116 -2.25 0.0262
Satterthwaite Unequal 115.51 -2.30 0.0234
Nous voyons alors que la p-valeur associée à ce test est inférieure à 5% donc nous rejetons l’hypothèses d’égalité des moyennes entre les fumeuses et les ex-fumeuses. Nous constatons d’après les données que les ex-fumeuses sont en moyenne plus jeunes que les fumeuses (38 ans contre 43 ans).
3. Comparaison entre non fumeuses et ex fumeuses : Pour effectuer ce test, nous utilisons les hypothèses suivantes :
{𝐻0∶ µ𝑁𝐹= µ𝐸𝐹 𝐻1∶ µ𝑁𝐹≠ µ𝐸𝐹 Effectuons le test sur la variance avec les hypothèses :
{𝐻0∶ 𝜎𝑁𝐹2 = 𝜎𝐸𝐹2 𝐻1∶ 𝜎𝑁𝐹2 ≠ 𝜎𝐸𝐹2 Le logiciel SAS nous donne :
𝒏𝒐𝒏𝒇𝒖𝒆𝒙𝒇𝒖 𝑵 Moyenne Ecart-type Err. type Minimum Maximum exfu 54 38.0926 11.1037 1.5110 15.0000 60.0000 nonfu 82 50.3049 19.0792 2.1069 16.0000 90.0000 Diff (1-2) -12.2123 16.3953 2.8733
Egalité des variances
Méthode DDL Num. DDL Res. Valeur 𝑭 𝑷𝒓 > 𝑭
Folded 𝑭 81 53 2.95 <.0001
Avec une p-valeur inférieure à 0,0001 nous trouvons que les variances sont significativement différentes, d’où l’utilisation du test de Satterthwaite :
Méthode Variances DDL Valeur du test 𝒕 𝑷𝒓 > |𝒕|
Pooled Equal 134 -4.25 <.0001
Satterthwaite Unequal 132.27 -4.71 <.0001
Ainsi, la p-valeur étant à nouveau inférieure à 0,0001, nous rejetons 𝐻0 où les moyennes sont égales.
L’âge moyen des ex-fumeuses est donc significativement différent (inférieur) à l’âge moyen des non fumeuses.
D’après ces trois tests de comparaisons de moyennes, nous trouvons que les moyennes sont systématiquement significativement différentes. Les non fumeuses sont alors plus âgées que les fumeuses sui sont elles-mêmes plus âgées que les ex-fumeuses.
b) L’hypertension artérielle est-elle une pathologie qui augmente avec l’âge ?
Pour établir un lien entre la variable quantitative 𝑎𝑔𝑒 et la variable qualitative ℎ𝑡𝑎𝑏 nous utilisons la procédure proc glm avec pour modèle 𝑎𝑔𝑒 = ℎ𝑡𝑎𝑏 et pour hypothèses :
{𝐻0∶ 𝛽𝑂𝑢𝑖 = 𝛽𝑁𝑜𝑛 𝐻1∶ 𝛽𝑂𝑢𝑖 ≠ 𝛽𝑁𝑜𝑛 La statistique de test est :
𝐹 = 𝑆𝐶𝐹 𝐼 − 1
𝑆𝐶𝑅 𝑛 − 𝐼
H~0ℱ(1 , 198)
Nous obtenons les sorties suivantes :
Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 8073.84250 8073.84250 35.16 <.0001
Error 198 45471.55250 229.65431 Corrected Total 199 53545.39500
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒉𝒕𝒂𝒃 1 8073.842499 8073.842499 35.16 <.0001
Le Fisher observé est inférieur à 0,01% donc à 𝛼 = 5%, nous rejetons alors l’hypothèse nulle 𝐻0.
En observant la box-plot (située en annexe page 32) nous constatons que les personnes ayant eu des problèmes d’hypertension artérielle sont en moyenne plus âgés que les personnes n’en ayant jamais eu.
L’hypertension artérielle est donc une pathologie qui augmente significativement avec l’âge.
c) Quelle relation peut-on mettre en évidence entre l’hypertension artérielle et le tabac ?
Pour mettre en évidence une relation entre ces deux variables qualitatives, nous utilisons un test d’indépendance du 𝜒2 à l’aide de la procédure proc freq de SAS.
Nous posons l’hypothèse nulle où les variables 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 et ℎ𝑡𝑎𝑏 sont indépendantes contre l’hypothèse alternative où elles sont liées.
La statistique de test est :
𝐷2 = ∑ ∑(𝑛𝑖𝑗−𝑛𝑖∙× 𝑛∙𝑗
𝑛 )
2
𝑛𝑖∙× 𝑛∙𝑗 𝑛
2
𝑗=1 3
𝑖=1
𝐻~0𝜒22 Les tables de sorties sont alors :
Table de 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 par 𝒉𝒕𝒂𝒃
𝒕𝒂𝒃𝒂𝒄𝒄𝒐 𝒉𝒕𝒂𝒃
Fréquence Attendu Pourcentage Pctage en ligne
Pctage en col.
Non Oui Total
Ex fumeuse
36 31.86 18.00 66.67 30.51
18 22.14
9.00 33.33 21.95
54 27.00
Fumeuse
40 37.76 20.00 62.50 33.90
24 26.24 12.00 37.50 29.27
64 32.00
Non fumeuse
42 48.38 21.00 51.22 35.59
40 33.62 20.00 48.78 48.78
82 41.00
Total 118
59.00 82 41.00
200 100.00
Statistique DDL Valeur Prob
Khi-2 2 3.6883 0.1582
Test du rapport de vraisemblance 2 3.6924 0.1578 Khi-2 de Mantel-Haenszel 1 3.4465 0.0634
Statistique DDL Valeur Prob
Coefficient Phi 0.1358
Coefficient de contingence 0.1346
V de Cramer 0.1358
Nous voyons d’abord que les conditions de validités sont vérifiées, les effectifs attendus sont tous supérieurs à 5 (en bleu sur la deuxième ligne de chaque cellule du premier tableau), nous pouvons donc effectuer le test.
La valeur du 𝜒2 observé est de 0,1582 que l’on compare avec un 𝜒2 ;0,052 , de plus la p-valeur est égale à 0,1582 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻0. Nous ne pouvons alors pas dire qu’il y a une liaison significative entre les deux variables.
8) Effet des variables sur le risque d’infarctus du myocarde
a) La prise de contraceptif oraux augmente-t-elle le risque d’infarctus ?
Pour étudier le lien entre les variables qualitative nous allons effectuer un test d’indépendance du 𝜒2 à l’aide de la proc freq de SAS. L’hypothèse nulle associée à ce test est 𝐻0 : les variables 𝑐𝑜𝑛𝑡 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 sont indépendantes contre l’alternative 𝐻1 : les variables sont liées.
La statistique de test est :
𝐷2 = ∑ ∑(𝑛𝑖𝑗−𝑛𝑖∙× 𝑛∙𝑗
𝑛 )
2
𝑛𝑖∙× 𝑛∙𝑗 𝑛
2
𝑗=1 2
𝑖=1
𝐻~0𝜒12
Nous utilisons la statistique de test définie dans la question précédente. Le logiciel nous donne les sorties suivantes :
Table de 𝒄𝒐𝒏𝒕 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
𝒄𝒐𝒏𝒕 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
Fréquence Attendu Pourcentage Pctage en ligne
Pctage en col.
Cas Tem Total
Non
26 47 13.00 27.66 26.00
68 47 34.00 72.34 68.00
94 47.00
Oui
74 53 37.00 69.81 74.00
32 53 16.00 30.19 32.00
106 53.00
Total 100 50.00
100 50.00
200 100.00
Statistique DDL Valeur Prob
Khi-2 1 35.4075 <.0001
Test du rapport de vraisemblance 1 36.5532 <.0001 Khi-2 continuité ajustée 1 33.7415 <.0001 Khi-2 de Mantel-Haenszel 1 35.2304 <.0001
Coefficient Phi -0.4208
Coefficient de contingence 0.3878
V de Cramer -0.4208
Les conditions de validités du test sont vérifiées, les effectifs attendus sont tous supérieurs à 5. Nous observons alors une p-valeur associée est inférieure à 0,01% et donc à 𝛼 = 5%, ainsi nous rejetons l’hypothèses 𝐻0 donc les variables 𝑐𝑜𝑛𝑡 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 sont significativement liées.
En poussant notre analyse, nous voyons que parmi les ‘cas’ il y a une « surreprésentation » des femmes ayant déjà pris des contraceptifs oraux et parmi les ‘témoins’ les femmes n’ayant jamais pris de contraceptifs oraux sont « surreprésentées ».
Nous pouvons donc conclure à un lien significatif de la prise de contraceptifs oraux sur la survenue d’un cancer du myocarde.
b) Quel lien peut-on mettre en évidence entre le tabac et la survenue d’un infarctus ?
Comme pour la question précédente, nous effectuons un test du 𝜒2 d’indépendance pour les deux variables qualitatives. Les hypothèses sont {𝐻0∶ 𝑡𝑎𝑏𝑎𝑐𝑐𝑜 ⊥ 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠
𝐻1 ∶elles sont liées La statistique de test est :
𝐷2 = ∑ ∑(𝑛𝑖𝑗−𝑛𝑖∙× 𝑛∙𝑗
𝑛 )
2
𝑛𝑖∙× 𝑛∙𝑗 𝑛
2
𝑗=1 3
𝑖=1
𝐻~0𝜒22 Nous obtenons les sorties suivantes :
Table de 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 𝒕𝒂𝒃𝒂𝒄𝒄𝒐 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 Fréquence
Attendu Pourcentage Pctage en ligne
Cas Tem Total
Ex fumeuse
37 27 18.50 68.52
17 27 8.50 31.48
54 27.00
Fumeuse
42 32 21.00 65.63
22 32 11.00 34.38
64 32.00
Non fumeuse
21 41 10.50 25.61
61 41 30.50 74.39
82 41.00
Total 100
50.00
100 50.00
200 100.00
Statistique DDL Valeur Prob
Khi-2 2 33.1696 <.0001
Test du rapport de vraisemblance 2 34.3135 <.0001 Khi-2 de Mantel-Haenszel 1 27.1199 <.0001
Coefficient Phi 0.4072
Coefficient de contingence 0.3772
V de Cramer 0.4072
Les conditions de validités du test sont vérifiées et la valeur du 𝜒2 observé est 33,1696 avec une p-valeur inférieure à 5% donc nous rejetons l’hypothèse nulle d’indépendance des variables. De plus, nous remarquons une « surreprésentation » des fumeuses et des ex-fumeuses dans les ’cas’ et des non fumeuses dans les ‘témoins’.
Nous pouvons donc mettre en évidence une augmentation significative de la survenue d’un infarctus du myocarde chez les femmes ayant déjà goûté à la cigarette.
c) La corpulence (variable 𝑖𝑚𝑐) augmente-t-elle le risque d’infarctus ?
Nous utilisons la procédure proc glm pour étudier le lien entre la variable quantitative 𝑖𝑚𝑐 et la variable qualitative 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠. Les hypothèses sont :
{𝐻0∶ 𝛽𝑂𝑢𝑖 = 𝛽𝑁𝑜𝑛
𝐻1∶ 𝛽𝑂𝑢𝑖 ≠ 𝛽𝑁𝑜𝑛 La statistique de test est :
𝐹 = 𝑆𝐶𝐹 𝐼 − 1
𝑆𝐶𝑅 𝑛 − 𝐼
H~0ℱ(1 , 198) Avec la procédure de SAS nous obtenons :
Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 402.944083 402.944083 8.37 0.0042
Error 198 9534.030295 48.151668 Corrected Total 199 9936.974378
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 1 402.9440831 402.9440831 8.37 0.0042
La p-valeur associée à ce test vaut 0,0042 < 𝛼 = 0,05 alors nous rejetons l’hypothèse nulle 𝐻0. Il y a donc un effet significatif de l’IMC sur la survenue d’un infarctus.
Nous voyons dans les boîtes à moustaches (en annexes page 32) que l’IMC moyen des ‘cas’ est supérieur à celui des ‘témoins’. Nous pouvons donc dire que la corpulence augmente significativement le risque d’infarctus du myocarde.
d) Les femmes qui ont eu de l’hypertension sont-elles plus à risque pour un infarctus ?
Pour étudier ces deux variables qualitatives, nous effectuons un test d’indépendance du 𝜒2 à l’aide de la procédure proc freq de SAS. L’hypothèse nulle posée est l’indépendance des variables ℎ𝑡𝑎𝑏 et 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 contre l’alternative 𝐻1 d’un lien entre elles.
La statistique de test est donc :
𝐷2 = ∑ ∑(𝑛𝑖𝑗−𝑛𝑖∙× 𝑛∙𝑗
𝑛 )
2
𝑛𝑖∙× 𝑛∙𝑗 𝑛
2
𝑗=1 2
𝑖=1
𝐻~0𝜒12
Nous obtenons les sorties suivantes :
Table de 𝒉𝒕𝒂𝒃 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
𝒉𝒕𝒂𝒃 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
Fréquence Attendu Pourcentage Pctage en ligne
Pctage en col.
Cas Tem Total
Non
55 59 27.50 46.61 55.00
63 59 31.50 53.39 63.00
118 59.00
Oui
45 41 22.50 54.88 45.00
37 41 18.50 45.12 37.00
82 41.00
Total 100
50.00
100 50.00
200 100.00
Statistique DDL Valeur Prob
Khi-2 1 1.3229 0.2501
Test du rapport de vraisemblance 1 1.3245 0.2498 Khi-2 continuité ajustée 1 1.0128 0.3142 Khi-2 de Mantel-Haenszel 1 1.3162 0.2513
Coefficient Phi -0.0813
Coefficient de contingence 0.0811
V de Cramer -0.0813
Nous avons les conditions de validités vérifiées ainsi qu’une p-valeur égale à 0,2501 > 𝛼 = 0,05 donc nous ne rejetons pas 𝐻0. L’intuition pouvait être donnée car les effectifs attendus sont sensiblement égaux aux effectifs réels. On ne pas alors pas dire qu’il y a un lien significatif entre les deux variables.
e) Reprise des deux dernières questions avec les femmes avec un échantillon réduit
Pour répondre à cette question, nous devons constituer la nouvelle variable 𝑓𝑢𝑐𝑜 pour laquelle nous gardons les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux. Dans une nouvelle base de données, nous supprimons alors les autres données.
1. Reprise de la question c)
A partir de la nouvelle base de données, nous effectuons une procédure proc glm pour analyser le lien entre la variable 𝑖𝑚𝑐 et la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 pour cette population réduite.
Nous posons alors les hypothèses suivantes :
{𝐻0∶ 𝛾𝑜𝑢𝑖= 𝛾𝑛𝑜𝑛
𝐻1∶ 𝛾𝑜𝑢𝑖 ≠ 𝛾𝑛𝑜𝑛 La statistique de test est alors
𝐹 = 𝑆𝐶𝐹 𝐼 − 1
𝑆𝐶𝑅 𝑛 − 𝐼
H~0ℱ(1 , 76)
Nous obtenons les sorties suivantes :
Source DDL Somme des
carrés Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 Model 1 356.778078 356.778078 6.77 0.0111
Error 76 4002.269368 52.661439 Corrected Total 77 4359.047446
Source DDL Type III SS Carré moyen Valeur 𝑭 𝑷𝒓 > 𝑭 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔 1 356.7780783 356.7780783 6.77 0.0111
Nous obtenons une statistique observée égale à 6,77 et une p-valeur égale à 1,11%. Elle est inférieure à 𝛼 = 5% donc nous rejetons l’hypothèses nulle 𝐻0.
De plus, sur la représentation graphique (placée en annexes page 33), nous constatons que l’IMC moyen des ‘témoins’ est très inférieur à celui des ‘cas’.
La corpulence augmente donc significativement le risque d’infarctus chez les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux.
2. Reprise de la question d)
Nous effectuons un test du 𝜒2 d’indépendance sur ce sous-échantillon à l’aide de la procédure proc freq de SAS. Nous posons l’hypothèse nulle que la variable 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 est indépendante à la variable ℎ𝑡𝑎𝑏 contre l’alternative qu’elles sont liées.
La statistique de test est :
𝐷2 = ∑ ∑(𝑛𝑖𝑗−𝑛𝑖∙× 𝑛∙𝑗
𝑛 )
2
𝑛𝑖∙× 𝑛∙𝑗 𝑛
2
𝑗=1 2
𝑖=1
𝐻~0𝜒12 Nous obtenons les résultats suivants :
Table de 𝒉𝒕𝒂𝒃 par 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
𝒉𝒕𝒂𝒃 𝒊𝒏𝒇𝒂𝒓𝒄𝒕𝒖𝒔
Fréquence Attendu Pourcentage Pctage en ligne
Pctage en col.
Cas Temoins Total
Non
37 39.577
47.44 75.51 58.73
12 9.4231
15.38 24.49 80.00
49 62.82
Oui
26 23.423
33.33 89.66 41.27
3 5.5769
3.85 10.34 20.00
29 37.18
Total 63
80.77
15 19.23
78 100.00
Statistique DDL Valeur Prob
Khi-2 1 2.3467 0.1255
Test du rapport de vraisemblance 1 2.5269 0.1119 Khi-2 continuité ajustée 1 1.5244 0.2170 Khi-2 de Mantel-Haenszel 1 2.3166 0.1280
Coefficient Phi -0.1735
Coefficient de contingence 0.1709
V de Cramer -0.1735
Les conditions de validités du test sont vérifiées. Nous obtenons alors un p-valeur égale à 12,55% qui est supérieure à 𝛼 = 5%. Nous ne rejetons donc pas 𝐻0 ce qui signifie que nous ne pouvons pas dire qu’il y a un lien significatif entre l’hypertension artérielle et le risque d’infarctus chez les femmes ayant déjà fumé et ayant déjà pris des contraceptifs oraux.
9) Conclusion de l’étude
Résumons nos résultats à l’aide du tableau suivant :
* Si l’on compare l’année de l’étude avec les années antérieures, on peut constater que les contraceptifs oraux se prennent de plus en plus tôt. On peut donc conclure à un lien indirect entre l’âge et la prise de contraceptifs oraux.
** On peut dire que l’âge est lié indirectement au risque d’avoir un infarctus du myocarde car plus l’âge augmente, plus la corpulence augmente et il se trouve qu’une forte corpulence augmente le risque d’infarctus.
Nous avons donc trouvé les liens entre les variables explicatives.
En effet, nous avons pu voir que les femmes ayant déjà pris des contraceptifs oraux ont plus facilement tendance à être fumeuses, sans pour autant qu’elles aient le même comportement vis-à-vis de l’un ou de l’autre. De plus, nous avons appris que la prise de contraceptif était une pratique plus courante en 2003 qu’auparavant.
𝑐𝑜𝑛𝑡 Fumeuses Ex-fumeuses Non fumeuses IMC 𝑎𝑔𝑒 ℎ𝑡𝑎𝑏 𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠
𝑐𝑜𝑛𝑡 + 0 0 0 * 0 +
Fumeuses + 0 0 0 + 0 +
Ex-fumeuses 0 0 0 + + 0 +
Non fumeuses 0 0 0 0 + 0 0
IMC 0 0 + 0 + + +
𝑎𝑔𝑒 * + + + + + **
ℎ𝑡𝑎𝑏 0 0 0 0 + + 0
𝑖𝑛𝑓𝑎𝑟𝑐𝑡𝑢𝑠 + + + 0 + ** 0
En ce qui concerne la corpulence, nous avons constaté qu’elle augmente avec l’âge ainsi qu’avec le fait d’arrêter de fumer. De plus, plus la corpulence est grande, plus le risque d’hypertension artérielle est important.
L’hypertension augmente elle aussi avec l’âge, mais elle ne semble pas être liée directement au tabagisme.
Nous avons pu remarquer également que les ex-fumeuses sont plus jeunes que les fumeuses, qui sont elles-mêmes plus jeunes que les non-fumeuses.
Tout ceci nous montre que nos variables explicatives ont toutes des liens plus ou moins explicites entre elles, ce qui signifie que certaines pratiques peuvent avoir un impact indirect sur la santé.
Mais rappelons que notre but premier était ici d’identifier les facteurs qui augmentent le risque de survenue d’un infarctus parmi ceux présents dans nos données.
Nous avons pu constater que la prise de contraceptifs oraux, le tabagisme (qu’il soit présent ou passé) ainsi que la corpulence augmentent significativement le risque d’infarctus du myocarde. Nous avons également pu remarquer que, en revanche, il n’y avait pas de lien significatif entre l’hypertension et ce risque.
Annexes
Représentations graphiques
3. Etude descriptive 1. Variables qualitatives
Graphiques des variables qualitatives
FREQUENCY
0 10 20 30 40 50 60 70 80 90 100
infarctus Cas Tem
Graphiques des variables qualitatives
FREQUENCY
0 10 20 30 40 50 60 70 80 90 100 110
cont Non Oui
Graphiques des variables qualitatives
FREQUENCY
0 10 20 30 40 50 60 70 80 90
tabacco
Ex fumeuse Fumeuse Non fumeuse
Graphiques des variables qualitatives
FREQUENCY
0 10 20 30 40 50 60 70 80 90 100 110 120
htab Non Oui
Florian FELICE ; Tiara MASBOU 28/38 Retour page 4
2. Variables quantitatives
Graphiques des variables qualitatives
FREQUENCY
0 10 20 30 40 50 60 70
imcc
Corpno Maigre Obesit Surpoi
Distribution et Courbe de probabilité pour age
20 40 60 80
age
0 10 20 30 40
Count 16
24 32 40 48 56 64 72 80 88
age