Relation entre deux caractères : analyses bivariées des caractères quantitatifs continus
(cours 3)
ME1AY030
Master Meci
Une relation entre 2 caractères quantitatifs continus
Relation chaque fois que l’on peut établir un rapport entre 2 caractères Toute relation entre 2 caractères implique info stat sur
Une liste d’individus stat : dptmts, villes, régions, Etats
Variable Y décrivant les modalités adoptées par ts les individus stat pour ce caractère : ex concentration de NO2
Variable X : ex tx hospi pour BPCO
À tout individu stat correspondent au moins 2 modalités
Relation entre 2 caractères X et Y est valable pour l’ensemble des individus observés
Une équation sert à exprimer ces relations Yi= - a Xi + b relation linéaire négative Yi = log (Xi) relation logarithmique
Ex ? Température en fonction de la latitude ; nbre d’hôtels en fonction de la fréquentation touristique….
Ex : 55 Villes françaises : morbidité, pollution atmosphérique et niveau de diplôme
Libellé des unités urbaines
GINITN B_P06_
NSCOL1 5P_BAC P2_SUP
TX_P0 6_NSC OL15P _DIPL 0_CV
Ruuto
_BPCO MAX_
No2 MAX_
O3_1
Tempé rature
s maxim
ales janvieren
UU_TX _P06_
CHOM 1564
PartM enage sNonI mposables
D201 - nb médec in/hab
D210 - nb médec in/hab
TX_P0 6_NSC OL15P _DIPL 0
TX_P0 6_NSC OL15P _BAC
TX_P0 6_NSC OL15P _BACP 2_SUP
Pop_
mun_
2006
Ruuto_
Ttes
Annemasse 0,2129
2741 0,44 0,89 34,028
2 26,585
2 5 0,104 49,9 12,8 0,8 0,172 0,162 0,281 11855
4 0,5674 2692
Valence 0,1912
7616 0,47 0,56 34,670
7 31,113
5 8 0,135 41,1 11,2 0,7 0,198 0,154 0,226 12092
2 0,6373 9718
Bayonne 0,1521
2777 0,35 0,64 21,979
2 21,860
4 12 0,117 39,1 14,7 0,9 0,148 0,171 0,237 18983
6 0,8444 8178
Avignon 0,2310
0146 0,43 0,90 33,900
5 40,062
0 9,5 0,149 44,9 16,2 0,8 0,255 0,148 0,204 27335
9 0,7555 1593
Béthune 0,2173
2853 0,28 2,76 28,189
6 24,971
1 6 0,159 51,9 14,5 0,7 0,226 0,135 0,132 25929
3 0,6934 2759
Tableau des 55 villes françaises….
Relations linéaires : examen graphique
Chaque fois que les unités portées sur graph cartésien xy s’ordonnent suivant une courbe ou une droite (non // aux axes) c’est qu’il existe une relation entre les deux caractères
Si les points s’ordonnaient exactement selon droite => relation math cad serait exactement décrite par équation de la droite
Ds la réalité la droite prend la forme d’un nuage de points
On peut faire l’hypothèse et/ou confirmer une relation observée à partir de la matrice des corrélations en s’appuyant sur l’examen d’un graphique mettant en relation 2 caractères pour les individus d’un ensemble
Hospitalisation respiratoire et niveau d’étude - 55 villes – Une relation linéaire négative
Les villes ds lesquelles Tx d’hospi faible, % diplo bac
+ 2 élevé
BPCO et diplômés du supérieur : une relation négative : 2 répartitions spatiales qui s’opposent
Les tx standardisés d’hospitalisations pour BPCO En 4 classes d’effectifs égaux (médiane)
Les taux de diplômés du supérieurs En 4 classes d’effectifs égaux (médiane- quartile)
Concentration en dioxyde d’azote et taille des villes : une relation
linéaire positive
Hospitalisations pour BPCO et taille de ville : PAS de relation statistique
Augmentation du taux d’hospi semble sans relation avec l’augmentation de la taille des villes
BPCO et non diplômés : corrélation positive et forte : 2 répartitions spatiales qui s’accordent
Les tx standardisés d’hospitalisations pour BPCO
En 4 classes d’effectifs égaux (médiane)
Les taux de non diplômés En 4 classes d’effectifs égaux (médiane-quartile)
Relations mathématiques et relations statistiques
En math : une relation : une liaison est un rapport logique entre couple, triplets, quadruplets d’éléments
Ex : Y i = aX i + b ou y(i)=x(i)
Math : une équation décrit exactement la relation existant entre les deux caractères Y et X pour l’ensemble des unités observés
Stat : l’équation est une approximation de la relation entre deux caractères pour un ensemble d’individus statistiques
Sens et intensité des relations entre caractères quantitatifs continus
Relations déformées par la présence d’un ou deux individus très particuliers, atypiques Relations non linéaires ms qui deviennent linéaires après transformation ex log
La relation ne signifie pas qu’il existe un lien de causalité
Intensité/Sens Positif Négatif
Faible + -
Forte ++ - -
Pas de relation
Quelle est la forme de la relation ? sens et intensité
Mesurer la relation entre Y et X : le coefficient de corrélation
coefficient de « Bravais-Pearson »
mesure le caractère linéaire du nuage de points.
r est la valeur du cosinus de l’angle qui sépare les 2 droites de régression : de X en Y et Y en X.
mesure le caractère linéaire du nuage de points.
r2 est le coefficient de détermination : il mesure le niveau d’explication apporté par la régression (ex r2 = 0,6 => On explique 60% des variations de Y par les variations de X => reste 40% à expliquer)
y x n
i
i i
s s
y y
x n x
r
å
=
- -
= 1
) )(
1 (
Covariance de X et Y
Ecart-type de X et Y
Source : Dumolard, et al., 2003
Interpréter le coefficient de corrélation
coefficient de « Bravais-Pearson »
Le coefficient de corrélation est un nombre sans dimension.
Son signe est celui de la covariance :
Positif : si si x et y varie ds le même sens Négatif Si x et y varient en sens inverse
Intensité dpd de la somme des variances : varie entre 0 et 1
Elevé si somme variances de X et Y est proche du produit des écart-types => si variances s’additionnent
Faible si somme des covariances = 0 => si variances s’annulent
y x n
i
i i
s s
y y
x n x
r
å
=
- -
= 1
) )(
1 (
Covariance de X et Y
Ecart-type de X et Y
Corrélation forte et positive : en rouge > I0,5I Corrélation forte et négative : en bleu > I0,5I
Corrélation faibles et non significatives : en gris : entre +0,2 et -0,2 Pas de corrélation : proche de 0
La matrice des corrélations : les coef de BP pour toutes les relations entre couples de caractères
BPCO MAX_No2 MAX_O3_1 TempJanvier MenNonImp TxSsDiplo TxBac TxBac+2 Pop2006
BPCO 1 0,114 -0,066 -0,301 0,489 0,516 -0,485 -0,486 0,075
MAX_No2 0,114 1 0,686 -0,255 -0,308 0,243 -0,092 0,274 0,436
MAX_O3_1 -0,066 0,686 1 0,260 -0,224 0,146 0,095 0,230 0,339
TempJanvier -0,301 -0,255 0,260 1 -0,001 -0,363 0,646 0,156 -0,009
MenNonImp 0,489 -0,308 -0,224 -0,001 1 0,577 -0,452 -0,719 -0,384
TxSsDiplo 0,516 0,243 0,146 -0,363 0,577 1 -0,814 -0,695 -0,029
TxBac -0,485 -0,092 0,095 0,646 -0,452 -0,814 1 0,665 0,115
TxBac+2 -0,486 0,274 0,230 0,156 -0,719 -0,695 0,665 1 0,303
Pop2006 0,075 0,436 0,339 -0,009 -0,384 -0,029 0,115 0,303 1
Corrélation forte et négative : en bleu > I0,5I
ex : ds les villes où les tx d’hospi pour BPCO sont élevés les tx de diplômés du bac et de bac plus 2 sont faibles // ds les villes où les tx d’hospi pour BPCO sont faibles, les tx de diplômés du bac et de bac +2 sont élevés
=> une relation négative ds l’espace : là où les modalités du caractère X sont élevées les modalités du caractère Y sont faibles
Corrélation forte et positive : en rouge > I0,5I
Ex : ds les villes où les tx d’hospi pour BPCO sont élevés, les tx de ménages non imposables sont élevés, les tx de personnes sans diplômes sont élevés //
ds les villes où les tx d’hospi pour BPCO sont faibles, les tx de ménages non imposables et les tx de personnes sans diplômes sont faibles
Corrélation faibles et non significatives : en gris : entre +0,2 et -0,2
Ex : ds les villes où les niveau max de NO2 sont élevés, les tx de bac + 2 st élevés mais la relation est faible car de nbses villes s’écartent de ce
« modèle » => la relation n’est pas significative : on ne la prend pas en compte
Pas de corrélation : proche de 0 :
Ex : pas de relation stat entre la taille de la ville et le tx dhospitalisation pour BPCO
Interpréter les corrélations
Conclusion
Il existe d’autres manières de mesurer des relations entre caractères :
Les tests du Chi2 pour les caractères qualitatifs ou quantitatifs discrets : dans ce cas on mesure l’écart entre une situation théorique (répartition aléatoire des individus stats dans les couples de modalités) et la distribution observée
(répartition organisée des individus stats ds les couples de modalités)
L’analyse de la variance pour la relation entre un caractère quantitatif continu Y et un caractère qualitatif X (on mesure les écarts entre la variance inter- classe et intra-classe)
Une corrélation ne dit rien sur les relations de cause à effet
Pour aller plus loin : se reporter aux chapitres 6, 7, 8, 9, 10 du manuel Dumolard, Dubus, Charleux : les statistiques en géographie, 2003