• Aucun résultat trouvé

Relation entre deux caractères : analyses bivariées des caractères quantitatifs continus (cours 3) ME1AY030 Master Meci

N/A
N/A
Protected

Academic year: 2022

Partager "Relation entre deux caractères : analyses bivariées des caractères quantitatifs continus (cours 3) ME1AY030 Master Meci"

Copied!
16
0
0

Texte intégral

(1)

Relation entre deux caractères : analyses bivariées des caractères quantitatifs continus

(cours 3)

ME1AY030

Master Meci

(2)

Une relation entre 2 caractères quantitatifs continus

Relation chaque fois que l’on peut établir un rapport entre 2 caractères Toute relation entre 2 caractères implique info stat sur

Une liste d’individus stat : dptmts, villes, régions, Etats

Variable Y décrivant les modalités adoptées par ts les individus stat pour ce caractère : ex concentration de NO2

Variable X : ex tx hospi pour BPCO

À tout individu stat correspondent au moins 2 modalités

Relation entre 2 caractères X et Y est valable pour l’ensemble des individus observés

Une équation sert à exprimer ces relations Yi= - a Xi + b relation linéaire négative Yi = log (Xi) relation logarithmique

Ex ? Température en fonction de la latitude ; nbre d’hôtels en fonction de la fréquentation touristique….

(3)

Ex : 55 Villes françaises : morbidité, pollution atmosphérique et niveau de diplôme

Libellé des unités urbaines

GINITN B_P06_

NSCOL1 5P_BAC P2_SUP

TX_P0 6_NSC OL15P _DIPL 0_CV

Ruuto

_BPCO MAX_

No2 MAX_

O3_1

Tempé rature

s maxim

ales janvieren

UU_TX _P06_

CHOM 1564

PartM enage sNonI mposables

D201 - nb médec in/hab

D210 - nb médec in/hab

TX_P0 6_NSC OL15P _DIPL 0

TX_P0 6_NSC OL15P _BAC

TX_P0 6_NSC OL15P _BACP 2_SUP

Pop_

mun_

2006

Ruuto_

Ttes

Annemasse 0,2129

2741 0,44 0,89 34,028

2 26,585

2 5 0,104 49,9 12,8 0,8 0,172 0,162 0,281 11855

4 0,5674 2692

Valence 0,1912

7616 0,47 0,56 34,670

7 31,113

5 8 0,135 41,1 11,2 0,7 0,198 0,154 0,226 12092

2 0,6373 9718

Bayonne 0,1521

2777 0,35 0,64 21,979

2 21,860

4 12 0,117 39,1 14,7 0,9 0,148 0,171 0,237 18983

6 0,8444 8178

Avignon 0,2310

0146 0,43 0,90 33,900

5 40,062

0 9,5 0,149 44,9 16,2 0,8 0,255 0,148 0,204 27335

9 0,7555 1593

Béthune 0,2173

2853 0,28 2,76 28,189

6 24,971

1 6 0,159 51,9 14,5 0,7 0,226 0,135 0,132 25929

3 0,6934 2759

Tableau des 55 villes françaises….

(4)

Relations linéaires : examen graphique

Chaque fois que les unités portées sur graph cartésien xy s’ordonnent suivant une courbe ou une droite (non // aux axes) c’est qu’il existe une relation entre les deux caractères

Si les points s’ordonnaient exactement selon droite => relation math cad serait exactement décrite par équation de la droite

Ds la réalité la droite prend la forme d’un nuage de points

On peut faire l’hypothèse et/ou confirmer une relation observée à partir de la matrice des corrélations en s’appuyant sur l’examen d’un graphique mettant en relation 2 caractères pour les individus d’un ensemble

(5)

Hospitalisation respiratoire et niveau d’étude - 55 villes – Une relation linéaire négative

Les villes ds lesquelles Tx d’hospi faible, % diplo bac

+ 2 élevé

(6)

BPCO et diplômés du supérieur : une relation négative : 2 répartitions spatiales qui s’opposent

Les tx standardisés d’hospitalisations pour BPCO En 4 classes d’effectifs égaux (médiane)

Les taux de diplômés du supérieurs En 4 classes d’effectifs égaux (médiane- quartile)

(7)

Concentration en dioxyde d’azote et taille des villes : une relation

linéaire positive

(8)

Hospitalisations pour BPCO et taille de ville : PAS de relation statistique

Augmentation du taux d’hospi semble sans relation avec l’augmentation de la taille des villes

(9)

BPCO et non diplômés : corrélation positive et forte : 2 répartitions spatiales qui s’accordent

Les tx standardisés d’hospitalisations pour BPCO

En 4 classes d’effectifs égaux (médiane)

Les taux de non diplômés En 4 classes d’effectifs égaux (médiane-quartile)

(10)

Relations mathématiques et relations statistiques

En math : une relation : une liaison est un rapport logique entre couple, triplets, quadruplets d’éléments

Ex : Y i = aX i + b ou y(i)=x(i)

Math : une équation décrit exactement la relation existant entre les deux caractères Y et X pour l’ensemble des unités observés

Stat : l’équation est une approximation de la relation entre deux caractères pour un ensemble d’individus statistiques

(11)

Sens et intensité des relations entre caractères quantitatifs continus

Relations déformées par la présence d’un ou deux individus très particuliers, atypiques Relations non linéaires ms qui deviennent linéaires après transformation ex log

La relation ne signifie pas qu’il existe un lien de causalité

Intensité/Sens Positif Négatif

Faible + -

Forte ++ - -

Pas de relation

Quelle est la forme de la relation ? sens et intensité

(12)

Mesurer la relation entre Y et X : le coefficient de corrélation

coefficient de « Bravais-Pearson »

mesure le caractère linéaire du nuage de points.

r est la valeur du cosinus de l’angle qui sépare les 2 droites de régression : de X en Y et Y en X.

mesure le caractère linéaire du nuage de points.

r2 est le coefficient de détermination : il mesure le niveau d’explication apporté par la régression (ex r2 = 0,6 => On explique 60% des variations de Y par les variations de X => reste 40% à expliquer)

y x n

i

i i

s s

y y

x n x

r

å

=

- -

= 1

) )(

1 (

Covariance de X et Y

Ecart-type de X et Y

Source : Dumolard, et al., 2003

(13)

Interpréter le coefficient de corrélation

coefficient de « Bravais-Pearson »

Le coefficient de corrélation est un nombre sans dimension.

Son signe est celui de la covariance :

Positif : si si x et y varie ds le même sens Négatif Si x et y varient en sens inverse

Intensité dpd de la somme des variances : varie entre 0 et 1

Elevé si somme variances de X et Y est proche du produit des écart-types => si variances s’additionnent

Faible si somme des covariances = 0 => si variances s’annulent

y x n

i

i i

s s

y y

x n x

r

å

=

- -

= 1

) )(

1 (

Covariance de X et Y

Ecart-type de X et Y

(14)

Corrélation forte et positive : en rouge > I0,5I Corrélation forte et négative : en bleu > I0,5I

Corrélation faibles et non significatives : en gris : entre +0,2 et -0,2 Pas de corrélation : proche de 0

La matrice des corrélations : les coef de BP pour toutes les relations entre couples de caractères

  BPCO MAX_No2 MAX_O3_1 TempJanvier MenNonImp TxSsDiplo TxBac TxBac+2 Pop2006

BPCO 1 0,114 -0,066 -0,301 0,489 0,516 -0,485 -0,486 0,075

MAX_No2 0,114 1 0,686 -0,255 -0,308 0,243 -0,092 0,274 0,436

MAX_O3_1 -0,066 0,686 1 0,260 -0,224 0,146 0,095 0,230 0,339

TempJanvier -0,301 -0,255 0,260 1 -0,001 -0,363 0,646 0,156 -0,009

MenNonImp 0,489 -0,308 -0,224 -0,001 1 0,577 -0,452 -0,719 -0,384

TxSsDiplo 0,516 0,243 0,146 -0,363 0,577 1 -0,814 -0,695 -0,029

TxBac -0,485 -0,092 0,095 0,646 -0,452 -0,814 1 0,665 0,115

TxBac+2 -0,486 0,274 0,230 0,156 -0,719 -0,695 0,665 1 0,303

Pop2006 0,075 0,436 0,339 -0,009 -0,384 -0,029 0,115 0,303 1

(15)

Corrélation forte et négative : en bleu > I0,5I

ex : ds les villes où les tx d’hospi pour BPCO sont élevés les tx de diplômés du bac et de bac plus 2 sont faibles // ds les villes où les tx d’hospi pour BPCO sont faibles, les tx de diplômés du bac et de bac +2 sont élevés

=> une relation négative ds l’espace : là où les modalités du caractère X sont élevées les modalités du caractère Y sont faibles

Corrélation forte et positive : en rouge > I0,5I

Ex : ds les villes où les tx d’hospi pour BPCO sont élevés, les tx de ménages non imposables sont élevés, les tx de personnes sans diplômes sont élevés //

ds les villes où les tx d’hospi pour BPCO sont faibles, les tx de ménages non imposables et les tx de personnes sans diplômes sont faibles

Corrélation faibles et non significatives : en gris : entre +0,2 et -0,2

Ex : ds les villes où les niveau max de NO2 sont élevés, les tx de bac + 2 st élevés mais la relation est faible car de nbses villes s’écartent de ce

« modèle » => la relation n’est pas significative : on ne la prend pas en compte

Pas de corrélation : proche de 0 :

Ex : pas de relation stat entre la taille de la ville et le tx dhospitalisation pour BPCO

Interpréter les corrélations

(16)

Conclusion

Il existe d’autres manières de mesurer des relations entre caractères :

Les tests du Chi2 pour les caractères qualitatifs ou quantitatifs discrets : dans ce cas on mesure l’écart entre une situation théorique (répartition aléatoire des individus stats dans les couples de modalités) et la distribution observée

(répartition organisée des individus stats ds les couples de modalités)

L’analyse de la variance pour la relation entre un caractère quantitatif continu Y et un caractère qualitatif X (on mesure les écarts entre la variance inter- classe et intra-classe)

Une corrélation ne dit rien sur les relations de cause à effet

Pour aller plus loin : se reporter aux chapitres 6, 7, 8, 9, 10 du manuel Dumolard, Dubus, Charleux : les statistiques en géographie, 2003

Références

Documents relatifs

Pendant que vous utilisez cette fonction, la télécommande affecte la page télétexte ; si vous souhaitez faire des modifi cations sur le programme en cours, appuyez sur la touche

(Veuillez noter que le moniteur doit être allumé et avoir un signal valide prédéfini) (a.) Appuyez sur la touche « Menu » pour afficher le menu OSD.. (b.) Appuyez à nouveau sur

Résumer la distribution statistique d’un caractère : valeurs centrales et paramètres de dispersion.

 Environnement phy : températures car travaux sur les maladies respiratoires montrent qu’elles sont aggravées par les épisodes froids (Besançenot) ; NO2 car lien avéré ds le

L’événement « manger une salade verte et une pizza aux quatre fromages » a une probabilité de 1/6. L’événement «manger une salade verte, une pizza végétarienne et une

The Medium Independent Interface receive operation is a synchronous nibble wide data transfer from the DP83840 Physical Layer to the DP83850 Repeater Controller.. This data transfer

Aides auditives remboursées par la Sécurité Sociale de Classe 1 entrant dans le cadre du panier de soins 100% Santé. Audioprothèse non prise en

En millions d’euros à l’exception des données par action et des pourcentages Licences et autres ventes de logiciels Souscription et support Chiffre d'affaires logiciel Prestations