Cours statistique

(1)

(2)

1 Introduction...1-1 Un peu d'histoire...1-1 Survol méthodologique ...1-2 Les étapes d'une analyse statistique...1-2 Collecte des données...1-3 Analyse des données ...1-3 Inférence et conclusion ...1-3 Remarque ...1-3 Rappels mathématiques ...1-4 2 Distribution des fréquences et diagrammes ...2-1 Distribution des fréquences ...2-1 Fonction de répartition ...2-6 Autres représentations ...2-7 3 Quantiles...3-1 Introduction ...3-1 Définition ...3-3 Quartiles et déciles ...3-3 4 Mesures de tendance centrale...4-1 Introduction ...4-1 Quelques mesures de tendance centrale ...4-1 La moyenne arithmétique ...4-1 La moyenne harmonique...4-2 La moyenne géométrique...4-2 La médiane...4-2 Le mode ...4-2 Propriétés...4-3 Propriété caractéristique de la moyenne arithmétique ...4-3 Première propriété commune à toutes les mesures ...4-3 Deuxième propriété commune...4-3 Relation entre la moyenne et la médiane ...4-4 5 Mesures de dispersion ...5-1 Introduction ...5-1 Quelques mesures de dispersion...5-1 L'étendue...5-1 L'intervalle inter-quartile ...5-1 L'écart moyen absolu ...5-2 La variance...5-2 L'écart-type ...5-2

(3)

Propriétés...5-2 Propriété de la variance...5-2 Première propriété commune aux mesures de dispersion...5-3 Deuxième propriété commune...5-3 6 Tableaux de contingence et mesures de dépendance...6-1 Introduction ...6-1 Tableau de contingence ...6-1 Première mesure de dépendance ...6-3 Calcul pratique...6-4 Deuxième mesure de dépendance ...6-5 Calcul pratique...6-6 Remarques ...6-10 Mesure de dépendance entre deux variables ordinales ou cardinales: Rs ...6-10 7 Diagramme de Pareto et indice de concentration ...7-1 Diagramme de Pareto ...7-1 Indice de concentration de Gini...7-2 8 Principales distributions ...8-1 Introduction ...8-1 Lois de probabilité servant à la modélisation ...8-1 Loi binomiale - B(n,p) ...8-2 Binomiale négative ...8-3 Loi de Poisson - ()...8-4 Loi normale - N(m,) ...8-4 Loi log-normale ...8-5 Loi de Pareto ...8-6 Loi exponentielle ...8-6 Lois utilisées dans les calculs statistiques ...8-7 Loi normale...8-7 Loi Chi-carrée à n degrés de liberté ...8-7 Loi t de Student à n degrés de liberté...8-8 Loi de F de Fisher à nl et n2 degrés de liberté ...8-8 Distribution du coefficient de corrélation de Spearmann ...8-9 9 Estimation: principes...9-1 Introduction ...9-1 Propriété d'un estimateur ...9-1 Estimation convergente...9-1 Estimation sans biais...9-2 Estimation efficace ...9-2 Principe de maximum de vraisemblance...9-3 Première étape...9-3 Deuxième étape ...9-3

(4)

Exemple...9-4 La fréquence des catastrophes ...9-4 Le montant des dommages ...9-6 Méthode des moindres carrés ...9-9 Intervalle de confiance ...9-9 10 Estimations d'une population normale...10-1 Premier cas: m inconnu, connu ...10-1 Estimation ...10-1 Propriétés ...10-2 Intervalle de confiance au niveau ...10-3 Exemple chiffré ...10-4 Deuxième cas: m inconnu, inconnu ...10-4 Estimations ...10-5 Propriétés ...10-5 Intervalle de confiance au niveau pour m...10-7 Intervalle de confiance au niveau pour ² ...10-9 Exemple chiffré ...10-9 11 Estimation d'une proportion ...11-1 Introduction ...11-1 Estimation...11-1 Etape 1 ...11-1 Etape 2 ...11-1 Propriété ...11-2 Intervalle de confiance au niveau a ...11-2 Exemple chiffré ...11-3 Remarques ...11-4 12 Estimation de la différence entre 2 moyennes...12-1 Introduction ...12-1 Propriété ...12-1 Intervalle de confiance au niveau pour m₁-m₂...12-2 Exemple chiffré ...12-2 13 Test d'hypothèses: principes...13-1 Introduction ...13-1 Hypothèse nulle, contre-hypothèse et test ...13-1 Risque de première et de deuxième espèce ...13-2 14 Test sur une proportion...14-1 Test d'hypothèse ...14-1 Puissance du test sur une proportion ...14-2 15 Test d'égalité de 2 moyennes...15-1 Echantillons indépendants...15-1

(5)

Conditions d'application ...15-1 Exemple ...15-1 Distribution de U sous Ho ...15-3 Exemple numérique ...15-4 Echantillons appariés...15-4 Conditions d'application ...15-4 Statistique de Wilcoxon...15-5 Distribution de T sous Ho...15-5 Exemple numérique ...15-6 16 Test d'ajustement...16-1 Introduction ...16-1 Distribution discrète et complètement spécifiée ...16-1 Exemple chiffré ...16-2 Distribution continue et complètement spécifiée ...16-2 Exemple chiffré ...16-3 Cas général ...16-3 Exemple chiffré ...16-4 17 Test d'indépendance entre 2 variables nominales ...17-1 Introduction ...17-1 CHI-CARRE ...17-1 Test au niveau ...17-2 Exemple chiffré ...17-2 18 Test d'indépendance entre 2 variables ordinales...18-1 Rappel...18-1 Distribution exacte de RS sous H0...18-2 Distribution asymptotique ...18-3

(6)

Introduction

1

A l'origine, l'activité statistique semble avoir été le fait de chefs d'états désireux de connaître des éléments de puissance de leur état: population, potentiel militaire, richesses, ... Quelle meilleure connaissance que celle issue de l'observation systématique de tous les éléments de la société ? L'idée d'un recensement apparaît donc de façon naturelle, et implique en autre une impression de précision de la plus haute qualité.

Les plus anciens recensements connus sont sumériens (5000 à 2000 ans avant J.-C.).

On procédait régulièrement en Mésopotamie au relevé des personnes et des biens (3000 ans avant J.-C.).

L'Egypte semble avoir été la première nation à organiser des recensements annuels à finalité fiscale (2700 à 2500 avant J.-C.). En ce temps-là, comme aujourd'hui, les déclarations des sources de revenus n'étaient pas faites sans réserves, mais les

"oublis" des déclarants provoquaient leur condamnation à mort !

Jusqu'au 17e siècle les recensements seront effectués sans remettre en cause le principe de cette démarche. Remplacer une connaissance exhaustive par une extrapolation fondée sur l'examen d'une partie de la population est une attitude qui ne trouvera d'éléments de justification qu'à l'apparition des premiers résultats de probabilités autorisant une analyse (quantitative et qualitative) de l'erreur.

Ainsi, au 17e siècle, VAUBAN, désireux de dresser un tableau de l'économie agricole de la France, fait observer un échantillon de terres arables dans chaque province. Dans la seconde moitié du 18e siècle, MESSANGE, MOHEAU puis LAPLACE estiment la population totale de la France avec une précision meilleure que celle du recensement de l'époque. La méthode utilisée est fondée sur l'hypothèse d'un rapport constant entre la population et le nombre annuel de naissances: ce rapport, une fois mesuré, donne la population par une simple multiplication avec le nombre de naissances, nombre suffisamment fiable à l'époque.

En 1800, F. MORTON EDEN estime la population de la Grande-Bretagne à 9 millions d'habitants, chiffre qui sera confirmé en tous points par les résultats du recensement de 1801. La méthode utilisée par MORTON EDEN, bien que confirmée par les faits, nous semble avec le recul bien surprenante puisque basée sur

(7)

Introduction

Néanmoins, au 19e siècle, le comportement des statisticiens reste généralement régi par le souci d'exhaustivité, sous prétexte de rigueur. Cette thèse est, entre autres, ardemment défendue par QUETELET.

Il faut attendre 1895 pour que le terme "échantillon représentatif" soit utilisé pour la première fois par A. KIAER lors d'une réunion de l'Institut International de Statistique, à Berne.

Pour terminer ce petit tour d'horizon d'histoire événementielle, citons une date sans importance dans l'évolution des concepts statistiques mais qui peut frapper l'imagination: en 1935, l'Institut GALLUP entre en fonction ...

Les sondages d'opinion sont suffisamment habituels pour qu'ils nous servent de point de départ à ce survol méthodologique: chacun sait que plusieurs questions concernant un sujet d'actualité sont posées à un échantillon de personnes; on résume les réponses données en les présentant sous forme de pourcentages de graphiques de pourcentages par région, par groupe sociologique, etc.; ces résumés sont censés être voisins de ceux qu'on obtiendrait si on questionnait l'ensemble de la population et non pas une fraction de celle-ci.

Cette démarche qui paraît si habituelle (ou naturelle) ne doit pas faire oublier les problèmes méthodologiques (et pratiques) qu'elle pose:

quelles questions poser ?

dans quels termes les poser (des réponses sous forme qualitative du genre "bon - moyen - mauvais" apparaissant dans un questionnaire donneraient-elles les mêmes résultats si les trois niveaux de qualités étaient appelés “excellent - correct - lamentable" ) ?

combien de personnes interroger ?

comment choisir les personnes de manière à ne pas orienter le résultat, de manière à ce que les conclusions apportées puissent être étendues à la population entière ?

comment déterminer la marge de fluctuation, la marge d'erreurs, la fourchette sur les résultats une fois étendus de l'échantillon à la population entière ?

L'évocation des sondages dégage les étapes parcourues dans la majorité des analyses statistiques.

(8)

Introduction

Point de départ de l'analyse statistique, les observations brutes sont obtenues au terme d'un processus plus au moins laborieux: enquêtes, mesures expérimentales, compilations d'archives, ... Les problèmes posés par la collecte des données (protocoles, nombres d'individus ou de mesures, etc.) ne sont pas abordés par le cours; ils n'en sont pas moins importants dans la pratique.

Avant d'apporter des réponses définitives aux questions initiales qui ont motivé l'analyse statistique, il faut bien sûr examiner les données recueillies.

Un examen préliminaire à vue des données, des tableaux de nombres sommaires ne doit pas être considéré comme une tâche indigne d'un statisticien: il permet de se familiariser avec les ordres de grandeur, des détecter parfois des erreurs d'encodage (un logiciel statistique peut être aveugle à ce genre d'erreur), de répondre à des questions immédiates, ... Cet examen ne fonde pas avec certitude une opinion, mais il faut connaître le matériel avec lequel on va travailler.

Les procédures statistiques (sur lesquelles porte une bonne partie du cours) permettent de condenser les observations au travers de nombres ou de graphiques (souvent appelés statistiques). L'objectif commun à toutes ces procédures est de fournir une meilleure intelligibilité des données: que cette condensation soit faite sans perte, d'information ou avec perte d'information (comme c'est le plus souvent le cas). Il est naturel d'essayer une procédure puis l'autre, de revenir à la première, etc.

Les procédures utilisées sont de nature descriptive; si les données sont présentées sous ces aspects multiples, elles ne permettent pas d'étendre les résultats de l'échantillon à la population entière; cette extension implique un risque d'erreur.

Une simple description des données ne suffit pas en général: on souhaite mesurer le risque d'erreur inhérent à toute inférence c'est-à-dire à toute extension des résultats de l'échantillon à la population entière. Une partie du cours est consacrée à expliciter la nature du risque d'erreur et aux techniques permettant d'évaluer ce risque.

La population apparaissant dans l'exemple du sondage est une population physique dont l'existence est bien réelle; mais les procédures d'inférence sont d'application dès le moment où on dispose d'une suite de valeurs observées, que ces valeurs soient effectivement des réponses fournies par des individus d'un échantillon ou que ces valeurs soient les résultats de mesures expérimentales par exemple. Dans ce dernier cas, la population n'existe pas réellement, elle devient une notion abstraite (exemple:

(9)

Introduction le nombre de tempêtes par an): on peut imaginer que la population est l'ensemble des mesures expérimentales possibles, tout se passant comme si ces mesures étaient rassemblées et que l'expérience réalisée consistait à en prendre quelques unes au

"hasard". Il est évident que ces notions sont parfaitement formalisées de manière à fonder avec rigueur les méthodes statistiques; nous n'insisterons pas sur cet aspect des statistiques et nous nous contenterons d'une vue simplifiée.

On appelle variables nominales des variables prenant des valeurs sur lesquelles on ne peut faire ni des opérations arithmétiques, ni des comparaisons (en grandeur), comme par exemple une variable "classe sociale", une variable "sexe", etc.

L'échelle nominale est utilisée pour représenter des variables dont les catégories ne sont pas naturellement ordonnées. En général, ces catégories sont représentées, pour simplifier la codification, par des nombres.

Exemples:

l'état civil

le sexe

On appelle variables ordinales des variables prenant des valeurs sur lesquelles on peut effectuer un classement, comme par exemple un classement de préférence, un classement par juge, etc.

L'échelle ordinale est utilisée pour représenter des variables dont les catégories sont ordonnées. Les différentes classes ou valeurs particulières sont en relation les unes par rapport aux autres. Cette relation peut s'exprimer en termes d'algèbre des inégalités; par exemple par des expressions: plus grand que, plus rapide que, moins riche que. Les valeurs particulières d'une telle échelle sont non-quantitatives. Ils indiquent uniquement une position dans une série ordonnée et non l'importance de la différence qui existe entre 2 positions successives de l'échelle.

Exemple:

aimer pas du tout/moyennement/beaucoup

On appelle variables cardinales des variables prenant des valeurs sur lesquelles on peut effectuer des opérations arithmétiques (addition, soustraction, multiplication, division) et des classements.

Exemples:

salaire

distance

(10)

Introduction

On appelle variables continues (cardinales) des variables prenant des valeurs qui peuvent être arbitrairement proches les unes des autres.

L'échelle continue est une échelle sur laquelle il existe, entre 2 valeurs adjacentes, une infinité de valeurs. La mesure d'une variable continue est toujours approximative.

Exemples:

taille

masse

vitesse

longueur

temps

Une variable qui prend un ensemble discret ou discontinu de valeurs.

Sur de telles échelles où l'intervalle entre 2 valeurs consécutives est fixe et constant, on peut dire que la mesure faite est toujours exacte.

Exemples:

nombre de globules blances au centimètre carré

nombre d'enfants par famille

Rappelons l'usage du signe de sommation:

X X X Xⁿ Xⁱ

i n

1 2 3

1

...

Dans le cas particulier où les X₁, X₂,... sont égaux à une même quantité X, on trouve:

Xⁱ n X

i n

1

.

Un simple calcul montre que:

( ) .

( . ) .

X a X n a

c X c X

i i

n

i i

n

i i

i n

1 1

(11)

Distribution des fréquences et diagrammes

2

On considère une variable nominale ou discrète, par exemple l'âge d'un individu (variable discrète), le sexe d'un individu (variable nominale), sa région d'habitation (variable nominale),...

En regard de chaque valeur possible pour cette variable, on porte le nombre d'individus de l'échantillon qui ont cette valeur.

Par exemple, voici un échantillon de 88 patients atteints d'une maladie spécifique;

pour chacun de ces patients le service médical a attribué un degré de sévérité de la maladie, ce degré de sévérité est compris entre 1 et 4 (il s'agit bien d'une variable discrète, on peut même la qualifier d'ordinale). D'autres variables ont été prélevées:

le nombre de jours passés à l'hôpital (DUJ), l'âge (AGE), le résultat de 6 tests (CARDIO, DOO, RXTH, RESPI, CUT, BIO tous codés par des chiffres.).

DUJ SEV AGE CARDIO DOO RXTH RESPI CUT BIO

1 9 3 91 0 0 3 0 0 7

2 5 3 83 1 3 0 3 2 1

3 3 2 82 1 3 2 2 0 1

4 11 2 81 1 1 2 0 2 2

5 7 1 80 1 3 2 0 0 1

6 9 1 80 1 3 1 0 0 1

7 13 3 79 1 3 3 2 0 3

8 12 1 79 1 3 2 0 0 1

9 19 3 78 1 3 2 3 0 4

10 29 2 78 1 3 2 0 0 2

11 16 3 76 1 3 2 2 0 3

12 13 2 76 1 3 2 2 0 1

13 21 3 75 1 3 2 3 0 2

14 30 3 74 1 3 2 3 0 2

15 25 2 74 1 2 1 0 0 2

16 11 2 73 1 2 2 2 0 1

17 7 2 73 1 3 2 0 0 2

18 20 3 73 1 0 3 0 0 2

19 11 1 72 1 3 1 0 0 2

(12)

20 11 1 72 1 3 1 0 0 4

21 3 2 72 0 0 2 2 0 1

22 2 1 72 1 0 1 0 0 1

23 11 3 71 1 3 1 0 0 3

24 12 2 71 1 3 2 0 0 2

25 16 2 71 2 3 2 0 2 2

26 12 3 70 1 3 2 0 0 3

27 15 1 70 1 3 2 0 0 1

28 22 3 69 1 3 0 3 2 1

29 15 1 69 1 0 1 0 0 4

30 16 2 69 2 3 2 0 0 2

31 11 2 66 1 3 1 2 0 2

32 12 2 66 1 0 2 0 2 2

33 16 3 66 1 3 1 3 0 2

34 8 2 65 1 3 2 2 2 1

35 22 2 65 2 0 2 2 0 3

36 15 3 65 2 3 0 2 2 3

37 12 1 65 1 3 1 0 0 2

38 22 1 65 1 0 1 0 0 2

39 11 1 65 1 3 2 0 0 1

40 16 1 63 1 2 1 0 0 1

41 14 1 63 1 3 1 0 0 1

42 14 1 63 1 3 1 0 0 4

43 14 1 62 1 0 0 0 0 1

44 8 1 62 1 3 1 0 0 1

45 11 1 61 1 3 1 0 0 2

46 14 1 60 2 0 1 0 0 1

47 13 3 60 2 3 1 2 0 3

48 7 2 60 2 3 1 1 0 2

49 12 1 60 1 0 1 0 0 2

50 17 1 60 1 3 1 0 0 1

51 21 3 59 3 3 2 2 0 4

52 14 3 58 3 3 2 0 2 1

53 12 2 58 1 0 1 2 2 2

54 13 3 58 1 3 1 0 0 3

55 11 2 57 2 0 2 0 0 1

56 16 1 57 1 0 1 2 0 1

57 6 1 56 1 3 1 0 0 1

58 12 1 56 1 3 1 0 0 2

59 13 1 56 1 3 1 0 0 2

60 16 2 56 2 0 1 0 2 1

61 22 2 55 3 0 2 2 0 2

62 14 1 55 1 0 1 2 0 3

63 12 3 55 1 3 1 0 0 3

64 23 1 54 1 0 1 2 0 1

65 3 1 53 1 0 0 0 0 1

66 11 1 53 1 0 1 0 2 1

67 28 1 53 1 3 1 2 0 1

(13)

68 13 3 52 1 3 1 2 2 3

69 18 1 52 1 0 1 0 0 3

70 11 1 52 1 0 1 0 2 4

71 13 2 52 1 2 1 2 0 2

72 3 3 51 3 0 0 0 0 3

73 6 4 51 4 0 2 0 0 4

74 11 1 51 1 2 1 0 0 4

75 12 2 51 2 3 1 2 0 4

76 10 3 51 2 3 1 0 2 3

77 15 1 50 1 3 1 0 0 4

78 12 2 50 1 0 0 0 0 2

79 12 1 49 1 0 1 0 0 1

80 19 4 49 4 3 1 0 0 4

81 14 1 49 4 3 1 0 2 1

82 15 2 49 2 0 1 0 2 4

83 15 3 48 1 3 1 0 0 3

84 10 2 46 1 0 1 2 2 1

85 9 2 44 1 0 1 2 0 2

86 8 1 43 1 0 1 0 0 1

87 7 3 40 1 3 1 0 0 3

88 8 1 38 1 3 1 0 0 1

Telles quelles, les données ne peuvent être facilement interprétées.

Comment se répartissent les degrés de sévérité? Pour le savoir on porte en regard de chaque degré le nombre de patients qui ont ce degré:

1 : 37 2 : 26 3 : 23 4 : 2

Mais il ne faut pas oublier que le nombre en face de chaque degré est un nombre absolu (fréquence absolue): 37 sur 88 patients, 26 sur 88 etc.; donner ce tableau sans le préciser n'a guère de sens; on préfère donc donner en plus le pourcentage (fréquence relative): 37 sur 88 ou 42.05%. Pour être plus parlant, on trace une barre horizontale (ou verticale) dont la longueur est proportionnelle au pourcentage.

(14)

Diagramme des fréquences absolues

37 26

23 2

0 5 10 15 20 25 30 35 40

1 2 3 4

SEV

Nbre patients

On pourrait se poser la question suivante: "dans l'échantillon 42.05% des individus ont une gravité 1, ce pourcentage se modifie-t-il suivant les résultats du test BIO?"

Pour tenter de répondre à cette question, on peut reproduire le graphique précédent pour chaque valeur de la variable BIO (c’est-à-dire pour chaque résultat du test BIO):

Diagramme des fréquences absolues par valeur de SEV

0 5 10 15 20 25

1 2 3 4 7

BIO

Nbre patients

4 3 2 1

Il semble bien qu'au sein de l'échantillon la réponse soit positive; pour étendre cette réponse au sein de la population, il faut quitter le domaine des statistiques

(15)

On présente souvent de tels graphiques verticalement: voilà ce qu'il donne pour la variable AGE:

Diagramme des fréquences absolues

0 1 2 3 4 5 6 7

38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98

Age

A l'aide d'un tel graphique, on voit clairement comment se distribuent les fréquences relatives (graphique de la distribution des fréquences en "tuyau d'orgue" ou histogramme des fréquences).

Le graphique est encore plus parlant lorsqu'on groupe les valeurs prises par la variable AGE:

(16)

Diagramme des fréquences absolues Données groupées

0 2 4 6 8 10 12 14 16

Classes d'âges

[ -44] [45-49] [50-54] [55-59] [60-64] [65-69] [70-74] [75-79] [80- ]

Densité des fré quences fré quence é tendue

En partant d'une distribution des fréquences (relatives) regroupées en classe, on définit la densité des fréquences c’est-à-dire la proportion de la distribution par unité d'étendue de la classe; la densité des fréquences est donc un quotient: fréquence divisée par une étendue. Si on se donne une densité de fréquence, on retrouve les effectifs en multipliant la densité (l'ordonnée) par l'étendue (l'abscisse): ainsi dans le cas des densités des fréquences, ce sont les aires qui représentent des effectifs et non les ordonnées.

Soient X_l, X₂, X₃,... ,X_n, les n valeurs observées d'une variable ordinale (ou ordinale ou moins). La fonction de répartition Fn(x) (x réel quelconque) est la fonction définie par:

F x nbreX n

n

i X

( )

C'est une fonction en escalier dont les marches sont situées aux points X_i (i=1,2,...,n) et dont la hauteur des marches est le nombre de X_i plus petits ou égaux à x divisé par n.

Cette fonction dont le rôle théorique est fondamental "parle" moins que la

(17)

La dernière colonne du tableau suivant donne la valeur de la fonction de répartition aux points X_i (X_l= l, X₂= 2, X₃= 3 et X₄= 4 seules valeurs distinctes observées) de la variable SEV de l'exemple précédent (la première colonne reprend les fréquences absolues, la 2e ces fréquences cumulées, la 3e les fréquences relatives (en pourcent) et la 4e ces fréquences cumulées ou la fonction de répartition):

SE V

Fréq.

abs.

Fréq. abs.

cum.

Fréq.

rel.

Fréq.

rel.cum.

1 37 37 42.05 42.05

2 26 63 29.55 71.59

3 23 86 26.14 97.73

4 2 88 2.27 100.00

Voici une représentation de la fonction de répartition pour la variable AGE:

Diagramme des fréquences relatives cumulées ou fonction de répartition

0.0%

20.0%

40.0%

60.0%

80.0%

100.0%

120.0%

38 48 58 68 78 88 98 108

Age

Il existe bien d'autres représentations que celle des diagrammes en "tuyau d'orgues", comme celle-ci donnant la répartition des valeurs de DUJ au sein de l'échantillon sous forme de "quartier de tarte":

(18)

Répartition des valeurs de DUJ

Duj 3

5% Duj 6

3%

Duj 7 5%

Duj 8 3%

Duj 9 3%

Duj 11 14%

Duj 12 14%

Duj 13 8%

Duj 14 8%

Duj 15 7%

Duj 16 8%

Duj 22 5%

Autres 17%

Il est impossible de citer tous les graphiques possibles: diagrammes en ascenseurs, en building, nuages de points, etc.

(19)

Quantiles

3

On voudrait pouvoir répondre à des questions du type:

"en Belgique, une personne sur 2 a moins de quel âge?"

“9 personnes sur 10 ont moins de quel âge?"

Reprenons l'exemple du chapitre 2 pour voir comment répondre à ces deux questions. Dressons le tableau des fréquences absolues, des fréquences relatives exprimées en %, les fréquences absolues cumulées et les fréquences relatives cumulées exprimées en % (ou la fonction de répartition).

(20)

Quantiles

Age Fréquences Fréquences Fréquences Fréquences absolues relatives absolues relatives

cumulées cumulées

38 1 1.1% 1 1.1%

40 1 1.1% 2 2.3%

43 1 1.1% 3 3.4%

44 1 1.1% 4 4.5%

46 1 1.1% 5 5.7%

48 1 1.1% 6 6.8%

49 4 4.5% 10 11.4%

50 2 2.3% 12 13.6%

51 5 5.7% 17 19.3%

52 4 4.5% 21 23.9%

53 3 3.4% 24 27.3%

54 1 1.1% 25 28.4%

55 3 3.4% 28 31.8%

56 4 4.5% 32 36.4%

57 2 2.3% 34 38.6%

58 3 3.4% 37 42.0%

59 1 1.1% 38 43.2%

60 5 5.7% 43 48.9%

61 1 1.1% 44 50.0%

62 2 2.3% 46 52.3%

63 3 3.4% 49 55.7%

65 6 6.8% 55 62.5%

66 3 3.4% 58 65.9%

69 3 3.4% 61 69.3%

70 2 2.3% 63 71.6%

71 3 3.4% 66 75.0%

72 4 4.5% 70 79.5%

73 3 3.4% 73 83.0%

74 2 2.3% 75 85.2%

75 1 1.1% 76 86.4%

76 2 2.3% 78 88.6%

78 2 2.3% 80 90.9%

79 2 2.3% 82 93.2%

80 2 2.3% 84 95.5%

81 1 1.1% 85 96.6%

82 1 1.1% 86 97.7%

83 1 1.1% 87 98.9%

91 1 1.1% 88 100.0%

On lit dans ce tableau que, par exemple:

il y a 1 personne ayant 48 ans soit 1.1% de l'échantillon

il y a 6 personnes ayant moins de 48 ans soit 6.8% de l'échantillon

il y a 3 personnes ayant 53 ans (soit 3.4% de l'échantillon)

il y a 24 personnes ayant moins de 53 soit 27.3% de l'échantillon.

Pour déterminer l'âge A tel qu'il y ait une personne sur 2 soit 50% de l'échantillon ayant moins de A ans, cherchons l'âge pour lequel on a 50% dans la dernière colonne; on trouve A=61 ans ce qui répond à la première question.

Pour répondre à la deuxième question, cherchons dans la dernière colonne 90%. A

(21)

Quantiles ans, mais l'échantillon ne permet pas de répondre plus précisément (non unicité de la réponse); pour donner toutefois une seule réponse (un seul âge), on a coutume d'interpoler linéairement entre 76 et 78 ans;

A ans

76 2 90 0 88 6

90 9 88 6 77 2

( . . )

( . . ) .

On voit que pour répondre à des questions du type étudié, il faut "inverser" la fonction de répartition (en levant les indéterminations éventuelles).

Grosso-modo, on veut définir une valeur Q_p de la variable qui partage l'échantillon en deux parties: la première partie contient ceux qui ont une valeur de la variable inférieure à Qp, cette partie contenant p% des individus, et la deuxième contient ceux dont la variable est supérieure à Qp, cette partie contenant (1-p)% des individus.

Qp est un quantile d'ordre p (0 p 1) si:

Nbre X Q

n p Nbre X Q

n

i p i p

Les quantiles sont des mesures de position qui ne tentent pas de déterminer le centre d'une distribution d'observations, mais de décrire une position particulière.

Cette notion est une extension du concept de la médiane (qui divise une distribution d'observations en 2 parties).

Le calcul des quantiles n'a de sens que pour une variable quantitative pouvant prendre des valeurs sur un intervalle déterminé.

Les quartiles divisent l'ensemble des observations en 4 parties.

Les cas particuliers p = 25%, p = 50%, p = 75% définissent les quartiles; le deuxième quartile (p = 50%) est appelé la médiane.

Il y a 1 individu sur 2 dont la valeur de la variable est comprise entre Q25 et Q75. Les déciles divisent l'ensemble des observations en 10 parties.

Les cas particuliers p = 10%, p = 20%, .... p = 90% définissent les déciles.

(22)

Mesures de tendance centrale

4 ^!

Une mesure de tendance centrale permet de résumer un ensemble de données relatives à une variable quantitative. Plus précisément, elle permet de déterminer une valeur fixe, appelée valeur centrale, autour de laquelle l'ensemble des données à tendance à se rassembler.

Supposons que les valeurs observées X₁, X₂,...; X_n soient cardinales et reportons-les sur un axe:

--+---*--*-*-*-***--*--->

Intuitivement et à l'oeil, on situerait le "centre" de ces points:

--+---*--*-*-*O***--*--->

Comment traduire cette intuition à l'aide d'une expression liant les X₁, ..., X_n ?

La moyenne arithmétique est définie par l'expression suivante:

X X X X

n

X n

n

i i

n

₁ ₂

... 1

La moyenne arithmétique:

dépend de la valeur de toutes les observations

est fréquemment utilisée comme estimateur de la moyenne de la population

peut voir sa valeur faussée par des données aberrantes

(23)

la somme des écarts au carré entre chaque observation Xi d'un ensemble de données et une valeur est minimale lorsque est égale à la moyenne arithmétique.

min (X_i ) moyenne arithm tique

i n

²

1

é

La moyenne harmonique est définie par l'expression suivante:

m n

x

h

i i

n

¹

1

Exemple d'utilisation: calcul de la vitesse moyenne

La moyenne géométrique est définie par l'expression suivante:

m X

X X X

g i

i n n

n n

⁽ ⁾

( ).( )....( )

1 1

1 1 1 1

1

1 2

Exemple d'utilisation: taux de croissance moyen

La médiane est:

le deuxième quartile Q50

est facile à déterminer puisqu'elle n'exige qu'un classement des données

n'est pas influencée par des observations aberrantes

est utilisée comme estimateur de la valeur centrale d'une distribution notamment lorsque celle-ci est asymétrique ou qu'elle comporte des données aberrantes

la somme des écarts en valeur absolue entre chaque observation Xi d'un ensemble de données et une valeur est minimale lorsque est égale à la médiane.

min X_i mé diane

i

n

1

Le mode est:

la valeur observée la plus fréquente

(24)

on remarque que le mode n'est pas toujours univoquement défini: il peut y avoir zéro ou plusieurs modes dans un ensemble de données

"

L'écart de chaque observation X_i à la moyenne X est Xⁱ X; cet écart est tantôt positif, tantôt négatif, plus ou moins grand suivant la valeur de X_i, mais la propriété qui caractérise X ( X est la seule quantité qui en jouit) est que la somme de ces écarts est nulle:

( ) ( ) ... ( )

( )

X X X X X X

X X

n

i i

n

1 2

1

0 0

La démonstration de cette propriété est simple.

Que devient le "centre" de la distribution déterminé à l'œil, si on effectue un changement d'origine, ou une translation ou si on rajoute une constante identique à toutes les observations ?

Intuitivement, le "centre" de la distribution doit "suivre" la transformation (changement d'origine ou translation) car celle-ci ne perturbe pas la position relative des points observés.

On peut vérifier facilement que les trois mesures de tendance centrale introduites vérifient cette propriété: si Yi = Xi + B alors la mesure de tendance centrale des Yi

est égale à celle des Xi plus B.

!"

On peut se poser la même question avec un changement d'échelle, un changement d'origine.

On vérifie que si Y_i= A * X_i alors la mesure de tendance centrale des Y_i est égale à celle des X_i multiplié par A.

Pour résumer ces deux propriétés: "on peut effectuer un changement d'origine ou un changement d'unité puis calculer une mesure de tendance centrale ou, de manière

(25)

Mesures de tendance centrale équivalente, calculer la mesure de tendance centrale puis effectuer le changement d'origine ou le changement d'unité sur la mesure de tendance centrale."

Il n'existe pas de lien systématique entre la moyenne et la médiane; cependant si:

la moyenne est supérieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie positive

la moyenne est inférieure à la médiane, on dit que la distribution des valeurs observées présente une dissymétrie négative

la moyenne est égale à la médiane, on dit que la distribution des valeurs observées est symétrique

En effet, si la moyenne X est plus grande que la médiane MED, on a:

MED X

X X X MED i n

X X X MED

X MED

i i

n

i i

n

i i

n

( = , ,..., )1 2

0

1 1

1

( ) ( )

( )

en d'autres termes, les écarts positifs l'emportent en grandeur (il y a autant de Xi- MED positifs que négatifs) sur les écarts négatifs.

(26)

Mesures de dispersion

5 ^!

Supposons que les valeurs observées X_l, X₂, ..., X_n soient cardinales et reportons-les sur axes avec une mesure de tendance centrale marquée 0:

----+--- *--*-*-*O***--* --->

Voici d'autres valeurs observées en même nombre et de même mesure de tendance centrale:

--*-+---*---*---*---O--*--*--*---*--->

Dans le premier cas toutes les valeurs sont concentrées autour de la mesure de tendance centrale, et dans le deuxième cas, elles sont très étalées autour de cette mesure. Voyons comment traduire celà dans une expression liant les X1, X2, ..., Xn.

On peut classer les mesures de dispersion en 2 groupes:

les mesures définies par la distance entre 2 valeurs représentatives de la distribution

les mesures calculées en fonction des déviations de chaque donnée par rapport à une valeur centrale

#

L'étendue est la différence entre la plus grande et la plus petite des observations.

Etendue Xmax Xmin

#$%

L'intervalle inter-quartile est la différence entre le troisième et le premier quartile:

Q75-Q25.

(27)

Mesures de dispersion Il correspond donc à l'intervalle comprenant 50% des observations les plus au centre de la distribution.

L'intervalle inter-quartile est une mesure de dispersion qui ne dépend pas du nombre d'observations, cette mesure est nettement moins sensible aux observations aberrantes.

#

Comme son nom l'indique, l'écart moyen absolu est la moyenne des écarts à la moyenne pris en valeur absolue:

Ecart moyen absolu

^X ^X

n

i i

n

1

$

On définit la variance comme la moyenne des carrés des écarts à la moyenne:

²

2

1

^X ^X

n

i i

n

#%

L'écart-type est la racine carrée de la variance. L'écart-type s'exprime dans les mêmes unités que les X_i, contrairement à la variance.

2

2 1

(X X) n

i i

n

L'écart-type est généralement noté lorsqu'il est relatif à une population et s lorsqu'il est relatif à un échantillon.

"

$

On peut démontrer la relation suivante:

(28)

Mesures de dispersion

^X ^U

^X ^X ^{n X} ^U

U quelconque

i i

n

i i

n

₁ ²

₁ ² ^. ²

En d'autres termes: la somme des carrés des écarts des observations à une valeur quelconque U est égale à la somme des carrés des écarts à la moyenne plus n fois le carré de l'écart de U à X

De cette relation, on déduit, en divisant par n et en prenant U=0, que:

1 1

1

1 1

2 1

2

2 1

2 2

2 1

2 2

2 2 2

n X U

n X X X U

n X U X U

n X X

i i

n

i i

n

i i

n

i i

n

i

. ( ) . ( ) ( )

. ( ) ( )

. .

Si U 0

expression permettant de calculer la variance à partir de la somme des carrés et de la moyenne.

De la relation citée, se déduit aussi une propriété liant la moyenne et la variance: la somme des carrés des écarts prend sa plus petite valeur avec la moyenne, ce minimum, divisé par n, est la variance.

"

Si on effectue une translation sur les Xi, ou un changement d'origine, la dispersion ne change pas; qu'en est-il pour les mesures de dispersion ? On vérifie facilement qu'elles ne sont pas affectées par cette transformation (par exemple, l'écart-type des Y_i avec Y_i= X_i+B est égal à l'écart-type des X_i).

!"

Par contre, si on effectue un changement d'unité, la dispersion est affectée; on vérifie que les mesures de dispersion "suivent" le changement d'unité: si Yi = A.Xi alors la mesure de dispersion des Yi est égale à celle des Xi multipliée par A.

(29)

Tableaux de contingence et mesures de dépendance

6

On considère deux variables nominales ou ordinales (mais pas cardinales). On désire mesurer de quelle manière la première variable appelée variable indépendante influence la deuxième variable appelée variable dépendante.

La variable dépendante dans un modèle d'analyse de régression est la variable considérée comme variant en fonction d'autres variables de l'analyse.

On appelle variable indépendante dans un modèle de régression la ou les variables qui sont considérées comme exerçant une influence sur la variable dépendante ou qui expliquent les variations de la variable dépendante.

Les exemples sont multiples:

var.

indépendante

var.

dépendante situation

familiale

réussite scolaire classe d'âges performance

salaire choix politique

Contingence signifie dépendance. De sorte qu'un tableau de contingence est tout simplement un tableau qui montre comment une caractéristique dépend de l'autre.

On a relevé le niveau scolaire (variable dépendante) et le statut du père (variable indépendante) de 200 enfants. Le niveau scolaire est codé D₁, D₂ et le statut du père I1, I2, I3, I4. On regroupe les résultats dans un tableau

(30)

I1 I2 I3 I4 Total

D₁ 21 60 11 6 98

D2 14 65 4 19 102

Total 35 125 15 25 200

Il y a donc 21 enfants dont le niveau scolaire est D₁ et le statut du père I₁; il y 98 enfants de niveau D1, 125 enfants dont le statut du père est I2. Les totaux en lignes et colonnes sont appelés totaux marginaux. Tel quel ce tableau n'est pas parlant: on rajoute les fréquences relatives (en pourcent du total global, 200 dans l'exemple):

D₁ 21

10.50 %

60 30.00%

11 5.50 %

6 3.00 %

98 49.00 %

D2 14

7.00 %

65 32.50 %

4 2.00 %

19 9.50 %

102 51.00 %

Total 35

17.50 %

125 62.50 %

15 7.50 %

25 12.50 %

200

Parce que plus parlant sur la nature des dépendances éventuelles, on rajoute les fréquences relatives en pourcent des totaux marginaux lignes et colonnes (dans la cellule D₁,I₁: 21.43%=21/98 et 60.00%=21/35, etc):

D₁ 21

10.50%

21.43%

60.00%

60 30.00%

61.22%

48.00%

11 5.50%

11.22%

73.33%

6 3.00%

6.11%

24.00%

98 49.00%

D₂ 14

7.0%

13.73%

40.00%

65 32.50%

63.70%

52.00%

4 2.00%

3.92%

26.27%

19 9.50%

18.63%

76.00%

102 51.00%

Total 35

17.50%

125 62.50%

15 7.50%

25 12.50%

200

On observe par exemple que:

dans l'échantillon, il y a 49.00% d'enfants au niveau D₁ et 51.00% au niveau D₂

si le statut du père est de I1, 60% des enfants sont au niveau D1

en revanche si le statut du père est I4, 24% des enfants sont au niveau D1

parmi les enfants qui sont au niveau D₂, 3.92% ont un père de statut I₃

(31)

Sans tenir compte de la variable indépendante, la valeur la plus fréquente de la variable dépendante est D2 dans l'exemple avec 102 enfants (98 n'ont pas cette valeur).

En tenant compte de la variable indépendante (c’est-à-dire par statut du père), la valeur la plus fréquente n'est pas toujours D1:

Statut du père

Niveau le plus fréquent

I₁ D₁

I2 D2

I3 D1

I4 D2

On peut affirmer que 98 enfants n'ont pas le niveau le plus fréquent. Comment cette affirmation s'affine-t-elle en tenant compte de la variable indépendante (du statut du père):

Statut du père

Niveau le plus fréquent

échappent

I₁ D₁ 14

I2 D2 60

I3 D1 4

I4 D2 6

84 On passe de 98 à 84, soit un gain relatif de

^{98 84}

98 14 3%

.

On appelle LAMBDA () cette mesure de dépendance calculée sur l'exemple.

Citons quelques propriétés de :

0 1

En toute généralité, on ne peut pas permuter le rôle des variables indépendante et dépendante sans changer la valeur de .

Interprétons les valeurs possibles de

est presque nulle: les individus n'ayant pas la valeur la plus fréquente sont aussi nombreux que l'on précise ou non les valeurs prises par la variable indépendante,

(32)

Tableaux de contingence et mesures de dépendance cette variable n'apporte pas beaucoup d'information en liaison avec la variable dépendante, donc la dépendance est faible.

est proche de 1: le nombre d'individus n'ayant pas la valeur de la variable dépendante la plus fréquente change beaucoup si l'on précise les valeurs prises par la variable indépendante: elle apporte beaucoup d'informations en liaison avec la variable dépendante, donc la dépendance est forte.

Remarquons que la mesure est "aveugle" à certaines dépendances; l'exemple suivant illustre ce cas “pathologique”:

I₁ I₂ I₃ I₄ Total

D1 23 54 21 31 128

D2 22 1 19 29 72

Total 45 55 40 60 200

Il est facile de voir que est nul (la valeur la plus fréquente est toujours D1) cependant il existe une dépendance manifeste: “Si le statut est I2 alors le niveau est quasi toujours D₁”.

On peut montrer qu'il est équivalent de calculer suivant ce qui a été décrit dans l'exemple ou par l'expression suivante:

^max( ^, ^,..., ⁾ ^max( ^, ^,..., ⁾

max( , ,..., )

. . .

.. . . .

n n n n n n

n n n n

J J Ij i

I

1 2 1 2

1 2

où les n_ij, n_i. et n_.. sont les fréquences absolues et totaux marginaux du tableau de contingence:

1 2 ... J Total

1 n₁₁ n₁₂ ... n_1J n1.

2 n21 n22 ... n2J n_2.

...

i n_i1 n_i2 ... n_iJ ni.

...

I nI1 nI2 ... nIJ n_I.

Total n_.1 n_.2 ... n_.J n_..

(33)

Définissons une mesure de dépendance entre deux variables ordinales. Pour ce faire, on définit d'abord la notion de paires d'individus concordante et discordante . Pour chaque individu on observe deux variables X et Y; pour l'individu i X prend la valeur Xi et Y la valeur Yi. Comparons les individus i et j quant à leurs variables X et Y:

- on dit que “i est concordant avec j” si et seulement si:

[Xi < Xj et Yi < Yj] ou [Xi > Xj et Yi > Yj]

- on dit que “i est discordant avec j” si et seulement si:

[Xi < Xj et Yi > Yj] ou [Xi > Xj et Yi < Yj]

Bien sûr il existe des paires d'individus ni concordantes ni discordantes.

Si on remarque que le nombre de paires concordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est grand"; de même, si le nombre de paires discordantes domine, on peut suspecter une dépendance du type "si X est grand alors Y est petit"; finalement si le nombre de paires concordantes est du même ordre de grandeur que le nombre de paires discordantes, on ne peut affirmer l'une ou l'autre des 2 propositions.

D'où l'idée de la mesure de dépendance (Gamma)

C D

C C

où

C nb concordants D nb discordants

. .

Citons quelques propriétés de :

-1 +1

Le signe de s'interprète: positif si les concordants dominent, négatif dans le cas contraire.

On peut inverser le rôle de X et de Y sans changer la valeur de

(34)

Prenons un exemple pour illustrer la démarche à suivre.

Déterminons le nombre de concordants.

\ X Y \

- 0 +

+ 1 4 10

0 5 30 2

- 20 6 2

On commence par la dernière ligne du tableau (Y=-) première colonne (X=-). Quels sont les individus concordants avec ces 20 individus? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 (*) 10 (*)

0 5 30 (*) 2 (*)

- 20 (°) 6 2

En effet on a

30 individus avec [X*=0 > X°=- et Y*=0 > Y°=-]

2 individus avec [X*=+ > X°=- et Y*=0 > Y°=-]

4 individus avec [X*=0 > X°=- et Y*=+ > Y°=-]

10 individus avec [X*=+ > X°=- et Y*=+ > Y°=-]

46 individus concordants avec les 20 soient 46 * 20 = 920 paires

On poursuit par la dernière ligne du tableau (Y=-) deuxième colonne (X=0). Quels sont les individus concordants avec ces 6 individus ? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 10 (*)

0 5 30 2 (*)

- 20 6 (°) 2

En effet on a

2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=-]

10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=-]

On poursuit par la dernière ligne du tableau (Y=-) troisième colonne (X=+). Quels sont les individus concordants avec ces 6 individus ? Il n'en existe pas.

(35)

\ X Y \

- 0 +

+ 1 4 10

0 5 30 2

- 20 6 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus concordants avec ces 5 individus ? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 (*) 10 (*)

0 5 (°) 30 2

- 20 6 2

En effet on a

4 individus avec [X*=0 > X°=- et Y*=+ > Y°=0]

10 individus avec [X*=+ > X°=- et Y*=+ > Y°=0]

On poursuit par la deuxième ligne du tableau (Y=0), deuxième colonne (X=0).

Quels sont les individus concordants avec ces 30 individus ? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 10 (*)

0 5 30 (°) 2

- 20 6 2

En effet on a:

10 individus avec [X*=+ > X°=0 et Y*=+ > Y°=0]

10 individus concordants avec les 30 soient 30 * 10 = 300 paires Au total 920 + 72 + 70 + 300 = 1362 paires concordantes.

Déterminons le nombre de paires discordantes.

On commence par la première ligne du tableau (Y=+) première colonne (X=-).

Quels sont les individus discordants avec cet individu? Ceux en italique:

\ X Y \

- 0 +

+ 1 (°) 4 10

0 5 30 (*) 2 (*)

(36)

(37)

Tableaux de contingence et mesures de dépendance En effet on a:

30 individus avec [X*=0 > X°=- et Y*=0 > Y°=+]

2 individus avec [X*=+ > X°=- et Y*=0 > Y°=+]

6 individus avec [X*=0 > X°=- et Y*=+ > Y°=+]

2 individus avec [X*=+ > X°=- et Y*=+ > Y°=+]

40 individus discordants avec le 1 soient 40 * 1 = 40 paires

On poursuit par la première ligne du tableau (Y=+) deuxième colonne (X=0). Quels sont les individus discordants avec ces 4 individus. Ceux en italique:

\ X Y \

- 0 +

+ 1 4 (°) 10

0 5 30 2 (*)

- 20 6 2 (*)

En effet on a

2 individus avec [X*=+ > X°=0 et Y*=0 > Y°=+]

2 individus avec [X*=+ > X°=0 et Y*=+ > Y°=+]

4 individus discordants avec les 4 soient 4 * 4 = 16 paires

On poursuit par la première ligne du tableau (Y=0) troisième colonne (X=+). Quels sont les individus discordants avec ces 10 individus? Il n'en existe pas.

\ X Y \

- 0 +

+ 1 4 10

0 5 30 2

- 20 6 2

On poursuit par la deuxième ligne du tableau (Y=0) première colonne (X=-). Quels sont les individus discordants avec ces 5 individus? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 10

0 5 (°) 30 2

- 20 6 (*) 2 (*)

En effet on a:

6 individus avec [X*=0 > X°=- et Y*=- > Y°=0]

2 individus avec [X*=+ > X°=- et Y*=- > Y°=0]

(38)

On poursuit par la deuxième ligne du tableau (Y=0) deuxième colonne (X=0). Quels sont les individus discordants avec ces 30 individus? Ceux en italique:

\ X Y \

- 0 +

+ 1 4 10

0 5 30 (°) 2

- 20 6 2 (*)

En effet on a:

2 individus avec [X*=+ > X°=0 et Y*=- > Y°=0]

2 individus discordants avec Ïes 30 soient 2 * 30 = 60 paires Au total 40 + 16 + 40 + 60 = 156 paires discordantes.

On a donc

1362 156

1362 156 79 45%.

On perd dans l'analyse toutes les paires où Xi=Xj ou Yi=Yj. On peut introduire un modifié en divisant par [nr. concordant + nr. disconcordant + EY], où EY est le nombre de paires avec [X_i<>X_j et Y_i=Y_j].

CD

C D EY

est "aveugle" à certaines dépendances.

(39)

Considérons 2 variables cardinales (ou ordinales): X et Y. On désire mesurer la dépendance de Y (variable dépendante) en X (variable indépendante).

Pour fixer les idées, prenons l'exemple d'un échantillon de 11 observations où X est l'âge et Y le salaire:

Observation X Y

1 36 132

2 45 150

3 37 126

4 42 160

5 55 157

6 28 100

7 25 95

8 30 110

9 50 160

10 49 146

11 18 78

Si une petite valeur de X entraîne régulièrement une petite valeur pour Y, on peut affirmer que Y dépend de X; il en va de même, si une petite valeur de X entraîne régulièrement une grande valeur pour Y. Par contre, si une petite valeur de X entraîne indifféremment une grande ou une petite valeur de Y, on peut dire que Y ne dépend pas de X.

Trions donc les valeurs de X par ordre croissant et de même pour les valeurs de Y.

Observation X Y Rangs des X Rangs des Y

1 36 132 5 6

2 45 150 8 8

3 37 126 6 5

4 42 160 7 10.5

5 55 157 11 9

6 28 100 3 3

7 25 95 2 2

8 30 110 4 4

9 50 160 10 10.5

10 49 146 9 7

11 18 78 1 1

Note: si plusieurs données ont la même valeur, on utilise le rang moyen.

(40)

Tableaux de contingence et mesures de dépendance Calculons la différence entre les rangs de X et ceux de Y.

Observation X Y R_x R_y R_x-R_y

1 36 132 5 6 -1

2 45 150 8 8 0

3 37 126 6 5 1

4 42 160 7 10.5 -3.5

5 55 157 11 9 2

6 28 100 3 3 0

7 25 95 2 2 0

8 30 110 4 4 0

9 50 160 10 10.5 -0.5

10 49 146 9 7 2

11 18 78 1 1 0

Il est vain de résumer ces 11 différences par une moyenne: elle vaut nécessairement 0, en effet:

(5-6)+(8-8)+(6-5)+(7-10.5)+(11-9)+(3-3)+(2-2)+(4-4)+(10-10.5)+(9-7)+(1-1) = 5+8+6+7+11+3+2+4+10+9+1-6-8-5-10.5-9-3-2-4-10.5-7-1=

1+2+3+4+5+6+7+9+9+10+11-1-2-3-4-5-6-7-8-9-10.5-10.5 = 0 Prenons plutôt le carré des différences et sommons-les:

Observation X Y R_x R_y R_x-R_y (R_x-R_y)²

1 36 132 5 6 -1 1

2 45 150 8 8 0 0

3 37 126 6 5 1 1

4 42 160 7 10.50 -3.5 12.3

5 55 157 11 9 2 4

6 28 100 3 3 0 0

7 25 95 2 2 0 0

8 30 110 4 4 0 0

9 50 160 10 10.5 -0.5 0.3

10 49 146 9 7 2 4

11 18 78 1 1 0 0

24.6

On peut démontrer que D² (toujours positif) prend une valeur maximale égale à n n.( ² 1)

3

,où n est le nombre d'observations.

On ramène cette quantité à une valeur comprise entre -1 et +1.

Cours statistique

1

2

3

4 !

"

!"

5 !

#

#$%

#

$

#%

"

$

"

!"

6

4 ^!

5 ^!