Statistique
Tableau à double entrée
Nuage de points
Les travaux statistiques sont d’abord et avant tout des travaux d’observations sur des phénomènes, des objets, des populations…
En sciences, l’analyse de données issues d’expériences ou d’études statistiques est un élément essentiel de la recherche.
Vérifier s’il existe une relation entre certaines variables ou entre deux
caractères quantitatifs d’une distribution est l’une des premières démarches des scientifiques.
Une fois qu’un lien est mis en évidence et que son intensité a été mesurée, il devient possible de le modéliser à l’aide d’une fonction.
Dans cette présentation, nous apprendrons à construire deux nouveaux outils :
- le tableau à double entrée ou tableau de corrélation;
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
- le nuage de points ou diagramme de dispersion.
10 11 12 13 14 15 16 17 Âge 120
130 140 150 160 Taille 170
(cm)
180
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
2
2
Ces deux types de représentation servent à déterminer la corrélation entre deux caractères (variables) d’une population.
Rappel
Les premières études de la statistique portaient sur les populations humaines.
Le terme « population » est resté mais aujourd’hui, en statistique, ce terme désigne aussi bien des objets, des phénomènes que des humains.
Exemple : Si on s’intéresse à la qualité de l’eau des piscines d’une municipalité, la population étudiée est « les piscines ».
Le terme « caractère » signifie le sujet de l’étude. Dans l’exemple des piscines, le caractère étudié est « la qualité de l’eau » .
Les différents caractères d’une étude statistique peuvent être aussi appelés les variables à l’étude.
Souvent, l’étude de toute une population est impossible; on se sert alors d’un échantillon, c’est-à-dire un petit ensemble représentatif de toute la population.
Exemple : On ne pourrait pas étudier toute la population des morues qui vivent en mer; cependant, on pourrait faire l’étude des morues capturées par plusieurs pêcheurs. On aurait alors un échantillon.
On collecte différentes informations quantitatives et/ou qualitatives et on les organise pour qu’elles nous apprennent des choses.
Exemples d’informations qualitatives : sexe, couleur des yeux, opinion politique, … Exemples d’informations quantitatives : l’âge, le poids, le salaire, le nombre de bactéries, etc.; tout ce qui représente une quantité, donc mesurable.
Le tableau à double entrée et le nuage de points utilisent principalement des données quantitatives.
Le mot « corrélation » signifie simplement une relation entre deux choses.
La corrélation statistique sert donc à quantifier la liaison mathématique entre deux variables.
Ces deux variables doivent donc être quantitatives.
Le tableau à double entrée
Lors d’une étude statistique, on obtient plusieurs informations (plusieurs variables).
Le tableau à double entrée permet de savoir s’il existe
un lien entre certaines variables.
BERNADETTE ANDREE
BARBARA GAETANE JEANNE MARTINE ODILE SOLANGE ANTOINE HENRI PATRICK THOMAS BRUNO FRANÇOIS JEAN
MATHIAS PHILIPPE XAVIER VALENTINE
13 13 14 12 15 11 14 12
14 13 12 11 14 12 12 16 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 F F
F F F F F F
M M M M M M M M M M F
38,2 44.3 46,1 38,2 50,5 22,4 40,4 34,7 50,5 38,1 57,3 39,3 46,1 37,1 45,9 66,3 60,0 50,5 Individu Âge Sexe Taille
(cm)
Poids (Kg)
Quelques caractéristiques d’un groupe d’adolescents
Prenons un exemple :
Voici un tableau de compilation représentant un échantillon de 19 adolescents.
Ce tableau nous donne 4 informations concernant certains individus: l’âge, le sexe, la taille et le poids.
Existe-il un lien entre l’âge et la taille ?
Existe-il un lien entre la taille et le poids ?
Pour le savoir, nous allons construire un tableau à double entrée en utilisant uniquement les variables «âge et taille».
Existe-il un lien entre l’âge et la taille ?
13 13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm) À l’aide de ce tableau, on construit un tableau à double entrée :
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
Âge 11 12 13 14 15 16 Total On place une des variables en colonnes, ici l’âge, qui varie de 11 à 16 ans.
On garde une dernière colonne pour le total des effectifs de chaque ligne.
Ici, l’âge ne comporte pas beaucoup de données différentes; on peut donc toutes les utiliser.
13 13 14 12 15 11 14 12
14 13 12 11 14 12 12 16 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 Âge Taille
(cm)
Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total
On place l’autre variable, en lignes, ici, la taille.
13 13 14 12 15 11 14 12
14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Ici, l’écart entre les données est assez considérable; il est donc préférable d’utiliser des classes.
On garde une dernière ligne pour le total des effectifs de chaque colonne.
Taille (cm)
Remarque : On aurait pu inverser les variables; mettre l’âge en lignes et la taille en colonnes.
13 13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Rappel Pour déterminer les classes :
- on regarde la plus petite donnée;
- on regarde la plus grande donnée;
- on construit des classes d’égale largeur.
Il n’y a pas de règle absolue pour la construction des classes; on utilise habituellement entre 6 et 10 classes en utilisant pour chaque classe, une largeur
significative.
La classe [ 121 , 133 [ n’est pas très significative (pas très facile à lire).
La classe [ 120 , 130 [ est plus significative (facile à lire).
Ici, l’étendue de la distribution est de 180 – 123, donc de 57. On peut donc utiliser 6 classes d’une largeur de 10 unités chacune.
La première classe doit débuter un peu avant la première donnée, ici, 123 donc [ 120 ,
13 13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Remarque sur les crochets [ , [
La classe [ 120 , 130 [
Ce crochet fermé indique que 120 est inclus dans cette classe ainsi que tous les nombres jusqu’à 130 exclu.
Remarque :
Cependant, comme 180 est la dernière donnée et qu’elle respecte la largeur de la classe, on peut
refermer le crochet; 180 fera partie de cette classe : [ 170 , 180 ] .
Le crochet est donc ouvert.
On aurait pu ouvrir une dernière classe pour 180, soit [ 180 , 190 [.
Dépendamment des distributions de données avec lesquelles on travaille, les tableaux à double entrée peuvent être construits avec des données ordinaires ou des données regroupées en classe.
Poids\Taille 160 175 180
50 1
55 1
60 1
70 2
13 13 14 12 15 11 14 12
14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Les colonnes et les lignes du tableau sont bien identifiées;
il ne manque qu’un titre.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
Nous pouvons maintenant compiler les données.
13 13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 Âge Taille
(cm)
Présentement, les données sont inscrites d’une manière désordonnée.
Pour t’aider à la compilation, il serait préférable de les mettre en ordre croissant.
Tu peux faciliter ce travail avec la calculatrice à affichage graphique.
13 13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Il faut d’abord entrer les données.
Pèse sur la touche STAT dans le menu qui apparaît,
EDIT CALC
1: Edit…
2: SortA(
3: SortD(
4: Clrlist
sélectionne 1 : Edit
Tu obtiendras une autre fenêtre;
L1 L2
dans la colonne L1, inscris les valeurs pour l’âge.
À chaque entrée, pèse sur ENTER.
Déplace-toi dans la colonne L2 avec les flèches et inscris les valeurs pour la taille.
Tu devrais avoir deux listes inscrites comme dans le tableau ci-contre.
13 13 14
140 161 155
Appelle maintenant la deuxième colonne 13
13 14 12 15 11 14 12 14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm) EDIT CALC
1: Edit…
2: SortA(
3: SortD(
4: Clrlist
Maintenant, pèse sur STAT sélectionne 2 : SortA (
SortA(
La fenêtre qui apparaît, indique que la calculatrice est prête à mettre les données en ordre croissant.
Appelle tes deux colonnes comme suit : 2nd puis la touche 1
Tu remarqueras, au-dessus, qu’il est inscrit L1.
La calculatrice affiche alors L1.
L1
Maintenant, inscris une virgule.
,
2nd puis la touche 2
L2
ATTENTION : tu dois inscrire une virgule.
SortA( L1
,
L2Pèse sur ENTER.
La calculatrice affichera DONE.
DONE Les listes sont prêtes.
Remarque :
Quand tu effectues cette opération, la calculatrice met en ordre croissant la colonne L1 qui
correspond à la variable de référence (dans le
graphique, cette variable sera représentée sur l’axe des abscisses).
Mais, elle ne le fait pas pour la deuxième colonne, car elle garde le lien d’association qui existait entre les variables avant l’opération.
Pour retrouver les listes, refais dans l’ordre : STAT/ 1 : Edit
et regarde les nouvelles listes.
13 13 14 12 15 11 14 12
14 13 12 11 14 12 12 16 15 15 15
140 161 155 148 155 123 160 140
172 155 160 142 157 142 148 180 167 165 165 Âge Taille
(cm)
Avant Après
11 11 12 12 12 12 12 13
13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2 La colonne L1 est en
ordre croissant.
Le lien d’association est inchangé.
Attention : Quand tu as terminé d’entrer les données, vérifie pour être certain de ne pas avoir fait d’erreur avant d’effectuer la mise en ordre, sinon, tu
Remarque :
Si tu as plusieurs listes de données, tu peux faire la même démarche.
La première liste sera en ordre croissant et toutes les autres listes garderont le lien d’association avec elle et entre elles.
Tu n’as qu’à procéder ainsi :
SORTA( L1 , L2 , L3, L4 Exemple pour 4 listes :
La première liste ( L1 ) est en ordre croissant et toutes les autres listes ont gardé le lien d’association).
Bien entendu, la première liste sera en ordre croissant, mais pas les autres.
Pour corriger une donnée.
Positionne le curseur sur la donnée, inscris la bonne donnée et pèse sur ENTER.
Si tu as fait plusieurs erreurs dans la même colonne,
EDIT CALC
1: Edit…
2: SortA(
3: SortD(
4: Clrlist
L1 L2 13
13 14
140 161 155 162 positionne le curseur sur l’entête de la colonne.
Pèse sur CLEAR, puis sur ENTER.
Exemple : la colonne L2.
La colonne est vide.
Pour effacer toutes les listes de données rapidement :
- Retourne dans STAT,
EDIT CALC 1: Edit
2: SortA(
3: SortD(
4: Clrlist - Sélectionne 4 : Clrlist
Clrlist
- Rappelle les listes :
2nd 1
,
2nd 2- Fais ENTER.
L1 , L2
Les listes sont vides.
La compilation peut commencer.
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
Fais correspondre chaque couple dans la bonne case en indiquant un trait.
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
Maintenant, transforme ces barres en nombres.
1
1 4
1
1 1 1
2 1 1
1
1 3
Fais le total de chaque ligne et de chaque colonne.
1 0 6 4 6 2
2 5 3 4 4 1 19
Le total de la dernière ligne et de la dernière colonne devrait être 19 puisqu’il y avait 19 adolescents dans l’échantillon.
Si le total de ton tableau ne correspond pas à l’échantillon que tu étudies, tu dois avoir une erreur.
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Le tableau à double entrée donne certaines informations sur la répartition d’une distribution.
Exemple : Ici, la majorité des adolescents de cet échantillon ont entre 12 et 15 ans et ont une taille entre 140 et 170 centimètres.
Le tableau à double entrée est terminé.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Un tableau à double entrée démontre parfois une certaine corrélation quand les couples inscrits sont proches d’une des diagonales du tableau.
Exemple : Dans cet exemple, une corrélation semble exister.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
1 1
4
1
1 2 1
1
1
1 5 3
3
4
Ici, la corrélation semble assez forte puisque les données gravitent très près de la diagonale.
1
1
4 1
1
2 1
1
1
3 5
3
4
Ici, la corrélation est pratiquement nulle puisque les données sont dispersées dans tout le tableau.
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Cette façon d’estimer une corrélation à partir d’un tableau est peu précise; elle donne une idée, mais reste très approximative.
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Le nuage de points
Le nuage de points (appelé aussi diagramme de dispersion) est un graphique
cartésien montrant les points correspondants aux couples d’une relation statistique.
Utilisons l’exemple de l’âge et la taille de l’échantillon de 19 adolescents.
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Remarque
Comme pour la construction du tableau à double entrée, il est préférable, pour faciliter le travail, de commencer par mettre la liste de données en ordre croissant par rapport à une des variables.
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Chaque couple de données peut s’écrire comme un couple de coordonnées dans le plan cartésien.
Exemple :
( 11, 142 )
Il s’agit alors d’inscrire chaque couple dans un plan cartésien.
La première coordonnée (ici, l’âge)
sera représentée
sur l’axe des abscisses.
La deuxième coordonnée (ici, la taille)
sera représentée
sur l’axe des ordonnées.
La graduation des axes est importante.
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Sur un même axe, la distance entre les échelons doit être égale.
Pour une meilleure interprétation, le graphique devrait avoir une forme approximativement carrée.
Comme chaque trait représente une unité et que par rapport à l’origine il y a plusieurs unités qui ne sont pas utilisées, il faut penser à mettre ce petit symbole :
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution (chaque colonne).
L1 : 16 – 11 = 5
Comme l’étendue est très petite, chaque petit trait vaudra 1.
On commence avec un nombre inférieur à la première donnée et on termine avec un nombre supérieur à la dernière donnée.
Donc, de 10 à 17
10 11 12 13 14 15 16 17
Remarque :
Âge
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161 L1 L2
Pour déterminer la graduation, calcule en premier l’étendue de chaque distribution (chaque colonne).
Ici, l’étendue de la distribution est de 180 – 123 donc de 57. On peut donc utiliser 6 intervalles d’une largeur de 10 unités chacun.
L2: 180 - 123 = 57
120 130 140 150 160 170
Pense à
Taille (cm)
180
10 11 12 13 14 15 16 17 Âge 120
130 140 150 160 Taille 170
(cm)
180 Le nuage de points peut être tracé.
11 11 12 12 12 12 12 13 13 14 14 14 14 15 15 15 15 16 13
142 123 142 140 160 148 148 140
155 155 172 160 157 155 165 165 167 180 161
L1 L2 Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
Il faut être le plus précis possible.
Remarque : ici, le couple (12 , 148) reviens 2 fois;
2
2
Voilà, le nuage de points est tracé.
10 11 12 13 14 15 16 17 Âge 120
130 140 150 160 Taille 170
(cm)
180
Répartition d’un échantillon d’adolescents en fonction de l’âge et la taille
2
2
Le nuage de points est un graphique de dispersion.
Il nous renseigne sur la corrélation entre deux variables.
La densité des points est un bon indice de la force d’une corrélation.
Lorsque les points sont très près les uns des autres, la corrélation est forte.
2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8
Si les points sont situés un peu partout dans le
graphique, la corrélation est faible.
4 5 6 7 8 9 10 11 12 13 14 15 16 17
2 4 6 8
Si les variables varient dans le même sens (y augmente quand x augmente) la corrélation est qualifiée de positive.
2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8
Si les variables varient dans le sens contraire (y diminue quand x augmente) la corrélation est qualifiée de négative.
-9 -8 -7 -6 -5 -4 -3 -2
2 3 4 5 6 7
Les nuages de points représentent des observations faites avec des variables différentes; ils peuvent donc prendre toutes sortes de formes.
2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8
4 5 6
2 3 4 5 6 7
4,8 5 5,2 5,4 5,6 5,8 6 6,2
4,5 5 5,5 6 6,5
Si les points tendent à former une droite oblique,
2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8
la corrélation est dite linéaire.
Nous nous intéresserons donc à ce type de nuage.
Nous verrons comment estimer le coefficient de corrélation, c’est-à-dire déterminer un nombre qui décrit la densité des points du nuage.
Comme la corrélation est linéaire, nous verrons comment en déterminer la droite de régression, c’est-à-dire y = ax + b.
Attention :
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
La ligne « Âge » dans ce tableau est dans le même sens que l’axe des abscisses du nuage de points.
10 11 12 13 14 15 16 17 Âge
Attention :
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
La colonne « taille » dans ce tableau n’est pas dans le même sens que l’axe des ordonnées du nuage de points.
120 130 140 150 160 Taille 170
(cm)
180
Taille Âge 11 12 13 14 15 16 Total
Total (cm)
2 5 3 4 4 1 19
[120 , 130[ 1 1
[130 , 140[ 0
[140 , 150[ 1 4 1 6
[150 , 160[ 1 2 1 4
[160 , 170[ 1 1 1 3 6
[170 , 180] 1 1 2
Pour que la colonne soit dans le même sens, il faudrait l’écrire de bas en haut comme l’axe des ordonnées.
120 130 140 150 160 Taille 170
(cm)
180
Alors, la diagonale monterait; les variables varieraient dans le même sens.
Il est important de se souvenir de cette particularité pour interpréter le tableau.
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Même si la diagonale descend, la relation entre la taille et l’âge est dans le même sens.
La corrélation est donc positive.
Taille Âge 11 12 13 14 15 16
[120 , 130[
[130 , 140[
[140 , 150[
[150 , 160[
[160 , 170[
[170 , 180]
Total
Total (cm)
1
1 4
1
1 1 1
2 1 1
1
1 3
1 0 6 4 6 2
2 5 3 4 4 1 19
Ici, la diagonale monte; la relation entre la taille et l’âge est dans le sens contraire.
2 3 4 5 6 7 8 9 10
2 3 4 5 6 7 8
-9 -8 -7 -6 -5 -4 -3 -2
2 3 4 5 6 7
Dans le nuage de points, si la droite est comme ceci,
x et y varient dans le même sens.
Dans le nuage de points, si la droite est comme ceci,
x et y varient dans le sens contraire.
La corrélation est positive.
La corrélation est négative.
1
1 4 1
1 2 1 1
1
1 3
5 3
4
Dans le tableau à double entrée, si la diagonale est comme ceci,
x et y varient dans le même sens; la corrélation est positive.
Dans le tableau à double entrée, si la diagonale est comme ceci,
x et y varient dans le sens contraire;
1
1
4
1
1 2 1
1
1
1 5 3
3
4
la corrélation est négative.
Le tableau à double entrée et le nuage de points sont deux modes de représentation d’une même réalité.
Ils ne fonctionnent pas de la même façon.