MIASS 231 Mathématiques (appliquées aux sciences sociales) 3 El Hadj Touré, 2022

Texte intégral

(1)

© El Hadj Touré, 2021

Section de sociologie

MIASS 231

Mathématiques (appliquées aux sciences sociales) 3

© El Hadj Touré, 2022

DIX EXERCICES RÉCAPITULATIFS Leçon 2. Statistiques et variables

Solutionnaire

1) Vous menez une étude sur la performance en statistiques sociales chez les étudiants du département de sociologie de l’Université X. Les données suivantes sont obtenues d’un échantillon constitué de 10 répondants :

a) Quelle est la population à l’étude? Quelle est l’unité d’analyse?

La population à l’étude réfère à l’ensemble des étudiants du département de sociologie de l’Université X. L’unité d’analyse réfère à « un étudiant du département de sociologie de l’Université X ».

b) Quel est le terme technique qui désigne les étudiants ou individus constituant l’échantillon?

Les étudiants constituant l’échantillon correspondent à des cas.

c) Quelle est la variable centrale étudiée ici?

La variable centrale étudiée ici renvoie à la performance en statistiques sociales (note sur 20).

No Cas Notes obtenues sur 20

1 13

2 18

3 9

4 10

5 13

6 12

7 15

8 14

9 10

10 11

(2)

© El Hadj Touré, 2021

d) S’agit-il d’une variable qualitative ordinale ou nominale, quantitative discrète ou continue? Justifiez!

Il s’agit d’une variable quantitative continue puisque ses valeurs numériques sont simplement rapportées et peuvent prendre en fait des décimales sur la droite des nombres réels.

e) Techniquement parlant, à quoi correspondent les données du tableau?

Les données du tableau correspondent à des microdonnées ou données individuelles.

f) Techniquement parlant, à quoi correspond la note de chaque étudiant?

Pour chaque étudiant, la note correspond à un score (ou observation ou donnée individuelle), qui n’est rien d’autre qu’une valeur mesurée dans les faits.

2) Vous décidez de regrouper les données du tableau ci-dessus et vous obtenez le tableau ci-dessous :

a) Techniquement, à quoi correspondent maintenant les données de ce tableau?

Les données du tableau correspondent à des données agrégées ou données regroupées selon des classes de notes.

b) La variable ainsi transformée est-elle de nature qualitative ordinale ou nominale, quantitative discrète ou continue? Justifiez!

La variable ainsi transformée est de nature qualitative ordinale puisque les classes de notes obtenues constituent des catégories ordonnées.

NB : Une variable quantitative peut donc être transformée en variable qualitative.

Lorsque vous regroupez les valeurs métriques d’une variable quantitative en catégories, la nouvelle variable créée devient une variable qualitative ☺

Mais, peut-on transformer une variable qualitative en variable quantitative? En principe, une variable qualitative, étant donné que ses valeurs sont catégorielles, ne peut pas être transformée en variable quantitative. Mais, dans les faits, les chercheurs ont parfois tendance à accorder des poids à des catégories d'une variable qualitative surtout ordinale. Prenons l’exemple de l’idéologie politique : on peut affecter un poids de 1 à extrêmement libéral, 2 libéral, 3 neutre, 4 conservateur, 5 extrêmement conservateur. Ainsi, on a des échelles de type Likert qui transforment la variable qualitative ordinale en variable quantitative. C’est une façon de faire assez fréquente en psychologie : mesure du degré de stress, des habiletés cognitives... Mais, dans ce cours, nous n'allons pas transformer des variables qualitatives en variables quantitatives. Vous apprendrez à le faire dans un cours avancé.

Notes en classes

Fréquences

0-10.9 3

11- 13.9 4

14-20 3

(3)

© El Hadj Touré, 2021

3) En 2000, la Banque mondiale a mené une étude qui portait sur le développement international. Un échantillon constitué de 10 pays a été tiré parmi les pays du monde .

a) Quelle est la population à l’étude? Quelle est l’unité d’analyse?

La population est constituée de l’ensemble des pays du monde.

L’unité d’analyse réfère à « un pays du monde ».

b) Techniquement, à quoi correspondent les données du tableau?

Les données du tableau correspondent à des données agrégées. Puisque le critère spatial ou géographique sous-tend l’agrégation des données (pays), nous sommes précisément en présence de données (agrégées) écologiques.

NB : Une donnée écologique est toujours agrégée, mais toute donnée agrégée n’est pas forcément écologique. Lorsque votre unité d’analyse se rapporte à des données écologiques (pays, provinces, villes), et que vous projetez les résultats de l’analyse sur les habitants, vous commettez une erreur écologique, ou fausseté écologique. Par conséquent, les conclusions d’une recherche se rapportent toujours à l’unité d’analyse sur laquelle elle repose ☺

c) Pour chacune des variables, dites si elle est qualitative nominale ou ordinale, quantitative discrète ou continue?

Zone : variable qualitative nominale

Taux de fécondité : variable quantitative continue Population (en milliers) : variable quantitative discrète Liberté : variable qualitative ordinale

NB : Une variable discrète (population : il y a un dénombrement) peut sembler continue en raison des nombres élevés d’habitants. Une variable ordinale (liberté : 1.non libre 2.partiellement libre 3. Libre) peut parfois être considérée comme une variable nominale (lorsqu’on estime qu’il n’y a pas d’ordre) ☺

Pays Zone Taux de

fécondité

Population (milliers)

Liberté

Afghanistan Moyen-Orient 6,9 21923 non libre

Afrique du Sud Afrique 3,3 39900 Libre

Albanie Europe de l'Est 2,5 3113 Partiellement

libre

Algérie Afrique 3,8 30774 non libre

Allemagne Europe de

l'Ouest

1,3 82178 Libre

Andorre Europe de

l'Ouest

1,2 66 Libre

Angola Afrique 6,8 12479 non libre

Antigua et Barbuda

Amérique centrale

1,7 67 Partiellement

libre Arabie Saoudite Moyen-Orient 5,8 20899 non libre Argentine Amérique du

Sud

2,6 36577 Libre

(4)

© El Hadj Touré, 2021

4) Répondez aux questions, ci-dessous, ayant trait aux variables.

a) À quoi servent les variables dans une recherche quantitative?

Les variables servent à opérationnaliser des concepts, sous-jacents aux hypothèses, à mesurer un phénomène dans une recherche quantitative.

b) Qu’est-ce qui rend scientifiquement utile la variable?

La mesure rend scientifiquement utile la variable puisqu’elle renvoie à l’opération par laquelle nous trouvons les valeurs d’une variable.

c) Pourquoi les statistiques opèrent-elles habituellement sur des variables?

Les statistiques opèrent habituellement sur des variables, car elles aident justement à savoir comment et pourquoi des caractéristiques varient en fonction des individus.

On veut savoir comment et pourquoi les variables varient ☺

d) En statistiques sociales, quel est l’intérêt pour un chercheur à être en mesure de différencier les variables?

La différenciation des variables est d’autant plus importante qu’elle détermine le choix des techniques statistiques dans l’étude des phénomènes.

5) Comparez, en termes de différence et de similitude, les paires de concepts ci-dessous.

a) Variable nominale et variable ordinale

Contrairement aux catégories de valeurs d’une variable nominale, les catégories de valeurs d’une variable ordinale peuvent être ordonnées de telle sorte qu’il est possible de les comparer en termes d’égalité, de supériorité ou d’infériorité.

Toutefois, les variables nominale et ordinale relèvent toutes des variables qualitatives puisque leurs valeurs sont des catégories ou modalités.

b) Variable ordinale et variable d’intervalles

Contrairement aux valeurs d’une variable ordinale, les valeurs d’une variable d’intervalles sont métriques - puisqu’elles sont mesurées à l’aide d’une unité de mesure standard - de sorte qu’elles se prêtent à des opérations arithmétiques d’addition et de soustraction.

Toutefois, les variables ordinale et d’intervalles comportent des valeurs qui peuvent être ordonnées de telle sorte qu’il est possible de comparer ces valeurs en termes d’égalité, de supériorité ou d’infériorité.

c) Variable d’intervalles et variable de ratio (rapport)

Contrairement à une variable d’intervalles, une variable de ratio autorise toutes les opérations arithmétiques, dont la multiplication et la division (rapports), du fait que le zéro est absolu (absence de la caractéristique mesurée) et non relatif.

Toutefois, les variables d’intervalles/ratio relèvent toutes des variables

(5)

© El Hadj Touré, 2021

quantitatives puisque leurs valeurs sont métriques (nombres) : elles sont mesurées à l’aide d’une unité de mesure standard.

NB : En sciences sociales, il existe très peu de variables d’intervalles proprement dites, hormis la température ou le calendrier. Aussi, on a tendance à parler de variables d’intervalles/ratio pour caractériser les variables quantitatives.

6) Quels sont les liens, s’ils existent, qui unissent chacune des différentes échelles de mesure aux autres?

a) Échelle nominale et les autres échelles

Aucun lien avec les autres échelles : niveau de mesure le plus basique, faible. C’est la seule échelle dont les caractéristiques se limitent à l’identification/classification des individus, les nombres servant simplement à nommer ces individus.

b) Échelle ordinale et les autres échelles

Outre ses propres caractéristiques (en termes de mise en rang/hiérarchisation des valeurs) et propriétés mathématiques (<,=,>), l’échelle ordinale inclut les caractéristiques/ propriétés de l’échelle nominale.

c) Échelle d’intervalles et les autres échelles

Outre ses propres caractéristiques (en termes de différences entre les valeurs) et propriétés (toutes les opérations arithmétiques, sauf les rapports), l’échelle d’intervalles inclut les caractéristiques/propriétés des échelles nominale et ordinale.

d) Échelle ratio et les autres échelles

Outre ses propres caractéristiques (en termes de mise en rapport des valeurs) et propriétés (toutes les opérations arithmétiques), l’échelle ratio possède les caractéristiques/propriétés des échelles nominale, ordinale et intervallaire.

NB : Somme toute, on note l’existence de liens d’inclusion entre les différentes échelles de mesure. En passant de l’échelle nominale à l’échelle de rapport, les possibilités d’effectuer des opérations mathématiques augmentent en conséquence. Les implications en termes statistiques sont donc majeures ☺

7) Nommez les variables suivantes et dites laquelle est discrète, continue, nominale, ordinale. Justifiez!

a) Depuis combien de temps êtes-vous marié(e)?

La variable est nommée : « durée du mariage » ou « temps écoulé depuis le mariage ». Elle est de nature quantitative continue en ce sens qu’elle peut prendre un nombre presque infini de valeurs non séparées sur la droite des nombres réels.

b) Combien de membres compte-t-elle votre famille?

La variable est nommée : « nombre de membres dans la famille » ou « taille de la

(6)

© El Hadj Touré, 2021

famille ». Il s’agit d’une variable quantitative discrète puisqu’elle prend un nombre restreint de valeurs dénombrées sur la droite des nombres réels.

c) À votre avis, la religion est-elle importante? (très, assez, peu, pas du tout) La variable est nommée : « importance de la religion ». Il s’agit d’une variable qualitative ordinale puisqu’elle comporte des catégories de valeurs ordonnées.

d) À quelle religion adhérez-vous?

La variable est nommée : «religion d’adhésion». Il s’agit d’une variable qualitative nominale puisqu’elle comporte des catégories de valeurs non ordonnées.

8) Au Canada, le taux de suicide chez les hommes se répartissait, en 2003, de la façon suivante :

Ontario : 12 décès par suicide | 100 000 hommes Québec : 23 décès par suicide | 100 000 hommes Alberta : 21 décès par suicide | 100 000 hommes Interprétez les résultats ci-dessus en termes

a) nominal

En 2003, la prévalence du suicide est de 12 décès pour une population de 100 000 hommes en Ontario, 23 décès/100 000 hommes au Québec, 21 décès/ 100 000 hommes en Alberta.

b) ordinal

En 2003, la prévalence du suicide au Québec (23 décès/100 000 hommes) est supérieure à celle de l’Alberta (21 décès/100 000 hommes), qui est elle-même supérieure à celle de l’Ontario (12 décès/100 000 hommes).

c) intervallaire

En 2003, la différence entre la prévalence du suicide au Québec et celle de l’Ontario (23-12= 11 décès/100 000 hommes) est supérieure à la différence entre la prévalence du suicide au Québec et celle de l’Alberta (23-21= 2 décès/100 000 hommes).

d) proportionnel (ratio)

En 2003, la prévalence du suicide au Québec est près de deux fois supérieure à celle de l’Ontario chez 100 000 hommes (23/12 = 1,92 décès). Par contre, la prévalence du suicide au Québec n’est pas très différente de celle de l’Alberta chez 100 000 hommes (23/21 = 1,1 décès) à la même période d’observation.

NB : Puisqu’une variable de ratio - à l’instar du taux de suicide - comporte le niveau de mesure le plus élevé, ses caractéristiques/propriétés incluant celles des autres, on peut interpréter les résultats qui s’y rapportent en termes nominal, ordinal, intervallaire et proportionnel bien sûr ☺

(7)

© El Hadj Touré, 2021

9) Pour chacune des variables suivantes, dites s’il s’agit d’une variable quantitative continue ou discrète, qualitative nominale ou ordinale :

Variables Valeurs Type

Genre de films visionnés

1. Comédie 2. Action 3. Drame 4. Autres

Qualitative nominale

Nombre de films visionnés 1, 2, 3, 4, 5 Quantitative discrète Indice de masse corporelle 18, 20, 22, etc. Quantitative continue

Diplôme

1. Bacc socio 2. Bacc autres 3. Maîtrise socio 4. Maîtrise autres 5. Doctorat socio 6. Doctorat autres

Qualitative nominale

Niveau de scolarité

1. Bacc 2. Maîtrise 3. Doctorat

Qualitative ordinale

Temps passé à regarder la TV par semaine

1 h, 2h, 3h, 4h, etc. Quantitative continue Taille de la famille 1. 0 à 1 enfant

2. 2 enfants et plus Qualitative ordinale Présence d’enfants dans la

famille

1. Oui

2. Non Qualitative nominale

10) Un chercheur mène une étude sur l’ampleur de l’obésité chez les jeunes sénégalais âgés de 18 à 24 ans. Pour mesurer ce phénomène, il compte calculer l’indice de masse corporelle (IMC) en considérant le poids et la taille de 30 répondants ayant complété un questionnaire.

a) Quelle est la variable centrale de l’étude ?

La variable centrale de l’étude réfère à l’obésité, laquelle se donne à voir à travers l’indice de masse corporelle.

b) L’intervalle « 18 à 24 ans » peut-il être considéré comme une variable dans la présente étude? Justifiez.

L’intervalle « 18-24 ans » est une constante dans la présente étude dans la mesure où tous les jeunes sénégalais concernés par l’étude relèvent de cette tranche d’âge.

Ce n’est donc pas une variable ici. L’intervalle d’âge précise plutôt la population.

c) Un répondant, Mamadou, déclare peser 78 kg et mesurer 1,70 m. Quelle réflexion critique, en termes de validité interne, peut-on avancer eu égard à la crédibilité de ce genre de données ?

Puisque les données sur le poids et la taille sont déclarées par le répondant (autodéclaration), le risque est non négligeable d’observer un écart possible entre ces données et la réalité. En fait, certains répondants auront tendance à sous-estimer leur

(8)

© El Hadj Touré, 2021

poids, alors que d’autres se verront grandir. Dans leurs réponses aux questions, ils se rapprocheront donc des modèles de corpulence valorisés par la société, c’est-à-dire des modèles « socialement acceptables ». C’est ce que les sociologues nomment

« effet de désirabilité sociale ».

NB : Lorsqu’on interroge des personnes sur des faits, attitudes et comportements relevant du « socialement acceptables », il faut faire preuve de prudence dans la confiance accordée aux données et aux mesures ☺

d) Calculer l’IMC de Mamadou en utilisant la formule ci-dessous?

e) Selon la classification suivante (Santé Canada), dans quelle catégorie d’IMC se retrouve Mamadou ?

Selon la classification de Santé Canada, Mamadou se retrouve dans la catégorie des

« surpoids », son IMC étant de 26,99. Le risque est accru qu’il développe des problèmes de santé en conséquence.

f) Que suggère-t-elle la formule de l’IMC ? Quel est son intérêt finalement ? La formule de l’IMC est un rapport qui suggère de combien le poids d’un individu est- il plus ou moins important que sa taille au carré. Elle donne une mesure statistique servant à quantifier de façon précise et objective le phénomène de l’obésité.

Son intérêt principal réside en ce qu’il permet de connaître les risques pour un individu de développer des problèmes de santé pouvant conduire à la morbidité ou la mortalité.

NB : Certes, les statistiques comme l’IMC confèrent une précision et une objectivité à la mesure des phénomènes comme l’obésité. Toutefois, précision ne signifie pas forcément exactitude, puisque les calculs peuvent être faux, les instruments de mesure de la taille et du poids défectueux. De même, objectivité ne signifie pas neutralité, en ce sens que l’IMC relève d’une construction du chercheur, lequel peut en orienter l’interprétation.

g) En vous plaçant dans la perspective de votre domaine disciplinaire (sciences IMC Corpulence Problèmes de santé

Inférieur à 18,5 Sous-poids Risque accru 18,5 – 24,9 Poids normal Risque moindre

25,0 – 29,9 Surpoids Risque accru

30 – 34,9 Obésité, classe I Risque élevé 35 – 39,9 Obésité, classe II Risque très élevé Supérieur à 40 Obésité, classe

III

Risque extrêmement élevé en m²

Taille

en kg Poids

IMC

=

99 , 26 89

, 2

78 1,70²

IMC

= 78 = =

(9)

© El Hadj Touré, 2021

sociales ou humaines ou médicales, études internationales), quelle réflexion critique pouvez-vous mener sur l’IMC et son interprétation ?

Premièrement, le poids relativisé par la taille ne suffit pas pour mesurer de façon exhaustive l’obésité. La mesure du tour de la taille peut donner une information supplémentaire concernant l’importance de la graisse présente dans l’organisme.

Deuxièmement, le répondant considéré se retrouve dans la catégorie des « surpoids » alors qu’il pourrait être un athlète à la masse musculaire importante.

Troisièmement, l’indice de masse corporelle varie selon le sexe, l’âge, l’ethnie. Surtout, il ne peut être utilisé sans prendre en compte les habitudes de vie. D’ailleurs, une récente méta-analyse parue dans le Journal of the Medical American Association (JAMA) conclut que les personnes en surpoids et légèrement obèses vivent plus longtemps que celles d'un poids normal. Le paradoxe s’explique, en partie, par le fait que les personnes en surpoids ou légèrement obèses prennent davantage de traitements médicaux que les personnes dites « normales ».

Par conséquent, il n’est pas sûr que l’omnipraticien ou le diététicien ou nutritionniste se contenterait de l’IMC comme seule mesure pour évaluer les risques de morbidité et de mortalité et décider si le patient doit perdre ou gagner du poids.

Par ailleurs, quoique son calcul soit stable, l’IMC n’est pas interprété ou ne peut pas être interprété de la même manière dans tous les pays. On comprend pourquoi aux États-Unis le seuil critique a été relevé alors que chez certains peuples (asiatiques par exemple) le seuil critique doit être abaissé. Des problèmes de comparabilité internationale résultent nécessairement de l’interprétation de l’IMC.

NB : Aucune mesure statistique n’est parfaite, car elle rend compte d’une réalité sociale, médicale….infiniment complexe ☺

h) Étudiant les phénomènes de l’obésité et de la dénutrition, Adolphe Quételet a inventé l’IMC en 1835. Quelles sont les constations ou les implications de son étude en termes statistiques ? Quelle est la contribution de son étude dans l’avancement des statistiques sociales ?

Dans Sur l'homme et le développement de ses facultés, essai d'une physique sociale, Quételet présente sa conception de l’homme moyen. Il a constaté que la plupart des individus avaient un IMC moyen/normal situé entre 18,5 et 24,9 ; moins d’individus avaient des IMC situés en plus ou moins de cet intervalle : il s’agit d’une distribution normale. Quételet en déduit qu’à l’instar de l’obésité, la plupart des phénomènes sociaux/humains peuvent être approchés à l’aide de la courbe normale. Or, la loi normale est au fondement des statistiques, inférentielles notamment, et ses applications pratiques sont fort intéressantes comme nous le verrons.

Figure

Updating...

Références

Updating...

Sujets connexes :